Как рассчитать медиану кластеризованных данных

Содержание

направления
чаевые

Медиана - это середина набора упорядоченных данных. Например, набор (2,4,7,9,10) имеет медиану 7. Упорядоченные данные объединены в категории с точной детализацией каждой точки потери данных. Следовательно, точная медиана не может быть известна только из кластерных данных. Однако, если вы знаете количество данных в каждом интервале, вы можете сказать, что является «средним диапазоном», то есть, что содержит точку, которая является медианой. Мы можем дополнительно уточнить оценку средней точки по формуле, исходя из предположения, что точки данных средней точки распределены равномерно.

направления

Научиться вычислять медиану группы данных - простая задача (Hemera Technologies / AbleStock.com / Getty Images)

Сгруппируйте значения по интервалам, если их еще нет. Определите, какой интервал должен содержать среднюю точку.

В дидактических целях рассмотрим набор данных (1,2,4,5,6,7,7,7,9). Медиана здесь равна 6. Например, вы можете сгруппировать набор в ширину, равную 4. Их частотное распределение может тогда быть, например: 1-4: 3 5-8: 5 9-12: 1 В данных без объединения медиана явно находится в категории 5-8. Вы даже можете сказать это, не видя исходного набора данных.
Рассчитайте разницу в количестве точек данных выше среднего и половину от общего количества точек данных.

Согласно тому, что было упомянуто, это равно 9/2 - 3 = 1,5. Этот расчет оценивает, насколько далеко от среднего диапазона должна быть найдена медиана.
Разделите на количество точек в среднем диапазоне.

Продолжая пример, 1,5 / 5 = 0,3. Это дает соотношение того, как далеко находится средний диапазон от медианы.
Умножьте полученное выше значение на ширину среднего диапазона.

Продолжая с примером, 0,3 х 4 = 1,2. Это преобразует соотношение в диапазоне в фактический прирост данных.
Добавьте приведенный выше результат к значению между средним и нижним диапазоном.

Поскольку сечение между средним и нижним диапазоном составляет 4,5, мы получаем уравнение 4,5 + 1,2 = 5,7, в котором его результат может быть округлен до 6, что является правильным ответом.

чаевые

Фактически, приведенный выше расчет такой же, как в формуле «L + (n / 2 - c) / fxw», где L - число между средним и следующим нижним интервалом, n - общее количество точек данных, c - общее количество точек ниже среднего диапазона, f - количество точек данных в среднем диапазоне, а w - ширина.