Медиана в статистике это

Понятие медианы чисел широко используется в математической статистике. И хотя вычисление медианы не составляет большой сложности, мы сделали калькулятор, который поможет рассчитать медианное значение ряда чисел онлайн с подробным решением. Причем количество чисел не важно, он рассчитает медиану 3, 4, 5 чисел так же быстро, как и для 1000 чисел.

Калькулятор медиана чисел

Как найти медиану чисел

Лучше рассмотреть процесс вычисления медианы на примере. Пусть у нас есть ряд чисел: 13 19 24 17 15 11. Для удобства числа будет записывать через пробел. Найдем его медиану. Для начала необходимо расположить числа в порядке возрастания. Эта процедура называется сортировкой. Получим новый ряд: 11 13 15 17 19 24. Так как количество чисел в ряду равно 6, а число 6 четное, то середина ряда будет между числами 15 и 17. Найдем среднее этих двух чисел: (15 + 17) / 2 = 16. Это и будет медианой ряда. Не стоит путать медиану, среднее гармоническое и среднее арифметическое — это принципиально разные понятия.

Рассмотрим другой пример, когда количество чисел в ряду нечетное. Есть такой ряд: 18 46 10 5 38. Найдем медиану набора этих чисел. Отсортируем ряд по возрастанию и получим ряд: 5 10 18 38 48. Так как количество чисел в этом ряду 5, то у него есть середина — это элемент с номером 2. Значит медиана этого ряда равна элементу с номером 2. Получаем ответ 18.

И еще пример — найдем медиану чисел 158 166 134 130 132. Отсортируем и получим ряд 130 132 134 158 166. Количество чисел нечетное и равно 5, значит средний элемент имеет номер 3. Третий элемент нашего отсортированного ряда — число 134. Это и есть медиана.

[Оценок: 77 Средняя: 3.6]Медиана ряда чисел Автор admin средний рейтинг 3.6/577 рейтинги пользователей

Мода – величина признака, которая чаще всего встречается в данной совокупности. Применительно к вариационному ряду модой является наиболее часто встречающееся значение ранжированного ряда. Она показывает размер признака, свойственный значительной части совокупности, и определяется по формуле:

где х 0 нижняя граница интервала;

h – величина интервала;

f m частота интервала;

f m-1 частота предшествующего интервала;

f m+1 частота следующего интервала.

Медианой называется вариант, расположенный в центре ранжированного ряда. Медиана делит ряд на две равные части таким образом, что по обе стороны от нее находится одинаковое количество единиц совокупности. При этом у одной половины единиц совокупности значение варьирующего признака меньше медианы, у другой – больше.

Описательный характер медианы проявляется в том, что она характеризует количественную границу значений варьирующего признака, которыми обладает половина единиц совокупности.

где х 0 нижняя граница интервала;

h – величина интервала;

f m частота интервала;

f – число членов ряда;

S m-1 – сумма накопленных членов ряда, предшествующих данному.

Наряду с медианой для более полной характеристики структуры изучаемой совокупности применяют и другие значения вариантов, занимающих в ранжированном ряду вполне определенное положение. К ним относятся квартили и децили. Квартили делят ряд по сумме частот на четыре равные части, а децили – на десять равных частей. Квартилей насчитывается три, а децилей – девять.

Для того чтобы иметь представление о том или ином явлении, мы часто используем средние величины. Их применяют для того, чтобы сравнивать уровень зарплат в различных отраслях экономики, температуру и уровень осадков на одной и той же территории за сопоставимые периоды времени, урожайность выращиваемых культур в разных географических регионах и т. д. Впрочем, средняя является отнюдь не единственным обобщающим показателем – в ряде случае для более точной оценки подходит такая величина как медиана. В статистике она широко применяется в качестве вспомогательной описательной характеристики распределения какого-либо признака в отдельно взятой совокупности. Давайте разберемся, чем она отличается от средней, а также чем вызвана необходимость ее использования.

Как найти медиану в статистике

Способ расчета данной величины во многом зависит от того, какой тип вариационного ряда мы имеем: дискретный или интервальный. В первом случае, медиана в статистике находится довольно просто. Все, что нужно сделать, это найти сумму частот, разделить ее на 2 и затем прибавить к результату ½. Лучше всего будет пояснить принцип расчета на следующем примере. Предположим, у нас есть сгруппированные данные по рождаемости, и требуется выяснить, чему равна медиана.

Номер группы семей по кол-ву детей

Кол-во семей

5

1

25

2

70

3

55

4

30

5

10

Итого

195

Проведя нехитрые подсчеты, получим, что искомый показатель равен: 195/2 + ½ = 98, т.е. 98-я варианта. Для того чтобы выяснить, что это означает, следует последовательно накапливать частоты, начиная с наименьшей варианты. Итак, сумма первых двух строк дает нам 30. Ясно, что здесь 98 варианты нет. Но если прибавить к результату частоту третьей варианты (70), то получится сумма, равная 100. В ней как раз и находится 98-я варианта, а значит медианой будет семья, у которой есть двое детей. Что же касается интервального ряда, то здесь обычно используют следующую формулу:

Ме = ХМе + iМе * (∑f/2 – SMe-1)/fМе, в которой:

  • ХМе – первое значение медианного интервала;
  • ∑f – численность ряда (сумма его частот);
  • iМе – величина медианного диапазона;
  • fМе – частота медианного диапазона;
  • SМе-1 – сумма кумулятивных частот в диапазонах, предшествующих медианному.

Опять же, без примера здесь разобраться довольно сложно. Предположим, есть данные по величине заработной платы.

Зарплата, тыс. руб.

Частоты

Накопленные частоты

100 – 150

20

20

150 – 200

50

70

200 – 250

100

170

250 – 300

115

285

300 – 350

180

465

350 – 400

45

510

Сумма

510

Чтобы воспользоваться вышеприведенной формулой, вначале нам нужно определить медианный интервал. В качестве такого диапазона выбирают тот, накопленная частота которого превышает половину всей суммы частот или равна ей. Итак, разделив 510 на 2, получаем, что этому критерию соответствует интервал со значением зарплаты от 250000 руб. до 300000 руб. Теперь можно подставлять все данные в формулу:

Ме = ХМе + iМе * (∑f/2 – SМе-1)/fМе = 250 + 50 * (510/2 — 170) / 115 = 286,96 тыс. руб.

Надеемся, наша статья оказалась полезной, и теперь вы имеете ясное представление о том, что такое медиана в статистике и как ее следует рассчитывать.

Средняя арифметическая, средняя геометрическая и другие средние — это своеобразная статистическая абстракция, поскольку они, отвлекаясь от истинных величин, отражают то общее, которое присуще всей совокупности изучаемых единиц в целом. Величина средних часто выражается дробными числами (22,6 правонарушителей, 105,8 исков и т. д.), которых в жизни не бывает. Наряду с абстрактными средними в статистике используются конкретные средние, величины которых занимают в ранжированном вариационном ряду, построенном в порядке возрастания или убывания значений вариант, определенное среднее положение. К таким средним относятся мода и медиана. В одних и тех же совокупностях мода и медиана иногда совпадают между собой по значению, но чаще не совпадают, хотя друг от друга отстоят, как правило, недалеко.

Модой в статистике называется значение признака (варианта), которое чаще всего встречается в данной совокупности. Обозначим ее символом «Мо» и определим в вариационном ряду юридически значимых показателей (табл. 25).

Модой в данном примере будет варианта три дня, так как за этот срок было рассмотрено дел больше (85), чем за другие сроки.

В реальной жизни могут быть распределения, где все варианты встречаются примерно одинаково часто. В таких случаях мода не определяется, так как она практически отсутствует. В других распределениях мода может быть не одна. Изменим наш пример. Предположим, что за пять дней было рассмотрено

Таблица 25

Распределение уголовных дел по срокам рассмотрения

Сроки рассмотрения в судебном заседании, дни

Число уголовных дел

1

25

2

70

ЗМо

85

Ше

80

5

60

6

40

7

40

Всего 400

столько же дел (85), как и за три дня. В этом случае две моды, а само распределение будет называться бимодальным. Оно, как правило, свидетельствует о качественной неоднородности совокупности по изучаемому признаку.

Мода применяется в тех изучениях, когда нужно охарактеризовать наиболее часто встречающуюся величину признака.

Определение моды для интервального ряда несколько сложнее. Рассмотрим это на примере табл. 26.

Чтобы найти моду, надо определить модальный интервал данных рядов. Из таблицы видно, что наибольшая частота по числу раненых (23 917) соответствует интервалу от 21 до 25 лет, а по числу погибших (4112) — интервалу от 31 до 35 лет (в этих обоих случаях мода набрана полужирным шрифтом). Названные интервалы и будут модальными.

Для расчета более точных значений модальных признаков, заключенных в этих интервалах, используют следующую формулу:

где Мо — мода; Рш частота моды; минимальная граница модального интервала (в нашем примере это 21 — по раненым и 31 — по погибшим); / — значение модального интервала (в нашем примере 5 лет); /Мо — частота модального интервала

Таблица 26

Распределение числа пострадавших в ДТП по возрасту в 1995 г.*

Возраст жертв «от—до», лет

Число

раненых

Кумулятивные частоты

Число

погибших

Кумулятивные частоты

1-5

4626

4626

520

520

6—10

9904

14 530

980

1500

11-15

10 274

24 804

762

2262

16-20

22 334

47 138

2686

4948

21-25

23 917

71 055

3692

8640

26-30

18 899

89 954

3675

13 157

31-35

19 187

109 141

4112

16 427

36-40

19 186

128 327

4110

20 537

41-45

13 000

141 327

2500

23 037

46-50

11 000

152 327

2300

25 337

51-55

9000

161 327

2000

27 337

56-60

7000

168 327

1800

29 137

61-65

4994

173 321

1172

30 309

Более 65

10 605

183 926

2482

32 791

1/= 183 926

If= 32 791

  • * При разукрупнении некоторых интервалов данные рассчитывались.
  • (23 917 — по раненым и 4112 — по погибшим); / — частота интервала, предшествующего модальному (в нашем примере 22 334 — по раненым и 3675 — по погибшим); / — частота интервала, следующего за модальным (18 899 — по раненым и 4110 — по погибшим).

Подставляя числовые значения, получаем:

Таким образом, мода для раненых равна 22 года и 2 месяца.

Мода для погибших оказалась равной 35 лет 11 месяцев. Ее значение расположено на крайней отметке максимальной границы модального интервала. Это не случайно. Следующий за модальным интервал (36—40 лет) имел варианту (4110), т. е. всего на две единицы меньше моды (4112).

Формула, используемая для нахождения модальной величины в модальном интервале, пригодна лишь для вариационных рядов с равными интервалами. В нашем примере мы путем некоторых среднеарифметических расчетов сделали их пятилетними. В реальной статистической отчетности ГАИ (ГИБДД) МВД России возрастные интервалы являются неравными. Для наглядности приведем фактическую таблицу распределения числа жертв ДТП по возрасту за тот же 1995 г., которая опубликована в официальном сборнике[1] (табл. 27).

Вариационный ряд в данном случае является не только неравноинтервальным, но и статистически порочным, так как различия в интервалах так велики, что серьезно искажают реальную статистическую картину. От 11 до 30 лет интервал пятилетний (11—15; 16—20; 21—25; 26—30), от 7 до 10 лет — четырехлетний, от 1 до 7 — семилетний, от 31 до 40 лет — 10-летний и от 41 до 65 лет — 25-летний. Согласно этой таблице (если пренебречь различием интервалов) модальным должен быть определен интервал от 41 до 65 лет, но он в пять и более раз протяженнее остальных интервалов и его модальность — результат непрофессионально разработанной статистической отчетности.

Медианой в статистике называется варианта, которая находится в середине ранжированного ряда. Медиана делит упорядоченный ряд пополам. По обе стороны от нее находится одинаковое число единиц совокупности. Медиана обычно обозначается символом «Ме». Упрощенным и условным примером нахождения медианы может служить вариационный ряд осужденных по возрасту (табл. 28).

Таблица 27

Распределение числа пострадавших в ДТП по возрасту в 1995 г.

Возраст жертв «от—до», лет

Число

раненых

Кумулятивные частоты

Число

погибших

Кумулятивные частоты

1-7

5398

5398

728

728

7-10

9132

14 530

772

1500

11-15

10 274

24 804

762

2262

16-20

22 334

47 138

2686

4948

21-25

23 917

71 055

3692

8640

26-30

18 899

89 954

3675

12 315

31-40

38 373

128 327

8222

20 537

41-65

44 994

173 321

9772

30 309

Более 65

10 605

183 926

2482

32 791

Е/= 183 926

Е/= 32 791

Распределение осужденных по возрасту (14—26 лет)

Таблица 28

Возраст

14

15

16

17

18

19

20

21

22

23

24

25

26

Число

осужденных

10

25

40

60

80

102

150

Me

160

175

Мо

170

158

140

132

Медианой в этом дискретном ряду будет варианта «20 лет» с частотой 150 осужденных. По обе стороны от нее находится равное число единиц совокупности. Модой в этом ряду является варианта «22 года» с наибольшей частотой — 175 осужденных. Если мы обратимся к табл. 25, то там медиана — это срок рассмотрения дела в четыре дня с числом рассмотренных дел 80, а мода — срок в три дня и частотой 85 дел.

Если всем единицам любого ранжированного ряда придать порядковые номера, то номер медианы в ряду с нечетным числом членов п определяется как . В наших примерах: в первом случае (см. табл. 28), когда в ряду 13 членов,

а во втором случае (см. табл. 25) В последнем

примере число членов в ряду четное. Медианой будет средняя из двух центральных вариант, порядковые номера которых п : 2 и п : 2 + 1. Например, если в ряду 20 единиц, то в центре стоят единицы с порядковым номером 10 и 11. Средняя из двух величин определяется по формуле средней арифметической. В подобных случаях в качестве медианы можно определить и одну варианту, если единиц в совокупности много и различия между ними незначительные.

В интервальном ранжированном ряду медиана, как и при нахождении моды, определяется вначале в виде медианного интервала, а затем в нем находится медиана по соответствующей формуле. Медианный интервал определяется по кумулятивным (накопленным) частотам, которые являются последовательной суммой предыдущих частот, начиная с интервала с меньшим значением признака. Кумулятивная частота для раненых (см. табл. 26) складывалась таким образом: для интервала от одного до пяти лет она равна числу раненых этого возраста (4626), а для следующего интервала от шести до 10 лет является суммой раненых (частот) в возрасте от 1 до 5 лет (4626) и от 6 до 10 лет (9904), т. е. 14 530. И так до конца ряда.

Общая сумма накопленных частот равна обшей сумме частот, в нашем примере — общему числу раненых (183 926). Медиана в таком ряду определяется путем деления общей суммы (всех накопленных) частот на 2. В нашем примере: 183 926 : 2 = = 91 963. Следовательно, медианным интервалом в анализируемом ряду раненых будет интервал от 31 до 35 лет, который включает в себя эту частоту. До этого интервала сумма накопленных частот составила 89 954. Чтобы получить конкретное значение медианы, надо к 89 954 прибавить еще 2009 (91 963 — — 89 954 = 2009).

При определении значения медианы предполагают, что значение признака в интервале распределяется равномерно, т. е. число раненых (19 187), находящихся в интервале от 31 до 35 лет, распределяется равномерно между этими пятью годами.

Если это предположение верно, то разнице между накопленными частотами 91 963 и 89 954, равной 2009, будет соответствовать следующая возрастная величина:

Прибавив полученную величину к минимальной границе медианного интервала (от 31 до 35 лет), мы получим искомое значение медианы: 31 год + 0,524 года = (округленно) 31,5 года, или 31 год и 6 месяцев. Эти логические рассуждения укладываются в соответствующую формулу для расчета медианы в вариационном интервальном ряду:

где Me — медиана (в нашем примере для ряда раненых); минимальная граница медианного интервала (31 год); / — значение медианного интервала (5 лет); If — сумма частот ряда или численность ряда (183 926), отсюда If: 2 — номер медианы (183 926 : 2 = 91 963); SXo сумма накопленных частот, предшествующих медианному интервалу (89 954); /Ме — частота медианного интервала (19 187).

Подставляя в эту формулу значения из нашего примера, получаем:

Итак, медиана для ряда раненых равна 31 году и 6 месяцам, т. е. тому же значению, которое мы получили перед рассмотрением формулы на основе логико-математических операций. Теперь по этой же формуле рассчитаем медиану для погибших от ДТП:

Следовательно, медианный интервал для погибших от ДТП тот же самый, что и для раненых (от 31 до 35 лет), но значение медианы внутри интервала для раненых составило 31 год и 6 месяцев, а для погибших — 35 лет.

Рассмотренная формула расчета медианы (в отличие от формулы расчета моды) применима для любого интервального ряда, как с равными, так и с неравными интервалами. Проверим это на данных погибших от ДТП, приведенных в табл. 27, где значения интервалов различаются в пять и более раз.

Медиана, рассчитанная для вариационного ряда с существенно различающимися интервалами, несколько отличается от медианы, исчисленной для того же ряда, но с равными интервалами (35,0 и 35,7), и это объяснимо.

В практике мода и медиана иногда используются вместо средней арифметической или вместе с ней. При использовании вместе они дополняют друг друга, особенно когда в совокупности небольшое число единиц с очень большим или очень малым значениями исследуемого признака. В дополнение к средней арифметической желательно также исчислять моду и особенно медиану, которая в отличие от средней не зависит от крайних и характерных для совокупности значений признака. Медиану можно использовать в качестве приближенной средней арифметической тогда, когда совокупность ранжирована и упорядочена. В этом случае медиана определяется по срединному значению варианты. В связи с этим значения других вариант можно и не измерять.

Кроме медианного деления вариационного ряда на две равные части, в статистике употребляются и более дробные деления: квартили, которые делят вариационный ряд по сумме частот на четыре равные части, децили — на 10 равных частей и центили — на 100 равных частей. Они могут использоваться для более выразительных и компактных описаний исследуемого явления; в юридической статистике практически не применяются.

  • [1] См.: Преступность и правонарушения (1991—1995): Статистический сборник. С. 162.

В  image

где:

  • image

    где:

    • image

      Это значит что модальный возраст студентов равен 27 годам.

      Вычислим медиану. Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части (ОЈfi/2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:

      image

      Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.

      Кроме моды и медианы могут быть использованы такие показатели, как квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили — на 100 частей.

      См.также

Оцените статью
Рейтинг автора
5
Материал подготовил
Илья Коршунов
Наш эксперт
Написано статей
134
А как считаете Вы?
Напишите в комментариях, что вы думаете – согласны
ли со статьей или есть что добавить?
Добавить комментарий