Меню

Числовые характеристики рядов данных

Числовые характеристики рядов данных
Теория вероятностей — раздел математики, который изучает количественные оценки случайных событий для прогнозирования процессов и явлений в будущем. Основой таких прогнозов являются числовые данные, накопленные в результате наблюдений в реальной жизни. Сбором, изучением и обработкой этих данных занимается наука, основанная на законах теории вероятностей — статистика.Средние характеристики числового ряда: мода и медианаПример 1.Пусть ученик получил в течение года следующие отметки по алгебре: 5, 2, 4, 5, 5, 4, 4, 5, 5, 5. Какую четвертную отметку поставит ему учитель?Многих школьников волнует подобная проблема, и чаще всего ученики решают ее следующим естественным образом: складывают все отметки и делят сумму оценок на их количество. В нашем случае:Число 4,4, которое получается в результате, называется средним арифметическим. Поскольку такую оценку в журнал ставить не принято, учитель, скорее всего, округлит ее до 4.Средним арифметическим (или выборочным средним) ряда чисел называется частное от деления суммы этих чисел на их количество.Среднее арифметическое, конечно, является важной характеристикой ряда чисел, в нашем случае — отметок за четверть, но иногда полезно рассматривать и другие средние. Например, претендуя на «5», ученик наверняка будет использовать такой аргумент: «Чаще всего в четверти я получал пятерки!». Статистик в этом случае сказал бы иначе: «Модой этого ряда является число 5».Модой называют число ряда, которое встречается в этом ряду наиболее часто. Можно сказать, что оно в этом ряду самое «модное».В отличие от среднего арифметического, которое можно вычислить для любого числового ряда, моды может вообще не быть. Например, пусть тот же ученик получил по русскому языку следующие отметки: 4, 2, 3, 5. Каждая отметка встречается в этом ряду только один раз, и среди них нет числа, встречающегося чаще других. Значит, у этого ряда нет моды. А вот среднее арифметическое, конечно, есть: (4 + 2 + 3 + 5) : 4 = 3,5.Такой показатель, как мода, можно использовать не только в числовых рядах. Вы уже знакомы с социологическими опросами. Если, например, опросить большую группу учеников, какой школьный предмет им нравится больше всего, то модой этого ряда ответов окажется тот предмет, который будут называть чаще остальных.Это одна из причин, по которой мода широко используется при изучении спроса. Например, при решении вопросов, в пачки какого веса фасовать масло, какие открывать авиарейсы и т.п., предварительно изучается спрос и выявляется мода — наиболее часто встречающийся заказ. И даже выборы президента, с точки зрения статистики, не более, чем определение моды.Еще одной важной статистической характеристикой ряда данных является его медиана.Пример 2.В конце года 11 учеников 8 класса сдавали норматив по бегу на 100 метров. Были зафиксированы следующие результаты:

Ученик

Результат(с)

Данила

15,3

Петя

16,9

Лена

21,8

Катя

18,4

Стас

16,1

Аня

25,1

Оля

19,9

Боря

15,5

Паша

14,7

Наташа

20,2

Миша

15,4

После того как все ребята пробежали дистанцию, к преподавателю подошел Петя и спросил, какой у него результат.«Самый средний результат: 16,9 секунды», — ответил учитель.«Почему? — удивился Петя. — Ведь среднее арифметическое всех результатов — примерно 18,3 секунды, а я пробежал на секунду с лишним лучше. И вообще, результат Кати (18,4) гораздо ближе к среднему, чем мой».«Твой результат средний, потому что пять человек пробежали лучше, чем ты, и пять — хуже. То есть ты как раз посередине», — сказал учитель.
На языке статистики результат Пети называется медианой исходного ряда данных. Для того чтобы найти медиану ряда чисел, нужно сначала их упорядочить — составить ранжированный ряд. В нашем примере он выглядит так:14,7; 15,3; 15,4; 15,5; 16,1; 16,9; 18,4; 19,9; 20,2; 21,8; 25,1. Средним (шестым по счету) числом является 16,9: пять чисел меньше него, пять чисел больше. Значит, 16,9 — медиана.Медианой ряда, состоящего из нечетного количества чисел, называется число данного ряда, которое окажется посередине, если этот ряд упорядочить. Медианой ряда, состоящего из четного количества чисел, называется среднее арифметическое двух стоящих посередине чисел этого ряда, если этот ряд упорядочить.Достоинством медианы является ее большая по сравнению со средним арифметическим «устойчивость к ошибкам». Представим себе, что в наши наблюдения вкралась досадная оплошность: например, при записи одного из результатов соревнований мы пропустили десятичную запятую и вместо 20,2 написали 202. Тогда среднее арифметическое результатов возрастет с 18,1 секунды до 34,6 секунды, а медиана будет по-прежнему 16,9 секунды!В разных ситуациях имеет смысл использовать разные средние. Поясним это на примерах. Перед нами ранжированный ряд, представляющий данные о времени дорожно-транспортных происшествий на улицах Москвы в течение одних суток (в виде час:мин): 0:15, 0:55, 1:20, 3:20, 4:10, 6:10, 6:30, 7:15, 7:45, 8:40, 9:05, 9:20, 9:40, 10:15, 10:15, 11:30, 12:10, 12:15, 13:10, 13:50, 14:10, 14:20, 14:25, 15:20, 15:20, 15:45, 16:20, 16:25, 17:05, 17:30, 17:30, 17:45, 17:55, 18:05, 18:15, 18:45, 18:50, 19:45, 19:55, 20:30, 20:40, 21:30, 21:45, 22:10, 22:35.Как и для любого ряда, в данном случае мы можем найти среднее арифметическое — оно равно 13:33. Однако вряд ли имеет какой-то смысл утверждение типа «аварии на улицах Москвы происходят в среднем в 13 часов 33 минуты». В то же время, если сгруппировать данные этого ряда в интервалы, можно найти такой временной интервал, когда происходит наибольшее количество ДТП (такую характеристику называют интервальной модой). Получив такую характеристику, соответствующим службам имеет смысл серьезно проанализировать, почему именно в этот временной интервал происходит наибольшее количество происшествий, и попытаться устранить их причины.Рассмотрим другой пример. Вот данные, полученные в результате измерения интервалов времени между звонками на АТС (в с):23, 12, 14, 20, 8, 24, 12, 15, 23, 20, 7, 2, 28, 8, 9, 14, 13, 19, 23, 16.Здесь вполне оправдано вычисление среднего арифметического. Информация о том, что «звонки поступают в среднем через каждые 15,5 секунд, дает наглядное представление о загруженности телефонных линий. Для этого ряда можно найти также и моду, и медиану, однако практического смысла в данном случае они не имеют.Рассмотрим теперь более трудный, но важный для практических целей вопрос. Мы знаем, что статистические данные могут быть представлены разными способами — например, может быть дана не сама выборка, а таблица частот. Как в этом случае найти среднее арифметическое, моду и медиану?Конечно, можно пойти по такому пути: восстановить по таблице саму выборку (точнее, ранжированный ряд) и «свести задачу к предыдущей». К счастью, в этом случае есть более рациональный способ вычислений.

Отметка

Абсолютная частота

Относительная частота

Накопленная частота

2

1

0,1

0,1

4

3

0,3

0,4

5

6

0,6

1

ИТОГО

10

1

 

Вернемся к примеру, с которого начиналась эта глава: ученик получил в течение года следующие отметки по алгебре: 5, 2, 4, 5, 5, 4, 4, 5, 5, 5.Представим эти данные в виде таблицы частот.Мы уже знаем, что для вычисления среднего арифметического надо сложить все числа ряда и поделить полученную сумму на их количество — получится 4,4.Но если мы знаем, сколько раз повторяется в выборке каждое значение (т.е. знаем его абсолютную частоту), вместо многократного сложения одного и того же числа можно умножить его на абсолютную частоту. Отсюда получается формула для вычисления среднего арифметического, использующая абсолютные частоты значений ряда:Поделим теперь каждое слагаемое в этой формуле на знаменатель — получим формулу для среднего арифметического с помощью относительных частот: 2 ∙ 0,1 + 4 ∙ 0,3 + 5 ∙ 0,6 = 4,4.Особенно ощутим выигрыш от использования приведенных формул, когда чисел в выборке много и они многократно повторяются.Что касается моды и медианы, то их вычисление по таблице частот происходит еще проще. Понятно, что для вычисления моды нужно найти максимальное значение в столбце абсолютных или относительных частот и выбрать соответствующее ему значение числового ряда. В нашем случае максимальная частота равна 6, значит, модой выборки будет 5. Если максимальных частот в таблице несколько, то выборка не имеет моды.Для вычисления медианы нужно найти первое значение накопленной частоты, превосходящее 0,5, и выбрать соответствующее ему значение числового ряда. В нашем случае накопленная частота впервые превосходит 0,5 только в последней строке таблицы, значит, медианой выборки будет 5.Вычисление числовых характеристик выборки по интервальной таблице частот нуждается в дополнительном комментарии. Ведь в такой таблице первый столбец занимают не числовые значения ряда, а целые интервалы. Каким образом умножать их на абсолютные или относительные частоты? В этом случае вместо интервалов используют их середины, т.е. полусуммы концов интервала.Пример 3.Вычислим, сколько в среднем весит портфель первоклассника.

Вес портфеля (в кг)

Абсолютная частота

Относительная частота

от 1 до 2

6

0,3

от 2 до 3

10

0,5

от 3 до 4

3

0,15

от 4 до 5

1

0,05

С использованием абсолютных частот:С использованием относительных частот: 1,5 · 0,3 + 2,5 · 0,5 + 3,5 · 0,15 + 4,5 · 0,05 = 2,45.Конечно, при вычислении числовых характеристик выборки по интервальной таблице частот получаются только их приближенные значения, ведь мы заменяем целую группу чисел, попадающих в интервал, его серединой. Но с таким приближением вполне можно смириться: во-первых, величина интервалов небольшая; во-вторых, исходные значения выборки, как правило, лежат как слева, так и справа от середины; наконец, в-третьих, все статистические характеристики все равно носят изменчивый характер — в другой выборке они получатся иными. Так, в нашем примере с портфелями точное (до грамма) значение среднего арифметического будет 2,283 кг, в чем вы можете убедиться, если посчитаете его не по интервальной таблице частот, а по самой выборке, приведенной в примере 3. Но вряд ли такая точность имеет смысл в реальных статистических исследованиях.Для вычисления моды и медианы по интервальной таблице частот в качестве моды берется целый интервал или его середина (в зависимости от постановки задачи), а для вычисления медианы используют пропорциональное делениеотрезка, на котором происходит «перевал» накопленной частоты через 0,5.Разберем это на нашем примере с портфелями. Переход накопленной частоты через 0,5 происходит на интервале от 2 до 3. При этом в левом конце интервала накопленная частота равна 0,3, а в правом — 0,8 (см. рис.). Обозначив неизвестную нам медиану через х, составим следующую пропорцию:Размах. Дисперсия. Среднеквадратичное отклонениеСредние характеристики числового ряда позволяют оценить его поведение «в среднем». Но это далеко не всегда полностью характеризует выборку. Например, на планете Меркурий средняя температура +15°. Исходя из этого статистического показателя можно подумать, что на Меркурии умеренный климат, удобный для жизни людей. Однако на самом деле это не так. Температура на Меркурии колеблется от -150° до +350°.Значит, чтобы получить представление о поведении числового ряда, помимо средних характеристик надо знать характеристики разброса, показывающие, насколько значения ряда различаются между собой, как сильно они «разбросаны» вокруг средних. Простейшей такой характеристикой является размах.Размах — это разность наибольшего и наименьшего значений ряда данных.Для температуры на Меркурии, например, размах равен 350° — (-150°) = 500°. Конечно, такого перепада температур человек выдержать не может.Размах очень просто вычисляется, но не всегда несет достоверную информацию, так как на его величину может сильно повлиять какое-то одно (возможно, ошибочное) значение статистического ряда.Вот почему в реальных статистических исследованиях чаще используют другую характеристику разброса, которая сложнее вычисляется, но зато меньше подвержена таким колебаниям. Прежде чем определять эту величину, рассмотрим на примере того, какой самый естественный способ вычисления «среднего отклонения от среднего».Пример 4.Найдем размах, дисперсию и стандартное отклонение отметок ученика из примера 1, заданных следующей частотной таблицей:

Отметка

Абсолютная частота

Относительная частота

Накопленная частота

2

1

0,1

0,1

4

3

0,3

0,4

5

6

0,6

1

ИТОГО

10

1

 

Проще всего вычислить размах — он равен разности последнего и первого значений числового ряда (ведь в таблице частот эти значения упорядочены), т.е. 5 — 2 = 3.Дисперсию, как и среднее арифметическое, можно вычислять с использованием либо абсолютных, либо относительных частот. А если вспомнить, что у нас уже есть две формулы для определения дисперсии, получаем целых четыре разных способа вычисления (среднее арифметическое мы уже вычислили в примере 1 — оно равно 4,4):Математическое ожидание случайной величиныКак мы знаем, распределение вероятностей случайной величины — это таблица, в которой указаны значения случайной величины и их вероятности. Для практики не всегда нужно изучать всю таблицу распределения. Достаточно знать некоторые ее числовые характеристики.Рассмотрим случайную величину X. Ее математическое ожидание обычно обозначают Е(Х).Пусть распределение вероятностей случайной величины X задано таблицей:

Значение величины X

x1

x2

x3

 

xn

Вероятность

Р1

Р2

Р3

 

Рn

Математическим ожиданием случайной величины X называют число Е(Х)= х1 · Р1 + х2 · Р2 + … + хn · Рn.