Классы
Предметы

Элементы математической статистики

Этот видеоурок доступен по абонементу
Подробнее об абонементе, платных и бесплатных уроках

У вас уже есть абонемент? Войти

Оплатить абонементот 75 руб. в месяц
У вас уже есть абонемент? Войти
Элементы математической статистики

В этом уроке вы узнаете, что такое элементы математической статистики. Мы рассмотрим основные понятия и термины, такие как варианта, частота варианты, кратность варианты, размах измерения, мода измерения, среднее измерения и др., а также решим типовые примеры

Если у вас возникнет сложность в понимании темы, рекомендуем посмотреть уроки «Страхование» и «Статистика»

Ознакомление со статистикой и ее необходимостью

Статистика имеет дело с огромными массивами исходной информации. Как, например, определить среднюю продолжительность жизни мужчин или женщин по стране? Нужны миллионы первоначальных замеров. Но большие размеры исходных данных не наглядны и не удобны для анализа. Их нужно предварительно обработать, представить в удобном виде, для дальнейшего анализа и дальнейшей обработки.

Ознакомление с представлением данных в табличном виде

Пусть первоначальные замеры – это время на дорогу от дома до спецшколы у пятидесяти ее учеников. Данные опросов округлили до десяти минут и получили исходную таблицу данных: 50 чисел.

20

100

20

30

40

50

30

80

90

40

30

50

20

50

30

30

50

60

60

50

30

40

60

50

100

60

90

10

20

50

90

80

20

40

50

10

50

40

30

40

60

120

30

40

60

20

60

10

50

60

И что видно из этой таблицы? Много учеников живет далеко от школы? Даже на такой вопрос ответ неясен. Действительно, необходима предварительная обработка информации, ее дизайн. Обработка начинается с группировки информации. Информация группируется в пределах 10–180 минут, так как менее 10 минут никто из учеников не заявил, более 3 часов в один конец никто не ездит. Вывод: при измерении могли получиться следующие числа в минутах.

Измерение

Общий ряд данных

Время проезда (мин)

10, 20, 30, …, 170, 180

Получили так называемый общий ряд данных – это возможные результаты измерений. Среди общего числа, в нашем примере встретились числа: 10, 20, 30, 40, 50, 60, 80, 90, 100, 120. Не встретились числа: 70, 110, 170.

Определение: варианта измерения – это один из результатов этого измерения. Фактически, числа, встретившиеся в нашем примере, и есть варианта измерений.

Если варианты перечислить по порядку и без повторений, то получим ряд данных измерения.

Измерение

Общий ряд данных

Ряд данных измерения

Время проезда (мин)

10, 20, 30, …, 170, 180

10, 20, 30, 40, 50, 60, 80, 90, 100, 120

Если варианта встретилась в измерении  раз, то число  называется кратностью этой варианты. Например: кратность варианта 60 минут равна восьми, а варианты 120 равна единице.

В таблице представлены варианты для всех десятков минут из нашего примера.

 

Варианта, дес. мин

Сумма

1

2

3

4

5

6

8

9

10

12

Кратность

3

6

8

7

10

8

2

3

2

1

50

Варианта и ее кратность – основа табличного представления информации.

В данной таблице представлены в верхнем ряду все варианты – все измерения, которые случились, и их кратности, в нижнем ряду. Для краткости измерения представлены в десятках минут.

Теперь становится ясно, что одна пятая всех учеников, а именно 10 учеников из 50, едет в школу 50 минут. Сумма кратностей – это объем измерений. Через объем кратность варианты переводится в частоту варианты: .

Кратность варианты может быть представлена через частоту варианты или в процентах: .

На основании этих формул получим следующую таблицу измерений.

 

Варианта, дес. мин

Сумма

1

2

3

4

5

6

8

9

10

12

Кратность

3

6

8

7

10

8

2

3

2

1

50

Частота

0,06

0,12

0,16

0,14

0,2

0,16

0,04

0,06

0,04

0,02

1

Частота,%

6

12

16

14

20

16

4

6

4

2

100

Верхний ряд данной таблицы содержит все варианты, далее идет ряд с кратностями каждой варианты, после этого – частота и в завершении – частота в процентах. Заметим, что сумма всех частот равна единице, а сумма частот в процентах равна сотне. Из таблицы предельно ясно, что 20% учеников добираются до школы 50 минут.

На данном этапе информация сгруппирована и составлена таблица распределения данных – теперь информация приобрела наглядность. Теперь разберемся с графическим представлением информации.

Построение графиков по основным данным

Отдельные точки графика сведены в таблицу, по оси абсцисс будут располагаться варианты, а по оси ординат – кратность.

Варианты

1

2

3

4

5

6

8

9

10

12

Кратность

3

6

8

7

10

8

2

3

2

1

Соединим отдельные точки и получим многоугольник, или полигон распределения данных ( – варианты,  – кратность) (рис. 1).

Полигон распределения вариант по кратности

Рис. 1. Полигон распределения вариант по кратности

Также информацию можно выкладывать и в других измерениях: например, частота в процентах (рис. 2).

Варианты

1

2

3

4

5

6

8

9

10

12

Частота,%

6

12

16

14

20

16

4

6

4

2

График распределения вариант по частоте, выраженной в процентах

Рис. 2. График распределения вариант по частоте, выраженной в процентах

Группировка данных

На данном этапе исходная информация была сгруппирована, были составлены таблицы распределения данных, а затем переведены в графики распределения данных. Характер информации прояснился, стал более наглядным и удобным, но подобные действия с информацией даже при небольшом объеме данных очень трудоемки. Поэтому на практике используются методы приближенной группировки данных, в частности, варианты измерения заменяются промежутком.

Приведем пример группировки информации с теми же данными:

Все 50 человек разделили на три группы:

1) Живут близко (10 – 30 минут).

2) Живут недалеко (40 – 60 минут).

3) Живут далеко (более 60 минут).

Получается, вместо десяти стало три варианты:

1) Близко (10 – 30 минут).

2) Недалеко (40 – 60 минут).

3) Далеко (80 – 120 минут).

Теперь проще получить таблицу распределенных новых, укрупненных данных.

 

Варианта

Сумма

близко

недалеко

далеко

Кратность

17

25

8

50

Частота,%

34

50

16

100

При укрупнении неизбежно теряются некоторые детали. Например: теперь неизвестно, сколько человек тратит на дорогу ровно 60 минут. Однако получено более ясное и удобное представление информации. Например, всю информацию теперь легко представить на следующей диаграмме (рис. 3).

Диаграмма распределения сгруппированных данных

Рис. 3. Диаграмма распределения сгруппированных данных

На диаграмме ясно изображено, что 50% живут недалеко, 16% – далеко и 34% – близко. Это паспорт измерений: здесь выявлены основные характеристики исходной информации.

В результате неудобная объемная информация из начальной таблицы была преобразована в более удобный, табличный и графический вид. Изначально трудозатраты были весьма велики, так как вариантой здесь выступало конкретное число. Чтобы снизить трудозатраты, исходную информацию укрупнили, после этого вариантой стало не число, а числовой промежуток. Всю информацию теперь удобно было представить в виде круговой диаграммы, которую легко анализировать.

Напомним формулу успешного управления академика Трапезникова: «Знают – могут – хотят – успевают». Знают – важное звено. Откуда знают? Из предварительного сбора и обработки информации.

Теперь приведем ответ для нашего примера: администрация школы, проанализировав эту информацию, может принять решения по следующим вопросам:

· Вводить или не вводить занятия в субботу, ведь 16% учеников живут далеко?

· Целесообразно ли организовать ночлег для учеников, которые живут далеко?

Кому и в каких объемах возместить затраты на дорогу до школы и обратно?

Числовые характеристики исходных данных

На этом простом примере видна огромная роль информации и ее предварительной обработки. Была произведена предварительная обработка информации в удобный вид, на очереди выявление числовых характеристик массива исходных данных.

1) Размах измерения – важнейшая из характеристик, разность между максимальной и минимальной вариантами. В нашем примере: 120 – 10 = 110 минут.

2) Мода измерения – варианта измерения, которая в измерении встретилась чаще других, то есть у которой наибольшая кратность. Моду легко получить из таблиц или графика распределения. В нашем примере: 50 минут, так как ее кратность (10) наибольшая.

3) Среднее (среднее арифметическое числового ряда). Средним арифметическим массива из  чисел  называют число . Отсюда ясно, что для нахождения среднего значения следует просуммировать все данные измерения и полученное число разделить на количество измерений. В нашем примере: варианта 1 встречалась 3 раза, 2 – 6 раз, 3 – 8 раз, 4 – 7 раз, 5 – 10 раз, 6 – 8 раз, 8 – 2 раза, 9 – 3 раза, 10 – 2 раза, 12 – 1 раз, значит, среднее значение вычисляется следующим образом:  (десятков минут)  (минут). Получается, в среднем, каждый ученик тратит на дорогу 48 минут.

Мы рассмотрели три числовые характеристики: размах, мода, среднее. В целом они все же дают некоторое представление о массиве исходных данных, это упрощенный паспорт исходных данных.

Итак, было выяснено:

1) Необходима предварительная обработка исходных данных – группировка, представление в виде таблиц, представление в виде графиков распределений.

Необходимо нахождение основных числовых характеристик исходного массива данных – размах измерений, мода, среднее.

Решение задач

Задача на понятие «общий ряд данных».

Выписать общий ряд данных следующего измерения: месяц рождения учеников данного класса.

Решение

Присвоим каждому месяцу порядковые номера, начиная с единицы: январь – 1, февраль – 2, март – 3, апрель – 4, май – 5, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10, ноябрь – 11, декабрь – 12.

Тогда получим ответ: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12.

Примечание: этот ряд содержит все возможные результаты измерения, но возможно нет родившихся в некоторых месяцах.

Задача на понятие «варианта измерения».

Назовите варианты измерения, если не оказалось родившихся в январе, феврале, мае, ноябре, декабре.

Решение

Присвоив каждому месяцу те же порядковые номера, получим: март – 3, апрель – 4, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10.

Ответ: 3, 4, 6, 7, 8, 9, 10.

Задача на понятие «ряд данных измерения».

Определить ряд данных измерения: март, апрель, июнь, июль, август, сентябрь, октябрь.

Решение

Присвоив каждому месяцу те же порядковые номера, получим: март – 3, апрель – 4, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10.

Ответ: 3, 4, 6, 7, 8, 9, 10.

Задача на понятия «кратность варианты», «табличное представление информации».

Составьте таблицу распределения данных, если в июне и июле родилось по пять человек, а в марте, апреле, августе, сентябре, октябре родилось по два человека.

Решение

Присвоив каждому месяцу те же порядковые номера, получим: март – 3, апрель – 4, июнь – 6, июль – 7, август – 8, сентябрь – 9, октябрь – 10.

Ответом является таблица, где вариантами выступают номера месяцев.

 

Варианта

Сумма

3

4

6

7

8

9

10

Кратность

2

2

5

5

2

2

2

20

Частота

0,1

0,1

0,25

0,25

0,1

0,1

0,1

1

Частота,%

10

10

25

25

10

10

10

100

Рассмотрим типовую задачу. Даны оценки (от 0 до 10 баллов) 40 учеников на олимпиаде.

6

7

7

8

9

2

10

6

5

6

7

3

7

9

9

2

3

2

6

6

6

7

8

8

2

6

7

9

7

5

9

8

2

6

6

3

7

7

6

6

Выполнить предварительную обработку данных – выявить варианты измерения, составить ряд данных, составить таблицу и график распределения данных. Найти числовые характеристики исходных данных.

Решение

Ряд данных: 2, 3, 5, 6, 7, 8, 9, 10.

Объем данных: 40.

Соберем все варианты и их кратности в таблицу распределения данных, где вариантами выступают баллы учеников. 

 

Варианта

Сумма

2

3

5

6

7

8

9

10

Кратность

5

3

2

11

9

4

5

1

40

Частота

0,125

0,075

0,05

0,275

0,225

0,1

0,125

0,025

1

Частота,%

12,7

7,5

5

27,5

22,5

10

12,5

2,5

100

Приведем пример получения табличных данных на примере варианты 2 балла.

Кратность равна 5, частота равна , частота в процентах равна .

Построим график распределения данных ( – варианты,  – частота) (рис. 4).

График распределения вариант по частоте для типовой задачи

Рис. 4. График распределения вариант по частоте для типовой задачи

Вычисляем числовые характеристики:

1) Размах измерения: .

2) Мода: 6, так как оценка встретилась 11 раз, что является максимумом.

3) Средняя оценка на экзамене: .

Выводы

На данном уроке мы ознакомились с основными понятиями математической статистики и научились решать простые задачи по математической статистике.

 

Список рекомендованной литературы

  1. Башмаков М.И. Алгебра 8 класс. М.: Просвещение. 2004 г.
  2. Дорофеев Г.В., Суворова С.Б., Бунимович Е.А. и др. Алгебра 8. 5 издание. М.: Просвещение. 2010 г.
  3. Никольский С.М., Потапов М.А., Решетников Н.Н., Шевкин А.В. Алгебра 8 класс. Учебник для общеобразовательных учреждений. М.: Просвещение. 2006 г.

 

Рекомендованное домашнее задание

  1. Зачем нужна математическая статистика?
  2. Что такое табличный вид данных?
  3. Зачем нужны графики и диаграммы в статистике?
  4. Выпишите общий ряд данных следующего измерения: годы проведения олимпиад XXI века (по текущий год).
  5. Какой будет размах измерения (в годах) для олимпиад XXI века (по текущий год), если олимпиады проводились каждый год?

 

Рекомендованные ссылки на ресурсы сети Интернет

  1. Интернет-портал Yaklass.ru (Источник).
  2. Интернет-портал Mathematics-tests.com (Источник).
  3. Интернет-портал Festival.1september.ru (Источник).