Классы
Предметы

Статистическая обработка данных

Этот видеоурок доступен по абонементу
Подробнее об абонементе, платных и бесплатных уроках

У вас уже есть абонемент? Войти

Оплатить абонементот 75 руб. в месяц
У вас уже есть абонемент? Войти
Статистическая обработка данных

В 9 классе вы уже изучали основные моменты такой науки, как статистика. В течение данного урока будут использоваться примеры и термины, рассмотренные в 9 классе.

Методы статистических исследований

При статистических методах используются специфические методы, такие как массовое наблюдение, группировка, вычисление характеристик и построение графиков.

Практическая задача, сплошное и несплошное наблюдение

Рассмотрим статистическое наблюдение на примере практической задачи.

Задача.

Представьте, что вы – мэр города и вам необходимо построить в городе кинотеатр, стадион и большой торговый центр. Построить всё сразу нет возможности, поэтому необходимо сначала выбрать один из представленных объектов. Какой объект выбрать первым?

Решение.

Нам необходимо учесть желание как можно большего количества горожан. Мы могли бы опросить всех горожан, но для большого города это будет сложно. В таком случае опрашивают часть горожан города в надежде на то, что их мнение с той или иной степенью достоверности отражает мнение горожан. Здесь мы имеем дело с делением наблюдений по степени полноты охвата. В первом случае – это сплошное наблюдение, во втором – несплошное.

Выборка наблюдений

Наиболее распространённое несплошное наблюдение – выборочное наблюдение.

При выборочном наблюдении всё население города называется генеральной совокупностью, а опрашиваемые люди – выборкой.

Этапы статистического исследования

Этапы статистического исследования.

1. Данные измерений упорядочивают и группируют.

2. Составляют таблицы распределения данных.

3. Таблицы распределения данных позволяют построить графики распределения данных в виде многоугольника, гистограммы или круговой диаграммы.

Получения паспорта данных измерений, который состоит из небольшого количества основных числовых характеристик полученной информации.

Основные характеристики

Объём измерения – количество источников.

Размах измерения – разница между наибольшим и наименьшим значениями результатов измерения.

Мода измерения – наиболее часто встречающийся результат.

Среднее значение – частное от деления суммы всех результатов измерения на объём измерения.

Медиана – значение варианты, находящееся в середине упорядоченного ряда данных измерения. Если количество вариантов чётное, то медиана равна полусумме вариант, стоящих в середине упорядоченного ряда данных.

Среднее, мода и медиана относятся к одному и тому же типу числовых характеристик данных измерений. Иногда их называют мерами центральных тенденций.

Устный пример про поиск места работы

Рассмотрим пример. При поиске нового места работы, как правило, естественно поинтересоваться средним уровнем зарплаты, однако может так случиться, что информация о высокой средней зарплате введёт вас в заблуждение. Например, пусть медиана или мода значительно меньше, чем величина средней зарплаты (рис. 1).

График уровня зарплаты на предприятии

Рис. 1. График уровня зарплаты на предприятии

Это значит, что на предприятии есть малая часть сотрудников, которые получают очень высокую зарплату, и есть большинство сотрудников, которые получают низкую зарплату. В таком случае логичнее интересоваться про зарплату в том секторе должностей, на которую претендует соискатель (рис. 2).

Секторы должностей

Рис. 2. Секторы должностей

Для дальнейшего статистического анализа важно знать не только центральные значения результатов измерений, но и то, насколько эти значения кучно (тесно) расположены вокруг некоторых центральных или средних значений.

Пример «Пристрелка ружей»

На испытательном стенде оружейного завода пристреливают готовые ружья (уточняют и корректируют их прицел). В таблице приведены измерения горизонтальных отклонений от цели при стрельбе из трёх ружей (в сантиметрах).

Для каждого ружья есть десять выстрелов, и в каждой ячейке приведены значения отклонения от цели. Если отклонение слева от центра цели, то оно записано со знаком «-».

Необходимо вычислить средние значения результатов испытаний.

Решение.

1. Среднее для ружья А равно:

2. Среднее для ружья Б равно:

3. Среднее для ружья В равно:

Какое же из ружей более точное? Если для оценки точности пользоваться только средними значениями отклонений, то наиболее точным является ружьё Б, поскольку его среднее число отклонений является наименьшим. За ним следует ружьё В, а последнее по точности – ружьё А.

Ответ: 1,4; 0,3; 0,35.

Однако если внимательно проанализировать таблицу, то мы увидим, что практически все попадания из ружья А расположены очень близко возле его среднего значения 1,4. Скорее всего, имеет место некая систематическая ошибка, и если найти способ её исправить, то после исправления ружьё будет стрелять более точно. С ружьём Б дело обстоит хуже, его выстрелы сильно разбросаны слева и справа от нуля, в среднем ошибка небольшая, 0,3 см, но для каждого отдельного выстрела отклонение может достигать высоких значений, а знак отклонения меняется случайным образом. Вывод: такое ружьё совершенно ненадёжно. Проанализируем ружьё В. Первые 5 выстрелов ружьё стреляло довольно стабильно, и все выстрелы располагались левее цели, следующие выстрелы правее, а десятый выстрел дал заметную величину ошибки. Можно сделать вывод, что отклонения с ружьём В произошли в процессе испытания и для проведения более точного испытания необходимо вернуть первоначальные настройки ружья. После этого результаты, скорее всего, будут более точными.

Введём количественный параметр, который характеризует разброс данных.

Меры разброса данных

Меры разброса данных – характеристики выборки или генеральной совокупности, предназначенные для описания степени разброса данных:

1. Дисперсия.

2. Среднее квадратическое отклонение.

Дисперсия D– числовая характеристика данных измерения, отвечающая за разброс, рассеивание данных вокруг их среднего значения.

Среднее квадратическое отклонение σ – число, равное квадратному корню из дисперсии.

Чем меньшую величину имеет дисперсия или среднее квадратическое отклонение, тем более тесно (более кучно) расположены результаты измерений вокруг среднего отклонения.

Алгоритм вычисления дисперсии

Алгоритм вычисления дисперсии:

Для нахождения дисперсии D данных  измерения следует вычислить:

1. Среднее значение

2. Отклонения данных от , т. е.

3. Квадраты  отклонений  , найденных на предыдущем шаге;

4. Среднее значение всех квадратов отклонений – дисперсия:

 – cреднее квадратическое отклонение.

Домашнее задание

Подсчитайте сумму отклонений , вычисляемых на втором шаге, и сделайте вывод относительно результата.

Практический пример

Подсчитайте дисперсию для результатов измерений ружей А и Б из предыдущего примера.

Решение.

Проведём подсчёты для испытания ружья А. Удобно собрать все значения в таблицу.

- строка «результат» содержит результат измерения;

- строка «отклонение» содержит подсчёт отклонения от среднего отклонения, подсчитанного в начале примера. Оно равнялось 1,4;

- строка «квадрат отклонения» – необходима для подсчёта дисперсии.

Таким же образом подсчитаем значение ружья Б. В этом случае среднее значение отклонения равно 0,3.

После подсчёта дисперсии мы меняем своё мнение о качестве ружей. 

Конечная задача статистического исследования состоит в том, чтобы, основываясь на свойствах выборки, сделать выводы о всей генеральной совокупности. Такие выводы формулируются на основе методов теории вероятности. В любом случае значение любого признака для выборки в общем случае будет отличаться от такового для всей генеральной совокупности.

Возвращаясь к примеру, описанному в начале урока, можно утверждать, что результаты опроса любой части горожан меньше ста процентов будут, скорее всего, отличаться от результатов опроса всех горожен. Мы употребляем словосочетание «скорее всего», так как из теории вероятности мы знаем, что любое событие, которое не является достоверным, не обязательно является невозможным.

Погрешность выборки

Погрешность выборки (реперзентативности)– разность между приведёнными показателями выборки и генеральной совокупности.

Полностью избавиться от погрешности нельзя. Но можно с помощью методов исследования сделать погрешности достаточно малыми. Пределы погрешности определяются методами теории вероятностей.

 

Список литературы

  1. Колмогоров А.Н., Абрамов А.М., Дудницын Ю.П. и др. Алгебра и начала математического анализа. – М.: Просвещение.
  2. Муравин Г.К., Муравина О.В. Алгебра и начала математического анализа. – М.: Дрофа. 

 

Дополнительные рекомендованные ссылки на ресурсы сети Интернет

  1. U4isna5.ru (Источник).