Курсовая работа по автоматизации. Прикладные вопросы теории вероятностей и математической статистики в моделировании социальноэкономических процессов
Скачать 4.78 Mb.
|
1 Прикладные вопросы теории вероятностей и математической статистики в моделировании социально-экономических процессов Цель работы - ознакомиться с вероятностно-статистическими методами моделирования процессов и систем. Основные понятия Исходные данные для моделирования и его результаты часто представляют собой массивы случайных чисел. Это относится как к составляющим вектора внешних сил (снеговая нагрузка, ветровая нагрузка и др.), так и к выходным данным, например, к результатам многократных повторений машинного эксперимента (прогонов модели). Такие массивы должны быть упорядочены с целью получения данных, удобных для моделирования или разработки практических рекомендаций по результатам моделирования. Обработку массивов случайных чисел производят по правилам математической статистики. Практическое значение вероятностных методов состоит в том, что они позволяют по известным характеристикам простых случайных явлений прогнозировать характеристики более сложных явлений. В данной работе будут рассмотрены примеры решения типовых задач статистической обработки выборки, вопросы графического представления выборки, вычисления ее числовых характеристик и проверки близости эмпирической и теоретической функций распределения. Порядок выполнения работы По результатам наблюдений над случайной величиной требуется: Задание 1. Вариационные ряды. Эмпирическая функция распределения 1. Найти дискретный вариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график. 2. Найти интервальный вариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график Задание 2. Графическое представление выборочных данных Для дискретного и интервального вариационных рядов построить гистограмму, полигон в Excel. Задание 3. Расчет числовых характеристик выборки Найти числовые характеристики выборки с помощью встроенных функций Excel. Задание 4. Подобрать подходящее теоретическое распределение и проверить гипотезу о согласии эмпирического распределения с теоретическим распределением с помощью критериев Пирсона 2 Варианты заданий Вариант 1. Х - средняя прочность бетона (в МПа). Приведены результаты измерения средней прочности бетона у 100 железобетонных изделий. 22,0 21,5 23,5 23,0 21,0 21,5 21,0 22,5 21,0 20,0 19,0 20,5 19,0 20,5 21,5 21,0 21,0 21,5 21,0 21,5 21,0 21,5 20,0 22,0 20,0 19,5 22,0 22,5 21,5 21,0 21,0 21,0 22,5 21,5 21,0 20,0 20,5 21,0 21,0 22,0 20,0 20,5 22,5 23,5 20,0 22,5 23,5 19,5 21,0 23,0 20,0 21,5 22,5 22,0 19,5 20,5 21,0 21,5 21,5 21,0 18,5 20,5 19,5 22,5 22,0 20,5 22,0 23,0 21,5 21,0 21,5 20,5 18,5 23,5 19,0 21,0 21,0 21,5 20,5 23,5 22,5 22,0 21,0 22,5 19,0 22,5 24,5 24,5 21,0 21,5 21,0 21,5 21,5 24,0 20,0 25,5 20,0 18,0 22,5 20,5 Вариант 2. С целью определения оптимального количества цемента для укрепления грунта испытано 100 образцов цементо-грунта. Х - количество цемента в % к массе грунта. Приведены результаты испытаний. 3,0 4,0 4,1 3,9 3,8 4,3 4,3 3,7 3,1 3,6 4,2 3,8 3,9 3,2 3,6 3,8 3,9 2,9 3,7 3,4 4,0 4,7 3,6 3,2 3,2 3,7 3,8 3,6 3,3 3,1 4,2 4,6 4,3 4,1 3,9 3,7 3,3 3,4 3,7 3,7 4,3 3,6 4,1 4,2 4,1 3,8 4,1 3,5 3,8 3,5 4,0 3,7 3,9 3,6 3,6 3,7 3,4 3,5 3,7 3,5 3,0 4,0 3,7 3,9 3,7 3,4 3,6 3,8 4,8 3,4 3,3 3,8 3,3 3,9 4,0 3,8 3,7 4,1 3,4 4,0 3,2 3,7 4,4 3,7 4,1 4,2 3,8 3,9 4,1 3,9 3,6 3,8 3,7 3,6 3,5 3,9 4,6 3,5 4,4 4,0 Вариант 3. Прочность бетона при его твердении со временем возрастает. Для анализа кинетики твердения бетона произвели испытания 100 стандартных образцов. Х - время твердения (в сутках). Приведены результаты испытаний. 17 17 13 16 7 8 10 9 10 12 7 10 16 15 12 14 15 9 14 11 18 13 13 10 21 11 10 11 13 11 5 14 19 15 9 15 11 22 16 14 13 14 13 20 12 3 17 20 18 14 13 17 12 12 6 8 9 13 8 20 16 15 12 14 18 11 15 5 17 18 11 13 13 11 13 13 11 14 13 15 15 16 13 7 13 19 17 19 9 11 8 14 7 9 16 14 14 15 18 17 Вариант 4. Х - количество бракованных железно-бетонных изделий в смену (в %). Приведены результаты оценок брака за 100 смен. 3,0 4,0 3,7 4,1 3,6 3,8 4,9 3,4 3,3 3,3 3,9 4,0 3,8 3,7 4,1 3,4 4,0 2,9 3,7 4,4 3,8 4,1 3,8 3,9 4,1 4,1 3,6 3,8 3,7 3,6 3,5 3,8 3,9 4,6 3,5 4,4 4,0 3,5 4,3 3,8 2,8 3,2 3,1 4,0 3,7 3,6 3,5 3,6 3,5 3,7 3,4 3,8 4,1 3,7 4,0 3,8 3,0 4,0 4,1 3,9 3,8 3,6 4,0 3,7 3,1 3,6 4,2 3,7 3,8 3,0 3,6 3,8 3,9 3,4 3,7 3,4 4,0 4,7 3,6 3,5 3,2 3,7 3,8 3,6 3,3 3,7 4,2 4,6 4,3 4,1 3,9 3,3 3,4 3,7 3,7 4,3 3,9 3,7 3 Вариант 5. Х - предел текучести стали (в кг / мм). Приведены результаты испытаний 100 различных марок стали. 51 42 68 53 49 79 35 63 55 29 42 42 17 45 38 56 29 25 41 37 52 40 68 47 46 51 38 47 60 53 67 41 26 47 90 63 34 57 45 72 40 76 75 15 35 28 71 60 56 43 52 63 75 30 61 68 64 18 65 48 66 18 87 51 48 36 32 31 46 67 60 78 41 54 66 54 21 39 74 24 39 35 50 35 72 78 65 44 53 71 65 33 52 49 30 59 80 20 26 36 Вариант 6. Х - количество бракованных труб в смену (в м). Приведены результаты оценок брака за 100 смен. 13 13 11 13 13 11 14 13 15 15 16 22 7 13 19 17 19 16 11 8 14 7 9 14 16 14 14 15 18 12 8 10 9 10 11 5 15 14 20 12 8 14 18 11 11 13 9 19 11 15 5 17 18 15 20 16 15 12 14 9 14 11 18 13 13 21 16 15 12 14 15 11 10 9 10 12 7 17 17 13 16 7 11 12 6 8 9 13 13 18 14 13 17 17 13 20 12 3 18 10 Вариант 7. Х - средняя прочность бетона (в МПа). Приведены результаты измерения средней прочности бетона у 100 железобетонных изделий. 18,5 20,5 19,5 22,0 22,5 20,5 22,0 23,0 21,5 21,0 21,0 21,5 20,5 18,5 23,5 21,0 19,0 2,5 20,5 23,5 22,5 21,0 22,0 22,5 19,0 22,5 24,5 21,0 24,5 21,5 21,0 21,5 21,5 20,0 24,0 25,0 20,0 18,0 22,5 22,0 20,5 21,5 23,0 23,0 21,0 21,0 21,5 22,5 21,0 20,0 19,0 19,0 20,5 20,5 21,5 21,0 21,0 21,0 21,5 21,5 21,0 21,5 20,0 20,0 22,0 19,5 22,0 22,5 21,5 21,0 21,0 21,0 21,5 21,0 21,5 20,0 21,0 20,5 21,0 22,0 21,5 21,5 21,0 20,0 21,5 22,5 22,0 20,5 19,5 21,0 23,0 20,0 23,5 22,5 19,5 20,0 20,5 23,5 22,5 21,0 Вариант 8. Х - отклонение диаметра трубы от нормативного вследствие коррозии (в мм). Приведены результаты исследования 100 труб одинакового диаметра. 0,62 0,69 0,80 0,63 1,02 1,10 0,72 0,96 0,80 0,88 0,63 0,84 0,58 0,80 0,60 0,76 0,87 0,96 0,72 0,82 0,95 0,82 1,03 0,95 0,67 1,06 0,90 0,91 0,75 0,96 0,73 0,97 0,70 0,69 0,69 0,61 1,04 0,78 0,98 0,93 0,90 0,83 0,79 0,71 0,61 0,70 0,81 0,56 0,80 0,88 0,89 1,10 0,83 0,58 0,85 0,57 0,95 0,76 0,78 0,97 0,55 0,55 0,94 0,90 0,86 0,81 0,79 0,74 0,89 1,01 0,63 1,02 0,98 0,65 0,95 0,93 0,86 0,72 0,89 0,80 0,94 1,03 0,63 0,92 1,05 0,89 0,89 0,65 0,77 0,84 0,58 0,82 0,73 1,09 0,78 0,58 0,92 0,82 1,08 0,85 Вариант 9. Х - количество бракованных железно-бетонных изделий в смену (в %). Приведены результаты оценок брака за 100 смен. 3,3 3,4 3,7 3,7 4,3 4,1 4,1 4,2 4,1 3,8 4,1 4,2 3,8 3,5 4,0 3,7 3,9 3,8 3,6 3,7 3,4 3,5 3,7 3,9 3,0 4,0 4,1 3,9 3,8 4,1 4,3 3,7 3,1 3,6 4,2 3,4 3,9 3,2 3,6 3,8 3,9 4,0 3,7 3,4 4,0 4,7 3,6 2,9 3,2 3,7 3,8 3,6 3,3 3,7 4,2 4,6 4,3 4,1 3,9 4,4 3,0 4,0 3,7 3,9 3,7 3,8 3,6 3,8 4,8 3,4 3,3 3,9 3,4 3,9 4,1 3,7 4,0 4,0 3,7 3,6 3,5 3,6 3,5 3,8 4,3 3,8 2,8 3,2 3,1 3,7 3,9 4,7 3,5 4,4 4,1 3,6 3,9 3,6 3,7 3,4 4 Вариант 10. Прочность бетона при его твердении со временем возрастает. Для анализа кинетики твердения бетона произвели испытания 100 стандартных образцов. Х - время твердения (в сутках). Приведены результаты испытаний. 21 11 10 11 13 5 14 19 15 9 11 22 16 14 12 13 20 12 3 18 18 14 13 17 17 6 8 9 13 17 17 13 16 7 10 9 10 12 7 16 16 12 14 15 14 11 18 13 13 20 16 15 12 14 11 15 5 17 18 18 11 11 13 9 15 14 20 12 8 8 16 14 14 15 18 11 8 14 7 9 7 13 19 17 19 14 13 15 16 13 13 11 13 13 10 9 10 11 16 12 Контрольные вопросы 1. Случайные величины, законы их распределения. 2. Основные виды теоретических распределений дискретной случайной величины. 3. Основные виды теоретических распределений непрерывной случайной величины. 4. Точечные оценки. 5. Доверительные интервалы. Надежность. Точность. 6. Статистическая проверка статистических гипотез. 7. Подбор подходящего теоретического распределения. Критерии согласия. 5 6 7 8 9 Пример выполнения Постановка задачи 1. На телефонной станции проводились наблюдения над числом неправильных соединений в минуту. Наблюдения в течение 30 минут дали следующие результаты (табл. 1). 3 0 1 5 1 2 4 5 3 4 2 4 2 0 2 3 1 3 2 1 4 3 0 2 1 0 4 2 3 2 Требуется найти дискретный вариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график. Решение. Очевидно, что число X является дискретной случайной величиной, а полученные данные есть значения этой случайной величины. В результате выполнения операций ранжирования и группировки были получены шесть значений случайной величины (варианты): 0; 1; 2; 3; 4; 5. При этом значение 0 в этой группе встречается 4 раза, значение 1 – 5 раз, значение 2 – 8 раз, значение 3 – 6 раз, значение 4 – 5 раз, значение 5 – 2 раза. n=4+5+8+6+5+2=30 Вычисленные значения частот и частностей приведены в табл. 2. Таблица 2. Индекс i 1 2 3 4 5 6 Варианта x i 0 1 2 3 4 5 Частота n i 4 5 8 6 5 2 Частность ω i 4/30 5/30 8/30 6/30 5/30 2/30 Используя данный дискретный вариационный ряд (см. табл. 2), вычислим значения F n *(x) по формуле, приведенной выше, и занесем их в табл. 3. Таблица 3 По данным таблицы 3 построим график эмпирической функции распределения (рисуем в ручную и фото вставляем в файл excel). 10 Решение задачи в Excel. Переименуйте Лист 1 в 1_Дискретный. Наберите массив 30 значений исходных данных выборки. 3. Найдите величины х max , х min , n, используя встроенные функции Excel МАКС, МИН и СЧЕТ. 4. Сформируйте столбец вариант x i от 0 до 5 и с помощью функции ЧАСТОТА найдите частоту появления значений случайной величины Х в данном интервале. Синтаксис функции: ЧАСТОТА(массивданных;массивинтервалов). 11 Массив данных ‒ массив или ссылка на множество данных, для которых вычисляются частоты. В нашем случае это диапазон B2:K2.Если массив данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей. Массив интервалов ‒ массив или ссылка на множество интервалов, в которые группируются значения аргумента массив данных. В нашем случае это диапазон F7:F12. Если массив интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе Массив данных. 12 Функция ЧАСТОТА вводится как формула массива после выделения интервала смежных ячеек, в которые нужно вернуть полученный массив частот. Количество элементов в возвращаемом массиве на единицу больше числа элементов в массиве интервалов. Дополнительный элемент в возвращаемом массиве содержит количество значений, больших, чем максимальное значение в интервалах, т.е. больше 5 в нашем случае. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива и работа с ней завершается трехклавишной комбинацией CTRL+SHIFT+ENTER. Функция ЧАСТОТА игнорирует пустые ячейки и тексты. 5. Сформируйте столбец частностей, вычислив значения ω i , i = 1, ..., 6по формуле 𝜔 𝑖 = 𝑛 𝑖 𝑛 6. Сформируйте столбец значений выборочной функции распределения F n *(x). При этом первое значение в ячейке I7 просто копируется из ячейки Н7. Следующее значение вычисляется как накопленная сумма предыдущего значения ω 1 из ячейки I7 и текущего значения ω 2 из ячейки Н8: =I7+H8. 13 Затем данная формула копируется автозаполнением в остальные ячейки диапазона, с выходом на значение, равное 1. Лист Excel работы имеет вид, представленный на рисунке: Постановка задачи 2. Исследуется рост учащихся (в сантиметрах) в студенческой группе из 25 человек. Получена выборка (см. табл. 4) из следующих 25 значений. Таблица 4. Требуется: найти интервальный вариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график. Решение. Найдем максимальное и минимальное значения в исследуемой выборке 𝑥 𝑚𝑎𝑥 = 192, 𝑥 𝑚𝑖𝑛 = 163. Вычислим размах варьирования R исследуемого признака по формуле 𝑅 = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 = 192 − 163 = 29. Для нахождения числа интервалов группировки N воспользуемся формулой 𝑁 ≈ √𝑛 = √25 = 5. Далее следует группировка выборки. При этом интервал варьирования признака [x min , x max ] разбивается на N интервалов группировки одинаковой длины Δ, а затем подсчитывается число попаданий признака в i-й интервал группировки – n i , i=1, …, N. Δ = 𝑅 𝑁 = 𝑥 𝑚𝑎𝑥 −𝑥 𝑚𝑖𝑛 𝑁 = 29 5 ≈ 5,8 = 6. При этом каждый интервал группировки Δ i =(a i ;b i ) характеризуется своим правым и левым концом, числом n i – попаданием признака в этот интервал. Иногда интервал характеризуют не границами, а его средним значением. Дальнейшие вычисления удобно представить в табл. 5. Таблица 5. 14 Чтобы значение исследуемого признака не попадало на границы интервала группировки, примем минимальное значение признака не 163, а 162,5 и от этого значения начнем строить интервалы длиной Δ = 6 (см. второй столбец табл. 5). Откладывая по оси абсцисс средние значения интервалов группировки, а по оси ординат – значения накопленных частот, строим график эмпирической функции распределения. Решение задачи в Excel. 1. Переименуйте Лист 2 в 1_Непрерывный. Наберите массив 25 значений исходных данных выборки. 2. Найдите величины х max , х min , n, N, Δ округл используя встроенные функции ExcelМАКС, МИН, СЧЕТ, КОРЕНЬ и ОКРУГЛ. 3. Сформируйте столбец интервалов варьирования от значения 162,5 с шагом Δ = 6. Первое значение набираем с клавиатуры, а второе вычисляем с помощью формулы =E9+$C$13. Остальные значения получим копированием с помощью Автозаполнения. 4. Сформируйте столбец Частота и с помощью функции ЧАСТОТА найдите частоту появления значений исследуемой случайной величины Х в каждом из интервалов. 5. Заполните столбец относительных частот, рассчитав значение в ячейке G9 по формуле =F9/$C$10. 15 Остальные значения получим копированием формулы с помощью Автозаполнения. 6. Вычислите середины интервалов группировки, рассчитав значение в ячейке Н9 по формуле =(E9+E10)/2. Остальные значения в диапазоне Н10:Н13 получим копированием формулы с помощью Автозаполнения. 7. Заполните столбец накопленных частот. При этом, значение в ячейке I9 получим, копируя значение ячейки G10по формуле =G10. Значение в ячейке I10 получим по формуле =I9+G11. Остальные значения в диапазоне I11:I13 получим, копируя формулу с помощью Автозаполнения. 8. По данным двух последних столбцов построим график эмпирической функции распределения. Лист Excel работы имеет вид, представленный на рисунке. 16 Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (x 1 , ω 1 ), (x 2 , ω 2 ), …, (x N , ω N ). Для построения полигона частот на оси абсцисс откладывают варианты x i , а на оси ординат ω i . Точки (x i , ω i ) соединяют отрезками прямых и получают полигон относительных частот. 17 Замечание. В случае интервального вариационного ряда под x i понимается середина i-го частичного интервала. Постановка задачи 1. На телефонной станции проводились наблюдения над числом неправильных соединений в минуту. Наблюдения в течение 30 минут дали следующие результаты (табл. 1). 3 0 1 5 1 2 4 5 3 4 2 4 2 0 2 3 1 3 2 1 4 3 0 2 1 0 4 2 3 2 Требуется построить гистограмму, полигон в Excel. Решение задачи в Excel. Переименуйте Лист 3 в 2_Дискретный. Наберите массив 30 значений исходных данных выборки. Найдите величины х max , х min , n, Δ,используя встроенные функции Excel МАКС, МИН и СЧЕТ. 3. Сформируйте столбец вариант от 0 до 5 и с помощью функции ЧАСТОТА найдите частоту появления значений случайной величины Х в данном интервале. 4. Вычислите столбцы значений n i / ∆ (плотность частоты) и ω i / ∆ (плотность относительной частоты). 5. Построим гистограммы частот и относительных частот. 18 6. Вычислите столбец значений ω i ‒относительных частот выборки и по данным столбцов 1, 2 и 5 постройте графики полигона частот и полигона относительных частот. 19 Постановка задачи 2. Исследуется рост учащихся (в сантиметрах) в студенческой группе из 25 человек. Получена выборка (см. табл. 4) из следующих 25 значений. Таблица 4. Требуется: построить гистограмму, полигон в Excel Решение. 1. Переименуйте Лист 4 в 2_Непрерывный. Наберите массив 25 значений исходных данных выборки. 2. Оформите лист как показано на рисунке 3. Сформируйте столбец частот ni и скопируйте в него не нулевые данные столбца частот, полученные с помощью встроенной функции ЧАСТОТА. Используйте контекстное меню команды Вставка: Параметры вставки → Значения 4. Вычислите плотности частот в ячейке J9 по формуле =I9/$C$13. Остальные значения получим копированием с помощью Автозаполнения. 5. Вычислите плотности относительных частот в ячейке К9 по формуле =I9/($C$12*$C$10). 20 Остальные значения получим копированием с помощью Автозаполнения. Полученная таблица имеет вид: 6. По данным двух последних столбцов построим графики гистограммы частот и гистограммы относительных частот. 21 7. Постройте графики полигона частот и полигона относительных частот. Задание 3. Расчет числовых характеристик выборки Краткая теория Первый шаг к осмыслению скрытых в выборке закономерностей − это ее графическое представление, то есть построение гистограммы, полигона частот и эмпирической функции распределения. Однако выборки, имеющие похожие графические изображения, могут различаться своими числовыми характеристиками. Числовые характеристики вариационных рядов вычисляют по данным, полученным в результате наблюдений (статистическим данным), поэтому их называют также статистическими характеристиками или оценками. Выборочные характеристики являются оценками соответствующих характеристик генеральной совокупности. Эти оценки должны удовлетворять определенным требованиям. В соответствии с важнейшими требованиями, оценки должны быть: 22 - несмещенными, то есть стремиться к истинному значению характеристики генеральной совокупности при неограниченном увеличении количества испытаний; - состоятельными, то есть с ростом размера выборки оценка должна стремиться к значению соответствующего параметра генеральной совокупности с вероятностью, приближающейся к 1; - эффективными, то есть для выборок равного объема используемая оценка должна иметь минимальную дисперсию. Выборка может характеризоваться следующими числовыми характеристиками. 1. Характеристики положения. Самой известной и наиболее употребляемой характеристикой любого вариационного ряда является его средняя арифметическая, называемая также выборочным средним. Средняя арифметическая характеризует значения признака, вокруг которого концентрируются наблюдения, т.е. центральную тенденцию распределения. При статистическом анализе выборки, кроме средней арифметической, широко применяют структурные, или порядковые, средние, к которым относятся медиана и мода. Выборочное среднее рассчитывается по формуле Если же анализируемые данные представлены в виде вариационного ряда, то для вычисления выборочного среднего применяется одно из следующих соотношений: - для дискретного вариационного ряда - для интервального вариационного ряда где i ω i – частность (относительная частота), соответствующ ая i-й варианте ил и i-му частичному интервалу; 𝑥 𝑖 ∗ – середина i-го частичного интервала группировки. В Excel среднее значение находится с помощью функцией СРЗНАЧ . Синтаксис функции: 23 СРЗНАЧ(число1; число2; ...). Число1, число2, .. − это от 1 до 30 аргументов, для которых вычисляется среднее. Аргументы должны быть либо числами, либо именами, массивами или ссылками, содержащими числа. Достоинство медианы как меры центральной тенденции заключается в том, что на нее не влияет изменение крайних членов вариационного ряда, если любой из них, меньший медианы, остается меньше ее, а любой, больший медианы, продолжает быть большее ее. Медиана предпочтительнее средней арифметической для ряда, у которого крайние варианты по сравнению с остальными оказались чрезмерно большими или малыми. Особенность моды как меры центральной тенденции заключается в том, что она также не изменяется при изменении крайних членов ряда, т.е. обладает определенной устойчивостью к вариации признака. Выборочная медиана разбивает выборку пополам: слева и справа от нее оказывается одинаковое число элементов выборки. Если число элементов выборки четно, n = 2k , то выборочную медиану определяют по формуле Me = (x k + x k+1 )/2, где x k и x k+1 ‒k-е и (k +1) -е выборочные значения из вариационного ряда. При нечетном n = 2k + 1объеме выборки медиану находят по формуле Me = x k+1 , т.е. за значение медианы принимают величинуx k+1 Так, например, если в диапазоне записаны значения 1, 2, 3, 4, 5, то функция МЕДИАНА вернет значение, равное 3, а если диапазон 1, 2, 3, 4, то найденное значение 2,5. Синтаксис функции: МЕДИАНА (диапазон). 24 Мода Мо используется для нахождения наиболее часто встречающегося в выборке значения. Синтаксис функции: МОДА.ОДН (диапазон). При поиске игнорируются пустые ячейки, текстовые и логические значения. Если использовать функцию для нахождения Мо выборки 1, 2, 3, 4, 4, то функция даст 4. Если значения в выборке не повторяются, то функция выдаст сообщение об ошибке #Н/Д. 2. Характеристики рассеяния. Для получения полного представления о вариационном ряде (определив центральную тенденцию распределения с помощью характеристик 25 положения) далее оценивают рассеяние (вариацию, изменчивость) исследуемого признака вокруг этих величин. Простейшим и, весьма приближенным показателем вариации (изменчивости), является вариационный размах. Размах вариации наиболее полезен, если нужен быстрый и общий взгляд на изменчивость при сравнении большого количества выборок. Размах выборки вычисляется по формуле R = x max ‒ x min Но наибольший интерес представляют меры вариации (рассеяния) наблюдений вокруг средних величин, в частности, вокруг средней арифметической. К таким оценкам относятся выборочная дисперсия и среднее квадратичное отклонение. Дисперсия выборки ‒ это параметр, характеризующий степень разброса элементов выборки относительно среднего значения x. Чем больше дисперсия, тем дальше отклоняются значения элементов выборки от среднего значения. Выборочная дисперсия находится по формуле Для вычисления выборочной дисперсии с помощью Excel используется функция ДИСП.В. Синтаксис функции: ДИСП.В(число1; число2; …; число255). где число1; число2; …; число255– числа или адреса ячеек, содержащих числовые данные. Ячейки, содержащие текстовые, логические данные или пустые, при вычислении выборочной дисперсии игнорируются. 26 Для вычисления дисперсии генеральной совокупности в Excel используется функция ДИСП.Г. Синтаксис функции: ДИСП.Г(число1; число2; …; число255). Если данные представлены в виде вариационного ряда, то целесообразно для вычисления D вместо приведенной выше формулы использовать соотношения: - для дискретного вариационного ряда - для интервального вариационного ряда Выборочная дисперсия обладает одним существенным недостатком: если среднее арифметическое выражается в тех же единицах, что и значения случайной величины, то, согласно определению, дисперсия выражается уже в квадратных единицах. Этого недостатка можно избежать, если использовать в качестве меры вариации признака среднее квадратичное отклонение 𝑆 = √𝐷 . При малых объемах выборки дисперсия является смещенной оценкой, поэтому при объемах n > 30 используют исправленную дисперсию и исправленное среднее квадратичное отклонение. 27 Среднее квадратичное отклонение S, полученное при выборке n<30, носит название смещенного и его среднее значение занижено по сравнению со средним квадратичным отклонением для генеральной совокупности. Для вычислений среднего квадратичного отклонения выборки применяется функция СТАНДОТКЛОН.В. Синтаксис функции: СТАНДОТКЛОН.В(число1; число2; ...). Число1, число2,... −от 1 до 255 числовых аргументов, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделенных точкой с запятой, можно также использовать массив или ссылку на массив. 28 Функция СТАНДОТКЛОН.В оценивает среднее квадратичное отклонение (стандартное отклонение) по выборке. Стандартное отклонение − это мера того, насколько широко разбросаны точки данных относительно их среднего. СТАНДОТКЛОН.В предполагает, что аргументы являются только выборкой из генеральной совокупности. Если данные представляют всю генеральную совокупность, то стандартное отклонение следует вычислять с помощью функции СТАНДОТКЛОН.Г. 3. Характеристики формы. К характеристикам формы относят коэффициент асимметрии и эксцесс. Выборочный эксцесс характеризует островершинность эмпирического распределения относительно стандартного нормального. Эксцесс стандартного нормального распределения равен трем. Если эксцесс положителен (e k > 0), то полигон вариационного ряда имеет более крутую вершину. Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений, близких к средней величине. Если эксцесс отрицателен (e k < 0), то полигон имеет более пологую вершину по сравнению с нормальной кривой. Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от минимального до максимального значения. Чем больше абсолютная величина эксцесса, тем существеннее распределение отличается от нормального, смотри рисунок. 29 Для вычислений выборочного эксцесса выборки применяется функция Excel ЭКСЦЕСС. Синтаксис функции: ЭКСЦЕСС (число1; число2; ...). Коэффициент асимметрии характеризует симметрию распределения выборочных данных около центра выборки 𝑥̅, для стандартного нормального распределения коэффициент асимметрии равен 0 (а s =0). Если распределение асимметрично, одна из ветвей построенного полигона частот имеет более пологий спуск, чем другая. Если правая ветвь графика более пологая то это означает преимущественное появление в распределении более высоких значений 30 признака, при этом коэффициент асимметрии а s >0.В противном случае а s <0, при этом в распределении чаще встречаются более низкие значения (смотри рисунок). Чем больше значение коэффициента асимметрии, тем более асимметрично распределение (до 0,25 асимметрия незначительная; от 0,25 до 0,5 умеренная; свыше 0,5 – существенная). Для вычисления коэффициента асимметрии выборки применяется функция СКОС. Синтаксис функции: СКОС(число1; число2; ...). Пример выполнения Постановка задачи. Приведены размеры месячных зарплат (в тыс. руб.) 27 швей-мотористок, работающих по сдельно-премиальной системе оплаты труда (табл. 1). 31 Требуется: найти числовые характеристики выборки с помощью встроенных функций Excel. Решение задачи в Excel. Переименуйте Лист 5 в Задание 3 и наберите таблицу исходных данных. Постройте гистограмму выборки с помощью Надстройки Пакет анализа, не указывая интервалы группировки выборки. 4. Отформатируйте таблицу и график гистограммы. 32 5. Найдите числовые характеристики выборки с помощью встроенных функций Excel, рассмотренных выше. Задание 4. Проверить гипотезу о согласии эмпирического распределения с теоретическим распределением с помощью критерия Пирсона Краткая теория При наличии числовых характеристик случайной величины (математического ожидания, дисперсии, коэффициента вариации) законы ее распределения могут быть определены в первом приближении по таблице 1. Таблица 1 Законы распределения случайной величины в зависимости от коэффициента вариации Пределы изменения коэффициента вариации V x Закон распределения случайной величины Х Нормальный Гамма-распределение Вейбулла Экспоненциальный, Пуассона Чтобы подобрать подходящее теоретическое распределение, необходимо построить кривую плотности распределения, после этого выбрать похожую из известных типов распределений. Если есть основания отдать предпочтение тому или иному распределению, то кривую строить нет необходимости. Затем выдвигают гипотезу о соответствии экспериментального и теоретического распределений, проверяют её на 0,3 x V 0,3 0,4 x V 0,4 1 x V 1 x V 33 заданном уровне значимости, используя критерии согласия. Существуют несколько критериев. Критерий Пирсона (хи-квадрат) применим только к сгруппированным данным. Рекомендуется, чтобы объем выборки был больше 100 и численность интервалов (групп), была не менее 5. Исходные данные разбивают на m интервалов и вычисляют для каждого: экспериментальные частоты , n i – количество данных попавших в i – й интервал, n – объём выборки; теоретические частоты p i = F(x i+1 ) – F(x i ), найденные по таблицам и формулам для выбранного типа теоретического распределения; экспериментальную величину По таблицам квантилей распределения χ 2 при заданном уровне значимости (обычно 5%) и известном числе степеней свободы f находят теоретическое значение χ 2 . f равно количеству интервалов минус число независимых условий, наложенных на экспериментальные частоты p i * Примерами таких условий могут быть: равенство единице суммы всех частот, совпадение статистического среднего с гипотетическим, совпадение дисперсий и т.п. Следовательно: f=m–r–1, где m – число интервалов, r – число параметров, определяемых из опытных данных. Пример. Если предполагаемое распределение – нормальное, то оценивают два параметра – математическое ожидание и среднее квадратическое отклонение, тогда f=m–r–1=m–2–1=m–3. Если (χ 2 ) * <χ 2 , то функция распределения при заданном уровне значимости (β=5%) согласуется с экспериментальными данными. Пример. Пользуясь критерием Пирсона, подобрать теоретический закон распределения для часовой выработки автомобилей КамАЗ-5511, статистическое распределение которой приведено в таблице 2. Таблица 2 Вариационный ряд часовой выработки автомобиля Интервал 4-5,5 5,5-7 7-8,5 8,5-10 10-11,5 11,5-13 13-14,5 14,5-16 Отн.частота 0,07 0,14 0,17 0,17 0,15 0,14 0,11 0,05 В MS Excel: i i p n n * 2 2 2 * 1 1 ( ) ( ) ( ) m m i i i i i i i i p p n np n p np 34 По форме гистограммы рис.1 можно предположить, что часовая выработка автомобиля подчиняется нормальному закону. Рис. 1. Гистограмма часовой выработки автомобиля Для оценки числовых характеристик нормального распределения вычислим: математическое ожидание в ячейке L4 =СУММПРОИЗВ(B4:I4;B5:I5) +10,75·0,15+12,25·0,14+13,75·0,11+15,25·0,05=9,7; дисперсию в ячейке L8 =СУММПРОИЗВ(B7:I7;B5:I5) 𝐷 𝑥 = ∑ (𝑚 𝑥 − 𝑥 𝑖 ̅ ) 2 𝑝 𝑖 ∗ 𝑘 𝑖=1 = =(9,7−4,75) 2 ·0,07+(9,7−6,25) 2 ·0,14+…+(9,7−15,25) 2 ·0,05=8,48 среднее квадратическое отклонение в ячейке L9 * 1 4,75 0,07 6,25 0,14 7,75 0,17 9,25 0,17 10,75 0,15 12,25 0,14 13,75 0,11 15,25 0,05 9,7 ò; k x i i i m x p 35 коэффициент вариации Величина V x =0,3 свидетельствует о том, что теоретическое распределение близко к нормальному закону распределения. Проверим данную гипотезу, воспользовавшись критерием согласия Пирсона. Определим теоретическую вероятность попадания значений часовой выработки автомобиля в заданные интервалы, используя формулу: , где x i , x i+1 – границы i-го интервала, Ф(u) – функция Лапласа. Составим расчетную таблицу. Ячейка Формула Р2 -0,5 Р3 =НОРМ.РАСП(N3;$L$4;$L$9;1)-0,5 Копируем вниз до ячейки Р9 Q2 =P3 Копируем до ячейки Q8 Q9 0,5 R2 =P2-Q2 Копируем вниз до ячейки R9 S2 =P2*100 Копируем вниз до ячейки S9 T2-T9 Частоты=относительные частоты в ячейках В8-I8, умноженные на 100 U2 =(T2-S2)^2/S2 Копируем вниз до ячейки U9 Вычислим значение меры расхождения по формуле 8,48 2,91; x x D 2,91 0,3. 9,7 x x x V m 1 1 ( ) ( ) i x i x i i i x x x m x m p F x F x Ф Ф 36 4,01 (в ячейке U10 =СУММ(U2:U9)). Определим число степеней свободы f=m–r–1=8–2–1=5. χ 2 теоретическое найдем, используя функцию ХИ2.ОБР категории «Статистические». Выделим ячейку U11 и в строке формул введем =ХИ2.ОБР(0,95;5). В этой ячейке получим теоретическое значение критерия, χ 2 =11,1. Так как (χ 2 ) * <χ 2 , то функция распределения при заданном уровне значимости (β=5%) согласуется с экспериментальными данными и гипотезу о том, что часовая выработка автомобиля распределена по нормальному закону, можно считать правдоподобной. 2 8 2 * 1 ( ) ( ) 4,02 i i i i n np np |