Лекции по теме Статистическое оценивание и проверка гипотез
Скачать 0.85 Mb.
|
Министерство образования и науки Российской Федерации О.Г. Трофимова СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ Электронное текстовое издание Конспект лекции по модулю «Технологии управления экспериментом и методы статистического анализа результатов экспериментальных исследований» для студентов, обучающихся по программе магистратуры по направлению подготовки 27.04.04 – Управление в технических системах Подготовлено кафедрой автоматики Сформулированы цели лекции по теме «Статистическое оценивание и проверка гипотез» по дисциплине «Технологии управления и методы анализа результатов экспериментальных исследований». Рассмотрены проблемы интервального оценивания и проверки статистических гипотез результатов экспериментальных исследований. Представлены контрольные вопросы Екатеринбург 2016 158 Цель лекции по теме «Статистическое оценивание и проверка гипотез» – ознакомиться с основными проблемами интервального оценивания и проверки статистических гипотез результатов экспериментальных исследований. Отве- тить на контрольные вопросы. 6. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ Различные статистические показатели вычисляются на основе некоторых ограниченных по объему совокупностей экспериментальных данных. Сбор и анализ этих данных направлен на проверку определенных предположений о возможных механизмов изучаемых процессов или явлений, выдвигаемых ис- следователем при постановке задачи. Несмотря на то, что число объектов или процессов в исследовании может быть сравнительно невелико, получаемые в результате анализа статистики должны достаточно хорошо описывать все ре- ально существующее или мыслимое множество объектов или процессов, пред- ставляющее интерес в данном исследовании. Для этого делаются некоторые предположения о том, как вычисленные на основе экспериментальных данных показатели соотносятся с параметрами тех распределений, которые могли бы быть получены, если бы в нашем распоряжении оказалось все множество инте- ресующих нас объектов. Это и составляет основную задачу статистического оценивания [1]. Решение этой задачи представляет собой главную часть любого анализа экспериментальных данных и тесно связано с использованием ряда теоретических распределений некоторых специальных переменных. 6.1. Теоретические распределения, используемые в статистических выводах Основное распределение в теории статистического оценивания – это нор- мальное распределение. Плотность нормального распределения представлена формулой: ( ) 2 2 2 1 ( ) 2πσ x f x е (6.1) 159 Широкое использование в статистических выводах нормального распреде- ления имеет под собой как определенное эмпирическое, так и теоретическое обоснование. Во-первых, многочисленные примеры построения гистограмм и аппроксимация их непрерывными кривыми для экспериментальных данных самой различной природы показывают, что во многих случаях нормальное рас- пределение действительно является довольно точным представлением таких данных. Во-вторых, доказано, что благодаря усреднению некоторого числа от- дельных значений, которые сами по себеимеют произвольное распределение, получаемое распределение в среднем оказывается близким к нормальному. И наконец, нормальное распределение имеет ряд определенных математиче- ских достоинств, позволяющих существенно облегчить доказательства некото- рых основополагающих моментов теории статистического вывода. Следует четко представлять, что нормальное распределение – это чисто математический инструмент. И совсем необязательно, чтобы реальные экспе- риментальные данные точно описывались этим распределением, хотя во мно- гих случаях, допуская небольшую ошибку, это распределение может быть при- нято в качестве модели для реальных данных. Наряду с одномерным важную роль в статистике, особенно в теории кор- реляции, играет двумерное нормальное распределение: 1 2 2 2 1 ( , ) 2 y x x y y x x y f x y e , (6.2) которое представляет собой колоколообразную поверхность в трехмерном про- странстве (рис. 6.1) и обладает рядом характерных особенностей. Во-первых, если взять только значения переменной x без учета значений переменной у, которым они соответствуют (предельное или частное), то рас- пределение этих x является нормальным. То же справедливо и для значений у. Во-вторых, если зафиксировать какое-то значение переменной x, то все соот- ветствующие ему значения переменной у (условное распределение) имеют так- же нормальное распределение (аналогично для у).И наконец, средние значения 160 у для каждого отдельного значения х (условные средние) образуют прямую ли- нию. Рис. 6.1. Двумерное нормальное распределение Дальнейшим обобщением нормального распределения является п-мерное нормальное распределение, широко используемое в многомерном статистиче- ском анализе. 6.1.1. Распределение хи-квадрат Другим играющим важную роль в статистических выводах распределени- ем является распределение 2 (хи-квадрат), введенное в статистическую прак- тику К. Пирсоном [2]. Возьмем выборочную совокупность нормально распределенной величины z с нулевым средним и единичным стандартным отклонением. Возведем эле- менты этого множества в квадрат. Получим выборку новой случайной величи- ны z 2 = 2 1 . По выборке можно построить гистограмму и аппроксимировать (сгладить) ее непрерывной кривой. Путем умножения на константу выберем масштаб по оси ординат так, чтобы площадь под графиком равнялась единице. Получим кривую выборочного распределения хи-квадрат с одной степенью 161 свободы. Одна степень свободы указывает, что для получения 2 1 использова- лись квадраты одной случайной величины. Выберем случайно из исходной совокупности по два значения, возведем их в квадрат и сложим. Получим величину 2 2 2 2 1 2 z z (хи-квадрат с двумя сте- пенями свободы). Аналогично можно получить кривые выборочного распреде- ления хи-квадрат для сумм произвольного числа квадратов стандартизованных величин, взятых из совокупности с нормальным распределением. Аналитиче- ское выражение для кривой плотности распределения 2 n : 2 2 1 2 2 1 2 ( ) Г 2 n n n z f z z e n , где z – значение случайной величины 2 n ; n – число степеней свободы; Г(n/2) – гамма-функция. Функции плотности распределения 2 ( ) n f z табулирова- ны. На рис. 6.2 приведены плотности распределения случайных величин 2 n для различных степеней свободы n. 0,000 0,020 0,040 0,060 0,080 0,100 0,120 0,140 0,160 0 ,1 0 1 ,6 0 3 ,1 0 4 ,6 0 6 ,1 0 7 ,6 0 9 ,1 0 1 0 ,6 0 1 2 ,1 0 1 3 ,6 0 1 5 ,1 0 1 6 ,6 0 1 8 ,1 0 1 9 ,6 0 z f xи^2_n(z ) Хи^2_6 Хи^2_10 Рис. 6.2. Плотности распределения семейства 2 n 2 6 2 10 162 Как видно из рис. 6.2, свойства кривой 2 n существенно зависят от п.Се- мейство распределений хи-квадрат характеризуется следующими свойствами: 1. Среднее значение распределения хи-квадрат с п степенями свободы равно п. 2. Мода 2 n находится в точке п – 2 для п ≥ 2. 3. Дисперсия 2 n равна 2п. 4. Асимметрия 2 n равна 8 n 5. Для больших п величин 2 n стремится к нормальному распределению со средним п и стандартным отклонением 2n 6. Сумма двух независимых 2 -распределений 2 2 1 2 n n является величиной то- го же семейства с п 1 + n 2 степенями свободы. В [1] приведена таблица со значениями 2 для различных степеней свобо- ды п, соответствующими определенным долям площади под кривой распреде- ления. Например, что означает число 11,07 для = 0,05 и п = 5? Это число по- казывает, что сумма квадратов пяти значений z, случайно выбранных из стан- дартизованного нормального распределения, в среднем в пяти случаях из ста будет превышать 11,07. В остальных 95 случаях она будет меньше. Другими словами, вероятность получить значение 2 5 между 0 и 11,07 равна 0,95. Анало- гичные табличные значения можно получить с помощью функции Microsoft Ex- cel ХИ2РАСП(x; n), которая показывает вероятность Р( 2 n >x). В частности, ХИ2РАСП(11,07; 5) = 0,05. 6.1.2. F- распределение Распределение Фишера (F-распределение) [2] получается следующим об- разом: 1 2 2 1 1 2 2 2 / / n n n n n F n , (6.3) где 2 1 n и 2 2 n – случайные независимые величины, имеющие распределение хи-квадрат; п 1 , п 2 – степени свободы. 163 Можно построить множество F-отношений для разных пар (п 1 , п 2 ). Графи- ки кривых F-распределения для разных чисел степеней свободы приведены на рис. 6.3. 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,05 0,35 0,65 0,95 1,25 1,55 1,85 2,15 2,45 2,75 3,05 3,35 3,65 3,95 z F n 1n 2 F(4,4) F(4,25) F(10,4) Рис. 6.3. F-распределение с (п 1 , п 2 ) степенями свободы F-распределение характеризуется унимодальностью, положительной асимметрией, имеет медиану меньше 1 и среднее, равное n 1 /(n 2 – 2) для n 2 > 2. В [1] приведена таблица F-распределения, в которой каждой паре степеней сво- боды соответствуют два числа для уровня значимости =0,05 и =0,01. Эти числа представляют собой граничные значения, слева от которых лежит соот- ветственно 95 и 99 % от общей площади под кривой F-распределения. Анало- гичные табличные значения можно получить с помощью функций Microsoft Ex- cel FРасп(x; n 1 ; n 2 ), которая вычисляет Р(x n1n2 ). Например, FРасп(3,327; 5; 10) = 0,05, FРасп(5,576; 5; 10) = 0,01. F 4,25 F 10,4 F 4,4 164 6.1.3. Распределение Стьюдента Если в нашем распоряжении есть стандартизованное распределение z и распределение 2 n то, как показал Стьюдент (псевдоним крупного английского статистика В. Госсета), величина 2 / n z t n (6.4) имеет t-распределение [2]. Они образуют однопараметрическое семейство t-распределений (рис. 6.4). 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 z f t n (z ) t1 t3 t25 Рис. 6.4. Семейство t-распределений Распределения симметричны, унимодальны, имеют нулевое среднее и дис- персию, равную п/(п – 2). По мере роста п распределение начинает быстро при- ближаться к нормальному. В [1] приведена таблица t-распределения для раз- личных значений п. Например, числа 2,365 и 3,499 для числа степеней свободы п = 7 означают, что только в пяти и соответственно одном случае из ста (для уровня значимости =0,05 и =0,01 соответственно) реализация t п -распределения по абсолютной величине превысит эти числа. Или, другими словами, что в диапазонах [-2,365; +2,365] и [-3,499; +3,499] заключено соот- ветственно 95 и 99 % площади под кривой t-распределения. t 25 t 3 t 1 165 Аналогичные табличные значения можно получить с помощью функций Microsoft Excel СтьюдРасп(x; n; хвосты). Если «хвосты» = 2, то функция воз- вращает Р(X < -x или X > x) = P( X > x), т.е. вычисляются два «хвоста» рас- пределения. Если «хвосты» = 1, то функция возвращает Р(X > x), т. е. вычисляется только один «хвост» распределения. Например, СтьюдРасп(2,365; 7; 2) = 0,05, СтьюдРасп(3,499; 7; 2) = 0,01. Распределение Стьюдента играет в теоретической и прикладной статисти- ке почти такую же важную роль, как и нормальное распределение. 6.1.4. Биномиальное распределение Одним из известных распределений дискретной случайной величины явля- ется биномиальное распределение. Оно является двухпараметрическим и зада- ется двумя параметрами: п – число испытаний, р – вероятность успеха в одном испытании. Обозначим биномиально распределенную СВ Х п,р – количество успешных испытаний из общего количества испытаний. Тогда , ( ) m m n m n p n P X C p q , где 0 < p < 1, q = 1 – p, m =0, 1, …, n. Плотность распределения величины является симметричной столбчатой диаграммой. M(Х п,р ) = np. D(Х п,р ) = npq. 6.1.5. Распределение Пуассона Распределение Пуассона [2] так же, как и биномиальное описывает дис- кретные случайные величины. Рассмотрим дискретную случайную величину Х, которая может принимать только целые, неотрицательные значения: 0, 1, 2, ..., m..., причем значения этой величины могут быть сколь угодно большими. 166 Случайная величина X распределена по закону Пуассона, если вероятность того, что она примет определенное значение m, выражается формулой ! m a m a P e m , (6.5) где а – некоторая положительная величина – параметр закона Пуассона. Закон распределения величины Х имеет вид, приведенный ниже. х 0 1 2 … m … P(Х = х) e -a a e a ! 1 a e a ! 2 2 … a m e m a ! … Зададим параметру а некоторые численные значения и определим вероят- ности Р m = P(Х = m) для различных значений m по формуле (6.5). В результате этих действий получим данные рядов распределения. На их основе построим многоугольники распределения случайной величины X, распределенной по за- кону Пуассона (рис. 6.5). Из рис. 6.5 видно, что в зависимости от параметра а многоугольники распределения имеют существенные различия и по форме по- хожи на другие известные законы распределения случайной величины. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0 1 2 3 4 5 6 7 8 9 m Pm a = 0,5 a = 2,0 a = 3,5 Рис. 6.5. Многоугольники распределения 167 Математическое ожидание распределения Пуассона равно: 0 0 1 1 0 [ ] ! ( 1)! ( 1)! ! m m a a x m m m m m n a a a a m n a a m M X mP m e e m m a a ae ae ae e a m n (6.6) Последняя сумма является разложением величины e a в ряд Тейлора. Таким образом, параметр а представляет собой не что иное, как математическое ожи- дание случайной величины X. Используя производную функцию дискретной СВ Х, можно показать, что дисперсия тоже равна а, т.е. D х = а. Таким образом, дисперсия случайной величины, распределенной по закону Пуассона, равна ее математическому ожиданию а: m x = D х = а. (6.7) Это свойство распределения Пуассона часто применяется на практике для решения вопроса, правдоподобна ли гипотеза о том, что случайная величина X распределена по закону Пуассона. Для этого определяют выборочные матема- тическое ожидание и дисперсию. Если их значения близки, то это может слу- жить основанием в пользу гипотезы о пуассоновском распределении. В задачах по вычислительной технике наибольший интерес представляют потоки событии, распределение которых описывается законом Пуассона. Под потоком событийпонимается последовательность событий, происхо- дящих одно за другим в какие-то моменты времени. Примерами могут служить: поток сбоев электронной вычислительной машины; поток включений приборов в бытовой электросети; поток вызовов на телефонной станции; потоки отказов энергетических объектов (выключателей, разъединителей, трансформаторов и др.) в достаточно большой системе и т. п. События, образующие поток, в общем случае могут быть различными, но мы будем рассматривать лишь поток однородных событий, различающихся только моментами появления. Такой поток можно изобразить как последова- тельность точек t 1 , t 2 , ..., t k на числовой оси (рис. 6.6). 168 Рис. 6.6. Представление потока событий Рассмотрим на оси 0t простейший поток событий как неограниченную по- следовательность случайных точек (рис. 6.6). Выделим произвольный участок времени длиной τ. При некоторых условиях (стационарности, отсутствия по- следействия и ординарности потока событий) число точек, попадающих на уча- сток τ, распределено по закону Пуассона с математическим ожиданием: a = λτ, (6.8) где λ – плотность потока (среднее число событий, приходящееся на единицу времени). Вероятность того, что за время τ произойдет ровно m событий, будет равна e m P m m ! ) ( ) ( (6.9) Вероятность того, что участок окажется пустым (не произойдет ни одного события), равны e P ) ( 0 (6.10) Вероятность появления хотя бы одного события: 1 1 2 ( 0) 1 ( ) 1 m m m m P P P P P P (6.11) Вероятность того, что в интервале времени τ произойдет не менее k собы- тии: 1 1 2 0 ( ) 1 k m k k k k m m m k m P P P P P P P . (6.12) Распределение Пуассона является однопараметрическим. Важным свой- ством закона Пуассона является его предельность для биномиального распре- деления Х п,р . Если одновременно устремлять число опытов п к бесконечности, 0 t 1 t 2 t 3 t 4 t τ 169 а вероятность р – к нулю, причем их произведение пр сохраняет постоянное значение: np = a. (6.13) Это предельное свойство биномиального распределения можно записать в виде , 0 (1 ) ! lim m m m n m a n n p a C p p e m (6.14) Предельное свойство биномиального закона часто находит применение на практике. Допустим, что производится большое количество п независимых опытов, в каждом из которых событие A имеет очень малую вероятность р. То- гда для вычисления вероятности m n P того, что событие А появится равно т раз, можно воспользоваться приближенной формулой: ( ) ! m m np n np P e m , (6.16) где пр = а – параметр закона Пуассона, которым приближенно заменяется би- номиальное распределение. От этого свойства закона Пуассона – выражать биномиальное распределе- ние при большом числе опытов и малой вероятности события – происходит его название: закон редких явлений. Биномиальное распределение сводится в пределе к двум – нормальному и пуассоновскому. Табличные значения функции распределения Пуассона можно получить с помощью функций Microsoft Excel Пуассон(m; a; интегральное). Если аргу- мент «интегральное» имеет значение «истина», то функция Пуассон возвращает значение интегрального распределения P(X m) = 0 m i i P . Если аргумент «инте- гральное» имеет значение «ложь», то функция возвращает P(X = m) = P m 6.1.6. Распределение Эрланга Распределение Эрланга – это гамма-распределение при целочисленном значении параметра формы k (рис 6.7). Распределению Эрланга подчиняются 170 суммы квадратов модулей независимых комплексных гауссовских случайных величин с нулевыми средними значениями и одинаковыми дисперсиями, по- этому распределение Эрланга часто встречается в теории надежности, инже- нерных приложениях, особенно телефонии. 0,00% 5,00% 10,00% 15,00% 20,00% 25,00% 30,00% 35,00% 40,00% 45,00% 50,00% 0 2 4 6 8 10 12 14 16 18 20 |