Лекции по теме Статистическое оценивание и проверка гипотез
Скачать 0.85 Mb.
|
x P k=1, teta=2 k=2, teta=2 k=10, teta=1 Рис. 6.7. Распределение Эрланга Основные характеристики гамма-распределения Область определения 0 ≤ x < Параметры k – параметр формы; – параметр масштаба Плотность f(x; k; ) при целых k 1 θ 1 θ( 1)! θ k x x e k Математическое ожидание k Дисперсия k 2 Распределение Эрланга k-гопорядка является универсальным распределе- нием. Путем изменения целочисленного параметра k можно трансформировать данное распределение случайной величины в одно из известных. Например, f(x; k = 2; = 2) f(x; k = 10; = 1) f(x; k = 1; = 2) 171 при k = 1 это распределение трансформируется в экспоненциальное, при k = 2 – в распределение Релея, при k > 10 – в нормальное распределение. Выбор того или иного распределения, а следовательно, задание параметра k, определяется результатами обработки статистических данных. Табличные значения функции распределения Эрланга можно получить с помощью функций Microsoft Excel ГаммаРасп(x; k; ; интегральная). Если значение аргумента «интегральная» – «ложь», то получаем функцию плотности f(x; k; ). 6.2. Выборочные распределения После проведения экспериментов в распоряжении исследователя оказыва- ется определенное ограниченное количество результатов измерений, характе- ризующих объект исследования по интересующему его признаку. Из их анализа должен быть сделан вывод, относящийся ко всем объектам данного вида. Мно- жество объектов, конечное или бесконечное, относительно которого делаются статистические выводы, носит название генеральной совокупности. Этот тер- мин приобретает смысл в сочетании с понятием о выборке, т. е. части этого множества. Реально же мы имеем дело с конечными генеральными совокупно- стями, размеры которых могут колебаться в очень широких пределах. Например, вся генеральная совокупность уссурийских тигров насчитывает около двухсот особей, в то время как число таких деревьев, как березы или осины, измеряется миллионами. В статистических выводах важен не сам по се- бе объем генеральной совокупности, а та доля от него, которую составляет вы- борка. Во всех случаях, когда объем выборки меньше сотой части всей гене- ральной совокупности, последнюю по отношению к выборке принято считать практически бесконечной и использовать математический аппарат, основанный на таком представлении. Ряд показателей, которые уже были рассмотрены: среднее, дисперсия и т. д., характеризуют выборку и носят название статистик. Такие же показате- ли, но характеризующие всю генеральную совокупность в целом, носят назва- 172 ние параметров. Таким образом, можно считать, что статистики служат оцен- ками для параметров. Чтобы отличать статистики от параметров, принято по- следние обозначать греческими буквами: μ – среднее, σ 2 – дисперсия, – коэф- фициент корреляции и т. д. Пусть теперь мы извлекаем из генеральной совокупности большое число выборок, для каждой из которых вычисляется некоторая статистика, например среднее. Если для множества полученных средних (их будет столько, сколько было извлечено выборок) построить гистограмму, а затем аппроксимировать ее непрерывной кривой, выбрав масштаб так, чтобы площадь под кривой рав- нялась единице, то получим приближенное выборочное распределение средне- го. Естественно, что такие выборочные распределения могут быть построены для любых интересующих нас статистик. Предположим, что в очень большой генеральной совокупности признаки x i , принимающие численные значения от единицы до десяти, встречаются оди- наково часто. Тогда плотность распределения этих признаков будет иметь вид, как на рис. 6.8. Рис. 6.8. Распределение признаков в генеральной совокупности, принимающих численные значения от единицы до десяти Пусть теперь из всей совокупности объектов с этими признаками извлека- ются 100 выборок по два объекта в каждой. Если теперь для средних этих вы- борок x i построить распределение, то оно будет иметь вид, как на рис. 6.9. р 0,1 0 1 2 3 4 5 6 7 8 9 10 x 173 Рис. 6.9. Распределение для средних выборок Возникает вопрос, случайно ли, что это распределение более или менее симметрично и имеет такой вид, что если его аппроксимировать непрерывной кривой, то эта кривая будет приближаться к колоколообразной? Оказывается, нет. В специальной теореме теории вероятностей, теореме Ляпунова, утвержда- ется, что если из бесконечной генеральной совокупности с произвольным рас- пределением и параметрами μи σ 2 извлекаются случайные выборки объема п, где п достаточно велико, то выборочноесреднее будет иметь распределение, приближающееся к нормальному с параметрами и σ 2 /n (σ 2 – дисперсия гене- ральной совокупности). Величина σ 2 /n называется дисперсией ошибки средне- го, арифметическое значение корня квадратного из нее называется стандартной ошибкой среднего, т. е. / x n Рассмотрим некоторое распределение Х, плотность которого представлена на рис. 6.10. Видно, что кривая подходит очень близко к оси абсцисс в точках с координатами М[ x ] 3 x x Рис. 6.10. Плотность распределения генеральной совокупности с μ = 15, σ х = 10 n 0 1 2 3 4 5 6 7 8 9 10 x n 10 20 30 x 174 Построим выборочные средние x . Когда объемы выборок равняются 100, тогда случайная величина x имеет плотность распределения, как на рис. 6.11. Рис. 6.11. Плотность распределения средних при объеме выборки, равном 100, М[ x ] = 15, 2 x = 1 Другой пример выборочного распределения – распределение выборочных коэффициентов корреляции r, полученных из выборок двумерной нормальной генеральной совокупности с = 0 (рис. 6.12). Мощность выборки равна 100. Тогда М[r] = 0, r = 0,1 Рис. 6.12. Выборочное распределение коэффициента корреляции при М[r] = 0, r = 1 Распределение выборочного коэффициента корреляции в этом случае стремится к нормальному распределению с нулевым средним и стандартной ошибкой 1/ 1 r n . Оценим величину отклонения выборочных коэффициен- тов корреляции от нуля. Возьмем 5 % наихудших выборочных коэффициентов n 13 14 15 16 17 x p -0,4 0,2 0 0,2 0,4 r 175 корреляций, т. е. больше всего отклоняющихся от теоретического = 0. Найдем величину отклонения этих коэффициентов. Составим в MS Excel уравнение НОРМРАСП(x; 0; 0,1; 1) = 1 – 0,05/2. Здесь четвертый параметр равен 1 – в ле- вой части стоит функция распределения. Решая уравнение, получаем величину отклонения, равную 0,22. 6.3. Идентификация параметров распределения случайной величины Допустим, имеется выборочная совокупность данных Х выб = {x 1 , …, х n } и параметрическое семейство одномерных СВ F(p 1 , …, p m ), заданных плотно- стями распределений f(x, p), p R m . Параметры p связаны между собой соотно- шениями i (p) = 0, 1, i k (6.17) Таким образом, F является m-параметрическим семейством с m – k степе- нями свободы. Необходимо подобрать оптимальный набор p опт R m , наилучшим образом приближающий выборку Х выб 6.3.1. Использование метода наименьших квадратов Построим множество интервалов {k 1 , …, k s }, покрывающих множество Х выб . Интервал представляет собой полузамкнутый отрезок без правой точки, они не пересекаются, их объединение также является интервалом. Длины ин- тервалов, как правило, одинаковы и их количество рекомендуется выбирать по правилу Стерджеса s = 1 + 3,33 lg n. Построим выборочную функцию плотности распределения f выб , опреде- ленную на серединах y j интервалов или на их концах. Значение f выб (y j ) равно до- ле точек из X выб , попавших в соответствующий интервал k j , 1, j s . Сумма всех интервалов k j равна L. 176 Рассмотрим функцию невязки 2 выб точ =1 ( ) ( ) ( , ) s j j j p f y f y p Решая задачу min (p) при условиях (6.17), находим p опт . Функция мо- жет иметь несколько точек локального минимума. 6.3.2. Использование числовых характеристик выборки Основными числовыми характеристиками выборки являются M выб , D выб , выб , коэффициент скоса А выб и эксцесс Е выб . Аналогичные теоретические харак- теристики распределений F(p) определяются моментами 1 – 4 порядков. Для их вычисления необходимо знать функциональное представление плотности рас- пределения. Например, 3 теор 3 1 ( ) ( ( )) ( , ) ( ) А p x M p f x p dx p , p R m Интегрирование можно произвести в MS Excel. Для этого необходимо написать на языке Visual Baisic for Application (VBA) функцию для вычисления известной плотности f(x, p). Параметры p содержатся в диапазоне ячеек листа, а само интегрирование производится численно на отрезке, содержащем область существенных значений функции f(x, p). Этот отрезок в свою очередь зависит от p. Решим систему нелинейных уравнений теор выб теор выб теор выб теор выб ( ) , ( ) , ( ) , ( ) , ( ) 0, 1, . i М р М р А р А Е р Е p i k (6.18) Для того чтобы система (6.18) не оказалась избыточной, следует взять столько числовых характеристик, какова степень свободы m – k семейства F(p). Если система (6.18) несовместна, то можно решить задачу минимизации невязки 177 min{(M теор (р) – M выб ) 2 + ( теор (р) – выб ) 2 + (А теор (р) – А выб ) 2 + (Е теор (р) – Е выб ) 2 } при условии i (p) = 0, 1, i k ПРИМЕР 6.1. Построим X выб из 400 реализаций треугольного распределе- ния Х = 1+2 R + 2 R , где R – равномерно распределена на интервале [0,1]. Семейство треугольных распределений F(p) зависит от m = 4 параметров a, b, c, d, связанных одним соотношением (k = 1), которое обеспечивает площадь под фигурой, равную 1 (рис. 6.13). Число степеней свободы этого семейства равно m – k = 3. В общем случае плотность f(x, p) может быть несимметрична. Рис. 6.13. Плотность треугольного распределения: 1 – выборочная плотность; 2 – теоретическая плотность приближенного распределения Точные значения параметров теоретического распределения равны a = 1, b = 5, c = 3, d = 0,5. Найдем эти параметры двумя способами. 1. Метод наименьших квадратов стартует со значений a = 0, b = 3, c = 1, d = 1 (рис. 6.14, 1). Размер карманов 0,2. Количество карманов 32 от 0 до 6,2. Суммарная квадратичная невязка равна 5,33 (рис. 6.14). В результате расчетов получили a = 1,11, b = 5,14, c = 3,11, d = 0,50. Сум- марная квадратичная невязка равна 0,05 (рис. 6.15). f(x) d a c b x 1 2 178 0,00 0,20 0,40 0,60 0,80 1,00 1,20 0, 00 0, 40 0, 80 1, 20 1, 60 2, 00 2, 40 2, 80 3, 20 3, 60 4, 00 4, 40 4, 80 5, 20 5, 60 x f(x) Рис. 6.14. Плотности распределений: 1 – выборочная; 2 – начальная теоретическая 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0, 00 0, 40 0, 80 1, 20 1, 60 2, 00 2, 40 2, 80 3, 20 3, 60 4, 00 4, 40 4, 80 5, 20 5, 60 x f(x) Рис. 6.15. Использование МНК: 1 – выборочная плотность; 2 – приближенная теоретическая 1 2 1 2 179 2. Воспользуемся числовыми характеристиками выборки. Плотность треугольного распределения имеет вид 0, , , , ( ) , , 0, x a x a d a x c c a f x x b d c x b c b x b (a, b, c, d) = ½(b – a)d – 1 = 0. В результате расчетов выборочная плотность имеет вид графика 1 на рис. 6.16. 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,00 0,40 0,80 1,20 1,60 2,00 2,40 2,80 3,20 3,60 4,00 4,40 4,80 5,20 5,60 x f(x) Рис. 6.16. Использование числовых характеристик: 1 – выборочная плотность; 2 – приближенная теоретическая плотность В систему уравнений (6.18) включим характеристики M, , А. Параметры распределения являются ячейками листа. Теоретические значения этих харак- теристик вычисляются путем численного интегрирования, а выборочные значе- ния – с помощью функций Microsoft Excel СРЗНАЧ, СТАНДОТКЛ, СКОС. 1 2 180 Решение системы (6.18) осуществляется сервисной функцией Microsoft Ex- cel Сервис/Поиск решения. Начальные значения параметров распределения a = 0, b = 3, c = 1, d = 1. Расчеты показали следующее. Найденные значения параметров распреде- ления a = 0,79, b = 5,26, c = 3,01, d = 0,45. Выборочные характеристики равны M выб = 3,02; выб = 0,83; А выб = 0,01; E выб = –0,51. Теоретические приближенные характеристики равны M прибл = 3,02; прибл = 0,83; А прибл = 0,01; E прибл = 0,84. Точные теоретические характеристики рассчитаны с помощью вероят- ностного калькулятора [3]: M теор = 3,00; теор = 2 3 = 0,82; А теор = 0; E теор = –0,60. 6.4. Генерация случайных величин 6.4.1. Метод «обратной» функции Пусть имеется одномерная непрерывная СВ Х с функцией распределения y = F(x). Необходимо построить алгоритм генерации этой СВ. Возьмем одномерную СВ Y, равномерно распределенную на [0; 1]. Это распределение реализовано во всех программных пакетах. Например, на языке С++ Y = random(1001)/1001.0. На языке VBA: Y = слчис( ). Алгоритм реализуется в два этапа. Этап 1. Получить реализацию y величины Y. Этап 2. Решить уравнение ( ) F x y относительно x. Решение 1 ( ) x F y – искомая реализация Х. 181 6.4.2. Генерация двумерных случайных величин Пусть СВ Z = (X, Y) задана двумерной функцией распределения z = F(x, y), которая задается формулой F(x, y) = Р(X < x и Y < y). Свойства двумерной функции распределения F(x, y): 1) ограниченность: 0 F(x, y) 1; 2) предельность: F(- , - ) = F(- , y) = F(x,- ) = 0, F(+ , + ) =1; 3) вероятность попадания в диапазон: Р(а 1 X < а 2 и b 1 Y < b 2 ) = F(а 2 , b 2 ) – F(а 1 , b 2 ) – F(а 2 , b 1 ) + F(а 1 , b 1 ). Определение 1. Предельными распределениями для Z называются одно- мерные распределения F(x,- ) и F(- , y). Предельные распределения задают две одномерные СВ, для которых можно применять метод «обратных» функ- ций. Определение 2. Условными распределениями называются одномерные рас- пределения ( , ) ( ) ( , ) F x y F x Y y F y , (6.19) ( , ) ( ) ( , ) F x y F y X x F x (6.19а) Знаменатели в формулах (6.19), (6.19a) играют нормирующую роль и обес- печивают предельное свойство функции распределения F(+ Y = y ) = 1. Алгоритм генерации величины Z Этап 1. Пусть 1 r – реализация одномерной СВ, равномерно распределен- ной на [0;1]. Этап 2. Решим уравнение F(x, + ) = 1 r и найдем его решение x . Этап 3. Найдем другую реализацию 2 r одномерной СВ, равномерно рас- пределенной на [0; 1]. Этап 4. Решим уравнение F(y X = x ) = 2 r и найдем его решение y . 182 Пара чисел ( x , y ) – искомая реализация двумерной СВ Z. ПРИМЕР 6.2. Совместная плотность распределения СВ Z равна F(x, y) = xy 2 на множестве [0; 1] [0; 1]. Если x < 0 или y < 0, то F = 0, иначе если x > 1 и y < 1, то F = y 2 , иначе, если x < 1 и y > 1, F = x, иначе F = 1. Построим генератор СВ Z. Найдем предельные распределения 0, 0, ( , ) ,0 1, 1, 1. x F x x x x 2 0, 0, ( , ) ,0 1, 1, 1. y F y y y y Условные распределения 2 2 0, 0, ( ) ,0 1, 1, 1. x xy F x Y y x x y x 2 2 0, 0, ( ) ,0 1, 1, 1. y xy F y X x y y x y На этапе 2 решаем уравнение F(x, + ) = 1 r . x = 1 r . Находим решение 1 x r На этапе 4 решаем уравнение F(y X = x ) = 2 r . y 2 = 2 r . Находим решение 2 y r Ответ: ( 1 2 , r r ) – искомая реализация СВ. 183 Определение 3. Плотностью распределения СВ Z = (X, Y) называется функ- ция 2 ( , ) ( , ) F x y f x y x y (6.20) Из формулы (6.20) вытекает ( , ) ( , ) y x F x y f x y dx dy Изложенный алгоритм можно сформулировать в терминах функции плот- ности f(x, y). Таким образом, продемонстрирован следующий подход к статистической обработке одномерных выборочных данных. 1. Из большого количества семейств распределений выбираем несколько наиболее подходящих (раздел 6.1). 2. Для каждого семейства находим распределение, наиболее точно приближа- ющее выборку (разделы 6.3, 6.4). 3. Используя критерии согласия, установить совпадение выборочного и теоре- тического распределений [2]. 4. Используем полученное теоретическое распределение для генерации новых реализаций при проведении имитационного моделирования (раздел 6.4.1). |