Лабораторная работа №1 «Моделирование случайных чисел с заданным законом распределения». Лабораторная работа 1 Моделирование случайных чисел с заданным законом распределения
Скачать 3.56 Mb.
|
Лабораторная работа №4. Проверка гипотезы однородности Одной из важных задач прикладной статистики является задача проверки однородности статистического материала. Пусть имеются две независимые выборки ) X ,..., X , (X = X n 2 1 и ) Y ,..., Y , (Y = Y m 2 1 , описывающие один и тот же процесс, явление и т.д., но полученные в разное время или в разных условиях. Требуется установить, являются ли они выборками из одного и того же распределения. Пусть X - выборка из распределения F, а Y - выборка из распределения G. Требуется проверить гипотезу однородности G F H 1 : против альтернативы H 2 = {H 1 неверна}. 4.1 Критерий однородности Колмогорова-Смирнова Этот критерий применяется для непрерывных случайных величин и основан на статистике t G t F sup m n nm T m n R t nm , где t F n и t G m - эмпирические функции распределения, построенные по выборкам X и Y. Теорема 6.1 Если гипотеза H 1 верна, то T nm → ξ при n,m → 0, где случайная величина ξ имеет распределение Колмогорова с функцией распределения K (t). По заданному уровню значимости q найдем C q из условия K(C q ) = 1- q. Построим критерий согласия Колмогорова-Смирнова: , H , H , 2 1 C T , C T q m , n q m , n Таким образом, для поверки гипотезы однородности по критерию Колмогорова-Смирнова необходимо следовать следующему алгоритму: 83 1. По выборкам X и Y построить соответствующие эмпирические функции распределения t F n и t G m 2. Найти значение статистики m n nm T nm t G t F max * m * n X t m Y ,..., 1 Y , n X ,..., 1 3. По заданному уровню значимости q по таблице распределения Колмогорова (см. Приложение Б, таблица 5) найдем C q из условия q - 1 = ) K(C q 4. Если q nm C < T то гипотезу однородности принимаем, в противном случае отклоняем. 4.2 Критерий однородности 2 Этот критерий используется для проверки однородности любых данных (как дискретных случайных величин, так и непрерывных) и позволяет сравнивать любое количество выборок. Рассмотрим дискретный случай. Пусть осуществлено k серий наблюдений, состоящих из k 1 n , , n наблюдений соответственно, т.е. имеются выборки X , , X , X X X , , X , X X X , , X , k n k 2 k 1 k 2 n 2 2 2 1 2 1 n 1 2 1 1 1 k 2 1 При каждом опыте наблюдается одно из s различных значений, задаваемых вектором ) Y , , Y , (Y = Y s 2 1 Пусть ij v - число реализаций исхода i Y в j-й серии, так что s 1 i j ij k , 2 , 1 j , n v . Требуется проверить гипотезу о том, что все k наблюдений проводились над одной случайной величиной. Другими словами, если p ij - вероятность появления i-го исхода в испытаниях j-й серии, то гипотеза однородности означает утверждение: 84 , k , , 2 , 1 j , p , , p p , , p s 1 sj ij где s 1 p , , p p - некоторый неизвестный вектор вероятностей 1 p p s 1 Следуя принципу χ 2 , в качестве меры отклонения опытных данных от их гипотетических значений следовало бы выбрать статистику s 1 i k 1 j i j 2 i j ij 2 n p n p n v p Но так как p i неизвестны, то их нужно предварительно оценить. Оцениваем эти вероятности методом максимального правдоподобия. Получаем следующие оценки: , n pˆ i i где k 1 j k 2 1 ij i n n n n , s , , 1 i , v (4.1) Таким образом получена следующая статистика критерия: s 1 i k 1 j i j 2 ij 2 n 1 n v n p (4.2) Теорема 6.2 При n p 2 n где случайная величина имеет распределение 2 с (s-1)(k-1) степенями свободы. Запишем алгоритм проверки гипотезы однородности с помощью критерия 2 : 1. По выборкам X , , X k 1 строим вектор наблюдаемых значений Y. 2. Для каждого исхода s 1 Y , , Y вычисляем число его реализаций в j-й серии. 3. Получаем оценки вероятностей p , , р s 1 по формуле (4.1). 4. Вычисляем значение статистики p 2 n по формуле (4.2). 5. По заданному уровню значимости q найдем q C из 85 условия q 1 C q 2 1 k 1 s (см. Приложение Б, таблица 3). 6. Гипотезу однородности принимаем, если q 2 n C p и отклоняем в противном случае. На рисунке 4.1 приведен текст программы, реализующей проверку гипотезы однородности двух выборок по критерию χ 2 в среде Mathcad. 4.3 Задание к лабораторной работе а) Было проверено 2 партии теннисных мячей, произведенных на одном заводе. Первая партия состоит из N 1 штук, вторая - из N 2 штук. Каждый мяч был взвешен, веса мячей из первой партии приведены в файле homo-V-1.txt, второй партии - hom-V-2.txt (V - это номер вашего варианта). Проверить гипотезу однородности двух партий теннисных мячей с уровнем значимости q. б) В файлах homog-V-1.txt, homog-V-2.txt, homog-V-3.txt (V - это номер вашего варианта) находятся 3 независимые выборки, описывающих работу 3-х смен на заводе, изготавливающих одинаковые детали на одном и том же оборудовании. Элементы выборок - это количества бракованных деталей, произведенных каждым рабочим смены. В первой смене работало N 1 рабочих, во второй - N 2 , в третьей - N 3 . Проверить гипотезу однородности для этих выборок с уровнем значимости q. Варианты заданий 1. а) 0.02 = q 400, = N 500, = N 2 1 ; б) 0.05 = q 190, = N 180, = N 200, = N 3 2 1 2. а 0.01 = q 250, = N 300, = N ) 2 1 ); б) 0.04 = q 195, = N 220, = N 200, = N 3 2 1 3. а) 0.04 = q 250, = N 350, = N 2 1 ; б) 0.03 = q 195, = N 210, = N 190, = N 3 2 1 4. а) 0.05 = q 250, = N 220, = N 2 1 ); б) 0.02 = q 195, = N 205, = N 185, = N 3 2 1 5. а) 0.03 = q 240, = N 250, = N 2 1 ; б) 0.02 = q 200, = N 205, = N 210, = N 3 2 1 86 6. а) 0.01 = q 400, = N 350, = N 2 1 ; б) 0.05 = q 188, = N 190, = N 185, = N 3 2 1 7. а) 0.04 = q 420, = N 400, = N 2 1 ; б) 0.03 = q 218, = N 215, = N 220, = N 3 2 1 8. а) 0.02 = q 310, = N 300, = N 2 1 ; б) 0.04 = q 200, = N 205, = N 202, = N 3 2 1 9. а) 0.05 = q 430, = N 420, = N 2 1 ; б) 0.03 = q 200, = N 202, = N 198, = N 3 2 1 10. а) 0.01 = q 490, = N 500, = N 2 1 ; б) 0.05 = q 220, = N 201, = N 199, = N 3 2 1 11. а) 0.02 = q 485, = N 480, = N 2 1 ; б) 0.04 = q 187, = N 183, = N 181, = N 3 2 1 12. а) 0.04 = q 420, = N 450, = N 2 1 ; б) 0.02 = q 200, = N 218, = N 202, = N 3 2 1 13. а) 0.03 = q 390, = N 380, = N 2 1 ; б) 0.05 = q 210, = N 200, = N 150, = N 3 2 1 14. а) 0.01 = q 360, = N 390, = N 2 1 ; б) 0.03 = q 185, = N 182, = N 180, = N 3 2 1 15. а) 0.02 = q 490, = N 400, = N 2 1 ; б) 0.04 = q 185, = N 180, = N 179, = N 3 2 1 16. а) 0.05 = q 500, = N 350, = N 2 1 ; б) 0.02 = q 202, = N 220, = N 184, = N 3 2 1 17. а) 0.01 = q 490, = N 470, = N 2 1 ; б) 0.05 = q 200, = N 213, = N 199, = N 3 2 1 18. а) 0.04 = q 300, = N 360, = N 2 1 ; б) 0.03 = q 203, = N 201, = N 211, = N 3 2 1 19. а) 0.02 = q 310, = N 380, = N 2 1 ; б) 0.01 = q 198, = N 200, = N 214, = N 3 2 1 20. а) 0.03 = q 390, = N 410, = N 2 1 ; б) 0.05 = q 204, = N 220, = N 200, = N 3 2 1 87 Рисунок 4.1. Проверка гипотезы однородности с помощью критерия χ 2 88 Лабораторная работа №5. Проверка гипотезы случайности 5.1 Построение критерия для проверки гипотезы случайности В различных статистических задачах исходные данные ) X , , (X = X n 1 рассматривают как случайную выборку из некоторого распределения F, т.е. считают компоненты i X вектора данных X независимыми и одинаково распределенными случайными величинами. Однако, иногда такое предположение нуждается в проверке. Математически задачу можно сформулировать так: проверить гипотезу n 1 n 1 x 0 x , , x x , x F x F x F H , где F(x) - некоторая функция распределения, против альтернативной гипотезы H 1 = {H 0 неверна}. Критерий для проверки этой гипотезы строится исходя из следующих соображений: если гипотеза случайности действительно имеет место, то компоненты вектора X "равноправны" и поэтому данные не должны быть ни в каком смысле упорядочены. Следовательно, критерий проверки гипотезы Н 0 можно построить на основании статистик, измеряющих степень беспорядка исходных данных. Одной из таких статистик является число инверсий в выборке. Говорят, что компонента i X образует i инверсий, если в вариационном ряду, построенном по выборке X левее i X , стоит i элементов выборки с большими номерами. На рисунке 5.1 приведен текст программы, вычисляющей количество инверсий для любого элемента выборки по заданному вариационному ряду 89 Рисунок 5.1. Вычисление количества инверсий, образованных элементом k X Общее число инверсий для выборки X можно найти по формуле: 1 n n 1 X T (5.1) Нормируем статистику T n следующим образом: 2 / 3 n * n n 6 4 1 n n X T x T . (5.2) Теорема 5.1 При n * n T → ξ, где случайная величина ξ имеет стандартное нормальное распределение 0,1 N По заданному уровню значимости q найдем C q из условия Ф(- C q ) = q/2 (Ф(х) — функция Лапласа). Построим критерийпроверки гипотезы случайности: 90 , H , H X 1 0 случае противном в , C еслиT q * n Таким образом, получаем следующий алгоритм проверки гипотезы случайности: 1. По заданной выборке X составляем вариационный ряд. 2. Считаем значение статистик T n и * n T по формулам (5.1), (5.2). 3. Для заданного уровня значимости q определяем C q из условия Ф(-C q ) = q/2 (см. Приложение Б, таблица 1). 4. Если q * n C T , то гипотезу случайности принимаем, в противном случае отклоняем. 5.2 Задание к лабораторной работе В файле rand-V.txt находится некоторая последовательность чисел. Можно ли считать эту последовательность случайной выборкой из некоторого распределения с уровнем значимости q = 0.0V (V - номер вашего варианта)? 91 Лабораторная работа №6. Проверка гипотезы о независимости, вычисление коэффициента корреляции, построение уравнения линейной регрессии 6.1 Проверка гипотезы независимости с помощью критерия χ 2 Предположим, что в некотором эксперименте наблюдается случайная величина , с неизвестной функцией распределения y , x F , и есть основание предполагать, что компоненты и независимы. В этом случае надо проверить гипотезу независимости y F x F y , x F H 0 , где x F и y F - некоторые одномерные функции распределения, против альтернативной гипотезы H 1 = {Н 0 неверна}. Итак, пусть имеется выборка (X, Y) = ((X 1 , Y 1 ), (X 2 , Y 2 ) , . . . , (X n , Y n )) из распределения случайной величины , . Простой критерий согласия для проверки гипотезы Н 0 для этой выборки можно построить, основываясь на методике χ 2 Как известно, эту методику применяют для дискретных моделей с конечным числом исходов, поэтому условимся считать, что случайная величина принимает конечное число s различных значений, которые обозначим s 2 1 u ,..., u , u , а вторая компонента - k значений k 2 1 v ,..., v , v Если исходная модель имеет другую структуру, то предварительно группируют возможные значения случайных величин отдельно по первой и второй компонентам: множество значений разбивается на s интервалов s 2 1 , , , , множество значений на к интервалов k 2 1 , , , , а само множество значений , на sk = N прямоугольников i i Обозначим через ij v число наблюдений пары (u i , v j ) (или число элементов выборки, принадлежащих прямоугольнику ∆ i ×∇ j , если данные группируются), так что s 1 i k 1 j ij n v . Результаты 92 наблюдений удобно расположить в виде таблицы сопряженности двух признаков: Далее вычисляем значение статистики j , i j i 2 ij 2 n 1 v v v n ˆ Теорема 6.1 В случае справедливости гипотезы Н 0 при n 2 n ˆ , где случайная величина ξ имеет распределение χ 2 с (s -1)(k -1) степенями свободы. Построим критерий согласия для проверки гипотезы независимости: , 1 0 H , H Y , X если если 2 1 k 1 s , q 1 2 т 2 1 k 1 s , q 1 2 т ˆ , ˆ На рисунке 6.1 приведен текст программы, реализующей проверку гипотезы независимости по критерию χ 2 в среде Mathcad. j i 1 v 2 v k v Сумма 1 u 11 v 12 v k 1 v 1 v 2 u 21 v 22 v k 2 v 2 v s u 1 s v 2 s v sk v s v Сумма 1 v 2 v k v n 93 Рисунок 6.1. Проверка гипотезы независимости с помощью критерия 2 94 6.2 Выборочный коэффициент корреляции. Проверка гипотезы о значимости выборочного коэффициента корреляции Как известно из курса теории вероятностей, коэффициент корреляции M M M r характеризует наличие (или отсутствие) линейной зависимости между двумя случайными величинами и При 0 r случайные величины и называются коррелированными, а при r = 0 - некоррелированными. Необходимо помнить, что в общем случае некоррелированность случайных величин еще не означает их независимости. Коэффициент корреляции удовлетворяет неравенству 1 r 1 , и если r = ±1, то и связаны линейной функциональной зависимостью. Пусть в результате эксперимента получена выборка (X, Y) = ((X 1 ,Y 1 ), (X 2 , Y 2 ) , . . . , (X n ,Y n )) из распределения случайной величины ( , ). Исходя из определения коэффициента корреляции и точечных оценок для математического ожидания и среднеквадратического отклонения, дадим определение выборочного коэффициента корреляции r B |