лабораторные работы. Обработки данных
Скачать 1.26 Mb.
|
8.2.2. Критерий значимости Пусть проверяется двухальтернативная сложная гипотеза } , { 1 0 H H , где 0 H – простая гипотеза, а 1 H – сложная. Большинство таких гипотез проверяет- ся с помощью так называемого критерия значимости. В основе критерия значимости лежит некоторая статистика ) ,..., ( 1 n x x g g = , которая представляет собой отклонение эмпирических (выборочных) данных от гипотетических. Пусть ) (x f g – плотность вероятности статистики. Эта плотность вероятно- сти должна быть известной. Критерий значимости имеет вид α α = > ) | (| 2 / g g P , (8.1) или α α = > ) ( g g P , (8.2) или α α = < ) ( g g P , (8.3) где α – вероятность, которая выбирается из следующего набора малых чисел: {0,1; 0,05; 0,025; 0,01}. Событие, имеющее такую вероятность, можно считать практически невозможным, то есть не появляющимся в результате одного экс- перимента. Величины α α g g , 2 / называются пределами значимости, α – уров- нем значимости. Области, определяемые условиями 2 / | | α g g > , или α g g > , или α g g < , называются критическими областями. Эти области отмечены на рис. 8.1–8.3 штриховкой. Критерий (8.1) называется двусторонним или критерием с двусторонней критической областью. Критерий (8.2) – правосторонний. Критерий (8.3) – ле- восторонний. Гипотеза проверяется следующим образом. Выбирается уровень значимости α . По таблицам распределения статистики g определяется предел значимости 2 / α g или α g , в зависимости от вида критерия. Затем по имеющей- ся выборке и формуле для статистики g подсчитывают эмпирическое значение статистики э g . Если окажется, что 2 / | | α g g э > для двустороннего критерия (8.1), или α g g э > для правостороннего критерия (8.2), или α g g э < для лево- стороннего критерия (8.3), то проверяемая гипотеза 0 H отклоняется. Иначе го- воря, если эмпирическое значение статистики э g попадает в критическую об- ласть, то проверяемая гипотеза 0 H отклоняется. Рис. 8.1. Критические области для двустороннего критерия значимости Рис. 8.2. Критическая область для правостороннего критерия значимости Рис. 8.3. Критическая область для левостороннего критерия значимости Отклонение гипотезы осуществляется в силу того, что имеется противоре- чие между гипотетическими и эмпирическими данными: произошло событие, которое не должно было произойти в результате единичного эксперимента. 8.2.3. Проверка гипотезы о законе распределения Пусть по выборке n x x ,..., 1 из некоторой генеральной совокупности нужно проверить гипотезу о том, что генеральная совокупность имеет заданное рас- пределение. Критерии для проверки такой гипотезы получили название крите- риев согласия. 8.2.3.1. Критерий согласия χ 2 (Пирсона) Пусть ) (x f ξ – плотность вероятности генеральной совокупности, ) ,..., , ( 1 0 m x f θ θ – гипотетическая плотность вероятности, известная с точностью до m параметров m θ θ ,..., 1 , причем m может быть равным нулю. Требуется проверить двухальтернативную непараметрическую сложную гипотезу { ), ,..., , ( ) ( : 1 0 0 m x f x f H θ θ ξ = ) ,..., , ( ) ( : 1 0 1 m x f x f H θ θ ξ ≠ }. Это гипотеза о том, что наша выборка извлечена из распределения ) ,..., , ( 1 0 m x f θ θ . Для проверки этой гипотезы критерием χ 2 множество возмож- ных значений случайной величины ξ разбивается на l интервалов и подсчиты- вается количество выборочных значений i m , попавших в каждый интервал (как при построении гистрограммы). Для проверки гипотезы используется статисти- ка ∑ = − = l i i i i p n p n m v 1 2 ) ( ) ) , (8.4) где i p) – гипотетическая вероятность попадания случайной величины ξ в i-й интервал. Она определяется по формуле ∫ ∆ = i m i dx x f p ) ,..., , ( 1 0 θ θ ) ) ) Интегрирование в этой формуле осуществляется по i-му интервалу ∆ i . Здесь ) ,..., , ( 1 0 m x f θ θ ) ) – гипотетическая плотность вероятности, в которую вместо не- известных параметров подставлены их м.п.-оценки m θ θ ) ) ,..., 1 В случае выполнения гипотезы 0 H статистика (8.4) имеет распределение, которое при ∞ → n приближается к распределению ) 1 ( 1 − − m l H (хи-квадрат с ) 1 ( − − m l степенями свободы). Критерий значимости для проверки этой гипотезы – это правосторонний критерий вида α α = > ) ( v v P , где α v – α 100 -процентное отклонение распределения ) 1 ( 1 − − m l H Если гипотетическая плотность вероятности известна полностью, то необхо- димо считать 0 = m , то есть воспользоваться таблицами распределения ) 1 ( 1 − l H . 8.2.3.2. Критерий согласия λ (Колмогорова) Проверяется гипотеза ) ( ) ( : 0 0 x F x F H = ξ против альтернативы ) ( ) ( : 0 1 x F x F H ≠ ξ , где ) (x F ξ – функция распределения генеральной совокупности, ) ( 0 x F – гипо- тетическая функция распределения (полностью известная функция). Она пред- полагается непрерывной. Для проверки гипотезы используется статистика n ∆ = λ , (8.5) где | ) ( ) ( | max 0 x F x F x ∗ − = ∆ ξ – максимальный модуль отклонения гипотетической функции распределения ) ( 0 x F от эмпирической функции распределения ) (x F ∗ ξ Если гипотеза 0 H верна, то статистика λ (8.5) имеет распределение, при- ближающееся при ∞ → n к распределению Колмогорова. Критерий для про- верки гипотезы имеет следующий вид: α λ λ α = > ) ( P , где α λ α 100 − -процентное отклонение распределения Колмогорова (табл.8.1). Таблица 8.1 Процентные отклонения распределения Колмогорова, α λ λ α = > ) ( P α 0,01 0,02 0,03 0,04 0,05 α λ 1,627 1,520 1,45 1,40 1,358 8.2.3.3. Критерий согласия 2 ω (Мизеса–Смирнова) Здесь количественной мерой отклонения эмпирических данных от гипоте- тических служит величина ∑ ∫ = ∞ ∞ − ∗ − − + = − = n k k n k x F n n x dF x F x F 1 2 ) ( 0 2 2 0 2 ] 2 1 2 ) ( [ 1 12 1 ) ( )] ( ) ( [ ξ ω , где ) ( k x – порядковая статистика. Статистика критерия 2 ω имеет вид 2 ω n z = . (8.6) Для статистики z (8.6)при ∞ → n существует предельное распределение, для которого составлены таблицы (табл. 8.2). Критерий 2 ω является правосторон- ним. Таблица 8.2 Процентные отклонения предельного распределения статистики z , α α = > ) ( z z P α 0,01 0,02 0,03 0,04 0.05 α z 0,74 0,62 0,55 0,50 0,46 8.3. Средства Matlab для проверки гипотезы о законе распределения Критерий согласия хи-квадрат function [chisq,p,ndf,eval,chisqi,ifail]=g08cgf(ifreq,cint,dist,par,npest,... prob,ifail) предназначена для проверки гипотезы о законе распределения с по- мощью критерия согласия хи-квадрат для стандартных непрерывных распреде- лений. Проверяется нулевая гипотеза о том, что выборочные данные принадле- жат определенному распределению, против альтернативной гипотезы, что дан- ные не принадлежат этому распределению. Выборочные данные ) ,..., ( 1 n x x должны быть сгруппированы в k классов. Гипотетические вероятно- сти попадания в классы вычисляются в программе или поставляются пользова- телем. В пределах этой программы доступны следующие распределения: нор- мальное, равномерное, экспоненциальное, хи-квадрат, гамма. Пользователь должен поставить массив частот ifreq длиной k и массив гра- ниц классов (интервалов) cint длиной k , где k – число классов. Этот набор данных может быть вычислен с помощью программы g01aef. dist – строка, со- держащая гипотетическое распределение: 'u' – равномерное, 'n' – нормальное , 'e' – экспоненциальное, 'с' – хи-квадрат, 'g' – гамма. par – массив, содержащий значения параметров распределения, npest=0. g08cgf возвращает статистику хи-квадрат v (8.4) в chisq, число степеней свободы в ndf и вероятность превышения случайной величиной значения ста- тистики chisq в p. function [cint,ifreq,xmin,xmax,ifail]=g01aef(x,iclass,cint,ifail) определяет частоты для исходных данных. Данные состоят из выборки объема n , поме- щенной в векторе x. Параметр iclass определяет, как формируются границы классов (интервалов) разбиения выборки. При iclass=0 границы классов опре- деляются программно, при iclass=1 границы классов берутся из массива cint. cint – действительный массив длиной k , где k – число классов, содержит гра- ницы классов (интервалов) 1 1 ,..., − k y y . ifreq – массив частот длиной k , в кото- ром содержится число выборочных значений, попавших в каждый интервал (частоты). xmin – минимальное выборочное значение, xmax –максимальное выборочное значение. По умолчанию устанавливаются входные значения для дополнительных аргументов: n=длина(x); k=длина(cint). Пусть ) ,..., min( 1 n x x a = и ) ,..., max( 1 n x x b = . Программа создает распределе- ние частот в k классах i f , k i , 1 = . Границы классов 1 , 1 , − = k i y i , могут быть поставлены пользователем или получены программно. Если значения границ классов получены программно, то они определяются одним из следующих спо- собов. Если 2 > k , область значений x разделяется на 2 − k интервала равной длины и два экстремальных крайних интервала. Если 2 = k , то 2 / ) ( 1 b a y + = Частоты классов формируются следующим образом: 1 f равно числу значений x в интервале ) , ( 1 y −∞ ; i f равно числу значений x в интервале ) , [ 1 i i y y − , 1 , 1 − = k i ; k f равно числу значений x в интервале ) , [ 1 ∞ − k y . Если границы классов рассчитаны программно и 2 > k , то 0 1 = = k f f и 1 y и 1 − k y выбираются так, что a y < 1 и b y k > −1 Если распределение частоты необходимо для дискретной переменной, то желательно, чтобы границы классов поставил пользователь. Пример использования программыg01aef x=[22.3 21.6 22.6 22.4 22.4 22.4 22.1 21.9 23.1 23.4]; iclass = 0; % 0 – границы классов определяются программно, 1 – поставляются %пользователем cint =[0 0 0 0 0]; % число нулей=числу классов k [cint,ifreq,xmin,xmax,ifail] = g01aef(x,iclass,cint) % расчет частот cint = 21.5991 22.1997 22.8003 23.4009 0 ifreq = 0 3 5 2 0 xmin = 21.6000 xmax = 23.4000 ifail = 0 Пример проверки гипотезы с помощью программы g08cgf n=100; %задается объем выборки alpha=0.05 %задается уровень значимости cdist='e' %задается гипотетическое распределение par(1)=1; %задается 1-й параметр гипотетического распределения par(2)=0; %задается 2-й параметр гипотетического распределения npest=0; for i=1:n % формируется выборка x(i)=exprnd(1/par(1)); end iclass=0; % 0 – классы формируются программно, 1 – поставляются %пользо- вателем cint=[0 0 0 0 0 0 0 0 0 0]; % количество нулевых элементов равно количеству % интервалов k k=10; [cint,ifreq,xmin,xmax,ifail] = g01aef(x,iclass,cint); %формирование интервалов и %частот cint ifreq [chisq,p,ndf,eval,chisqi,ifail]=g08cgf(ifreq,cint(1:k-1),cdist,par,npest); %вычисление %статистики chisq %значение статистики ndf %число степеней свободы p % вероятность того, что ksi>chisq if p>alpha % выносится решение disp('гипотеза принимается') else disp('гипотеза отклоняется') end alpha= 0.05 cdist = e cint = 0.0094 0.5859 1.1624 1.7389 2.3154 2.8919 3.4684 4.0449 4.6214 0 ifreq = 0 47 24 18 4 2 0 2 3 0 ** 3 classes have expected frequency less than one. ** ABNORMAL EXIT from NAG Library routine G08CGF: IFAIL = 10 ** NAG soft failure – control returned chisq = 15.8252 ndf = 9 p = 0.0706 гипотеза принимается 8.4. Порядок выполнения работы 8.4.1. Получить выборки объема 100 = n из распределений, приведенных в п. 1.2.8 лабораторной работы № 1. Проверить гипотезу о законе распределения приведенными в п. 8.2.2 данной работы критериями, написав собственные m- файлы. 8.4.2. Сравнить результаты проверки гипотезы по критерию хи-квадрат с ре- зультатами проверки с помощью стандартной программы Matlab g08cgf. Замечание 1.В программе g08cgf плотность вероятности экспоненциального распределения предполагается заданной в виде x e x f λ λ − = ) ( , в то время как в программах exprnd, expcdf, exppdf, expfit – в виде x e x f 1 1 ) ( − − − = λ λ Замечание 2. При написании собственной программы проверки гипотезы для определения процентных отклонений распределения хи-квадрат необходимо использовать программу chi2inv, описанную в п. 7.3.2 работы № 7. Matlab не имеет программ для определения процентных отклонений распределений Кол- могорова и 2 ω . В связи с этим при проверке гипотезы критериями Колмогоро- ва и 2 ω процентное отклонение необходимо взять из табл. 8.1, 8.2 данной ра- боты. ЛАБОРАТОРНАЯ РАБОТА № 9. ОБРАБОТКА РЕЗУЛЬТАТОВ КОСВЕННЫХ ИЗМЕРЕНИЙ: КЛАССИЧЕСКАЯ ЗАДАЧА О МЕТОДЕ НАИМЕНЬШИХ КВАДРАТОВ 9.1. Цель работы 9.1.1. Изучение задачи и методов обработки результатов косвенных измере- ний. 9.1.1. Исследованиев системе Matlab задачи оценивания местоположения объекта по измерениям пеленгов. 9.2. Теоретические положения 9.2.1. Классическая задача о методе наименьших квадратов (МНК) Классическая задача оценивания векторных параметров по косвенным изме- рениям предполагает, что результаты измерений (показания приборов) i z функционально связаны с параметрами m θ θ , , 1 Κ вектором параметров: M i e x x z i l i i m i i , 1 , ) , , , , , ( , 1 , 1 = + = Κ Κ θ θ ψ , (9.1) где ) , , , , , ( , 1 , 1 l i i m i x x Κ Κ θ θ ψ – некоторые известные скалярные функции; i e – ошибки измерений; l i i x x , 1 , , , Κ – входные переменные, которые измеряются точно или отсутствуют. Требуется по измерениям i z найти оценки m θ θ ) Κ ) , , 1 неизвестных парамет- ров m θ θ , , 1 Κ Задача в таком виде была сформулирована Гауссом. Для ее решения Гаусс предложил свой знаменитый метод наименьших квадратов (МНК). В настоящее время эта задача формулируется и решается с использованием векторно-матричного подхода. Зависимости (9.1) записывают в векторной фор- ме: E X Z + Θ Ψ = ) , ( , (9.2) где ) , , ( 1 M T z z Z Κ = , = Θ Ψ ) , ( X T )) , ( , ), , ( ( 1 1 M M X X Θ Θ ψ ψ Κ , ) , , ( 1 m T θ θ Κ = Θ ; ) , , ( 1 M X X X Κ = ; ) , , ( 1 M T e e E Κ = . Вектор ошибок E счи- тается распределенным по нормальному закону ) , 0 ( E M R N Требуется по результатам измерений Z , X найти оценку Θ ) вектора пара- метров Θ . После линеаризации функции ) , ( X Θ Ψ в окрестности некоторой опорной точки 0 Θ получают МНК-оценку в виде )) , ( ( ) ( 0 1 1 1 0 X Z R Q Q R Q E T E T NK Θ Ψ − + Θ = Θ − − − ) , (9.3) где 0 0 ) , ( Θ Θ Ψ = d X d Q , (9.4) а ковариационная матрица оценки определяется выражением 1 1 ) ( − − Θ = Q R Q R E T K N ) |