x (8) = 223. Подсчитываем частоту n k , k = 1, 8, каждого из восьми различных значений в выборке и строим таблицу 14.2. # Рассмотрим функцию n(x, X n ), которая для каждого значения x ∈ R и каждой реализации x n случайной выборки
X n принимает значение n(x,x n ), равное числу элементов в выборке x n , меньших x. Определение 14.7 Функцию b F (x,
X n ) = n(x,
X n ) n , x ∈ R, (14.2) где n — объем случайной выборки, будем называть выборочной функцией распределения. Согласно определению 14.7, при любом фиксированном x функция b F ¡ x;
X n ¢ есть случайная величина, которая принимает одно из значений 0, 1 n , 2 n ,. . . , n−1 n , n n = 1 и имеет биномиальное рас- пределение с параметром p, равным значению функции распределения генеральной совокупности X в точке x, т.е. p = F (x). Теорема 14.1 Для любого фиксированного x последовательность случайных величин { b F ¡ x;
X n ¢ } сходится по вероятности при n → ∞ к значению F (x) функции распределения генеральной сово- купности X в точке x. Доказательство. При любом фиксированном x выборочная функция распределения b F ¡ x;
X n ¢ есть относительная частота события {X < x}. В соответствии с законом больших чисел в форме Бернулли, относительная частота при n → ∞ сходится по вероятности к вероятности события {X < x}. Следовательно, b F ¡ x;
X n ¢ P −→ n→∞ P © X < x ª = F (x). 66 Если все выборочные значения x1 , . . . , xnразличны, то функцию ˆ F ( x,x) можно записать в виде Fn( x) = 0 ,x 6 x(1) ; in, x( i) < x 6 x( i+1) , i = 1 , n − 1; 1 ,x > x( n) ,т.е. в каждой точке x( i) функция Fn( x) имеет скачок величиной 1 /n. График функции Fn( x) изоб- ражен на рис. 14.1. При больших объемах выборки n ( n > 50)обычно производят группирование исходных данных следу- ющим образом. Промежуток J = [ x(1) , x( n) ], содержа- щий все выборочные значения, разбивают на m полу- интервалов J1 , . . . , Jm, как правило, одинаковой дли- ны ∆ и таких, что каждый из них, кроме послед- него, содержит левую границу, а последний содер- жит обе границы, и подсчитывают число niэлемен- тов выборки, попавших в i-ый промежуток Ji, i = 1 , m, n = n1 + · · · + nm, а результаты представляют в виде следующей таблицы 14.2, которую называют интер-Рис. 14.1. вальным статистическим рядом. Иногда в верхней строке таблицы 14.3 указывают не интервал, а его середину e xi, а в нижней строке вместо частоты niзаписывают от- носительную частоту ni/n. Число промежутков m, на которые разбивают промежуток J = [ x(1) , x( n) ], содержащий все выборочные значения, выбирают в зави- J1 J2 . . . Jmn1 n2 . . . nmmP i=1 niТаблица 14.3. симости от объема выборки n. Для ориентировочной оценки величины m можно пользоваться следующей приближенной формулой. m ≈ log 2 n + 1 ,Определение 14.8 График функции pn( x) = nin∆ , x ∈ Ji; 0 ,x /∈ J,(14.3) представляющий собой кусочно постоянную функцию называют гистограммой (см. рис. 14.2). Часто гистограммой называют диаграмму, составлен- ную из прямоугольников с основанием ∆ и высотами ni/( n∆), i = 1 , m. Нетрудно увидеть, что суммарная пло- щадь всех прямоугольников, образующих такую диа- грамму, равна 1, так как mP i=1 nin∆ ∆ = 1 nmP i=1 ni= 1 . Площадь каждого прямоугольника ni/n есть частота попадания элементов выборки в соответствующий интервал Jiста- тистического ряда. Рассмотрим случайную величину ni( Xn) /n, которая для Рис. 14.2. каждой реализации xnслучайной выборки Xnравна ча- стоте ni/n. В соответствии с законом больших чисел в форме Бернулли ni( Xn) /n при n → ∞ бу- дет сходиться по вероятности к вероятности попадания случайной величины X в промежуток Ji, i = 1 , m, т.е. ni( Xn) nP −→n→∞P © X ∈ Jiª = Z Jip( x) dx,где p( x) — плотность распределения генеральной совокупности X. Если длина ∆ промежутков достаточно мала и объем выборки n велик, то с вероятностью, близкой к 1, можно утверждать, что nin≈ p(e xi)∆ ,или nin∆ ≈ p(e xi) ,67
где e x i — середина промежутка J i , i = 1, m. Таким образом, при большом объеме выборки n и до- статочно малом ∆ с вероятностью, близкой к 1, можно считать, что p n (x) ≈ p(x). Иными словами, функция p n (x) является статистическим аналогом плотности распределения p(x), наблюдаемой в эксперименте случайной величины X, а гистограмма выглядит приблизительно как график плот- ности случайной величины X. Пусть X n — случайная выборка из генеральной совокупности X с функцией распределения F (x) (и плотностью распределения p(x) в случае непрерывной статистической модели). Случайную величину b µ k ( X n ) = 1 n n X i=1 X k i (14.4) называют выборочным начальным моментом k-го порядка. В частности, выборочный на- чальный момент первого порядка X = b µ 1 ( X n ) называют выборочным средним. Случайную величину b ν k ( X n ) = 1 n n X i=1 ¡ X i − X ¢ k (14.5) называют выборочным центральным моментом k-го порядка. В частности, выборочный центральный момент 2-го порядка b σ 2 ( X n ) = b ν 2 ( X n ) называют выборочной дисперсией. Выборочную характеристику b σ( X n ) = q b σ 2 ( X n ) называют выборочным средним квадратич- ным отклонением. Случайную величину b K( X n , Y n ) = 1 n n X i=1 ¡ X i − X ¢¡ Y i − Y ¢ (14.6) называют выборочным корреляционным моментом. Выборочную характеристику b ρ( X n , Y n ) = b K( X n , Y n ) b σ x ( X n ) b σ y ( Y n ) , (14.7) где b σ 2 x ( X n ) = 1 n n X i=1 ¡ X i − X ¢ 2 , b σ 2 y ( Y n ) = 1 n n X i=1 ¡ Y i − Y ¢ 2 , называют выборочным коэффициентом корреляции. Значения выборочных моментов (неслучайные числа) будем для краткости называть теми же терминами, что и сами моменты (случайные величины). Основное свойство выборочных моментов состоит в том, что при увеличении объема выборки n они сходятся по вероятности к соответствующим теоретическим моментам. В частности, при n → ∞ имеем X P −→ n→∞ MX, а b σ 2 ( X n ) P −→ n→∞ DX. 68
Лекция 15 Точечные оценки Одной из задач математической статистики является оценка неизвестных параметров выбраннойпараметрической модели. Предположим, что закон распределения генеральной совокупности принадлежит множеству {F ( x; θ) : θ ∈ Θ }, где вид функции распределения задан, а вектор параметров θ = ( θ1 ; . . . ; θr) неизве- стен. Требуется найти оценку для θ или некоторой функции от него (например, математического ожидания, дисперсии) по случайной выборке ( X1 ; . . . ; Xn) из генеральной совокупности X. Например, предположим, что масса X детали имеет нормальный закон распределения, но его параметры θ1 = M X и θ2 = D X неизвестны. Нужно найти приближенное значение параметров по результатам наблюдений x1 , . . . , xn, полученным в эксперименте (по реализации случайной выбор- ки). Пусть Xn= ( X1 ; . . . ; Xn) — случайная выборка из генеральной совокупности X, функция распре- деления F¡ x; θ¢ которой известна, а θ — неизвестный параметр, т.е. рассматривается параметриче-ская модель {F ( x; θ) : θ ∈ Θ } (для простоты изложения будем считать пока, что θ — скаляр). Требуется построить статистику b θ( Xn), которую можно было бы принять в качестве точечнойоценки параметра θ. Определение 15.1 Точечной оценкой параметра θ ∈ Θ назовем любую функцию от наблюдений (т.е. любую статистику) ˆ θ( Xn). Определение 15.2 Статистику b θ( Xn) называют состоятельной оценкой параметра θ ∈ Θ, если с ростом объема выборки n она сходится по вероятности к оцениваемому параметру θ, т.е. b θ( Xn) P −→n→∞θ.Определение 15.3 Статистику b θ( Xn) называют несмещенной оценкой параметра θ, если ее математическое ожидание совпадает с θ, т.е. Mb θ( Xn) = θ для любого фиксированного n. Замечание 15.1 Можно показать, что статистика S2 = 1 n − 1 nX i=1 ¡ Xi− X¢ 2 является несмещенной и состоятельной оценкой дисперсии D X генеральной совокупности. Ее на- зывают исправленной выборочной дисперсией. Замечание 15.2 Можно доказать, что выборочные начальные и центральные моменты являются состоятельными оценками соответствующих теоретических моментов, если только они существуют. Однако эти оценки, кроме X, являются смещенными. Пример 15.1 Пусть X1 , . . . , Xn— случайная выборка из генеральной совокупности X, имеющей нормальное распределение с неизвестным средним значением θ и известной дисперсией σ2 Оценка b θ = b θ( X1 , . . . , Xn) = X1 является несмещенной для θ, ибо M X1 = M X = θ, но не является состоятельной, так как, во-первых, X1 не зависит от объема выборки и, следовательно, ее распре- деление не меняется с ростом n, а во-вторых, P © |X1 − θ| < εª = 2 σ√2 πεZ 0 e−t2 2 σ2 dt 6= 1 .69 Метод моментов Метод моментов был предложен английским статистиком К. Пирсоном и является одним из первых общих методов оценивания. Он состоит в следующем. Пусть имеется случайная выборка Xn= ( X1 ; . . . ; Xn) из генеральной совокупности X, распреде- ление которой p¡ x; θ¢ известно с точностью до вектора параметров θ = ( θ1 ; . . . ; θr). Требуется найти оценку параметра θ по случайной выборке XnОбозначим µk( θ) = M( X) k,νk( θ) = M( X − M X) k— начальный и центральный моменты порядка k, k = 1 , 2 , . . . . В методе моментов в качестве точечной оценки b θ( Xn) = (b θ1 ( Xn); . . . ; b θr( Xn)) вектора параметров θ берут решение системы r уравнений ( b µiα( Xn) = µiα( θ) ,α = 1 , k,b νjβ( Xn) = νjβ( θ) ,β = 1 , l,,k + l = r,(15.1) относительно неизвестных θ1 , . . . , θr. Индексы iαи jβвыбирают так,чтобы система уравнений ре- шалась как можно проще. Можно показать,что при условии непрерывной зависимости решения этой системы от b µiαи b νjβ, оценка, полученная методом моментов, является состоятельной и име- ет асимптотически нормальное распределение, т.е. ее распределение при n → ∞ стремится к нормальному. При этом уравнения (15.1) во многих случаях просты и их решение не вызывает больших вычислительных сложностей. Понятно, что метод моментов не примен´ им, когда моменты генеральной совокупности нужно- го порядка не существуют (например, для распределения Коши, у которого не существует даже начальный момент первого порядка — математическое ожидание). Пример 15.2 Пусть дана случайная выборка ( X1 ; . . . ; Xn) объема n из генеральной совокупности X, имеющей равномерный закон распределения p( x) = ( 1 b − a, x ∈ ( a, b); 0 ,x /∈ ( a, b) ,с неизвестными параметрами a и b. Найдем методом моментов точечные оценки этих параметров. Известно, что для равномерно распределенной случайной величины XM X = a + b2 ,D X = ( b − a) 2 12 .Выборочное среднее X и выборочная дисперсия b σ2 ( Xn) вычисляются по формулам X = 1 nnX i=1 Xi,b σ2 ( Xn) = 1 nnX i=1 ( Xi− X) 2 .Составляем систему двух уравнений a + b2 = x,( b − a) 2 12 = b σ2 ( xn) .Решая систему, получаем b b = x + √3 b σ( |