Зинченко. 1. Предмет теории вероятности. Вероятность и статистика
Скачать 224.21 Kb.
|
Слабый закон больших чиселПусть есть бесконечная последовательность (последовательное перечисление) одинаково распределённых и некоррелированных случайных величин , определённых на одном вероятностном пространстве . То есть их ковариация . Пусть . Обозначим Sn выборочное среднее первых n членов: . Тогда . Усиленный закон больших чиселПусть есть бесконечная последовательность независимых одинаково распределённых случайных величин , определённых на одном вероятностном пространстве . Пусть . Обозначим Sn выборочное среднее первых n членов: . Тогда почти наверное. 25. Точечные оценки параметров распределения. Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение. Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра. Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин. Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной. Поясним каждое из понятий. Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е. M(Q*) = Q. Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру. Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию. При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности. Состоятельной называют статистическую оценку, которая при п¥® стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п¥® стремится к нулю, то такая оценка оказывается и состоятельной. Рассмотрим точечные оценки параметров распределения, т.е. оценки, которые определяются одним числом Q* =f( x1, x2,…,xn), где x1, x2,…,xn- выборка. 22.Понятие статистического исследования. Генеральная совокупность и выборка. Выборочный метод. Статистическое наблюдение представляет собой планомерный, научно организованный и систематический сбор данных о явлениях и процессах общественной жизни путем регистрации заранее намеченных существенных признаков с целью получения в дальнейшем обобщающих характеристик этих явлений и процессов. Например, при переписи населения специальные работники, привлеченные к ее проведению, по поручению органов статистики записывают для каждого жителя страны сведения о его поле, возрасте, семейном положении, образовании и т.д., а затем на основе этих сведений статистические органы определяют численность населения, его возрастную структуру, размещение по территории страны и др. К этапам статистического исследования относятся: Статистическое наблюдение – массовый научно организованный сбор первичной информации об отдельных единицах изучаемого явления, - Группировка и сводка материала – обобщение данных наблюдения для получения абсолютных величин (учетно-оценочных показателей) явления. - Обработка статистических данных и анализ результатов для получения обоснованных выводов о состоянии изучаемого явления и закономерностей его развития. Все этапы статистического исследования тесно связаны друг с другом и одинаково важны. Недостатки и ошибки, возникающие на каждой стадии, сказываются на все исследовании в целом. Поэтому правильное использование специальных методов статистической науки на каждом этапе позволяет получить достоверную информацию в результате статистического исследования. Статистическое наблюдение в определенном смысле должно учитывать также технику последующей обработки информации и формы представления результатов (характеристики носителей информации). Таким образом, задачами статического наблюдения являются: 1). Обеспечение полноты информации о изучаемом явлении; 2). Получение достоверной информации; 3). Обеспечение оперативности получения данных (в возможно короткий срок). Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой, а гипотетически существующая (домысливаемая) — генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ∞), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки. Если объем выборки достаточно велик (n → ∞) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являются порядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами. Пример. Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д. 26. Интервальные оценки параметров распределения. Интервальной называют оценку, которая определяется двумя числами—концами интервала. Интервальные оценки позволяют установить точность и надежность оценок . Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q. Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если d>0 и |Q- Q*| Таким образом, положительное число d характеризует точность оценки. Однако статистические методы не позволяют категорически утверждать, что оценка Q* удовлетворяет неравенству |Q- Q*| Надежностью (доверительной вероятностью) оценки называют вероятность g , с которой осуществляется неравенство |Q—Q* | Обычно надежность оценки задается наперед, причем в качестве g берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999. Пусть вероятность того, что, |Q- Q*| P(|Q- Q*| Заменив неравенство равносильным ему двойным неравенством получим: Р [Q* —d< Q < Q* +d] = g Это соотношение следует понимать так: вероятность того, что интервал Q* - d< Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна g. Интервал (Q* - d Q* +d) называется доверительным интервалом , который покрывает неизвестный параметр с надежностью g 27. Оценки вероятности события. Вероятность события количественно характеризует возможность (шанс) осуществления этого события в ходе случайного эксперимента. В данном параграфе мы начинаем изучать возможности, предоставляемые теорией вероятности для сравнительного анализа ситуаций, возникающих при различных комбинациях равновероятных событий. Представим, что у нас проводится эксперимент с пространством из n элементарных исходов, которые равновероятны. Элементарные исходы являются несовместными событиями (напомним, что несовместные события - это те, которые не могут произойти одновременно), поэтому вероятность каждого из них равна 1/n. Допустим, нас интересует событие А, которое наступает только при реализации благоприятных элементарных исходов, количество последних m (m< n). Тогда, согласно классическому определению, вероятность такого события: Р(А)=m/n. Для любого события А справедливо неравенство: 0 < P(A) <1. Частость как точечная оценка вероятности события Обозначим через р неизвестную вероятность появления случайного события А в единичном испытании. Приближенное значение вероятности р определяется в виде
где - частость появления события А в n испытаниях; m - число появления события А в n испытаниях. Серия независимых испытаний, в каждом из которых событие А происходит с вероятностью q=1-p, является последовательностью испытаний Бернулли. Теорема. Пусть m - число наступлений события А в n независимых испытаниях, р - вероятность наступления события А в каждом из испытаний. Тогда - состоятельная, несмещенная и эффективная оценка вероятности р. 28. Статистическая проверка гипотез, система приёмов в математической статистике, предназначенных для проверки соответствия опытных данных некоторой статистической гипотезе. Процедуры С. п. г. позволяют принимать или отвергать статистические гипотезы, возникающие при обработке или интерпретации результатов измерений во многих практически важных разделах науки и производства, связанных с экспериментом. Правило, по которому принимается или отклоняется данная гипотеза, называется статистическим критерием. Построение критерия определяется выбором подходящей функции Т от результатов наблюдений, которая служит мерой расхождения между опытными и гипотетическими значениями. Эта функция, являющаяся случайной величиной, называется статистикой критерия, при этом предполагается, что распределение вероятностей Т может быть вычислено при допущении, что проверяемая гипотеза верна. По распределению статистики Т находится значение Т0, такое, что если гипотеза верна, то вероятность неравенства T >T0 равна a, где a — заранее заданный значимости уровень. Если в конкретном случае обнаружится, что Т > T0, то гипотеза отвергается, тогда как появление значения Т £ T0 не противоречит гипотезе. Пусть, например, требуется проверить гипотезу о том, что независимые результаты наблюдений x1,..., xn подчиняются нормальному распределению со средним значением а = a0 и известной дисперсией s2. При этом предположении среднее арифметическое результатов наблюдений распределено нормально со средним а = a0 и дисперсией s2/n, а величина распределена нормально с параметрами (0, 1). Полагая можно найти связь между T0 и a по таблицам нормального распределения. Например, при гипотезе а = a0 событие Т > 1, 96 имеет вероятность а = 0,05. Правило, рекомендующее считать, что гипотеза а = a0 неверна, если Т > 1,96, будет приводить к ложному отбрасыванию этой гипотезы в среднем в 5 случаях из 100, в которых она верна. Если же Т £ 1,96, то это ещё не означает, что гипотеза подтверждается, т.к. указанное неравенство с большой вероятностью может выполняться при а, близких к a0. Следовательно, при использовании предложенного критерия можно лишь утверждать, что результаты наблюдений не противоречат гипотезе а = a0. При выборе статистики Т всегда явно или неявно учитывают гипотезы, конкурирующие с гипотезой а = a0. Например, если заранее известно, что а ³ a0, т. е. отклонение гипотезы а = a0 влечёт принятие гипотезы а > a0, то вместо Т следует взять . Если дисперсия s2 неизвестна, то вместо данного критерия для проверки гипотезы а = a0 можно воспользоваться т. н. критерием Стьюдента, основанным на статистике которая включает несмещенную оценку дисперсии и подчинена Стьюдента распределению с n — 1 степенями свободы (подобную задачу см. в ст. Математическая статистика, табл. 1a). Такого рода критерии называются критериями согласия и используются как для проверки гипотез о параметрах распределения, так и гипотез о самих распределениях (см. Непараметрические методы). При решении вопроса о принятии или отклонении какой-либо гипотезы H0 с помощью любого критерия, основанного на результатах наблюдения, могут быть допущены ошибки двух типов. Ошибка "первого рода" совершается тогда, когда отвергается верная гипотеза H0. Ошибка "второго рода" совершается в том случае, когда гипотеза H0 принимается, а на самом деле верна не она, а какая-либо альтернативная гипотеза Н. Естественно требовать, чтобы критерий для проверки данной гипотезы приводил возможно реже к ошибочным решениям. Обычная процедура построения наилучшего критерия для простой гипотезы заключается в выборе среди всех критериев с заданным уровнем значимости и (вероятность ошибки первого рода) такого, который приводил бы к наименьшей вероятности ошибки второго рода (или, что то же самое, к наибольшей вероятности отклонения гипотезы, когда она неверна). Последняя вероятность (дополняющая до единицы вероятность ошибки второго рода) называется мощностью критерия. В случае, когда альтернативная гипотеза Н простая, наилучшим будет критерий, который имеет наибольшую мощность среди всех других критериев с заданным уровнем значимости а (наиболее мощный критерий). Если альтернативная гипотеза Н сложная, например зависит от параметра, то мощность критерия будет функцией, определенной на классе простых альтернатив, составляющих Н, т. е. будет функциейпараметра. Критерий, имеющий наибольшую мощность при каждой альтернативной гипотезе из класса Н, называется равномерно наиболее мощным, однако следует отметить, что такой критерий существует лишь в немногих специальных ситуациях. В задаче проверки гипотезы о среднем значении нормальной совокупности а = а0 против альтернативной гипотезы а > a0равномерно наиболее мощный критерийсуществует, тогда как при проверке той жегипотезы против альтернативы а ¹ a0 его нет. Поэтому часто ограничиваются поиском равномерно наиболее мощных критериев в тех или иных специальных классах (Инвариантных, несмещенных критериев и т.п.). Теория С. п. г. позволяет с единой точки зрения трактовать выдвигаемые практикой различные задачи математической статистики (оценка различия между средними значениями, проверка гипотезы постоянства дисперсии, проверка гипотезы независимости, проверка гипотез о распределениях и т.п. Идеи последовательного анализа, примененные к С. п. г., указывают на возможность связать решение о принятии или отклонении гипотезы с результатами последовательнопроводимых наблюдений (в этом случае число наблюдений, на основе которых по определённому правилу принимается решение, не фиксируется заранее, а определяется в ходе эксперимента) |