теория вероятностей. Управления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М
Скачать 3.11 Mb.
|
нормальное распределение с параметрами σ и a , если ее плотность распределения задается формулой: , 2 1 ) ( 2 2 2 ) ( +∞ < < ∞ − σ π = σ − − x x f a x λ Параметр a характеризует положение графика функции на числовой оси, параметр ) 0 ( > σ σ — степень сжатия или растяжения графика плотности (рис. 2.8). Математическое ожидание нормально распределенной случайной вели- чины равно a X M = ) ( , дисперсия 2 ) ( σ = X D Нормальное распределение относится к числу наиболее распространен- ных и важных, оно применяется для приближенного описания многих случай- ных явлений. Например, с помощью нормального распределения описывают рассеяние снарядов при стрельбе по цели; отклонение фактического размера изделия от заданного; оно применяется и во многих других ситуациях, когда на интересующий нас признак действует большое количество независимых случайных факторов. С причиной этого мы познакомимся в разделе 4.2. x ) (x f 0 Рис. 2.8. Плотность нормального распределения a σ σ 36 3. ОПИСАТЕЛЬНАЯ СТАТИСТИКА 3.1. Генеральная совокупность и выборка В научном познании тесно связаны модель и эксперимент. Теория веро- ятностей занимается изучением моделей массовых случайных явлений. Осно- вой математической статистики является эксперимент: эта наука позволяет обрабатывать результаты наблюдений и, применяя модели теории вероятно- стей, описывать закономерности, которые проявляются при многократном наблюдении изучаемого явления. Проводя эксперимент, мы имеем дело с обширной совокупностью объек- тов, которая в статистике называется генеральной совокупностью. В резуль- тате эксперимента мы наблюдаем лишь часть случайно отобранных объектов этой совокупности — выборку. Основная идея выборочного метода состоит в том, чтобы по выборке сделать заключения о свойствах всей генеральной со- вокупности. Для достоверности таких заключений необходимо правильно строить выборку, т.е. строить ее так, чтобы выборка хорошо отражала свойст- ва генеральной совокупности. Генеральная совокупность обычно содержит конечное число объектов (оно называется объемом генеральной совокупности), которое будем обозна- чать N . Однако, если объем генеральной совокупности велик, то в целях уп- рощения теоретических выводов его часто предполагают бесконечным. Объем выборки — количество ее элементов — будем обозначать n . Например, если из 10000 выпущенных на конвейере электрических лампочек отобрано 300 штук для проверки качества всей партии, то , 10000 = N а 300 = n Выборка может быть составлена двумя способами. Первый способ назы- вается случайным повторным отбором. При этом отобранный элемент выбор- ки перед выбором следующего возвращается в генеральную совокупность. Второй способ — случайный бесповторный отбор. При этом отобранный объект не возвращается в генеральную совокупность. Если объем генеральной совокупности велик, и выборка составляет лишь незначительную часть всей совокупности, то различие между двумя способами отбора невелико. Если рассматривается бесконечная генеральная совокупность, а выборка имеет ко- нечный объем, то способы отбора не различаются. Но при любом способе от- бор должен быть случайным — каждый элемент генеральной совокупности должен иметь одинаковую вероятность попасть в выборку. Моделью изучаемой генеральной совокупности служит случайная вели- чина. В теории вероятностей мы обозначали случайные величины заглавными буквами, а их значения — строчными. Поэтому будем говорить о генеральной совокупности Х и выборке из нее ..., , , 2 1 n x x x Значение 1 x получено при первом наблюдении случайной величины Х , 2 x — при втором наблюдении той же случайной величины и т.д. Иногда при этом говорят, что рассматрива- ется серия независимых наблюдений случайных величин n X X X ..., , , 2 1 — статистических копий величины Х . Выборочные значения n x x x ..., , , 2 1 явля- 37 ются значениями статистических копий n X X X ..., , , 2 1 — независимых оди- наково распределенных случайных величин. Для изучения свойств генеральной совокупности рассматривают различ- ные функции от выборочных значений — они называются статистиками. Например, можно рассматривать статистику ∑ = = n i i X n X 1 1 — среднее значение выборочных данных. Для каждой конкретной выборки мы получим число ∑ = = n i i x n x 1 , 1 но величина X является случайной функцией со своим законом распределения. Изучая различные статистики, мы получаем информацию о генеральной совокупности. 3.2. Способы представления статистических данных Пусть Х — некоторый признак изучаемого объекта или явления (срок службы электролампы, вес поросенка, диаметр шарика для подшипника и т.п.). Генеральной совокупностью является множество всех возможных значений этого признака, а результаты n наблюдений над признаком Х дадут нам вы- борку объема n Итак, первоначальные статистические данные — это значения n x x x ..., , , 2 1 (простая выборка, несгруппированные данные). Выборку преобразуют в вариационный ряд, располагая результаты на- блюдений в порядке возрастания: ) ( ) 2 ( ) 1 ( n x x x ≤ ≤ ≤ Каждый член ) (i x ва- риационного ряда называется вариантой. Пример 1. С производственной линии случайным образом 24 раза отби- рали по десять выпускаемых деталей. Каждый раз отмечалось число дефект- ных деталей. Получили выборку: 0, 0, 1, 0, 2, 0, 1, 2, 1, 0, 0, 0, 0, 3, 1, 0, 0, 0, 1, 0, 2, 1, 0, 1. Здесь объем выборки , 24 = n а исследуемый признак Х — число дефектных деталей из 10 отобранных — может принимать целые значения от 0 до 10. Составим вариационный ряд: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 3. Представим теперь данные в виде статистического ряда: укажем час- тоту i n варианты, т.е. сколько раз встречаются в нашей выборке различные значения вариант. Для примера 1 получим следующий статистический ряд (табл. 3.1). Таблица 3.1 Статистический ряд для примера 1 Значения признака ) ( i x 0 1 2 3 Частота ) ( i n 13 7 3 1 38 Отметим, что сумма частот статистического ряда равна объему выборки. Часто статистический ряд составляют, используя относительные частоты ва- риант: k i n n i i ..., , 2 , 1 , ν = = (k — количество различных вариант). Сумма относительных частот равна единице. такая таблица используется для графи- ческого представления дискретного признака Х в виде полигона относитель- ных частот. Полигон — это ломаная линия с вершинами в точках k i x i i ..., , 2 , 1 ), ν ; ( = (рис. 3.1). Полигон частот обеспечивает наглядность представления данных и по- зволяет делать предположения о близости распределения исследуемого при- знака к тому или иному закону распределения. Если значения изучаемого признака могут отличаться друг от друга на сколь угодно малую величину (непрерывная генеральная совокупность) или объем выборки велик, то данные представляют в виде сгруппированного ста- тистического ряда. Для этого весь диапазон значений вариант разбивают на 5–12 интервалов необязательно одинаковой длины и подсчитывают число ва- риант, попавших в каждый интервал (частоту i -го интервала). Полученные данные заносятся в таблицу, которая называется интервальной таблицей час- тот или сгруппированным статистическим рядом (табл. 3.2). Как определить количество интервалов этой таблицы? Рис. 3.1. Полигон относительных частот для примера 1 0 0,2 0,4 0,6 0,8 1 0 1 2 3 4 x n n i i = ν 39 Таблица 3.2 Сгруппированный статистический ряд Интервалы ) ; [ 2 1 a a ) ; [ 3 2 a a … ] ; [ 1 + k k a a Частоты 1 n 2 n … k n Рекомендуемое количество интервалов рассчитывают по эмпирической формуле Старджеса , lg 3 3 1 n k + = где n — объем выборки. Длину i -го интервала принимают равной , ) 1 ( ) ( k x x d n − = где ) (n x —наибольшее, а ) 1 ( x — наименьшее значение в вариационном ряду. Для определенности будем считать левый конец каждого интервала за- крытым, а правый — открытым, так что интервалы будут иметь вид ). ; [ 1 + i i a a Пример 2. При измерении веса 30 новорожденных (с точностью до 10 г) получили выборку : кг) , ( i x 3.7, 3.85, 3.7, 3.78, 3.6, 4.45, 4.2, 3.87, 3.33, 3.76, 3.75, 4.03, 3.8, 4.75, 3.25, 4.1, 3.55, 3.35, 3.38, 3.05, 3.56, 4.05, 3.24, 4.08, 3.58, 3.98, 3.4, 3.8, 3.06, 4.38. Построить статистический ряд. Сгруппируем эту выборку. Наименьший вес равен 3.05 кг, наибольший — 4.75 кг. «Упакуем» выборку в интервал [3; 4.8], который разобьем на 6 частей длиной , 3 0 = d т.к. по формуле Старджеса 875 5 = k (округление в большую сторону). Подсчитаем частоту i n (относительную частоту n n i i = ν ) для каждого интервала и получим сгруппированный статистический ряд (табл. 3.3). Таблица 3.3 Сгруппированный статистический ряд для примера 2 Интер- валы [3; 3.3) [3.3; 3.6) [3.6; 3.9) [3.9; 4.2) [4.2; 4.5) [4.5; 4.8) Частоты i n 4 7 10 5 3 1 Относи- тельные частоты i ν 0.133 0.233 0.3 0.167 0.1 0.033 40 Наглядно сгруппированный статистический ряд представляют в виде гистограммы. Гистограмма — это фигура, составленная из прямоугольников, основаниями которых служат интервалы группировки. Высота i h i -го прямо- угольника определяется по формуле , ..., , 2 , 1 , k i nd n h i i = = где d — длина i -го интервала. Таким образом, высота каждого прямоугольника пропорциональна частоте попадания в данный интервал, а сумма высот равна ∑ ∑ = = = ⋅ = k i k i i i d n nd nd n 1 1 1 1 Гистограмма позволяет оценить вид графика плотности распределения непрерывной случайной величины (рис. 3.2). Почему гистограмму называют статистическим аналогом плотности рас- пределения вероятностей? Это утверждение основано на теореме Бернулли (подраздел 4.1), согласно которой при неограниченном увеличении количества n независимых опытов относительная частота появления события A стремится к вероятности этого события. В нашем случае событием A является попадание в i -й интервал. Плотность распределения характеризует вероятность попада- ния случайной величины в интервал, а гистограмма — относительную частоту, чем больше объем выборки n , тем меньше разница между относительными частотами и вероятностями попадания в малые интервалы. На этом же факте основано использование эмпирической (кумулятивной) функции распределения. В теории вероятностей функция распределения — основная форма описания закона распределения случайной величины — пока- зывает вероятность попадания данной случайной величины X левее фиксиро- ванного значения x : ). ( ) ( x X P x F < = 0 2 4 6 8 10 12 0 '3 '3.3 '3.6 '3.9 '4.2 '4.5 '4.8 Рис. 3.2. Гистограмма для примера 2 х i h 1.11 0 3 3.3 3.6 3.9 4.2 4.5 4.8 41 Статистическим аналогом графика функции распределения является кри- вая накопленных частот. Накопленной частотой x m называется число вари- ант выборки, меньших данного числа х . Для сгруппированного статистическо- го ряда определяется i m — число вариант, меньших правой границы i -го ин- тервала. Относительная накопленная частота — это отношение накопленной частоты i m к объему выборки n (табл. 3.4). Графическое изображение относи- тельных накопленных частот в виде ступенчатой (ломаной) линии называется эмпирической (кумулятивной) функцией распределения (рис. 3.3). Отметим, что эмпирическая функция распределения определена для любых действи- тельных значений х Таблица 3.4 Таблица накопленных частот примера 2 Интер- валы [0;3) [3; 3.3) [3.3; 3.6) [3.6; 3.9) [3.9; 4.2) [4.2; 4.5) [4.5; 4.8) Нако- плен- ные часто- ты 0 4 11 21 26 29 30 Отно- ситель ные накоп- лен- ные часто- ты 0 0.133 0.367 0.7 0.867 0.967 1 х 0 3 3.3 3.6 3.9 4.2 4.5 4.8 n m i 1 Рис. 3.3. Эмпирическая функция распределения для примера 2 42 3.3. Числовые характеристики выборки Гистограмма и эмпирическая функция распределения дают представле- ние об общем виде распределения, но иногда нам требуется указать «типично- го» представителя выборки, т.е. указать, где находится «центр» выборочных данных. В качестве такого «центра» могут использоваться среднее арифмети- ческое, полусумма крайних значений, медиана, мода, геометрическое среднее, гармоническое среднее (табл. 3.5). Таблица 3.5 Средние значения для примера 2 Название Значение Полусумма крайних 3.9 Среднее арифметическое 3.746 Среднее геометрическое 3.725 Среднее гармоническое 3.704 Полусумма крайних значений вычисляется по формуле 2 ) ( ) 1 ( n x x + , где ) 1 ( x — наименьшее, а ) (n x — наибольшее значение выборки. Среднее ариф- метическое обозначается x и вычисляется по формуле ∑ ∑ = = = = n i k j j j i x n n x n x 1 1 , 1 1 где n — объем выборки, а j n — частота варианты j x . Если выборка сгруп- пирована, то неизвестно, какие именно варианты попали в j -й интервал ). ; [ 1 + j j a a Тогда частоту интервала j n умножают на середину интервала 2 1 j j a a + + Конечно, при этом получается ошибка, но при больших значениях n она невелика: ведь в среднем половина вариант, попавших в интервал ) ; [ 1 + j j a a будет меньше числа ( ) , 2 1 1 j j a a + + а половина — больше, поэтому ошибки компенсируют друг друга. Геометрическое среднее есть корень n -й степени из произведения n вы- борочных значений n n x x x ⋅ ⋅ ⋅ 2 1 и рекомендуется для усреднения после- довательности дробей. Гармоническое среднее есть величина, обратная к среднему арифметиче- скому величин, обратных выборочным значениям. Гармоническое среднее используется для усреднения последовательности скоростей на одинаковых дистанциях. 43 В теории вероятностей модой М дискретной случайной величины назы- вается ее значение, которое имеет максимальную вероятность. Модой непре- рывной случайной величины называется такое ее значение, при котором дос- тигается максимум плотности распределения ). (x f Закон распределения на- зывается унимодальным, если мода единственна. В математической статисти- ке мода ∧ M определяется по выборке, как варианта с наибольшей частотой. Для выборки примера 1 мода 0 = ∧ M Если выборка сгруппирована, то сначала определяют модальный интер- вал, т.е. интервал с наибольшей частотой. В качестве моды можно взять сере- дину модального интервала. Для выборки примера 2 середина модального интервала равна 3.75 (рис. 3.2). В теории вероятностей медианой непрерывной случайной величины Х называется такое число , 5 0 x что 5 0 ) ( ) ( 5 0 5 0 = > = < x x P x x P Соответст- венно, по выборке находят приближенное значение медианы — число x такое, что половина вариант выборки меньше этого числа, а половина — больше него. Работая со сгруппированной выборкой, вначале находят медианный ин- тервал ) ; [ 1 + j j a a такой, что относительная накопленная частота для j a мень- ше 0.5, а для 1 + j a — больше 0.5. В примере 2 таким интервалом является ин- тервал [3,6; 3.9) (табл. 3.4). В качестве медианы можно взять середину этого интервала: 75 3 5 0 = ∧ x Медиана делит выборку на две части: половина вариант меньше медиа- ны, половина — больше. Можно найти три числа , , , 3 2 1 q q q которые анало- гичным образом делят выборку на четыре равные части. Эти числа называются квартилями. Число 2 q совпадает с медианой, 1 q называется нижней, а 3 q — верхней квартилью. В теории вероятностей квартилями непрерывной случай- ной величины Х называются значения , , , 75 0 5 0 25 0 x x x определяемые из ус- ловия (рис. 1.4): 25 0 ) ( ) ( ) ( ) ( 75 0 75 0 5 0 75 0 25 0 25 0 = < = = < < = < < = < x X P x X x P x X x P x X P Точно так же можно найти девять чисел , ..., , , 9 2 1 c c c которые разбива- ют выборку на десять равных частей. Эти числа называются |