17. Нормальный закон распределения. Свойства, примеры, использование. Рис.1 Для описания распределения непрерывных случайных величин наиболее часто используют нормальное распределение или закон Гаусса. Многие случайные величины, фор-мирование значений которых определяется большим количеством неконтролируемых факторов, каждый из которых вносит относительно небольшой вклад, имеют распределение, близкое к нормальному. Непрерывная случайная величина называется распределенной по нормальному закону ( закону Гаусса), если ее плотность вероятности имеет вид: Рис.2 где - математическое ожидание; 2 - дисперсия; - среднее квадратичное отклонение случайной величины. График плотности вероятности нормального закона распределения ( кривая Гаусса) симметричен относительно вертикальной прямой Xmax= . В точке Xmax = функция f(X) имеет максимум равный Ymax = 1 / ( 2 ). Ось абсцисс является асимптотой графика этой функции, т.к. функция f(X) стремится к 0 при x Рис.3 Пример 3. Вероятность пропустить ошибку редактором при работе со страницей рукописи равна 1%. Редактор работает с рукописью в 200 страниц. Найти закон распределения, математическое ожидание, дисперсию числа пропущенных ошибок редактором. Какова вероятность того, что редактор пропустит не менее четырех ошибок в данной рукописи? Решение. Пусть СВ X – число ошибок, пропущенных редактором при работе с 200 страницами. По условию задачи n 200, p 0,01. Так как n велико, p мало, npq 1,98 10, то можно считать, что СВ распределена по Рис.4
18.Понятие нормированного нормального распределения. Расчет вероятности попадания в заданный интервал в случае нормального распределения с использованием табличных значений функции Ф(u). Нормированным (или стандартизованным) нормальным распределением называется нормальное распределение с параметрами m = 0 и s = 1. Известно, что если случайная величина X распределена нормально с параметрами m и s, то величина Z = (X – m)/s также распределена нормально, но с параметрами m = 0, s = 1 (то есть Z N(0; 1)). Нормирование распределения ведет просто к перенесению начала координат в центр распределения, то есть к «центрированию», и к масштабированию оси абсцисс в долях s. Функция плотности распределения вероятностей стандартного распределения Рис.1 Вероятность попадания в интервал нормально распределенной случайной величины Заданы математическое ожидание а и среднее квадратическое отклонение σ нормально распределённой случайной величины X. Требуется найти:а) вероятность того, что X примет значение, принадлежащее интервалу (a , b );б) вероятность того, что абсолютная величина отклонения X-а окажется меньше d. Нормально распределенные непрерывные случайные величины встречаются в практических задачах чаще всего. Это связано, в частности, с Центральной предельной теоремой Ляпунова, которая утверждает, что если случайная величина порождена несколькими примерно равными по силе причинами, то она становится нормально (или почти нормально) распределенной. Рис.2 Плотность (дифференциальная функция) нормального распределения равна , т.е. зависит от двух параметров: математического ожидания a и среднего квадратического отклонения σ. Рис.3 Интегральная функция нормального распределения связана с функцией Лапласа , значения которой берутся из таблиц (см.ниже). Для вычисления вероятности того, что нормально распределенная случайная величина X будет принимать значения в промежутке (α β) используется формула Рис.4
19. Симметричные и несимметричные распределения непрерывных случайных величин (примеры). Понятие моды, медианы, среднего, их использование. Симметричным является распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений имеет место равенство средней арифметической, моды и медианы. Степень асимметрии кривой плотности распределения можно оценить с помощью показателя (коэффициента) асимметрии. Асимметрия распределения возникает вследствие того, что какие-либо факторы действуют в одном направлении сильнее, чем в другом, или процесс развития явления таков, что доминирует какая-то причина. Кроме того, природа некоторых явлений такова, что имеет место асимметричное распределение. Наиболее простой мерой асимметрии является разность между средней арифметической, модой и медианой: · в симметричном ряду: = Мо = Ме; · при правосторонней асимметрии: Мо < Ме < ; · при левосторонней: Мо > Ме > . Мода (Mo) представляет собой значение изучаемого признака, повторяющееся с наибольшей частотой, т.е. мода – значение признака, встречающееся чаще всего. Медианой (Me) называется значение признака, приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. медиана – центральное значение вариационного ряда. Генеральное среднее дискретной генеральной совокупности – это среднее арифметическое всех значений, изучаемого признака X в генеральной совокупности: 20. Генеральная и выборочная совокупности. Структура выборочного метода. Варианты и их частоты. Генеральная и выборочная совокупности. Статистическая совокупность – это множество объектов, характеризуемых некоторым количественным или качественным признаком. Генеральная статистическая совокупность - это статистическая совокупность, состоящая из всех объектов которые характеризуются некоторым количественным или качественным признаком и подлежат обследованию. Выборочная статистическая совокупность (выборка) – это статистическая совокупность, состоящая из некоторого количества объектов, случайным образом отобранная из генеральной статистической совокупности. Случайность отбора необходима для репрезентативности выборки, т.е. чтобы выборочная совокупность была представительной и свойства выборочной совокупности наилучшим образом отражали свойства генеральной совокупности. Множество результатов измерений х1, х2, …, хn величины Х называется выборкой объема n. Свойства выборочной статистической совокупности являются приближенными оценками свойств генеральной статистической совокупности. Структура выборочного метода: 1) Создание выборки. 2) Выявление свойств выборочной статистической совокупности и получение оценок ГС. 3) Определение величины ошибки, в полученных оценках ГС. Репрезентативные (представительные) выборки. Репрезентативная выборка - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности. Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной. Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов. Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности. Выборочная (эмпирическая) функция распределения F(x) дает при большом объеме выборки достаточно хорошее представление о функции распределения F(x) исходной генеральной совокупности. 21. Дискретные вариационные ряды. Полигон частот и полигон относительных частот. Для систематизации сведений о выборке используются статистические ряды распределения ( вариационные ряды). В таком ряду количественно изменяющийся признак носит название варьирующего, а отдельные его количественные выражения называются вариантами. Рис.1 Числа, показывающие, как часто встречается та или иная варианта в составе данного ряда, носят название частот. Ряд, в котором сопоставлены варианты и соответствующие этим вариантам частоты и который, следовательно, показывает распределение изучаемой совокупности по величине какого-либо варьирующего признака, носит название вариационного ряда (распределение призывников по росту, новорожденных по весу и т.п.). Вариационный ряд используется для построения эмпирической функции распределения Пусть имеется выборка объемом п, наименьшее значение x1 признака Х встречается m1 раз, следующее по величине значение х2 — т2 раз, ... , хk – тk раз. Тогда значения признака х1, х2 …. хk называют вариантами, а числа m1, т2, … тk, — их частотами. Сумма всех частот будет равна объему выборки: n i =1 + m2 +… + mk = mi = n . А отношение pi = mi / n , сумма которых равна единице называется относительной частотой элемента . Рис.2 Результаты наблюдений можно представить статистическим дискретным рядом распределения в виде таблицы, первая строка которой содержит в порядке возрастания элементы xi (варианты), а вторая -их частоты mi . Его графическим изображением является полигон частот: Рис.3 Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х2, а на оси ординат – соответствующие им частоты пi. Точки соединяют отрезками и получают полигон частот. Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты хi, а на оси ординат соответствующие им частоты wi. Точки соединяют отрезками и получают полигон относительных частот Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1. Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот: Рис.4
22. Интервальные вариационные ряды. Построение гистограммы. В случае, когда количество вариант в выборке достаточно большое или Х- непрерывная случайная величина с неизвестной плотностью вероятности, результаты могут быть представлены в виде с татистического интервального ряда распределения. Для построения интервального ряда всю область значений признака X разбивают на небольшое количество равных по величине интервалов. Далее определяют количество значений признака Х, попадающих в каждый интервал, т.н. частоту интервала. Например, пусть все значения признака X принадлежат интервалу (a,b). Разделим этот интервал на k равных частей (частичных интервалов) длиной х = (b - a)/ k каждый и обозначим точки деления: х0=а, x1, х2, ..., хk-1, xk=b. Пусть частоты интервалов равны соответственно т1, т2, ..., тk -1, тk . Можно составить таблицу, в одной строке которой перечисляются все частичные интервалы, а в другой — соответствующие им частоты Статистическим интервальным рядом распределения называется таблица в которой одна строка содержит границы интервалов, а вторая значения частот mi, или значения относительных частот pi= mi/n. Графическим изображением такого ряда распределения является гистограмма относительных частот. Гистограммой частот называется фигура, состоящая из прямоугольников, основаниями которых служатчастичные интервалы длиной Dх, а высотами - плотности частот, т.е. отношения — mi / Dх. В случае гистограммы относительных частот огибающая графика имеет смысл эмпирической плотности вероятности распределения. 23. Точечные и интервальные оценки параметров распределения по данным выборки. Точечныеиинтервальныеоценкипараметровраспределенияподаннымвыборки. Важность эмпирических характеристик заключается в том, что они близки (при достаточно большом n ) к соответствующим теоретическим значениям. Точечные оценки Точечная оценка характеристики распределения определяется одним числом (точкой на числовой оси) которому приближенно равна оцениваемая характеристика Рис.1 Т.е. справедливо приближенное равенство: σ2 ≈ s2, При малом объеме выборки ( n ≤ 30) пользуются исправленной выборочной дисперсией; при больших n ( n > 30) практически безразлично, какой из двух оценок пользоваться. Генеральное среднее квадратическое отклонение σ – это корень квадратный из генеральной дисперсии: 𝜎(Х) = √𝐷(Х) Выборочное среднее квадратическое отклонение - это корень квадратный из выборочной дисперсии: 𝑠 = √𝑠2 Наилучшей оценкой генерального среднего квадратического отклонения является исправленное выборочное среднее квадратическое отклонение. Интервальные оценки В ряде случаев требуется не только найти для параметров распределения подходящее численное значение, но и оценить его надежность и точность. Требуется знать - к каким ошибкам может привести замена его точечной оценкой, и с какой уверенностью можно ожидать, что ошибки не выйдут за известные пределы. Чтобы дать представление о точности и надежности оценки, в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями. Т. Е. ответ задается не единственным числом, а в виде интервала на числовой прямой, который содержит значение оцениваемой характеристики.
24. Распределение Стьюдента, использование распределения Стьюдента. Распределение Стьюдента. Для нахождения доверительного интервала используются свойства распределения Стьюдента для случайной величины Т. Пусть независимые случайные величины, Обозначим выборочное среднее этой выборки, а S2 её выборочную дисперсию. Тогда случайная величина: Рис.1 будет подчиняться распределению Стьюдента. Иногда знаменатель этой формулы называют: исправленное среднее квадратическое отклонение средней выборочной 𝒔𝒙=s/√𝒏. Рис.2 В этом случае полуширину доверительного интервала для интервальной оценки генеральной средней находят по формуле Стьюдента: 𝜟𝒙=𝒕𝜸(𝒇)𝒔𝒙 где f=n-1- число степеней свободы распределения Стьюдента. Распределение Стьюдента по сути представляет собой сумму нескольких нормально распределенных случайных величин. Чем больше величин, тем больше верятность, что их сумма будет иметь нормальное распределение. Таким образом, количество суммруемых величин определяет важнейший параметр формы данного распредения - число степеней свободы. Для нормального распределения (а распределение выборочных средних как раз и является нормальным) известно, какая часть совокупности попадает в любой интервал вокруг среднего значения. В частности (правило трех сигм -3σ): •67% всех выборочных средних попадут в интервал𝒙 ± 𝝈; •95%–в интервал𝒙 ± 𝟐𝝈; • 99,7% – в интервал 𝒙 ± 𝟑𝝈; На практике для построения доверительного интервала берется, как минимум, удвоенная ошибка выборки, чтобы обеспечить уверенность не менее 95%.
25. Доверительный интервал и доверительная вероятность. Доверительный интервал и доверительная вероятность. Доверительным называется интервал, который с заданной надежностью γ покрывает оцениваемый параметр, используется для оценки математического случайной величины X, распределенной по нормальному закону, при известном среднем квадратическом отклонении. Надежность (доверительная вероятность) γ – это степень уверенности в том, что доверительный интервал действительно будет содержать истинное значение параметра в генеральной совокупности. Доверительная вероятность зависит от величины интервала: чем шире интервал, тем выше вероятность, что в него попадет искомое неизвестное значение параметра генеральной совокупности. Чаще всего γ задают равной 95%, и уже после ее задания находят доверительный интервал. 26. Использование статистических критериев, основанных на свойствах распределений случайных величин. Понятия нулевой и альтернативной гипотезы. Понятие уровня значимости. Ошибки первого и второго рода. Статистические критерии двухмерных случайных величин Гипотеза об отсутствии корреляционной зависимости. Предполагается, что двухмерная случайная величина ( X, Y) распределена по нормальному закону. Алгоритм проверки следующий. 1. Формулируется гипотеза: H0: R X Y = 0 ; H1: R X Y ≠ 0 . Здесь R XY - теоретический коэффициент корреляции. 2.Вычисляется оценка коэффициента корреляции R * XY по формуле (16.6) 3.Если объем выборки не велик ( n < 50 ), определяется значение критерия который распределен по закону Стьюдента с ( n-2) степенями свободы, если гипотеза H0 верна. 4. По заданному уровню значимости α вычисляется доверительная вероятность |