Лабораторная работа 1 Статистическое описание результатов наблюдений. Числовые оценки выборочного распределения. Интервальные оценки для математического ожидания и дисперсии. Проверка гипотезы о виде распределения
![]()
|
Теория вероятностей и математическая статистика Лабораторная работа № 1 « Статистическое описание результатов наблюдений. Числовые оценки выборочного распределения. Интервальные оценки для математического ожидания и дисперсии. Проверка гипотезы о виде распределения» 1. Получите выборку из ![]() 2. Постройте вариационный ряд (упорядочите элементы выборки по величине). При этом можно использовать соответствующую команду на панели инструментов Excel. 3 .Представьте выборку в виде группированного статистического ряда (с.178- 181) определите размах выборки ![]() определите число интервалов группировки одним из способов: а) Способ 1: выбираете число интервалов ![]() ![]() ![]() Определите границы интервалов группировки ![]() Найдите середину каждого интервала ![]() Определите частоты ![]() ![]() Найдите накопленные частоты ![]() ![]() Найдите относительные частоты ![]() Найдите относительные накопленные частоты ![]() ![]() Представляем выборку графически строим полигон частот- ломаную с вершинами в точках ( ![]() строим полигон относительных частот- ломаную с вершинами в точках ( ![]() строим гистограмму - кусочно-постоянную функцию, которая на каждом интервале группировки принимает значение ![]() ![]() Полигон относительных частот является статистическим аналогом функции плотности вероятности. Гистограмма и полигон частот отличаются от указанной характеристики растяжением в ![]() ![]() 5. Определяем основные числовые характеристики выборочного распределения Оценкой математического ожидания является выборочное среднее ![]() если каждый элемент выборки встречается один раз. Если элемент выборки ![]() ![]() ![]() В том случае, если выборка группированная, то вместо элемента выборки в этой формуле берут середину интервала, а за частоту берут число элементов, попадающих в данный интервал. Выборочная дисперсия ![]() Если каждый элемент выборки встречается только один раз ![]() ![]() ![]() Для выборок малого объема несмещенную (исправлннную) дисперсию следует вычислять по формуле ![]() Если частота каждого элемента ![]() ![]() Для группированных выборок в этой формуле нужно использовать середину интервала и число элементов, попадающих в этот интервал. (Таблица пример выдачи данных) Пример выдачи данных: Интервальные оценки ( доверительные интервалы) параметров распределения Доверительным интервалом называют интервал, содержащий истинное значение параметра с заданной вероятностью ![]() В тех случаях, когда дисперсия генеральной совокупности неизвестна, а получена ее оценка по указанным выше формулам, доверительный интервал для математического ожидания имеет вид: ![]() Здесь ![]() ![]() Здесь ![]() Доверительный интервал для дисперсии в том случае, если математическое ожидание неизвестно, а оценки получены по выборке, находим согласно соотношению ![]() Здесь ![]() ![]() ![]() Проверка гипотезы о виде распределения генеральной совокупности На следующем этапе работы по виду полигона частот (гистограммы ) и полученным значениям числовых характеристик выдвигаем гипотезу о виде распределения генеральной совокупности и проверяем соответствие данной гипотезы эмпирическим данным. После того, как выдвинули гипотезу, находим теоретические частоты, соответствующие предполагаемому распределению: ![]() По виду гистограммы и полигона частот выдвигаем гипотезу : Выборка получена из нормально распределенной генеральной совокупности. Этот закон имеет два параметра, оценки которых находим по выборке: ![]() ![]() ![]() ![]() ![]() Полученные теоретические частоты наносим на полигон частот. Если согласие между эмпирическими и предполагаемыми теоретическими частотами визуально достаточно хорошее, то проводим проверку выдвинутой гипотезы по критерию ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Если выполняется условие ![]() ![]() ![]() ЛАБОРАТОРНАЯ РАБОТА № 2. ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Коэффициент корреляции двух случайных величин определяет степень линейной корреляционной зависимости между ними ![]() ![]() ![]() Выборочный коэффициент корреляции служит оценкой коэффициента корреляции и определяется выражением![]() ![]() Можно непосредственно вычислять коэффициент по этой формуле, но удобнее выполнять действия по следующему алгоритму (стр. 196-198 или учебное пособие [2] ) . Полученное при помощи средств EXCEL значение коэффициента корреляции данных массивов равно ![]() ![]() ШАГ 5. Проверяем гипотезу о статистической значимости выборочного коэффициента корреляции (стр. 265-266) Выдвигаем основную гипотезу ![]() ![]() ![]() ![]() ![]() Выбрав уровень значимости ![]() ![]() ![]() Основная гипотеза принимается, если выполняется соотношение ![]() ![]() В рассматриваемом случае ![]() ![]() 2. НАХОЖДЕНИЕ ПАРАМЕТРОВ УРАВНЕНИЯ ЛИНЕЙНОЙ РЕГРЕССИИ ПО МЕТОДУ НАИМЕНЬШИХ КВАДРАТОВ ( стр. 291- 298 ) Пусть коэффициент корреляции между двумя случайными величинами значимо отличается от нуля и близок к единице. Предполагаем ( выдвигаем гипотезу ) , что эти случайные величины связаны « в среднем» линейной зависимостью : ![]() ![]() РЕГРЕССИЯ – оптимальная зависимость, то есть модель, обеспечивающая аппроксимацию эмпирических данных с наибольшей точностью. Справедливо соотношение ![]() Коэффициенты ![]() ![]() ![]() Для нахождения оценок параметров модели используем метод наименьших квадратов. Согласно этому методу в качестве оценок параметров выбирают такие, которые обеспечивают минимум суммы квадратов отклонений наблюдаемых значений случайных величин от их математических ожиданий. Другими словами параметры должны быть такими, чтобы сумма ![]() ![]() ![]() ![]() В результате для нахождения оценок получаем систему уравнений: ![]() Решение системы имеет вид : ![]() ![]() Аналогично находим оценки ![]() ![]() СВОЙИ ГРАФИК
имеем оценки СВОИ ОЦЕНКИ ![]() И уравнения регрессии имеют вид ![]() Достаточно легко написать программу для получения оценок по методу наименьших квадратов как для линейной , так и для других зависимостей. Но существует много готовых программных средств, решающих эту задачу. Так средства EXCEL позволяют непосредственно получить уравнение линейной регрессии по рядам данных: ![]() Регрессионная модель называется адекватной, если предсказанные по ней значения переменной ![]() Непосредственный анализ остатков, то есть разностей между наблюдаемыми значениями ![]() ![]() ![]() Если модель адекватна, то остатки, которые являются реализациями случайных ошибок наблюдений, должны быть нормально распределенными случайными величинами с нулевым средним и одинаковыми дисперсиями ![]() ![]() ![]() Пример построения прямой регрессии в Excel. ![]() ![]() Данные описательной статистики для случайной величины “остатки” СВОИ ВСТАВЛЯЕМ
Из приведенных зависимостей и расчетов видно, что предложенная регрессионная модель адекватна: остатки распределены около нулевого среднего. Значение стандартной ошибки ![]() ![]() ![]() Статистическую значимость регрессионной модели можно проверить по коэффициенту регрессиии ![]() Линейная регрессионная модель называется незначимой, если параметр ![]() ![]() ![]() СПОСОБ 2 . Находим границы доверительного интервала для параметра ![]() ![]() Если для данного уровня значимости доверительный интервал содержит значение ![]() Например : ![]() ![]() Таким образом, на заданном уровне значимости нулевое значение параметра не попадает в доверительный интервал и регрессия признается статистически значимой Полезной и важной характеристикой линейной регрессии является коэффициент детерминации ![]() ![]() Этот коэффициент показывает долю разброса результатов наблюдений около средего значения случайной величины ![]() ![]() ![]() ![]() Ниже приведена выдача из Excel: ![]() ![]() ![]()
|