Лабораторная работа 1. Лабораторная работа 1 uкритерий МаннаУитни равен 208

Название	Лабораторная работа 1 uкритерий МаннаУитни равен 208
Дата	04.12.2022
Размер	153.54 Kb.
Формат файла
Имя файла	Лабораторная работа 1.docx
Тип	Лабораторная работа #827743

Лабораторная работа 1
U-критерий Манна-Уитни равен 208

Нет данных о критических значениях U-критерия Манна-Уитни при заданной численности сравниваемых групп
Лабораторная работа 3.1
Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.
Проверим нулевую гипотезу H₀: равенство средних значений х.
Находим f_набл.

Для уровня значимости α=0.05, чисел степеней свободы 2 и 87 находим f_кр из таблицы распределения Фишера-Снедекора.
f_кр(0.05; 2; 87) = 3.07
В связи с тем, что f_набл > f_кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем (нулевую гипотезу о равенстве групповых средних отвергаем). Другими словами, групповые средние в целом различаются значимо.
Лабораторная работа 3.2
Корреляционный анализ.

Уравнение парной регрессии.
Использование графического метода.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e_i – наблюдаемые значения (оценки) ошибок ε_i, a и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε_i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x_i и y_i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).
Формально критерий МНК можно записать так:
S = ∑(y_i - y^*_i)² → min
Система нормальных уравнений.
a·n + b·∑x = ∑y
a·∑x + b·∑x² = ∑y·x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

x	y	x²	y²	x*y
42	2.8	1764	7.84	117.6
23	4	529	16	92
31	3.2	961	10.24	99.2
35	3.9	1225	15.21	136.5
16	4.7	256	22.09	75.2
26	4	676	16	104
39	3.4	1521	11.56	132.6
19	4.4	361	19.36	83.6
29	3.8	841	14.44	110.2
260	34.2	8134	132.74	950.9

Для наших данных система уравнений имеет вид
9a + 260·b = 34.2
260·a + 8134·b = 950.9
Домножим уравнение (1) системы на (-28.889), получим систему, которую решим методом алгебраического сложения.
-260a -7511.14 b = -988.004
260*a + 8134*b = 950.9
Получаем:
622.86*b = -37.104
Откуда b = -0.05956
Теперь найдем коэффициент «a» из уравнения (1):
9a + 260*b = 34.2
9a + 260*(-0.05956) = 34.2
9a = 49.686
a = 5.5207
Получаем эмпирические коэффициенты регрессии: b = -0.05956, a = 5.5207
Уравнение регрессии (эмпирическое уравнение регрессии):
y = -0.05956 x + 5.5207
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов β_i, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
1. Параметры уравнения регрессии.
Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

a = y - b·x = 3.8 - (-0.05956)·28.889 = 5.5207

1.1. Коэффициент корреляции.
Ковариация.

cov(x,y) = x·y - x·y = 105.656 - 28.889·3.8 = -4.12

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < r_xy < 0.3: слабая;
0.3 < r_xy < 0.5: умеренная;
0.5 < r_xy < 0.7: заметная;
0.7 < r_xy < 0.9: высокая;
0.9 < r_xy < 1: весьма высокая;
В нашем примере связь между признаком Y и фактором X высокая и обратная.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = -0.0596 x + 5.521
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = -0.0596 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -0.0596.
Коэффициент a = 5.521 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R²= -0.892² = 0.7949
т.е. в 79.49% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 20.51% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

x	y	y(x)	(y_i-y_cp)²	(y-y(x))²
42	2.8	3.019	1	0.048
23	4	4.151	0.04	0.0227
31	3.2	3.674	0.36	0.225
35	3.9	3.436	0.01	0.215
16	4.7	4.568	0.81	0.0175
26	4	3.972	0.04	0.00078
39	3.4	3.198	0.16	0.0409
19	4.4	4.389	0.36	0.000121
29	3.8	3.793	0	4.4E-5
260	34.2	34.2	2.78	0.57

2. Оценка параметров уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S² = 0.0815 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии).

S = 0.29 - стандартная ошибка оценки.
Стандартная ошибка регрессии рассматривается в качестве меры разброса данных наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки регрессии, тем качество модели выше.
S_a - стандартное отклонение случайной величины a.

S_b - стандартное отклонение случайной величины b.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н₀ о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.
Проверим гипотезу H₀ о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H₁ не равно) на уровне значимости α=0.05.
H₀: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H₁: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).
Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.
t_крит(n-m-1;α/2) = t_крит(7;0.025) = 2.841

Поскольку 5.21 > 2.841, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 16.06 > 2.841, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t_крит S_b; b + t_крит S_b)
(-0.0596 - 2.841*0.0114; -0.0596 + 2.841*0.0114)
(-0.0921;-0.0271)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - t_крит S_a; a + t_крит S_a)
(5.521 - 2.841*0.344; 5.521 + 2.841*0.344)
(4.544;6.497)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Коэффициент детерминации R² используется для проверки существенности уравнения линейной регрессии в целом.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k₁=(m) и k₂=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H₀: R²=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

или по формуле:

где

∑(y_x - y)² = 2.78 - 0.57 = 2.2097

где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
F_табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k₁=1 и k₂=7, F_табл = 5.59
Поскольку фактическое значение F > F_табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

Дисперсионный анализ.
При анализе качества модели регрессии используется теорема о разложении дисперсии, согласно которой общая дисперсия результативного признака может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(y_i - y_cp)² = ∑(y(x) - y_cp)² + ∑(y - y(x))²
где
∑(y_i - y_cp)² - общая сумма квадратов отклонений;
∑(y(x) - y_cp)² - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y - y(x))² - остаточная сумма квадратов отклонений.

Источник вариации	Сумма квадратов	Число степеней свободы	Дисперсия на 1 степень свободы	F-критерий
Модель (объясненная)	2.21	1	2.21	27.124
Остаточная	0.57	7	0.0814	1
Общая	2.78	9-1

Показатели качества уравнения регрессии.

Показатель	Значение
Коэффициент детерминации	0.7949
Средний коэффициент эластичности	не был рассчитан
Средняя ошибка аппроксимации	не был рассчитан

Выводы.
Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 79.49% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1 ед.изм. приводит к уменьшению Y в среднем на 0.0596 ед.изм.