парная регрессия. Парная регрессия. ЛекцияРегрессионный анализ
Скачать 1.01 Mb.
|
Лекция Регрессионный анализ 2 Примеры применение регрессионного анализ Связь между переменными может быть положительная, отрицательная или отсутствует. ➢ Моделирование числа поступивших в университет для лучшего понимания факторов, удерживающих детей в том же учебном заведении. ➢ Моделирование потоков миграции в зависимости от таких факторов как средний уровень зарплат, наличие медицинских, школьных учреждений, географическое положение… ➢ Моделирование дорожных аварий как функции скорости, дорожных условий, погоды и т.д., ➢ Моделирование потерь от пожаров как функции от таких переменных как количество пожарных станций, время обработки вызова, или цена собственности. Суть регрессионного анализа заключается в нахождении наиболее важных факторов, которые влияют на зависимую переменную. 3 Термины и концепции регрессионного анализа Определение: Уравнение, отражающее зависимость между математическим ожиданием (условного распределения) одной переменной и соответствующими значениями другой переменной, называется регрессионным уравнением. Таким образом, регрессионное уравнение может быть записано в виде где М(у/х) — условное математическое ожидание случайной переменной у при заданном значении х. В частности, для i-го заданного значения уравнение регрессии записывается в виде: Регрессионное уравнение есть некая регулярная часть зависимости между у и х, фактически наблюдаемое значение , состоит из этой регулярной части и случайной компоненты : Наличие случайной компоненты обусловлено двумя причинами: • любая регрессионная модель является упрощением действительности. (на самом деле существуют другие факторы, от которых также зависит переменная Yi); • присутствуют ошибки измерения показателей. 4 ) ( i x f x y M = ) ( ) / ( i i x f x y M = i i i i x y M y + = ) / ( Термины и концепции регрессионного анализа ➢ Зависимая переменная(Y) —это переменная, описывающая процесс, который мы пытаемся предсказать или понять. ➢ Независимые переменные (X) это переменные, используемые для моделирования или прогнозирования значений зависимых переменных. В уравнении регрессии они располагаются справа от знака равенства и часто называются объяснительными переменными. Зависимая переменная -это функция независимых переменных. ➢ Коэффициенты регрессии —это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой. ➢ Невязки. Существует необъяснимое количество зависимых величин, представленных в уравнении регрессии как случайные ошибки. 5 Последовательность этапов регрессионного анализа 1) Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений. 2) Определение зависимых и независимых (объясняющих) переменных. 3) Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель. 4) Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная). 5) Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии) 6) Оценка точности регрессионного анализа. 7) Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов. 8) Предсказание неизвестных значений зависимой переменной. 6 Однофакторная линейная регрессия Определение: Однофакторным линейным регрессионным уравнением называется статистическая связь между зависимой переменной y и независимым фактором (регрессором) х, представленная в виде линейной зависимости. или Здесь a и b неизвестные подлежащие оценке параметры регрессии. Случайная компонента определяется как где: - расчетные значения, - фактические значения. и оцененные значения коэффициентов a и b. 7 + + = bx a y i i i bx a y + + = i i i y y ˆ − = i i x b a y + = ˆ ˆ ˆ i y ˆ i y a ˆ bˆ Однофакторная линейная регрессия имеет вид: Интерпретация коэффициентов регрессии: b – это коэффициент регрессии, показывающий насколько (как) в среднем изменится y при увеличении или уменьшении x на 1. Если b > 0, то наблюдается прирост y при увеличении x на единицу. Если b < 0, то наблюдается уменьшение y при увеличении x на единицу. Коэффициент а – свободный член уравнения регрессии (константа), обычно «экономического» смысла он не имеет, но иногда его интерпретируют как начальное значение y, значение у при х=0. Свободный член регрессии а показывает величину зависимой переменной, при условии, что независимая переменная равна 0. Коэффициент регрессии и свободный член – размерные величины, их абсолютные значения зависят от единиц измерения зависимой и независимой переменной. В случае если переменная х – время, рассматривается временной (динамический) ряд. Однофакторная линейная регрессия + + = bx a y 8 Линейные и нелинейные регрессии. Линейная регрессия Нелинейная регрессия 9 Наиболее распространенные виды функций и их преобразование 10 Метод наименьших квадратов Для того, чтобы теоретическая прямая лежала в непосредственной близости от фактических наблюдений Y i необходимо минимизировать сумму квадратов отклонений между фактическими и расчетными значениями : Запишем необходимое условие экстремума: или Раскрывая скобки, получим стандартную форму нормальных уравнений: Разрешая систему относительно 11 i i X b a y ˆ ˆ ˆ + = min ) ˆ ˆ ( ) ˆ ( 1 2 1 2 − − = − = = = n i i i n i i i x b a y y y F = = ; 0 ˆ 0 ˆ b F a F = = = − − − = = − − − = n i i i t n i i i X b a Y X b F X b a Y a F 1 1 0 ) ˆ ˆ ( 2 0 ) ˆ ˆ ( 2 = = = − − = − − n i i i i n i i i X b a Y X X b a y 1 1 0 ) ˆ ˆ ( 0 ) ˆ ˆ ( = + = + i i i i i i Y X X b X a Y X b n a 2 ˆ ˆ ˆ ˆ ( )( ) ( ) − = − − = b X n Y n a X X n Y X Y X n b i i i i i i i i ˆ 1 1 ˆ ˆ 2 2 b a ˆ , ˆ Линейная регрессия Модель – уравнение прямой – Y = a + b*X Построение модели – расчет коэффициентов признак X пр изн ак Y - эмпирические значения признака Y - теоретические значения признака Y (“Y с крышечкой”) Прямая должна пройти так, чтобы сумма квадратов отклонений эмпирических значений Y от теоретических была минимальна. Прямая пройдет через точку (Xср, Yср) МНК –метод наименьших квадратов i 12 Проверка адекватности линейной регрессии Определение: Адекватность регрессионного уравнения, это соответствие его реальному моделируемому процессу, достоверность его параметров. Схема проверки адекватности уравнения 1. Анализируются показатели качества подгонки регрессионного уравнения ; 2. Проверяются различные гипотезы относительно параметров регрессионного уравнения ; 3. Проверяется выполнение условий для получения «достоверных» оценок методом наименьших квадратов; 4. Производится содержательный анализ регрессионного уравнения. 13 Проверка качества подгонки Показатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим значениям зависимой переменной у. Эти показатели основываются на Первый показатель — остаточная дисперсия. Для однофакторного уравнения остаточная дисперсия вычисляется по формуле : Чем меньше , тем лучше регрессионное уравнение описывает моделируемый процесс. является размерной величиной и сопоставление регрессионных уравнений, отражающих различные переменные, измеренные в различных единицах измерения, невозможно. Второй показатель — коэффициент детерминации R 2 Коэффициент детерминации вычисляется по формуле : Коэффициент детерминации принимает значения в интервале от 0 до 1. Чем ближе R 2 к единице, тем лучше качество подгонки регрессионного уравнения, так как R 2 приближается к единице при приближении вычитаемой дроби к 0. В свою очередь указанная дробь приближается к нулю при приближении к нулю числителя, то есть при небольших отклонениях фактических и теоретических значений зависимой переменной. На основании R 2 возможно сопоставление различных уравнений. 14 yˆ ( ) = − n i i i y y 1 2 ˆ 2 ) ˆ ( 1 2 2 − − = = n y y n i i i ( ) ( ) = = − − − = n i i n i i i y y y y R 1 2 1 2 2 ˆ 1 2 2 Третий показатель — скорректированный (adjusted) коэффициент детерминации. Скорректирован на число степеней свободы позволяет сравнивать две регрессии, одна из которых является укороченной. Четвертый показатель — средняя ошибка аппроксимации Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше А. Если А<5-7%, то качество модели хорошее. 15 Проверка различных гипотез относительно параметров уравнения. Схема проверки: 1. Проверка гипотеза о том, что линейная связь между x и y не подтверждается. 2. Проверка гипотез относительно параметров регрессионного уравнения. 16 Проверка гипотеза о том, что линейная связь между x и y не подтверждается Отсутствие связи можно изучить на основе отклонений расчетных значений от среднего арифметического значения и отклонения расчетных значений от фактических значений . Близкое к нулю значение свидетельствует об отсутствии какой-либо тенденции для в связи с изменением x. Н 0 : , (т.е. линейная связь между x и y отсутствует); H 1 : , (т.е. наличие линейной связи). Рассчитываем значение F-статистики F табл = - табличное значение распределения Фишера для вероятности p и степеней свободы m 1 =1, m 2 =n-2. принимаем H 0 с вероятностью p; отвергаем H 0 в пользу H 1 с вероятностью p. 17 i yˆ y i yˆ ( ) = − n i i y y 1 2 ˆ i y i y 2 2 2 2 ) ˆ ( ) 2 ( ) ˆ ( ) ˆ ( − = − − − = y y n y y y y F i i i i расч 0 ˆ ˆ = = b a 0 ˆ ˆ 2 2 + b a расч табл F F расч табл F F p n F 2 , 1 − Проверка гипотез относительно параметров регрессионного уравнения 18 Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменениями x. Н 0 : , (т.е. фактор х незначим); H 1 : , (т.е. фактор х значим). t-статистика считается по формуле: где — стандартная ошибка коэффициента b, вычисляемая по формуле: По общей процедуре проверки гипотез находим (в таблице Стьюдента) с заданным уровнем значимости α (вероятностью р=1-α) и степенями свободы v=n-2. Если , то с заданной вероятностью гипотезу b=0 отвергаем. Аналогично проверяется гипотеза о значимости свободного члена а в уравнении регрессии, где 0 ˆ = b 0 ˆ b b b b b b t ˆ ˆ = − = b ( ) ( ) ( ) = = − − − = n i i n i i i b x x n y y 1 2 1 2 2 ˆ табл t табл расч t t ( ) ( ) ( ) = = − − − = n i i n i i i a y y n y y 1 2 1 2 2 ˆ Проверка достоверности оцененных параметров регрессионного уравнения Возможность применения регрессионного уравнения определяются достоверностью оцененных параметров модели или, по другому, «хорошими» свойствами оценок коэффициентов регрессии: несмещенностью, состоятельностью и эффективностью оценок. Параметры регрессионного уравнения, полученные методом наименьших квадратов, являются достоверными тогда и только тогда, когда остаточная компонента ε уравнения удовлетворяет условиям: 1. Остаточная компонента носит случайный характер. 2. -мат. ожидание случайной компоненты равно нулю, 3. - дисперсия случайной компоненты — постоянна, 4. - отсутствует автокорреляция; 5. - нормальность распределения. 19 0 ) ( = i M const D i = = 2 ) ( j i j i = , 0 ) , cov( ) , 0 ( 2 N i Проверка случайности остаточной компоненты 20 Для проверки случайного характера остатков ε строят график зависимости остатков от расчетных значений зависимой переменной Если на графике нет направленности в расположении точек , то остатки ε случайные величины . Если ε зависит от , то остаточная компонента ε не случайна. Остатки – носят систематический характер В этих случаях возможно следовало выбрать в качестве регрессионной связи нелинейную зависимость. yˆ i i yˆ Выполнение предпосылки МНК Проверка условия Выполнение этой предпосылки означает получение несмещенных оценок. В случае, когда значение , для проверки соответствующей предпосылки применяю следующий тест: Н 0 : , (математическое ожидание остатков равно нулю); H 1 : , (математическое ожидание остатков отлично от нуля). Рассчитывается значение критерия где - несмещенное выборочное стандартное отклонение, μ - выборочное среднее. - табличное значение распределения Стьюдента для вероятности p и степени свободы m=n-1. принимаем H 0 с вероятностью p; отвергаем H 0 в пользу H 1 с вероятностью p. 21 0 ) ( = i M ( ) 0 1 = − = n i i i y y ˆ 0 ) ( = i M n t расч = 0 ) ( = i M 0 ) ( i M 1 ) ( 2 − − = n i табл расч t t табл расч t t p n табл t t 1 − = Выполнение предпосылки МНК Проверка условия Выполнение этой предпосылки означает получение эффективных оценок. Определение . Выполнение условия постоянства дисперсии (отсутствие ее роста с ростом независимой переменной) называется гомоскедастичностью В противном случае гетероскедастичностью гетероскедастичность гомоскедастичность 22 const D i = = 2 ) ( 2 ) ( i D 2 ) ( = i D Проверка выполнения условия о постоянстве дисперсии остатков Тест Гольфелда-Квандта 1. упорядочение n наблюдений по мере возрастания переменной x; 2. исключение из рассмотрения C центральных наблюдений, при этом (n-C)/2>p, где p- число оцениваемых параметров; 3. разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессий; 4 определение остаточной суммы квадратов для первой (S 1 ) и второй(S 2 ) групп и нахождение их отношения , где S 1 > S 2 . При выполнении нулевой гипотезы о гомоскедастичности остатков отношение R будет удовлетворять F-критерию c (n-C- 2p)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин. 23 2 1 S S R = Проверка выполнения условия о постоянстве дисперсии остатков Применение теста Гольфелда-Квандта (схема) 1. Все n наблюдений упорядочиваются по величине x j 2. Вся упорядоченная выборка разбивается на три подвыборки: определяем количество отбрасываемых наблюдений из расчета n\6. 3. Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений). 4. Определить остатки (ошибки) для первой и последней группы. 5. Возводим каждую группу остатков в квадрат и суммируем их. 6. Сравниваем две полученные суммы при этом разделим наибольшую из них на наименьшую (это будет F расч ). 7. Определяем F табличное со степенями свободы n 1 =n 1 -2 и n 2 = n 2 -2, где n 1,2 -количество наблюдений в первой и соответственно во второй группе 8. Сравнить F расч c F табл . Если первое меньше второго, то есть рост дисперсии c увеличением независимого фактора (имеется гетероскедостичность) и наоборот. 24 Проверка выполнения условия о постоянстве дисперсии остатков Тест Спирмена. Суть теста заключается в определении наличия связи между ростом остаточной компоненты и ростом независимого фактора, то есть определение роста дисперсии остатков. Проверяется такая зависимость на основе расчета коэффициента ранговой корреляции Спирмена ρ между остатками модели ε и независимым фактором х. Проверка статистической значимости коэффициента Спирмена на основе соответствующего t- критерия аналогична проверке нулевой гипотезы об отсутствии гетероскедастичности в остатках. Существуют и другие тесты для определения гетероскедастичности в остатках, например тест Глейзера, Уайта. 25 Проверка выполнения условия о постоянстве дисперсии остатков Определение: нарушение условия независимости между ошибками для разных наблюдений называется автокорреляцией в остатках. То есть имеется зависимость случайных компонент для наблюдений с различными номерами (i и j). Нарушение условия приводит к получению неэффективных оценок и как следствие невозможности применения полученных моделей в прогнозных целей, в силу ненадежности полученных результатов. Автокорреляцию можно представить в виде авторегрессии различного порядка, так, например, если текущее значение остатков находится в линейной зависимости от предыдущего порядка ( ), то имеет место авторегрессия первого порядка (AR(1)) , если имеет место влияние предпредыдущих значений остатков , то есть то имеет место авторегрессия второго порядка (AR(2) ). Считаем, что номера наблюдений упорядочены по возрастанию номера наблюдения i. 26 i 1 − i 1 − i , i i i i e + + = − − 2 2 1 1 j i j i = , 0 ) , cov( Тест на определение автокорреляции в остатках Тест Дарбина-Уотсона Тест Дарбина-Уотсона: обнаружение автокорреляции остатков вида То есть представленных в виде авторегрессии первого порядка. Н 0 : , (т.е. автокорреляция остатков отсутствует); H 1 : или , (наличие положительной или отрицательной автокорреляции остатков). Расчетное значение статистики Дарбина-Уотсона: - табличные значения распределения Дарбина-Уотсона для степеней свободы n, и вероятности p. Области принятия соответствующих гипотез: и - зона неопределенности При проверке наличия автокорреляции на практике руководствуются простым правилом: расчетное значение D-W, близкое к 2, свидетельствует об отсутствии автокорреляции. Значение близкое к 4 свидетельствует об отрицательной автокорреляции, а близкое к нулю — о положительной. Наличие авторегресии II порядка проверяют с тестом Броша-Годфри. 27 i i i e + = −1 0 = 0 0 2 1 , d d 2 1 d dw d 1 2 4 4 d dw d − − = = − − = n i i n i i i dw 1 2 2 2 1 ) ( Условие нормальности остатков Нарушение условия приводит к получению несостоятельных оценок, и как следствие приводящих к ненадежным прогнозам. Критерий Колмогорова-Смирнова Н 0 : , где - функция нормального распределения (распределение остатков согласуется с нормальным распределением); H 1 : , (распределение остатков не согласуется с нормальным распределением). принимаем H 0 с вероятностью p; отвергаем H 0 в пользу H 1 с вероятностью p. 28 ) , 0 ( 2 N i ) ( ) ( 0 F F = ) ( 0 F ) ( ) ( 0 F F расч табл KS KS расч табл KS KS ➢ Критерий Шапиро-Уилка ➢ Критерий асимметрии и эксцесса ➢ Критерий Дарбина ➢ Критерий Д’Агостино ➢ Критерий Васичека ➢ Критерий Дэвида-Хартли-Пирсона ➢ Критерий хи-квадрат ➢ Критерий Андерсона-Дарлинга ➢ Критерий Филлибена ➢ Критерий типа Колмогорова-Смирнова ➢ Критерий Мартинса-Иглевича ➢ Критерий Лина-Мудхолкара ➢ Критерий Шпигельхальтера ➢ Критерий Саркади ➢ Критерий Смирнова-Крамера-фон Мизеса ➢ Критерий Локка-Спурье ➢ Критерий Оя ➢ Критерий Хегази-Грина ➢ Критерий Муроты-Такеучи Список критериев нормальности http://datascientist.one/proverka 29 Критерий согласия Пирсона Определение: Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Условия критерия: пусть по выборке объема п получено эмпирическое распределение: В предположении нормального распределения генеральной совокупности вычислены теоретические частоты Н 0 : генеральная совокупность распределена нормально. Н 1 : генеральная совокупность не подчиняется нормальному распределению. Критерий: Число степеней свободы: k=s–1–r, где s – число групп (частичных интервалов) выборки, r – число параметров предполагаемого распределения (в случае нормального распределения r=2). Правило принятия решения: – нет оснований отвергнуть Н 0 с уровнем значимости α. 30 − = i i i i расч n n n ' / ) ' ( 2 2 i n' 2 2 табл расч 2 табл 2 определяют по таблице - распределения при степенях свободы k и у.з. α. x y x 2 y 2 x • y 10 6 100 36 60 12 6 144 36 72 15 7 225 49 105 17 7 289 49 119 18 7 324 49 126 19 8 361 64 152 19 8 361 64 152 20 9 400 81 180 20 9 400 81 180 21 10 441 100 210 171 77 3045 609 1356 Для расчета параметров регрессии построим расчетную таблицу Пример вычислений |