Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
Скачать 0.9 Mb.
|
Пример 5. В продолжениепримера 4 найдём условные математиче- ские ожидания и функцию регрессии Y по X. Воспользовавшись получен- ными выше значениями условных вероятностей ) 1 ( X y Y P j , получаем 5 15 17 14 ) 1 ( 2 1 2 1 X Y M Таким же образом можно найти математические ожидания Y при дру- гих значениях X. 10 Более простой способ позволяет сразу вывести общую формулу для ) ( ) ( x x X Y M . Вспомним, что x – это число рабочих 1-ой категории, а (2 – x) – число рабочих 2-ой и 3-ей категорий среди двух отобранных. От- сюда 1 1 5 4 ) 2 ( 5 5 10 ) ( x x x x X Y M Итак, 11 5 4 ) ( x x . Это означает, что имеет место линейная кор- реляция случайных величин, причём 20 ) 2 ( , 5 15 ) 1 ( , 11 ) 0 ( X Y M X Y M X Y M Замечание. Не путайте линейную корреляцию с линейной зависимо- стью величин! Последнее означало бы присутствие функциональной, а не корреляционной связи между X и Y. 2.4. Как измерить тесноту корреляции? Форма корреляционной связи (линейная или нелинейная) не даёт нам информации о том, насколько тесно связаны между собой случайные величины. В качестве ‘‘измерителя’’ тесноты связи двух величин логично было бы предложить такой показатель, который принимает нулевое значе- ние при полном отсутствии зависимости между X и Y. Корреляционным моментом (или ковариацией, т.е. совместной ва- риацией) случайных величин X и Y называется математическое ожи- дание произведения их отклонений: )] ( )][ ( [ ) , ( Y M Y X M X M Y X Преобразуем данное выражение: ), ( ) ( ) ( )] ( ) ( ) ( ) ( [ ) , ( Y M X M XY M Y M X M Y X M Y XM XY M Y X что (как и требовалось) равно нулю для независимых случайных величин. Корреляционный момент двух независимых случайных величин ра- вен нулю. Если 0 ) , ( Y X , то случайные величины называются коррелированными (в противном случае некоррелированными). Коррелированные величины зависимы (обратное не всегда верно). 2.5. Почему корреляционный момент неудобен для оценки тесноты корреляции? Корреляционный момент имеет размерность, равную произведению размерностей случайных величин. Например, существует корреляция меж- ду температурой воды и числом отдыхающих на пляже. В каких единицах будет измеряться ковариация? Очевидно, в «человеко-градусах» (или 11 «градусо-человеках»). По величине показателя, имеющего такую размер- ность, мы вряд ли получим представление о тесноте корреляции. Коэффициентом корреляции системы случайных величин называет- ся безразмерная величина ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) , ( ) , ( Y X Y M X M XY M Y X Y X Y X r Здесь ) ( X и ) (Y — среднеквадратические отклонения случайных вели- чин. Кроме отсутствия размерности, достоинством этой характеристики является нормировка. Покажем, что при линейной функциональной зави- симости величин X и Y ( b aX Y ), которую можно рассматривать как предельно тесную корреляцию, 1 ) , ( a a Y X r Действительно, пусть b aX Y . Тогда: ) ( ) ( ), ( ) ( 2 X a Y X D a Y D , ), ( ) ( )] ( [ ]} ) ( )][ ( {[ ) , ( 2 2 X a X aD X M X aM b X aM b aX X M X M Y X 1 ) ( ) ( ) , ( ) , ( a a Y X Y X Y X r Область значений коэффициента корреляции: 1 ) , ( Y X r . Знаки ко- эффициента корреляции и коэффициента регрессии a совпадают. Пример 6. Найдём коэффициент корреляции системы случайных ве- личин, представленной в примерах 4 и 5. Легко убедиться, что: ; 3 2 ) 6 2 3 2 3 6 ( ) ( ; 14 ) 1 20 2 17 3 14 2 11 1 8 ( ) ( ; 3 / 2 2 1 ) ( ) ( ) ( ; 2 1 ) ( 2 2 2 2 9 1 9 1 9 4 9 1 2 9 4 2 2 2 3 2 9 1 9 4 Y Y M X M x p x X X M i i ; ) 2 14 2 17 40 ( ) ( 9 102 9 1 XY M 866 0 ) ( ) ( 2 3 4 3 3 28 9 102 XY r 12 3. ПАРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 3.1. Какая величина может служить количественной оценкой корреляции по данным статистического наблюдения? Как уже отмечалось в п.2.4, для независимых случайных величин X и Y выполняется равенство ) ( ) ( ) ( Y M X M XY M . Имея дело со статистиче- скими данными, кажется естественным заменить математические ожида- ния их статистическими аналогами (выборочными средними): n i i i n i i n i i y x n xy y n y x n x 1 1 1 1 , 1 , 1 и считать мерой корреляции величину y x xy , представляющую собой статистический аналог ковариации. Правда, для того чтобы исключить влияние единиц измерения признаков, следует, как и в п.2.4, от абсолют- ного показателя (ковариации) перейти к относительному показателю (ко- эффициенту корреляции). Выборочным коэффициентом линейной корреляции называется ве- личина y x xy y x xy r , где 1 , 1 2 2 2 1 2 2 2 2 2 1 2 2 y y y y n x x x x n n i i y n i i x Величины y x , называются выборочными среднеквадратическими отклонениями признаков, а их квадраты 2 2 , y x – выборочными дис- персиями признаков. Выборочный коэффициент корреляции может принимать значения в пределах от –1 до 1. Если количественные признаки тесно коррелированы (т.е. близки к линейной функциональной зависимости), то xy r 1 . В ста- тистической практике принято считать корреляционную связь заметной при 5 0 xy r и достаточно тесной при 8 0 xy r . Теоретически при пол- ном отсутствии корреляции xy r должен быть равен нулю. Однако на прак- тике, в силу выборочности данных, нет оснований ожидать, что для некор- релированных величин мы обязательно получим нулевое или близкое к нулю значение коэффициента xy r 13 Пример 7. В таблице приводятся выборочные данные о площади (Х, кв. м) и цене (Y, тыс. долларов) 10 квартир. Требуется: найти среднюю площадь квартиры x и среднюю цену y ; найти выборочный коэффициент линейной корреляции xy r Решение. При расчётах удобно составить таблицу следующего вида: Получаем: 9319 0 , 96 11 , 96 159 2 2 xy y x r . Имеется тесная корреляционная связь между площадью квартиры и её ценой. 3.2. Что делать, если выборочный коэффициент корреляции мал? Результаты рассмотрения примера 7 достаточно очевидны. Однако при значениях 5 0 xy r (и меньше) мы не могли бы с уверенностью ут- верждать, что признаки корреляционно связаны. Из 0 xy r ещё нельзя за- ключить, что не равен нулю и генеральный коэффициент корреляции ) , ( Y X r . Необходимо проверить гипотезу о том, что отклонение xy r от ну- ля незначимо и случайно: 0 ) , ( : , 0 ) , ( : 1 0 Y X r H Y X r H . В качестве кри- терия используется случайная величина 2 1 2 xy xy r r n r T , подчиняющаяся распределению Стьюдента. Строится двусторонняя кри- тическая область. Правая критическая точка ) , ( 2 k t cr , где k = n – 2, может x i 58 74 36 44 70 52 57 65 37 45 y i 20 21 12 15 22 18 17 23 14 16 i i x i y 2 i x 2 i y i i y x 1 58 20 3364 400 1160 2 74 21 5476 441 1554 3 36 12 1296 144 432 4 44 15 1936 225 660 5 70 22 4900 484 1540 6 52 18 2704 324 936 7 57 17 3249 289 969 8 65 23 4225 529 1495 9 37 14 1369 196 518 10 45 16 2025 256 720 средние 53.8 17.8 3054.4 328.8 998.4 14 быть найдена в таблице (приложение 1). На заданном уровне значимости при ) , ( 2 k t T cr r нет оснований отклонить нулевую гипотезу; в про- тивном случае H 0 отвергается. Пример 8. По выборке объёма n = 10 парных значений двух призна- ков найден выборочный коэффициент корреляции 4 0 xy r . Проверим ги- потезу 0 ) , ( : 0 Y X r H на уровне значимости = 0.05. Найдём наблюдае- мое значение критерия: 23 1 16 0 1 8 4 0 r T По таблице критических точек распределения Стьюдента находим 31 2 ) 8 , 05 0 ( 2 cr t . Поскольку cr r t T 2 , нет оснований отклонить нулевую гипотезу. Выборочный коэффициент корреляции незначим. Между при- знаками нет линейной корреляции. 4. НАЧАЛА РЕГРЕССИОННОГО АНАЛИЗА. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ 4.1. Что такое регрессия? Корреляция и регрессия – смежные научные понятия, употребляе- мые, как правило, совместно. Термин «регрессия» уже появлялся в пара- графе 2 («функция регрессии»), но о его смысле мы не говорили. Оба по- нятия связаны с именем выдающегося английского антрополога Фрэнсиса Гальтона. Изучая наследственность, Гальтон собрал статистический мате- риал, который доказывал (как ему казалось), что в среднем рост сыновей уменьшается по сравнению с ростом отцов. Говоря точнее, дети высоких родителей тоже выше своих сверстников, но всё же они ближе к среднему росту, чем родители. Такое явление Гальтон назвал regression to mediocrity (возврат к среднему состоянию) и даже вывел соответствующее уравнение. Хотя наблюдение Гальтона не нашло подтверждения в других исследова- ниях, разработанный им метод стал одной из основ обработки статистиче- ских данных. Регрессией в теории вероятностей и математической статистике на- зывается зависимость среднего значения величины Y от значения другой величины X (или нескольких величин). 4.2. В чём состоит метод наименьших квадратов? Пусть изучается взаимозависимость двух количественных признаков ) , ( Y X . В результате n опытов или наблюдений получены пары чисел: (x i , y i ), где i = 1, 2, ..., n. На основе предварительного анализа этих данных и с 15 учётом самой природы признаков мы можем сделать предположение о не- которой линии связи ) , ( x f y x , где под x y подразумевается среднее значение признака Y, соответствующее значению X = x, а под – совокуп- ность варьируемых параметров. Например, если диаграмма рассеивания свидетельствует о линейной форме корреляции (см. рис.1), то в качестве линии связи можно выбрать прямую b ax y x Вопрос состоит в том, как получить оценки коэффициентов a и b. Метод наименьших квадратов (МНК) состоит в минимизации сум- мы квадратов отклонений наблюдаемых значений количественного признака от теоретических значений того же признака, соответст- вующих некоторой гипотетической формуле. Например, для случая, когда в качестве линии связи выбирается прямая, минимизируется функция двух переменных: n i i i b ax y b a S 1 2 min ) ( ) , ( Рассмотрим эту задачу подробнее. Необходимые условия экстремума: n i i i n i i i i y b ax b S x y b ax a S 1 1 0 ) ( 2 , 0 ) ( 2 Для простоты опуская индексацию, получим: ) ( , ) ( ) ( 2 y nb a x xy b x a x После деления на n система принимает вид , 2 y b a x xy b x a x Решение системы может быть легко найдено по правилу Крамера: есть то , , * * b a b a 2 2 2 * 2 2 * ) ( , ) ( x x xy x x y b x x y x xy a или x a y b * * 16 Достаточным условием того, что критическая точка ( * * , b a ) является точ- кой минимума, является положительность полного дифференциала 2-го порядка от ) , ( b a S . Имеем ) ( 2 2 2 2 2 2 2 2 2 2 2 r q p db db b S dadb b a S da a S S d , где db da n b S r x n x b a S q x n x a S p , 2 , 4 4 2 , 2 2 2 2 2 2 2 2 2 Условие 0 2 S d выполняется при 0 p и 0 4 2 pr q . Последнее нера- венство сводится к стандартному требованию положительности диспер- сии: 0 2 2 x x Следовательно, значения * a и * b , определённые из необходимого условия экстремума, соответствуют минимуму функции ) , ( b a S 4.3. Как связаны выборочные уравнения регрессии с коэффициентом корреляции? Уравнение вида b ax y x , в котором значения коэффициентов a = a * и b = b * вычислены по статистическим данным методом наимень- ших квадратов, называется выборочным уравнением линейной рег- рессии Y по X. Угловой коэффициент a * называется выборочным ко- эффициентом регрессии или оценкой коэффициента регрессии. Сравнивая формулы для выборочных коэффициентов корреляции (см. п.3.1) и регрессии, нетрудно убедиться, что xy x y x r y x xy a 2 * Выразив из второго уравнения системы , 2 y b a x xy b x a x величину b и подставив её в уравнение b ax y x , получим ) ( x x a y y x |