теория вероятностей. Управления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М
Скачать 3.11 Mb.
|
Критерий согласия Пирсона Выше мы решали задачи, в которых распределение генеральной сово- купности предполагалось известным. Предположение о виде закона распреде- ления можно сделать по гистограмме или полигону. Но затем это предположе- ние следует проверить. Для проверки гипотез о виде распределения служат специальные критерии — критерии согласия. Они отвечают на вопрос: согла- суются ли результаты экспериментов с предположением о том, что генераль- ная совокупность имеет заданное распределение. Например, по гистограмме для примера 2 подраздела 3.2 (рис. 3.2) можно сделать предположение о том, что генеральная совокупность распределена по нормальному закону. Проверим это предположение с помощью критерия согласия Пирсона. В этом критерии мерой расхождения между гипотетиче- ским (предполагаемым) и эмпирическим распределением служит статистика ∑ = − = k j j j j np np n K 1 2 , ) ( 81 где n — объем выборки; k — количество интервалов (групп наблюдений); j n — количество наблюдений, попавших в j -й интервал; j p — вероятность попадания в j -й интервал случайной величины, распре- деленной по гипотетическому закону. Если предположение о виде закона распределения справедливо, то ста- тистика Пирсона распределена по закону «хи-квадрат» с числом степеней сво- боды 1 − − r k ( r — число параметров распределения, оцениваемых по вы- борке): 2 ) 1 ( − − χ r k K Пример 1. на уровне значимости 025 0 = α проверить гипотезу о нор- мальном распределении веса новорожденных (пример 2 подраздела 3.2). Решение. Сформулируем основную и альтернативную гипотезы. ) , ( : 0 ∧ ∧ σ a N X H — случайная величина X (вес новорожденных) под- чиняется нормальному закону с параметрами и ∧ ∧ σ a Так как истинных зна- чений параметров a и σ мы не знаем, возьмем их оценки, рассчитанные по выборке: 399 0 , 746 3 = σ = ∧ ∧ a : 1 H случайная величина X не подчиняется нормальному закону с дан- ными параметрами. Рассчитаем наблюдаемое значение набл K статистики Пирсона. Эмпи- рические частоты j n уже известны (табл. 3.3), а для вычисления вероятно- стей j p (в предположении, что гипотеза 0 H справедлива) применим фор- мулу (2.1): k j a a a a a X a P p j j j j j ..., , 2 , 1 , ) ( 1 1 = σ − Φ − σ − Φ = < < = ∧ ∧ ∧ ∧ + + и таблицу функции Лапласа (приложение 1). Полученные результаты сведем в таблицу (табл. 6.7). Наблюдаемое значение статистики Пирсона равно 978 0 набл = K Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение набл K , тем сильнее довод против ос- новной гипотезы. Поэтому критическая область для этой статистики всегда правосторонняя: ). ; [ кр ∞ + K Её границу 2 ) ; 1 ( кр α − − χ = r k K находим по таб- 82 лицам распределения «хи-квадрат» (приложение 2) и заданным значениям 6 , 025 0 = = α k (число интервалов), 2 = r (параметры a и σ оценены по выборке): 9.4. 0.025) ; 3 ( 0.025) ; 1 2 6 ( 2 2 кр = χ = − − χ = K Наблюдаемое значение статистики Пирсона не попадает в критическую область: , кр набл K K < поэтому нет оснований отвергать основную гипотезу. Вывод: на уровне значимости 0.025 справедливо предположение о том, что вес новорожденных имеет нормальное распределение. Таблица 6.7 Сравнение наблюдаемых и ожидаемых частот № п/п Интервалы группировки ) [ 1 ; + j j a a На- блю- дае- мая час- тота j n Вероятность j p попадания в j -й интервал Ожидаемая частота j p n ⋅ Слагаемые статистики Пирсона j j j np np n 2 ) ( − 1. [3; 3.3) 4 0.101 3.032 0.309 2. [3.3; 3.6) 7 0.225 6.761 0.008 3. [3.6; 3.9) 10 0.295 8.79 0.166 4. [3.9; 4.2) 5 0.222 6.665 0.416 5. [4.2; 4.5) 3 0.098 2.946 0.001 6. [4.5; 4.8) 1 0.025 0.758 0.077 ∑ — 30 0.965 28.95 978 0 набл = K 6.4. Проверка гипотез об однородности данных 6.4.1. Критерий знаков На практике часто возникает задача сравнения двух методов обработки, двух рационов питания, двух методик обучения и т.п. В статистике эту задачу можно решить с помощью критериев однородности. Рассмотрим вначале случай парных наблюдений: для каждого объекта измеряются два значения интересующего нас признака (например, до воздей- ствия и после). Результатом будут две группы наблюдений: n x x x ..., , , 2 1 и ..., , , 2 1 n y y y Основная гипотеза имеет вид: ) ( ) ( : 2 1 0 x F x F H = — закон распределе- ния генеральной совокупности X , из которой извлечена первая выборка, тот же 83 самый, что и закон распределения Y. Предполагается, что разности i i y x − взаимно независимы ) ..., , 2 , 1 ( n i = и 5 0 ) ( ) ( = > = < i i i i y x P y x P Для каждой разности i i y x − определим ее знак и подсчитаем количест- во набл K — количество тех знаков, которых меньше в данной выборке. Кри- тическим значением кр K будем считать такое, что при заданном уровне зна- чимости α ) ( кр α ≤ ≤ K K P Некоторые значения критических точек приведены в таблице 6.8. Таблица 6.8 Критические точки для критерия знаков Объем выборки n Уровень значимости α 5 10 15 20 25 30 0.01 0 0 2 3 5 7 0.05 0 1 3 5 7 9 0.1 0 1 3 5 7 10 Пример 1. Для желающих похудеть была предложена специальная диета. У десяти участников эксперимента измеряли вес до применения диеты ( Х , кг) и после применения ( Y , кг) (табл. 6.9). Оказывает ли диета какое-либо существенное влияние на вес? Таблица 6.9 Исходные данные для примера 1 Х 68 80 92 81 70 79 78 66 57 76 Y 60 84 87 79 74 71 72 67 56 70 Решение. Сформулируем основную и альтернативную гипотезы: ) ( ) ( : 2 1 0 x F x F H = — выборочные данные однородны, выборки извле- чены из генеральных совокупностей с одинаковыми распределениями. Приме- нительно к условиям: диета не оказывает существенного влияния на вес тела. ) ( ) ( : 2 1 1 x F x F H ≠ — выборки неоднородны; распределения генераль- ных совокупностей Х и Y различны; диета оказывает влияние на вес. Запишем последовательность знаков разностей , , , , , , , , , : + + − + + − − + − + − i i y x Знак «+» в этой последовательности встречает- ся 6 раз, а «–» — 4 раза, поэтому набл K равно количеству знаков «минус»: 4 набл = K 84 Для данного объема выборки 10 = n критическое значение 1 кр = K при 05 0 = α и 1 0 = α Поэтому наблюдаемый результат 4 набл = K не явля- ется маловероятным при условии, что гипотеза 0 H справедлива, вероятность этого события больше 0.1. Следовательно, на уровне значимости 0.1 нет оснований отвергать гипо- тезу 0 H , диета не оказывает существенного влияния на вес. Заметим, что если среди пар значений , и i i y x есть равные , i i y x = то их следует отбросить, соответственно уменьшив объем выборки n Критерий знаков применяется для выборок малого объема, его основное достоинство — простота. 6.4.2. Критерий Вилкоксона Этот критерий используется для проверки однородности двух независи- мых выборок 1 ..., , , 2 1 n x x x и ..., , , 2 2 1 n y y y Он применяется к случайным величинам, распределения которых неизвестны, но являются непрерывными. Основная гипотеза имеет вид ), ( ) ( : 2 1 0 x F x F H = а альтернативная ги- потеза может быть левосторонней, правосторонней или двусторонней. При использовании критерия Вилкоксона все вычисления проводятся не для самих наблюдаемых значений , , i i y x а для их рангов. Ранг — это поряд- ковый номер наблюдения в данной выборке, если наблюдаемые значения рас- положить по возрастанию. Например, выборке , 4 11 , 6 12 2 1 = = x x 9 11 , 1 13 4 3 = = x x соответствует последовательность рангов , 3 1 = r 2 , 4 , 1 4 3 2 = = = r r r Если в выборке встречаются несколько одинаковых значений, то им ставится в соответствие одинаковый ранг — среднее арифме- тическое порядковых номеров. Так, для выборки 11 , 11 , 8 , 5 9 , 5 10 , 11 , 5 9 , 10 8 7 6 5 4 3 2 1 = = = = = = = = x x x x x x x x после- довательность рангов имеет вид: , 5 2 , 5 , 7 , 5 2 , 4 5 4 3 2 1 = = = = = r r r r r 7 , 7 , 1 8 7 6 = = = r r r Здесь ранг значения 9.5 равен 2.5 , 2 / ) 3 2 ( + = а ранг значения 11 равен 3 / ) 8 7 6 ( 7 + + = Последовательность действий при проверке гипотезы однородности с помощью критерия Вилкоксона следующая: 1) составляем объединение выборок 1 ..., , , 2 1 n x x x и ; ..., , , 2 2 1 n y y y 2) находим ранги объединенной выборки (обозначим ранги первой вы- борки , ..., , , 1 2 1 n r r r а ранги второй — ); ..., , , 2 2 1 n s s s 3) вычисляем наблюдаемое значение статистики Вилкоксона 85 , 2 2 1 n s s s K + + + = равную сумме рангов второй выборки. Если распределение второй выборки сдвинуто вправо относительно пер- вой (альтернативная гипотеза ), ( ) ( : 2 1 1 x F x F H < то статистика K будет принимать значения, большие критического ), ; , ( 2 1 кр α = n n K K и гипотеза 0 H отвергается в пользу альтернативы 1 H Если рассматривается альтернатива ), ( ) ( : 2 1 1 x F x F H ≠ то гипотеза 0 H отвергается, если выполняется одно из двух условий: α = ≥ 2 ; , 2 1 кр набл n n K K K или 2 ; , ) 1 ( 2 1 1 2 2 набл α − + + = n n K n n n K Пример 2. В биохимическом исследовании, проведенном методом ме- ченных атомов, по результатам изучения 7 препаратов опытной группы полу- чены следующие показания счетчика импульсов (в импульсах в минуту): 340, 343, 322, 332, 320, 313, 304. Результаты контрольной группы: 318, 321, 318, 301, 312. Можно ли считать, что полученные значения опытной и контрольной групп различны ? ) 05 0 ( = α Решение. Сформулируем основную и альтернативную гипотезы. ) ( ) ( : 2 1 0 x F x F H = — выборки однородны; различия в результатах опытной и контрольной групп можно отнести на счет случайных воздействий. ) ( ) ( : 2 1 1 x F x F H ≠ — выборки извлечены из генеральных совокупно- стей с разными распределениями; различие между контрольной и опытной группами существенно. Объединим выборки и расположим полученные данные в порядке воз- растания: 343 , 340 , 332 , 322 , 321 , 320 , 318 , 318 , 313 , 312 , 304 , 301 — здесь подчеркнуты элементы второй выборки (контрольной группы). Занумеровав все элементы в порядке возрастания, получим ранговую последовательность: 2 1 , 1 1 , 0 1 , 9 , 8 , 7 , 5 5 , 5 5 , 4 , 3 , 2 , 1 — подчеркнуты ранги контрольной группы. Наблюдаемое значение статистики Вилкоксона равно 23 8 5 5 5 5 3 1 набл = + + + + = K Критическая область является двусторонней, ее правая граница при 1 0 = α (табл. 6.10) 44 ) 05 0 ; 5 , 7 ( 2 ; , 2 1 пр = = α = K n n K K , левая граница ( ) 26 44 14 5 1 пр 1 2 2 лев = − ⋅ = − + + = K n n n K 86 Наблюдаемое значение попадает в критическую область: , лев набл K K < поэтому основная гипотеза отвергается в пользу альтернативной. Итак, на уровне значимости 0.1 можно утверждать, что разница между показаниями счетчика в контрольной и опытной группах существенна. Таблица 6.10 Критические точки критерия Вилкоксона при 05 0 = α 1 n 2 n 5 7 9 10 5 36 44 51 54 87 7. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 7.1. Основные задачи В этом разделе мы рассмотрим виды и формы связей, различаемые в ста- тистике. Связи между различными явлениями и их признаками можно разде- лить на два типа: функциональные и стохастические. Если два признака X и Y связаны функциональной зависимостью, то по значению одного из них можно точно указать значение другого. Например, зная рост X в сантиметрах наугад взятого человека, можно указать его рост Y в метрах. Стохастическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений. Если X — рост наугад взятого человека в сантиметрах, то 100 − = X Y — вес в килограммах. Изучение такого вида связей — предмет исследования корреляционного и регрессионного анализа. При этом независи- мый признак X называется фактором, а зависимый Y — откликом. Основные задачи корреляционного анализа: 1) выяснить, есть ли связь между двумя признаками; 2) измерить силу этой связи; 3) отобрать факторы, оказывающие наиболее сильное влияние на отклик. В задачи регрессионного анализа входят следующие: 1) описание формы зависимости; 2) нахождение коэффициентов уравнения, описывающего зависимость, и оценка их точности; 3) оценка качества полученной зависимости (адекватность модели). 7.2. Коэффициент корреляции Пирсона Коэффициент корреляции Пирсона XY r измеряет тесноту линейной свя- зи между переменными X и Y ( ) Y X y X XY m Y m X M r σ σ ) )( ( − − = и обладает следующими свойствами. Для любых переменных X и Y его абсолютная величина не превосходит единицы: 1 1 ≤ ≤ − XY r Значение коэффициента корреляции равно +1 или –1 тогда и только то- гда, когда между переменными X и Y существует линейная функциональная связь bX a Y + = Если переменные X и Y независимы, то 0 = XY r Если , 0 = XY r то пере- менные X и Y называются некоррелированными. Некоррелированность пе- ременных означает отсутствие между ними линейной стохастической зависи- мости, но не означает отсутствия связи вообще. 88 Точечной оценкой коэффициента корреляции XY r является выборочный коэффициент корреляции , rˆ XY который можно рассчитывать по формулам: (7.2) (7.1) 1 1 2 2 1 2 2 1 1 , y n y x n x y x n y x rˆ ; s s y x y x n rˆ n i i n i i n i i i XY Y X n i i i XY − − ⋅ − = ⋅ − = ∑ ∑ ∑ ∑ = = = = где n i y x i i ..., 2, , 1 ), , ( = — независимая выборка объема n из двумерной ге- неральной совокупности; y x , — средние арифметические значения (выборочные средние) пере- менных X и Y ; Y X s s , — выборочные средние квадратические отклонения переменных X и Y Коэффициент корреляции rˆ , рассчитанный по выборке, является значе- нием случайной величины Rˆ . С увеличением числа наблюдений (свыше 500) распределение величины Rˆ стремится к нормальному. С уменьшением числа наблюдений надежность этой оценки падает. Поэтому после вычисления оценки rˆ встает вопрос о значимости коэффициента корреляции. Значимость коэффициента корреляции проверяется с помощью статисти- ки, имеющей распределение Стьюдента (табл. 7.1). Таблица 7.1 Проверка значимости коэффициента корреляции Пирсона Гипотеза 0 : 0 = XY r H Предположение Двумерная нормальная генеральная совокупность Оценки по выборке XY Y X rˆ ; s ; s ; y ; x Статистика К 2 1 2 XY XY Rˆ n Rˆ − − Распределение статистики К Стьюдента ) 2 ( − n T 89 Пример 1. Проводится изучение зависимости массы монеты Y в граммах от времени обращения X (число лет обращения). По результатам десяти наблюдений (табл. 7.2) выяснить, значима ли кор- реляция между массой монеты и временем ее обращения. Решение. Рассчитаем по выборке объема 10 = n (табл. 7.2) оценки сред- них Y X m ˆ y , m ˆ x = = и дисперсий : σˆ s , σˆ s Y Y X X 2 2 2 2 = = Таблица 7.2 Данные примера 1 i 1 2 3 4 5 6 7 8 9 10 i x (лет) 5 9 14 17 23 31 35 42 46 50 i y (г) 2.82 2.85 2.8 2.8 2.79 2.78 2.77 2.79 2.75 2.72 ( ) 001 0 ; 178 254 1 1 ; 787 2 1 ; 2 27 1 2 1 2 2 1 1 = = − − = = = = = ∑ ∑ ∑ = = = Y n i i X n i i n i i s x x n s y n y x n x По формуле (7.1) получим значение выборочного коэффициента корре- ляции 792 0. rˆ XY − = — можно предполагать достаточно сильную линейную отрицательную зависимость между массой монеты и возрастом ее обращения. Так как выборка малого объема, проверим значимость коэффициента корреля- ции. Основная гипотеза 0 H состоит в том, что коэффициент корреляции XY r не значим , 0 : 0 = XY r H т.е. между переменными X и Y нет линейной связи. Альтернативная гипотеза 0 : 1 < XY r H — коэффициент корреляции значим, переменные X и Y связаны отрицательной линейной зависимостью. Наблюдаемое значение статистики K (табл. 5.1) равно . . . . ) . ( . rˆ n rˆ K XY XY íàáë 668 3 627 0 1 8 792 0 792 0 1 2 10 792 0 1 2 2 2 − = − ⋅ − = − − − ⋅ − = − − = Зададим уровень значимости 01 0 α = и определим границу критиче- ской области по таблице распределения Стьюдента. По виду альтернативной гипотезы заключаем, что критическая область является левосторонней: . K ; ] ( êð − −∞ Значение кр K находим по таблице распределения Стьюдента (приложение 3): 9 2 ) 01 0 ; 8 ( ) 01 0 ; 2 10 ( α) ; 2 ( кр = = − = − = t t n t K 90 Наблюдаемое значение 668 3 набл − = K попадает в критическую об- ласть ], 9 2 ; ( − −∞ поэтому основную гипотезу следует отвергнуть в пользу альтернативы: связь между переменными X и Y значима. Данные наблюдений на уровне значимости 0.01 говорят о том, что масса монеты в среднем линейно убывает при увеличении возраста монеты. 7.3. Ранговая корреляция При изучении психических и физических способностей человека часто используются испытания, в которых важно не значение измеренного признака, а взаимный порядок, в котором следуют результаты измерений. Например, нас интересует вопрос: зависит ли скорость реакции человека на световой сигнал (признак X ) от скорости реакции на звуковой сигнал (признак Y )? Проведя n наблюдений, мы получим выборку — множество пар чисел ). , ( i i y x Нас ин- тересуют не столько сами значения чисел , и i i y x сколько порядок их следо- вания. Назовем рангом i -го наблюдения его порядковый номер в вариацион- ном ряду. Так, для выборки из пяти наблюдений 3.83 2.98 3.96 4.18 3.06 соответствующая последовательность рангов имеет вид 3 1 4 5 2. Если величина признаков X и Y нас не интересует, то от пар значений признаков ) , ( i i y x можно перейти к парам их рангов ). , ( i i s r Чем теснее свя- заны признаки X и Y , тем в большей степени последовательность рангов n r r r ..., , , 2 1 предопределяет последовательность ..., , , 2 1 n s s s Близость двух рядов рангов отражает величина ) ( 1 1 2 2 ∑ ∑ = = − = = n i n i i i i s r d S Она принимает наименьшее возможное значение 0 = S тогда и только тогда, когда последовательности рангов полностью совпадают. Наибольшее возможное значение ) ( 3 1 3 n n S − = величина S принимает, когда эти после- довательности полностью противоположны. Поэтому в качестве меры моно- тонной зависимости признаков X и Y рассматривают коэффициент ранговой корреляции Спирмена: (7.3) 6 1 3 . n n S r S − − = 91 Коэффициент S r по абсолютной величине ограничен единицей: 1 ≤ S r и принимает значения 1 ± в случаях полной предсказуемости одной ранговой последовательности по другой. Проверка значимости коэффициента корреля- ции Спирмена проводится с помощью той же статистики, что и для коэффици- ента корреляции Пирсона (табл. 7.1). По данным примера 1 (табл. 7.2) рассчитаем коэффициент корреляции Спирмена. Последовательностям значений i i y x и будет соответствовать последовательность рангов (табл. 7.3). Отметим, что одинаковым значениям признака Y присвоен одинаковый (средний) ранг. Таблица 7.3 Ранговые последовательности примера 1 i 1 2 3 4 5 6 7 8 9 10 i r 1 2 3 4 5 6 7 8 9 10 i s 9 10 7.5 7.5 5.5 4 3 5.5 2 1 i d –8 –8 –4.5 –3.5 –0.5 2 4 2.5 7 9 В последней строке таблицы указана разность рангов 10 ..., , 2 , 1 , = − = i s r d i i i Величина S равна 317 81 49 25 6 16 4 25 0 25 12 25 20 64 64 9 7 5 2 4 2 ) 5 0 ( ) 5 3 ( ) 5 4 ( ) 8 ( ) 8 ( 2 2 2 2 2 10 1 2 2 2 2 2 2 = + + + + + + + + + + = + + + + + + − + − + − + − + − = = ∑ = i i d S Коэффициент корреляции Спирмена рассчитаем по формуле (7.3) при : 10 = n 9 0 999 1902 1 10 10 317 6 1 3 − = − = − ⋅ − = S r Значение коэффициента корреляции Спирмена близко к –1 , поэтому ме- жду признаками X и Y есть сильная отрицательная корреляционная связь. Этот результат согласуется с результатом применения коэффициента корреляции Пирсона. 7.4. Регрессионые модели Предположим, что нам необходимо описать в виде некоторой функции взаимосвязь двух переменных X и Y ( X — фактор, независимая переменная; Y — отклик, зависимая переменная): ). (X f Y = По результатам наблюдений 92 мы можем оценить эту зависимость приближенно (в силу воздействия неуч- тенных факторов, случайных причин, ошибок измерения): ε, ) ( + = x f y где ε — случайная переменная, называемая возмущением. Предполагается, что среднее значение возмущения равно нулю: 0 ) ε ( = M При этом для каждого значения x X = мы имеем случайную переменную Y со средним значением (математическим ожиданием) ). (x f Функция ) (x f называется функцией регрессии случайной переменной Y на X , а график этой функции — линией регрессии. Уравнение регрессии позволяет определить, каким в среднем будет значение отклика Y при том или ином значении фактора X Форма регрессионной зависимости (вид функции ) (x f ) определяется по диаграмме рассеяния, которую получают, нанося экспериментальные точки ) , ( ..., ), , ( ), , ( 2 2 1 1 n n y x y x y x на координатную плоскость (рис. 7.1). По диаграмме рассеяния подбирают некоторую гладкую кривую таким обра- зом, чтобы она располагалась как можно «ближе» к экспериментальным точ- кам. Часто в качестве такой кривой выбирают прямую линию (рис. 7.1, а) x b b y 1 0 + = или многочлен (рис. 7.1, б) 2 2 1 0 x b x b b y + + = Пусть по диаграмме рассеяния выбран вид зависимости ). ..., , , ; ( 1 0 k b b b x f y = Неизвестные коэффициенты k b b b ..., , , 1 0 этой модели подбираются по методу наименьших квадратов. Согласно этому методу сумма квадратов отклонений экспериментальных значений n i y i ..., , 2 , 1 , = от модельных ) ..., , , ; ( 1 0 k i b b b x f должна быть минимальной: ( ) (7.4) 1 2 0 0 . min ) b ..., , b ; x ( f y ) b ..., , b ( Q n i k i i k → − = ∑ = x x y y а б Рис. 7.1. Диаграмма рассеяния при линейной (а) и квадратичной (б) зависимости переменных X и Y 93 7.5. Уравнение линейной регрессии Пусть по диаграмме рассеяния на основе выборки ) , ( ..., ), , ( ), , ( 2 2 1 1 n n y x y x y x определена форма зависимости X и Y в виде прямой линии: x b b y 1 0 + = . Оценки коэффициентов , и 1 0 b b найденные ме- тодом наименьших квадратов из условия (7.4), имеют вид: (7.6) 1 0 1 , x bˆ y bˆ ; s s rˆ bˆ X Y XY − = ⋅ = (7.5) где y x , — средние значения переменных X и Y , рассчитанные по выборке; 2 2 , Y X s s — несмещенные оценки дисперсий X и Y ; XY rˆ — оценка коэффициента корреляции Пирсона. Коэффициент 1 b в уравнении линейной регрессии характеризует влия- ние, которое оказывает изменение X на изменение Y . Поэтому оценка 1 b ис- пользуется для расчета выборочного коэффициента эластичности (7.7) 1 . y x bˆ ݈ ⋅ = Напомним, что коэффициент эластичности Э показывает, на сколько процентов в среднем изменится значение отклика Y при изменении фактора X на 1 %. Пример 1. Предположим, что нас интересует выручка от продажи баноч- ного пива в магазинах города в течение дня. При исследовании 20 магазинов получены следующие данные (табл. 7.4). Построить регрессионную модель зависимости выручки магазина от числа посетителей. Таблица 7.4 Данные примера 1 № п/п Число посетителей Выручка (у.е.) № п/п Число посетителей Выручка (у.е.) 1 907 11.20 11 679 7.63 2 926 11.05 12 872 9.43 3 506 6.84 13 924 9.46 4 741 9.21 14 607 7.64 5 789 9.42 15 452 6.92 6 889 10.08 16 729 8.95 7 874 9.45 17 794 9.33 8 510 6.73 18 844 10.23 9 529 7.24 19 1010 11.77 10 420 6.12 20 621 7.41 94 Решение. Факторной переменной в данной задаче является X — число посетителей магазина; откликом Y — выручка магазина. Построим диаграмму рассеяния по имеющимся данным (рис. 7.2). Рис. 7.2. Диаграмма рассеяния для данных примера 1 По виду диаграммы есть основания предполагать линейную зависимость выручки от числа посетителей магазина. Для расчета коэффициентов регрессии по формулам (7.5), (7.6) найдем средние значения ∑ ∑ = = = = = = 20 1 20 1 , 806 8 20 1 ; 15 731 20 1 i i i i y y x x несмещенные оценки дисперсий ∑ ∑ = = = − − = = − − = 20 1 2 2 20 1 2 2 703 2 ) ( 1 20 1 ; 32348 ) ( 1 20 1 i i Y i i X y y s x x s и оценку коэффициента корреляции Пирсона . . s s y x y x rˆ Y X i i i XY 955 0 20 1 20 1 = ⋅ − = ∑ = Близость коэффициента корреляции к единице свидетельствует о тесной по- ложительной связи между выручкой магазина и числом посетителей. 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0 100 200 300 400 500 600 700 800 900 1000 X Y 95 По формуле (5.5) , . . . bˆ 999 0 703 2 32348 955 0 1 = ⋅ = по формуле (5.6) . . . . . bˆ 423 2 15 731 999 0 806 8 0 = ⋅ − = Таким образом, уравнение регрессии Y на X имеет вид (7.8) 009 0 423 2 x . . y + = Коэффициент 1 b характеризует наклон линии регрессии и значение 009 0 1 . bˆ = показывает, что при увеличении X на единицу ожидаемое значе- ние Y возрастает на 0.009 . Регрессионная модель (7.8) указывает на то, что каждый новый посетитель магазина увеличивает дневную выручку на 0.009 у.е.; или можно сказать, что ожидаемый прирост ежедневной выручки соста- вит примерно 9 у.е. при привлечении в магазин 100 дополнительных покупа- телей. Отсюда 1 b может интерпретироваться как прирост ежедневной выруч- ки, который меняется в зависимости от числа посетителей магазина. Свободный член 0 b в уравнении (7.8) — это значение Y при 0 = X По- скольку маловероятно число посетителей магазина, равное нулю, то можно рассматривать 0 b как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии. Это влияние можно оценить и с помощью коэффициента детерминации. Коэффициент детерминации 2 XY rˆ B = для линейной модели характери- зует долю объясняемого моделью разброса экспериментальных данных. В нашем примере , 912 0 955 0 2 = = B следовательно, модель (7.8) учитывает 91.2 % изменения выручки магазина. Только 8.8 % разброса объясняются фак- торами, не включенными в уравнение регрессии. Коэффициент эластичности для модели (7.8) вычисляем по формуле (7.7): , . . . . ݈ 747 0 806 8 15 731 009 0 = ⋅ = т.е. при увеличении среднего числа посетителей магазина на 1 % ежедневная выручка в среднем возрастает на 0.7 %. 7.6. Линейная регрессия и прогноз Регрессионная модель может быть использована в задачах прогнозирова- ния. Например, мы хотим использовать модель (7.8) для предсказания средней ежедневной выручки магазина, который посетит 600 покупателей. Подставив значение 600 = x в уравнение (7.8), получим предполагаемое среднее значе- ние Y : 661 7 600 009 0 423 2 ) 600 ( = ⋅ + = y — прогнозируемая средняя дневная выручка для магазина с 600 посетителями равна 7.661 у.е. Насколько 96 можно доверять этому утверждению? Для ответа на этот вопрос нужно по- строить доверительный интервал для найденной точечной оценки. Стандартная ошибка оценки для уравнения регрессии рассчитывается по формуле ( ) (7.9) 2 1 1 2 1 0 ε ∑ = + − − = n i i i ) x b b ( y n s и характеризует отклонение фактических данных от линии регрессии. Доверительный интервал для неизвестного генерального среднего Y при фиксированном значении x X = имеет вид ( ) (7.10) ε êð ε êð ) x ( h s t ) x ( y ; ) x ( h s t ) x ( y ⋅ ⋅ + ⋅ ⋅ − где x b b x y 1 0 ) ( + = — среднее значение Y, рассчитанное по уравнению рег- рессии; ) α ; 2 ( кр − = n t t — двусторонняя критическая точка распределения Стью- дента с числом степеней свободы 2 − = n k и уровнем значимости γ. 1 α − = (7.11) 1 2 2 . ns ) x x ( n ) x ( h x − + = Из формул (7.10), (7.11) видно, что ширина доверительного интервала за- висит от заданного значения x : чем ближе x к x , тем уже доверительный ин- тервал (рис. 7.3). Ширина интервала зависит также от объема выборки n и заданной дове- рительной вероятности γ. Рассчитаем 95 % доверительный интервал для среднего значения днев- ной выручки во всех магазинах с числом посетителей, равным 600 . По урав- нению регрессии получена оценка 661 7 ) 600 ( = y Рис. 7.3. Доверительный интервал для прямой регрессии 97 Критическую точку кр t находим по таблице распределения Стьюдента (приложение 3) с числом степеней свободы 18 2 20 2 = − = − = n k и уровнем значимости 05 0 95 0 1 γ 1 α = − = − = (двусторонняя область) 1 2 ) 05 0 ; 18 ( кр = = t t Стандартную ошибку рассчитываем по формуле (7.9): 501 0 ε = s При 32348 и 15 731 , 600 2 = = = X s x x вычисляем ) (x h по формуле (7.11): 077 0 32348 20 ) 15 731 600 ( 20 1 ) 600 ( 2 = ⋅ − + = h Теперь рассчитываем границы доверительного интервала: 37 7 291 0 661 7 ) 600 ( ) 600 ( , 952 7 291 0 661 7 ) 600 ( ) 600 ( ε кр ε кр = − = ⋅ ⋅ − = + = ⋅ ⋅ + h s t y h s t y Следовательно, 95 %-ный доверительный интервал для уравнения рег- рессии при 600 = X имеет вид (7.37; 7.952) — с вероятностью 0.95 мы ут- верждаем, что средняя дневная выручка для всех магазинов с 600 посетителя- ми находится между 7.37 и 7.952 у.е. Доверительный интервал для индивидуальных значений ) (x Y Y = будет шире, чем доверительный интервал для средних значений; его границы рас- считываются по формуле ( ) (7.12) , 1 1 ε êð ε êð ) x ( h s t ) x ( y ; ) x ( h s t ) x ( y + ⋅ ⋅ + + ⋅ ⋅ − где x b b x y 1 0 ) ( + = — среднее значение Y, рассчитанное по уравнению рег- рессии при данном x ; ) α ; 2 ( кр − = n t t — двусторонняя критическая точка распределения Стьюдента; ) (x h — рассчитывается по формуле (7.11). Построим 95 %-ный доверительный интервал для оценки дневной вы- ручки отдельного магазина с 600 покупателями. Правая граница интервала равна , 754 8 093 1 661 7 ) ( 1 ) 600 ( ε кр = + = + ⋅ ⋅ + x h S t y левая его граница Следовательно, с 95 %-ной надежностью можно утверждать, что еже- дневная выручка отдельного магазина, который посетили 600 покупателей, находится в пределах от 6.568 до 8.754 у.е. 568 6 093 1 661 7 ) ( 1 ) 600 ( ε кр = − = + ⋅ ⋅ − x h s t y |