Статистика учебник. Тарновская ли. Статистика учебное пособие
Скачать 3.85 Mb.
|
Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. что исследуемые признаки подчиняются различным законам распределения. Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Ранг это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые определяют. Данные ранги называются связными. Коэффициент корреляции рангов (коэффициент Спирмена) рассчи- тываетсяпо формуле(для случая, когда нет связных рангов) ( ) , 1 6 1 где 2 i d – квадрат разности рангов n – число наблюдений (число пар рангов. Коэффициент Спирмена принимает любые значения в интервале [ ] 1 1 + ÷ − Значимость коэффициента корреляции рангов Спирмена проверяется на основе критерия Стьюдента. Расчетное значение критерия определяется по формуле 1 2 2 y x x/y p p n p t − − ⋅ = (8.24) Значение коэффициента корреляции считается статистически существенным, если ( ) 2 α; кр − = > n k t t p Ранговый коэффициент корреляции Кендалла (τ) может также использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты, ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле ( ) , 1 2 τ − = n n S (8.25) где n – число наблюдений S – сумма разностей между числом последовательностей и числом инвер- сий по второму признаку. Коэффициент Кендалла должен стремиться к единице в случае сильной связи. Как правило, коэффициент Кендалла меньше коэффициента Спирме- на. При достаточно большом объеме совокупности значения данных коэффициентов имеют следующую зависимость Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. y x p 3 Связь между признаками можно признать статистически значимой, если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0,5. Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации W), который вычисляется по формуле ( ) , 12 3 2 n n m S W − ⋅ = (8.26) где m – количество факторов n – число наблюдений S – отклонение суммы квадратов рангов от средней квадратов рангов. Коэффициент конкордации принимает любые значения в интервале (– 1 до +1) [1, 3–7]. 8.4. Регрессионный анализ в изучении взаимосвязей социально-экономических явлений Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой, или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов, а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (у) от факторных ) , , , ( 2 1 n х x х K . Регрессия может быть однофакторной (парной) и многофакторной (множественной. По форме зависимости различают линейную регрессию, которая выражается уравнением прямой (линейной функцией) вида x a a y x 1 0 + = ; (8.27) нелинейную регрессию, которая выражается уравнениями вида – параболы ; 2 2 1 ха (8.28) – гиперболы х 0 + = . (8.29) Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи – гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный – значительно быстрее, то используется параболическая или степенная регрессия. По направлению связи различают прямую (положительную) регрессию, появляющуюся при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается. Основной предпосылкой регрессионного анализа является то, что только результативный признаку) подчиняется нормальному закону распределения, а факторные признаки ) , , , ( 2 1 n х x х K могут иметь произвольный закон распределения. При этом заранее подразумевается наличие при- чинно-следственных связей между результативным (у) и факторными признаками 1 n х x х K . Число факторных признаков должно быть враз меньше объема изучаемой совокупности [1, 7–1]. 8.5. Парная регрессия на основе метода наименьших квадратов Парная регрессия характеризует связь между двумя признаками результативными факторным. Оценка параметров уравнений регрессии осуществляется методом наименьших квадратов (МНК), в основе которого лежит предположение о независимости наблюдений исследуемой совокупности. Сущность метода МНК заключается в нахождении параметров модели ( 1 0 , а а ), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии min ) ( 2 → − ∑ = x y y S (8.30) Для прямой зависимости min ) a ( 2 Рассматривая S в качестве функции параметров 1 и а а и проводя математические преобразования (дифференцирование, получаем Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ = − + ∑ = = − + ∑ = 0, ) 2( 0; ) 2( 1 0 1 1 0 откуда система нормальных уравнений для нахождения параметров линейной парной регрессии МНК имеет вид ⎪⎩ ⎪ ⎨ ⎧ ∑ = ∑ + ∑ ∑ = ∑ + y, ; 2 1 0 где n – объем исследуемой совокупности (число единиц наблюдения. Число уравнений в системе равно числу искомых параметров. В уравнениях регрессии параметр 0 a показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов параметра в уравнении параболы и 2 a ) – коэффициент регрессии – показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения. Пример. Имеются следующие данные по 10 однородным предприятиям (см. табл. 8.4). Найти зависимость между электровооруженностью труда и продукцией на одного работника. Решение. Поданным табл. 8.4 зависимость между электровооруженностью труда и продукцией на одного работника выражается уравнением прямой 0 + = , где x y – выпуск готовой продукции 1 и – параметры уравнения регрессии x – электровооруженность. Таблица 8.4 Номер завода Электровооруженность труда на 1 раб, Квт · ч х Выпуск готовой продукции на 1 раб, тыс. р. уху 2 х х у 1 2 3 6 4 3,61 2 5 6 30 25 6,0 3 3 4 12 9 4,41 4 7 6 42 49 7,59 5 2 4 8 4 3,61 6 6 8 48 36 6,80 Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. 7 4 6 24 16 5,20 8 9 9 81 81 9,19 9 8 9 72 64 8,38 10 4 5 20 16 5,20 Итого 50,0 60,0 343 304 60 В среднем Подставим в систему нормальных уравнений фактические данные из табл. 8.4: 0 1 0 1 10 50 60; 50 304 343. a a a a + = ⎧ ⎨ + = ⎩ Домножаем на 5 первое уравнение 0 1 0 1 50 250 300; 50 304 343; a a a a + = ⎧ ⎨ + = ⎩ 0,796 2,02 2,02; 0,7963; 43; 54 0 1 1 х у a a a х + = = = = Параметры уравнения регрессии можно определить по формулам 2,02. 5 0,796 6 0,796; 5 5 30,4 6 5 34,3 ) ( 1 0 2 2 1 = ⋅ − = − = = ⋅ − ⋅ − = − ⋅ − = х a у a х х y x ху a После определения параметров уравнения регрессии рассчитываем теоретическую линию регрессии у путем подстановки значений х в уравнение связи д. т. и 6,0 5 0,796 2,02 3,61; 2 0,796 2,02 2 1 = ⋅ + = = ⋅ + = у y Если параметры уравнения связи определены правильно, то у, те. Окончательная проверка правильности расчета параметров уравнения связи производится подстановкой 0 a ив систему уравнений. Используя уравнение связи x a a y x 1 0 + = , можно определить теоретическое значение у для любой промежуточной точки. Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. Коэффициент регрессии 1 a уточняет связь между хи у Он показывает, насколько единиц увеличится результативный признак при увеличении факторного признака на единицу. Если значения признаков хи у заданы в определенном интервале (а – b), то для каждого интервала сначала определяют середину интервала 2 b a + , а затем строят уравнение регрессии между ними. Если связь между признаками у их нелинейная и описывается уравнением параболы второго порядка, то 2 2 1 0 х а x a a y x + + = В данном случае задача сводится к определению неизвестных параметров 1 0 , , а а а . Параметры находят по МНК, и система уравнений имеет вид 2 0 1 2 2 3 0 1 2 2 3 4 2 0 1 2 a a a y; a a a ; a х+ ∑ + ∑ = ∑ ⎪⎪ ∑ + ∑ + ∑ = ∑ ⎨ ⎪ ∑ + ∑ + ∑ = Решая систему нормальных уравнений, определяют параметры параболы второго порядка. Пример. В табл. 8.5 приведены данные о стаже рабочего и его выработке. Определить связь между стажем и выработкой рабочего. Решение. Связь между стажем рабочего и выработкой криволинейная и выражается параболой второго порядка 2 2 1 0 х а x a a y x + + = Составляем систему нормальных уравнений поданным табл. 8.5: 0 1 3 0 1 3 0 1 3 10 50 304 60; 50 304 2096 343; 304 2096 15604 2277. a a а a a а a a а + + = ⎧ ⎪ + + = ⎨ ⎪ + + = ⎩ Домножим первое уравнение на 5 и вычтем первое уравнение из второго 1 0 = + = + + = + + а а А а a a а a a Домножим второе на 6,08 и вычтем его из третьего уравнения Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. 191,56 2860,32 247,68 2085,44 12743,68 1848,32 304 2277 15604 2096 304 2 1 2 1 0 2 1 0 = + = + + = + + a a В а a a а a a Таблица 8.5 № п/п Стаж, лет х Выработка, шт. в ч у 2 х 3 х 4 х ху у х 2 x у 1 9 9 81 729 6 561 81 729 9,0 2 8 9 64 512 4 096 72 576 8,3 3 4 5 16 64 256 20 80 5,3 4 2 3 4 8 16 6 12 3,5 5 5 6 25 125 625 30 150 6,1 6 3 4 9 27 81 12 36 4,4 7 7 6 49 343 2 401 42 294 7,7 8 2 4 4 8 16 8 16 35 9 6 8 36 216 1 296 48 288 6,9 10 4 6 16 64 256 24 96 5,3 Итого 50 60 304 2 096 15 604 343 2 277 60 Уравнение А домножим на 4,5876 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 1 1 54 68 , 247 a a и вычтем из уравнения В 1,07307. 0,02595; 5,67 218,4 191,56 2860,32 247,68 197,23 2641,920 247,68 1 2 2 2 1 2 1 = − = = − = + = + а а а a a В a a А Подставим аи а в первое уравнение и вычислим параметра 0 0 = = − + + а а Уравнение связи тогда будет следующим 2 0,026 1,073 1,42 х х у х − + = Теоретическая линия регрессии Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. 1 2 3 1,42 1,073 9 0,026 81 9,0; 1,42 1,073 8 0,026 64 8,3; 1,42 1,073 4 0,026 16 5,3 у у у = + ⋅ − ⋅ = = + ⋅ − ⋅ = = + ⋅ и т. д. Если результативный признак с увеличением факторного признака возрастает (или убывает) не бесконечно, а стремится к конечному пределу, то применяется уравнение гиперболы 1 1 ; 1 ; 1 2 1 0 1 0 1 0 х y х а х а y х а na х а а у х Чтобы определить параметры уравнения гиперболы методом наименьших квадратов, необходимо привести его к линейному виду. Для этого производится замена переменных , 1 1 x x = получается система уравнений ( ) ; 1 2 1 1 1 0 1 1 0 ⎪⎩ ⎪ ⎨ ⎧ ∑ = ∑ + ∑ ∑ = ∑ + yx x а x а y x а na Решая систему уравнений, определяются параметры уравнения гиперболы. Уравнение степенной функции имеет следующий вид 1 0 a x a y = . (8.31) Степенная функция применяется в экономических исследованиях для характеристики слабо нелинейной связи между результативными и факторными признаками. Параметра имеет экономический смысл – это коэффициент эластичности. Он показывает, что с увеличением признака фактора на 1 % результативный признак увеличивается на а %. Для определения параметров степенной функции методом наименьших квадратов степенную функцию необходимо привести к линейному виду путем логарифмирования. В результате логарифмирования получим уравнение вида lg lg lg 1 Заменим lg ; lg ; lg 1 0 1 x x b a y y = = = Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. Запишем уравнение 1 Строим систему нормальных уравнений ; 2 1 1 1 1 1 1 1 1 x a x b y x x a nb у ∑ + ∑ = ∑ ∑ + = ∑ Решая систему нормальных уравнений, определяем параметры и . b Переходя к первоначальным обозначениям b a = 0 lg , определяем параметр. Множественная (многофакторная) регрессия Изучение связи между тремя и более связанными между собой признаками носит название множественной многофакторной регрессии. При исследовании зависимостей методами множественной регрессии задача формулируется также, как и при использовании парной регрессии, те. требуется определить аналитическое выражение связи между результативным признаком у и факторными признаками ) , , , ( 2 1 n х x х K , найти функцию ). , , , ( 2 1 , 1,2, n n х х x f у K K = Построение моделей множественной регрессии включает несколько этапов 1) выбор формы связи (уравнения регрессии 2) выбор факторных признаков 3) обеспечение достаточного объема совокупности для получения несмещенных оценок. Выбор формы связи затрудняется тем, что, используя математический аппарат, теоретически зависимость между признаками может быть выражена большим числом различных функций. Выбор типа уравнения осложнен тем, что для любой формы зависимости выбирается целый ряд уравнений, которые в определенной степени будут описывать эти связи. Некоторые предпосылки для выбора уравнения регрессии получают на основе анализа предшествующих аналогичных исследований. Наиболее приемлемым способом определения вида уравнения регрессии является метод перебора различных уравнений. Сущность метода заключается в том, что большое число уравнений (моделей) регрессии реализуется на ЭВМ с помощью специально разработанного алгоритма перебора с последующей статистической проверкой, главным образом на основе критерия Стьюдента и критерия Фишера – Снедекора. В практике построения многофакторных моделей взаимосвязи соци- ально-экономических явлений используются пять типов моделей 1) линейная Тарновская ЛИ. Статистика учебное пособие. – Томск Изд-во ТПУ, 2008. – 248 с. ; 2 2 1 1 0 , 1,2, k k k х а х а х а а у + + + + = K K (8.32) 2) степенная ; 2 2 1 1 0 , 1,2, k а k а а k х х х а у ⋅ ⋅ ⋅ = K K (8.33) 3) показательная ; 2 2 1 1 0 , 1,2, k х k а х а х а а k e у + + + + = K K (8.34) 4) параболическая ; 2 2 2 2 2 1 1 0 , 1,2, k k k х а х а х а а у + + + + = K K (8.35) 5) гиперболическая 2 2 1 1 0 , 1,2, k k k х а х а х а а у + + + + = K K (8.36) Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации. Проблема размерности модели связи, те. определение оптимального числа факторных признаков, является одной из основных проблем построения множественного уравнения регрессии. Модель размером более ста факторных признаков сложно реализуема и требует больших затрат времени. Существует несколько методов отбора факторных признаков для построения модели взаимосвязи. Один из методов – метод экспертных оценок – основан на интуитивно-логических предпосылках, содержательно- качественном анализе. Наиболее приемлемым способом отбора является шаговая регрессия. Сущность метода заключается в последовательном отборе факторов в уравнение регрессии и последующей проверке их значимости. Сложность и взаимное переплетение отдельных факторов, обусловливающих исследуемое экономическое явление, могут проявляться в так называемой |