Курс социально-экономической статистики. М. Г. НазароваРекомендовано Министерством образования Российской Федерации в качестве учебника
Скачать 5.92 Mb.
|
СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПРОЦЕССОВ В условиях перехода страны к рыночной экономике возрастает интерес и потребность в статистических методах анализа и прогнозирования, в количественных оценках социально- экономических явлений, получаемых с использованием многомерных статистических методов на ПЭВМ. В данном разделе излагаются основные теоретические положения таких многомерных статистических методов, как корреляционный, регрессионный, компонентный и кластерный анализ, ряд задач эконометрики. Значительное внимание уделяется логическому анализу исходной информации и экономической интерпретации получаемых результатов, а также рассмотрению подробно разработанных типовых примеров, взятых из экономической практики и решенных с использованием ЭВМ. Примеры иллюстрируют необходимость комплексного применения многомерных статистических 426 методов. При этом корреляционный анализ используется, с одной стороны, на этапе предварительного анализа для выявления мультиколлинеарности, а с другой — при оценке адекватности регрессионной модели; компонентный анализ используется в задачах снижения размерности, а также при построении уравнения регрессии на главных компонентах и в задачах классификации. При окончательном выборе модели рекомендуется использовать как экономические, так и статистические критерии. Наряду с точечными оценками рассматриваются методы построения интервальных оценок коэффициентов и уравнения регрессии. В 53.5 «Основы эконометрики» рассматриваются производственные функции и системы одновременных эконометрических уравнений, двухшаговый метод наименьших квадратов. Настоящий раздел предназначен для студентов, изучающих многомерные статистические методы, и специалистов, желающих повысить свою квалификацию в области применения современных эконометрических методов для анализа и прогнозирования социально-экономических явлений. Глава 53. Методы многомерного статистического анализа и моделирования социально- экономических явлений 53.1. Корреляционный анализ Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков. Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации. Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная. Множественный коэффициент корреляции характеризует тесноту, линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель. Исходной для анализа является матрица размерности п х k, i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям (j = 1, 2, ..., k). В корреляционном анализе матрицу Х рассматривают как выборку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения. По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних x , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k: 427 где (53.1) (53.2) x ij — значение i-го наблюдения j-го фактора, r il — выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями x j и x l . При этом r jl является оценкой генерального парного коэффициента корреляции. Матрица R является симметричной (r jl = r lj ) и положительно определенной. Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (k - 2)-го порядка между переменными х 1 и х 2 равен (53.3) где R jl — алгебраическое дополнение элемента r jl корреляционной матрицы R. При этом R jl = (-l) j+l M jl , где M jl — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца. Множественный коэффициент корреляции (k - 1)-го порядка результативного признака x 1 определяется по формуле (53.4) где | R | — определитель матрицы R. Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H 0 : ρ = 0, проверяется по t- критерию Стьюдента. Наблюдаемое значение критерия находится по формуле (53.5) где r — соответственно оценка частного или парного коэффициента корреляции ρ; l — порядок частного коэффициента корреляции, т.е. число фиксируемых факторов (для парного коэффициента корреляции l=0). Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза H 0 : ρ = 0 отвергается с вероятностью ошибки α, если t набл по модулю будет больше, чем значение t кр , определяемое по таблицам t-распределения для заданного α и υ = n – l - 2. Значимость коэффициентов корреляции можно также проверить с помощью таблиц Фишера — Иейтса. При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку дляZ: (53.6) 428 где t γ вычисляют по таблице значений интегральной функции Лапласа из условия значениеZ' определяют по таблице Z-преобразования по найденному значению r. ФункцияZ' — нечетная, т.е. Обратный переход от Z к ρ осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для ρ с надежностью γ: Таким образом, с вероятностью γ гарантируется, что генеральный коэффициент корреляции ρ будет находиться в интервале (r min , r max ). Значимость множественного коэффициента корреляции (или его квадрата — коэффициента детерминации) проверяется по F-критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. H 0 : ρ 1/2,…,k = 0, а наблюдаемое значение статистики находится по формуле (53.7) Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между х 1 и остальными факторами х 2 , ..., х k , если F набл > F кр , где F кр определяется по таблице F-распределения для заданных α, υ 1 = k - 1, υ 2 = n - k. 53.2. Регрессионный анализ Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) х j (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x j . Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием y = φ(x 1 , ..., х k ), являющимся функцией от аргументов х j и с постоянной, не зависящей от аргументов дисперсией σ 2 Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x 1 , х 2 , ..., х j , ..., х k ) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (у i , x i1 , х i2 , ..., х ij , ..., x ik ), где х ij — значение j-й переменной для i-го наблюдения (i = 1, 2,..., n), у i — значение результативного признака для i-го наблюдения. Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид (53.8) где β j — параметры регрессионной модели; ε j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ 2 Отметим, что модель (53.8) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров β 0 , β 1 ,…, β j , …, β k и аргументов. 429 Как следует из (53.8), коэффициент регрессии B j показывает, на какую величину в среднем изменится результативный признак у, если переменную х j увеличить на единицу измерения, т.е. является нормативным коэффициентом. В матричной форме регрессионная модель имеет вид (53.9) где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у 1 , у 2 ,.... у n ); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ...,k; x 0i , = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора ε i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mε i = 0) и неизвестной постоянной σ 2 (Dε i = σ 2 ). На практике рекомендуется, чтобы значение п превышалоk неменее чем в три раза. В модели (53.9) В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x 0 , которая во всех наблюдениях принимает значения, равные единице. Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β 0 , β 1 , …, β k модели (53.8) или вектора β в (53.9). Так как в регрессионном анализе х j рассматриваются как неслучайные величины, a Mε i = 0, то согласно (53.8) уравнение регрессии имеет вид (53.10) длявсех i = 1, 2, ..., п, или в матричной форме: (53.11) где Y — вектор-столбец с элементами y 1 ..., y i ,..., y n . Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у i от модельных значений y i , т.е. квадратичную форму: где символом «Т» обозначена транспонированная матрица. Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1. 430 Рис. 53.1. Наблюдаемые и модельные значения результативного признака у Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по β 0 , β 1 , …, β k и приравнивая частные производные к нулю, получим систему нормальных уравнений решая которую получим вектор-столбец оценок b, где b = (b 0 , b 1 , ..., b k ) T . Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле (53.12) Х T — транспонированная матрица X; (Х T Х) -1 — матрица, обратная матрице Х T Х. Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку i y€ уравнения регрессии (53.13) или в матричном виде: Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением (53.14) где (53.15) Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем 431 (53.16) Значимость уравнения регрессии, т.е. гипотеза Н 0 : β = 0 (β 0 ,= β 1 = β k = 0), проверяется по F- критерию, наблюдаемое значение которого определяется по формуле (53.17) По таблице F-распределения для заданных α, v 1 = k + l,v 2 = n – k - l находят F кр Гипотеза H 0 отклоняется с вероятностьюα, если F набл > F кр . Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля. Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н 0 : β j = 0, где j = 1, 2, ..., k, используют t-критерий и вычисляют t набл (b j ) = b j / s€ bj . По таблице t-распределения для заданного α и v = п - k - 1 находят t кр . Гипотеза H 0 отвергается с вероятностью α, если t набл > t кр . Из этого следует, что соответствующий коэффициент регрессии β j значим, т.е. β j ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t набл . После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами. Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов. Наряду с точечными оценками b j генеральных коэффициентов регрессии β j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ. Интервальная оценка с доверительной вероятностью γ для параметра β j имеет вид (53.19) где t α находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы v = п - k - 1. Интервальная оценка для уравнения регрессии y в точке, определяемой вектором-столбцом начальных условий X 0 = (1, x 0 1 , x 0 2 ,,..., x 0 k ) T записывается в виде (53.20) Интервал предсказания y n+1 с доверительной вероятностью у определяется как (53.21) где t α определяется по таблице t-распределения при α = 1 - γ и числе степеней свободы v = п - k - 1. По мере удаления вектора начальных условий х 0 от вектора средних x ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где x = (1, k x x ,..., 1 ). 432 Рис. 53.2. Точечная y€ и интервальная ] € € [ y y y оценки уравнения регрессии x y 1 0 Мультиколлинеарность Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х 1 , х 2 , ..., х k . В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (X T X) становятся слабообусловленными, т.е.ихопределители близки к нулю. Это приводит к неустойчивости оценок коэффициентов регрессии (53.12), завышению дисперсии s 2 bj , оценок этих коэффициентов (53.14), так как в их выражения входит обратная матрица (X T X) -1 , получение которой связано с делением на определитель матрицы (Х T Х). Отсюда следуют заниженные значения t(b j ). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции. На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | r jl | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать один из показателей — х j или x l Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах. |