Главная страница
Навигация по странице:

  • Корреляционно – регрессионный анализ. Линейная парная регрессия. Нелинейная парная корреляция. Множественная регрессия.

  • Корреляционно – регрессионный анализ. Линейная парная регрессия. Корреляционно-регрессионный анализ

  • Показатель

  • Оценка линейного коэффициента корреляции

  • При анализе адекватности уравнения регрессии исследуемо­му процессу возможны следующие варианты.

  • Статистика - лекция - Корреляция. Статистическое изучение взаимосвязи социальноэкономических явлений. Корреляционнорегрессионный анализ


    Скачать 0.86 Mb.
    НазваниеСтатистическое изучение взаимосвязи социальноэкономических явлений. Корреляционнорегрессионный анализ
    АнкорСтатистика - лекция - Корреляция.doc
    Дата27.05.2017
    Размер0.86 Mb.
    Формат файлаdoc
    Имя файлаСтатистика - лекция - Корреляция.doc
    ТипИсследование
    #8080
    страница1 из 7
      1   2   3   4   5   6   7

    ТЕМА: «Статистическое изучение взаимосвязи социально-экономических явлений. Корреляционно-регрессионный анализ».

    1. Причинность, регрессия, корреляция.

    2. Корреляционно – регрессионный анализ. Линейная парная регрессия.

    3. Нелинейная парная корреляция.

    4. Множественная регрессия.

    5. Непараметрические методы анализа.


    1. Причинность, регрессия, корреляция.
    Исследование объективно существующих связей между явлениями – важнейшая задача теории статистики.

    Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на два класса. Признаки, обусловливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.

    Из множества разнообразных форм проявления взаимосвязей в качестве двух самых общих видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно и только одно значение результативного признака. Корреляционная связь проявляется в среднем для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной.

    Связи между явлениями и их признаками классифицируются по степени тесноты, по направлению и по аналитическому выражению.

    По степени тесноты связи различают количественные крите­рии оценки тесноты связи (в соответствии со шкалой Чеддока, о чём речь пойдёт в дальнейшем).

    По направлению связи бывают прямыми и обратными, положительными и отрицательными. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Например, увеличение степени механизации труда способствует росту рентабельности строительного производства. В случае обратной связи значения результативного признака изменяются в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

    Относительно своей аналитической формы связи могут быть линейные и нелинейные. Если статистическая связь между явлениями приближенно выражена уравнением прямой линии, то её называют линейной связью; если же она выражена уравнением какой – либо кривой линии (параболы, гиперболы: степенной, показательной и т. д.), то такую связь называют нелинейной или криволинейной.

    Для выявления наличия связи, ее характера и направления используют методы: приведения параллельных данных, аналитических группировок, графический, корреляции.

    Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению ожидания другой.

    В статистике принято различать следующие варианты зависимостей:

    1. Парная корреляция – связь между признаками (результативным и факторным признаками или двумя факторными).

    2. Частная корреляция - зависимость между результативным и факторным признаками при фиксированном значении других факторных признаков.

    3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.


    1. Корреляционно – регрессионный анализ. Линейная парная

    регрессия.
    Корреляционно-регрессионный анализ включает в себя измерение тесноты, направление связи и установление аналитического выражения связи.

    Одним из методов корреляционно-регрессионного анализа является метод парной корреляции, рассматривающий влияние вариации факторного признака Х на результативный У. Аналитическая связь между ними описывается уравнениями:

    прямой

    параболы

    гиперболы

    Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи – гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функции.

    Оценка параметров уравнения регрессии ао и а1 осуществляется методом наименьших квадратов, в основе которого лежит требование минимальности сумм квадратов отклонений эмпирических данных Yi от выровненных (теоретических) :

    min(1)

    Система нормальных уравнений для нахождения параметров линейной парной регрессии имеет вид:

    (2)



    Для оценки типичности параметров уравнения регрессии используется
    t – критерий Стьюдента. При этом вычисляются значения t- критерия:

    для параметра

    (3)

    для параметра

    (4)

    В формулах (3) и (4):

    (5)

    σξ - среднее квадратическое отклонение результативного признака от выровненных значений :

    (6)
    σX - среднее квадратическое отклонение факторного признака от общей средней .

    Полученные по формулам (3) и (4) фактические значения и сравниваются с критическим , который получают по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы .

    Полученные при анализе корреляционной связи параметры уравнения регрессии признаются типичными, если t фактическое больше t критического

    (7)

    По проверенным на типичность параметрам уравнения регрессии производится построение математической модели связи. При этом параметры примененной в анализе математической функции получают соответствующие количественные значения: параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а1 – на сколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.

    Проверка практической значимости синтезированных в корреляционно-регрессивном анализе математических моделей осуществляется посредством показателей тесноты связи между признаками х и у.

    Для статистической оценки тесноты связи применяются следующие показатели вариации:

    1. общая дисперсия результативного признака , отображающая общее влияние всех факторов

    (8)

    1. факторная дисперсия результативного признака , отражающая вариацию y только от воздействия изучаемого фактора x

    (9)

    Формула (9) характеризует отклонение выровненных значений от их общей средней величины ;

    1. остаточная дисперсия , отражающая вариацию результативного признака y от всех прочих, кроме x, факторов

    (10)

    Формула (10) характеризует отклонения эмпирических (фактических) значений результативного признака yi от их выровненных значений .

    Соотношение между факторной и общей дисперсиями характеризует меру тесноты связи между признаками x и y

    (11)

    Показатель R2 называется индексом детерминации (причинности). Он выражает долю факторной дисперсии, т.е. характеризует, какая часть общей вариации результативного признака y объясняется изменением факторного признака x.

    На основе формулы (11) определяется индекс корреляции R

    (12)

    Используя правило сложения дисперсии, получают формулу индекса корреляции

    (13)

    Формула (71) является основным алгоритмом для определения индекса корреляции с использованием машинной обработки анализируемых данных.

    При прямолинейной форме связи показатель тесноты связи определяется по формуле линейного коэффициента корреляции r.

    В теории разработаны и на практике применяются различные модификации формулы расчёта данного коэффициента:

    , где

    или



    или (14)

    Заметим, что по абсолютной величине линейный коэффициент корреляции r равен индексу корреляции r только при прямолинейной связи.

    Линейный коэффициент корреляции изменяется в пределах от -1 до 1: -1 ≤ r ≤ 1. Знаки коэффициентов регрессии корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в следующей таблице:


    Оценка линейного коэффициента корреляции

    Значение линейного

    коэффициента связи

    Характер связи

    Интерпретация связи

    r = 0

    отсутствует

    -

    0 < r < 1

    прямая

    с увеличением х увеличивается у

    -1 < r < 0

    обратная

    с увеличением х уменьшается у и наоборот

    r = 1

    функциональная

    Каждому значению факторного признака строго соответствует одно значение результативного

    Показатели тесноты связи, исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их существенности.

    Для оценки значимости коэффициента корреляции r применяется t-критерий Стьюдента. При этом определяется фактическое значение критерия tr

    (15)
    Вычисленное по формуле (15) значение tr сравнивается с критическим tk, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы k.(Приложение № 3 методички, или в любой книге по статистике.)

    Если trtk, то величина коэффициента корреляции признается существенной.

    Для оценки значимости индекса корреляции R применяется F-критерий Фишера.

    Фактическое значение критерия FR определяется по формуле

    (16)

    где m – число параметров уравнения регрессии.

    Величина FR сравнивается с критическим значением Fk, которое определяется по таблице F-критерия с учетом принятого уровня значимости и числа степеней свободы v1 = m1 и v2 = nm.

    Если FRFk, то величина индекса корреляции признается существенной.

    Проверка адекватности всей модели осуществляется с помощью F-критерия и величины средней ошибки аппроксимации .

    Значение средней ошибки аппроксимации, определяемой по формуле:

    (17)

    не должно превышать 12-15%.

    Для получения выводов с практической значимости синтезированных в анализе моделей показателям тесноты связи дается качественная оценка. Это осуществляется на основе шкалы Чеддока (табл. 1).

    Таблица 1

    Шкала Чеддока

    Показатели тесноты
    связи

    0,1-0,3

    0,3-0,5

    0,5-0,7

    0,7-0,9

    0,9-0,99

    Характеристика силы связи

    слабая

    умеренная

    заметная

    высокая

    весьма
    высокая

    Заметим, что функциональная связь обозначается 1, а отсутствие
    связи – 0.

    При обозначениях показателей тесноты связи, превышающих 0,7, зависимость результативного признака y от факторного x является высокой, а при значении более 0,9 – весьма высокой. Это в соответствии с показаниями индекса детерминации R2 означает, что более половины общей вариации результативного признака y объясняется влиянием изучаемого фактора x. Последнее позволяет считать оправданным применением метода функционального анализа для получения корреляционной связи, а синтезированные при этом математические модели признаются пригодными для их практического использования.

    При показаниях тесноты связи ниже 0,7 величина индекса детерминации R2 всегда будет меньше 50%. Это означает, что на долю вариации факторного признака Х приходится меньшая часть по сравнению с прочими признаками, влияющими на изменение общей дисперсии результативного признака. Синтезированные при таких условиях модели связи практического значения не имеют.

    При анализе адекватности уравнения регрессии исследуемо­му процессу возможны следующие варианты.

    1. Построенная модель на основе ее проверки по F-критерию
      Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.

    2. Модель по F-критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна
      для принятия некоторых решений, но не для осуществления прогнозов.

    3. Модель по F-критерию Фишера адекватна, но все коэффициенты регрессии незначимы. В этом случае модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

    С целью расширения возможностей экономического анализа используются частные коэффициенты эластичности, определяемые по формуле:

    ,

    где - среднее значение соответствующего факторного признака;

    - среднее значение результативного признака;

    ai - коэффициент регрессии при соответствующем факторном признаке.
    Коэффициент эластичности показывает на сколько процентов в среднем изменится значение результативного признака при изменении факторного признака на 1%.

    Рассмотрим применение методов корреляционно-регрессионного анализа влияния вариации факторного показателя x на результативный yна конкретных примерах.
    Пример 1. Используя данные таблицы 2, выявите характер связи между факторными и результативными признаками. Изобразите корреляционную связь графически. Измерьте тесноту связи с помощью коэффициента корреляции. Постройте адекватное уравнение регрессии, рассчитайте коэффициент Фишера и ошибку аппроксимации. Сделайте выводы

    Таблица 2
      1   2   3   4   5   6   7


    написать администратору сайта