Главная страница
Навигация по странице:

  • Табл. 3.1. Исходные данные

  • Таблица «Регрессионная статистика»

  • Таблица «Дисперсионный анализ»

  • Таблица «Вывод остатка»

  • Методические указания по решению типовых задач Учебнометодическое пособие для направления подготовки


    Скачать 2.09 Mb.
    НазваниеМетодические указания по решению типовых задач Учебнометодическое пособие для направления подготовки
    Дата14.10.2022
    Размер2.09 Mb.
    Формат файлаdoc
    Имя файлаuch-met_posobie_statistika-metod_ukazania_po_resheniyu_tip_zadac.doc
    ТипМетодические указания
    #734355
    страница11 из 20
    1   ...   7   8   9   10   11   12   13   14   ...   20

    Типовые задачи модуля III.

    Задача 3.1. Парная линейная регрессия и статистическая оценка ее достоверности с использованием инструмента «Регрессия» MS EXCEL

    Условие: имеются данные выборочного наблюдения за рынком строящегося жилья в Санкт-Петербурге (приложение 1).


    Требуется: изучить взаимосвязь между ценой квадратного метра общей площади квартир и расстоянием до ближайшей станции метро. Используя встроенный инструмент «Регрессия» MS EXCEL 2010, построить парную линейную модель регрессии, оценить достоверность полученных результатов.

    Решение. Прежде чем моделировать взаимосвязь переменных в виде уравнения регрессии, необходимо убедиться, что они действительно взаимосвязаны. Одним из приемов обнаружения корреляционной связи между двумя переменными является графический способ – построение точечного графика, где координатами точек являются соответствующие значения х и у в конкретных наблюдениях.. В нашем примере х- этофакторная переменная «расстояние до метро», у – результативная переменная «цена квадратного метра общей площади квартиры» (табл. 3.1.) .

    Табл. 3.1. Исходные данные


    п/п

    Расстояние до метро, минут ходьбы (х)

    Цена квадратного метра, тыс.руб. (у)

    п/п

    Расстояние до метро, минут ходьбы (х)

    Цена квадратного метра, тыс.руб. (у)

    1

    20

    81,31

    35

    5

    110,00

    2

    25

    75,96

    36

    2

    110,00

    3

    15

    75,97

    37

    3

    110,26

    4

    15

    76,84

    38

    3

    103,92

    5

    20

    77,15

    39

    10

    103,98

    6

    25

    77,44

    40

    7

    104,05

    7

    25

    77,59

    41

    3

    105,98

    8

    20

    78,00

    42

    7

    106,08

    9

    25

    78,95

    43

    10

    106,10

    10

    25

    80,17

    44

    5

    115,00

    11

    15

    81,54

    45

    3

    115,06

    12

    25

    82,90

    46

    10

    115,16

    13

    15

    83,24

    47

    5

    115,24

    14

    15

    85,93

    48

    15

    89,96

    15

    7

    85,95

    49

    10

    90,14

    16

    15

    99,85

    50

    15

    93,03

    17

    3

    100,00

    51

    20

    93,87

    18

    5

    100,00

    52

    7

    94,06

    19

    7

    100,00

    53

    10

    96,17

    20

    7

    100,00

    54

    10

    96,87

    21

    3

    100,12

    55

    10

    106,39

    22

    5

    100,13

    56

    7

    112,39

    23

    3

    100,14

    57

    7

    124,82

    24

    7

    100,15

    58

    5

    129,20

    25

    3

    100,21

    59

    25

    88,97

    26

    5

    104,08

    60

    20

    89,00

    27

    3

    104,65

    61

    15

    89,08

    28

    7

    105,66

    62

    20

    89,22

    29

    5

    106,77

    63

    10

    95,88

    30

    3

    107,00

    64

    7

    95,93

    31

    3

    108,64

    65

    20

    96,22

    32

    10

    109,05

    66

    15

    97,78

    33

    3

    109,22

    67

    15

    98,00

    34

    7

    109,90

    68

    20

    98,03


    Исходные данные следует расположить в двух столбцах таблицы EXCEL, причем первый столбец – х, второй – у. Далее для построения графика нужно выделить столбцы с исходной информацией, войти в пункт меню «Вставка» и выбрать «Точечный график». Необходимо также дать название графика, подписать оси координат и указать место вывода графика на экран (рис.3.2.).

    Конфигурация точечного графика демонстрирует наличие обратной связи между переменными - с ростом переменной «х» среднее значение «у» имеет тенденцию к снижению. Следовательно, взаимосвязь между переменными есть, и она проявляется в том, что рост удаленности от метро в данной выборке наблюдений снижает цену квадратного метра жилья.


    Для построения модели парной линейной регрессии выберите инструмент анализа «Регрессия». Чтобы активировать данную опцию, нужно войти в пункт меню «Файл», затем выбрать «Параметры». В нижней части окна «Параметры» Excel 2010 в раскрывшемся списке «Управление» следует выбрать «Надстройки Excel» и нажать клавишу «Перейти…». После чего, в открывшемся окне «Надстройки» поставить галочку у надписи «Пакет анализа».

    После выполнения процедуры активации для работы с надстройкой необходимо войти в пункт меню «Данные» и кликнуть по надписи «Анализ данных» в правой части ленты меню. В открывшемся окне «Анализ данных» нужно выбрать инструмент «Регрессия». Щелкните флажок напротив «Входной интервал У» и выделите соответствующий числовой диапазон (столбец) данных, аналогично заполните «Входной интервал Х». Далее укажите параметры вывода данных на экран: например, выберите «выходной интервал», щелкните флажок в окне напротив и укажите ячейку таблицы Excel , нажмите «ОК». В итоге появится лист со следующей информацией (табл.3.2.)



    Табл.3.2.

    ВЫВОД ИТОГОВ








































    Регрессионная статистика
















    Множественный R

    0,76
















    R-квадрат

    0,58
















    Нормированный R-квадрат

    0,57
















    Стандартная ошибка

    8,13
















    Наблюдения

    68





































    ДИСПЕРСИОННЫЙ АНАЛИЗ
















     

    df

    SS

    MS

    F

    Значим. F




    Регрессия

    1

    5944,140

    5944,140

    90,023

    5,957E-14




    Остаток

    66

    4357,898

    66,029










    Итого

    67

    10302,038

     

     

     

























     

    Коэффи-циент.

    Стандарт.

    ошибка

    t-статистика

    P-Значение

    Нижнее 95%

    Верх.95%

    Y-пересечение

    112,14

    1,804

    62,1462

    2,70E-60

    108,54

    115,74

    Переменная X 1

    -1,297

    0,137

    -9,488

    5,96E-14

    -1,57

    -1,02





    ВЫВОД ОСТАТКА


























    Наблюдение

    Предсказанное Y

    Остатки







    1

    86,20

    -4,89







    2

    79,72

    -3,76







    3

    92,69

    -16,71







    4

    92,69

    -15,85







    5

    86,20

    -9,05







    6

    79,72

    -2,28







    7

    79,72

    -2,13







    8

    86,20

    -8,20







    9

    79,72

    -0,77







    10

    79,72

    0,46







    11

    И т.д.




    Раскроем содержание вывода итогов и условных обозначений.

    Таблица «Регрессионная статистика»:

    • Множественный R – коэффициент корреляции, в нашем примере – парный коэффициент корреляции;

    • R-квадрат – коэффициент детерминации;

    • Нормированный R2 - это тот же коэффициент детерминации, но скорректированный на величину выборки. Нормированный R2=1-(1-R2)*((n-1)/(n-k)), где n - число наблюдений; k - число параметров в уравнении регрессии. Нормированный R2 предпочтительнее использовать в случае добавления новых регрессоров (факторов), т.к. при их увеличении будет также увеличиваться значение R2, однако это не будет свидетельствовать об улучшении модели;

    • Стандартная ошибка показывает, на какую величину в среднем по всем наблюдениям фактические значения результативного признака будут отклоняться от их значений, определенных по уравнению регрессии.

    • Наблюдения - указывается число наблюдений.

    Таблица «Дисперсионный анализ»:

    • В первой графе таблицы представлены источники вариации зависимой переменной – регрессионная вариация (обусловленная влиянием изучаемого фактора), остаточная (влияние прочих факторов) и общая вариация (влияние всех причин);

    • В столбце d.f. (degree of freedom) приводится число степеней свободы для каждого из источников вариации: d.f.общ. = n-1; d.f.регр.=m-1, где m –число параметров в уравнении регрессии; d.f.ост.= (n-1)-( m-1);

    • В столбце SS (sum of squares) представлены суммы квадратов отклонений или объемы вариации зависимой переменной по источникам ее возникновения;

    • MS (mid square) – средний квадрат отклонений или дисперсия зависимой переменной по источникам вариации;

    • F - это фактическое значение критерия Фишера, определенное как отношение регрессионной дисперсии к остаточной (если первая больше второй);

    • Значимость критерия Фишера : уровень значимости - это допустимая вероятность отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае это означает вероятность признания по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет. Обычно уровень значимости принимается равным 0,05;

    • В столбце «Коэффициенты» представлены параметры уравнения регрессии у=а+вх : «у-пересечение» - это свободный член уравнения регрессии а, коэффициент при переменной х есть коэффициент регрессии в;

    • Стандартные ошибки параметров показывают, на какую величину в среднем по всем выборкам равного объема выборочные параметры связи (оценки) будут отличаться от истинных, генеральных параметров регрессии;

    • t-статистика – это фактическое (выборочное) значение критерия t, которое равно отношению выборочного параметра к его стандартной ошибке;

    • P-значение – это уровень значимости отдельных параметров уравнения регрессии; это вероятность того, что критическое значение используемого критерия (t-Стьюдента или t-нормального распределения) превысит значение, вычисленное по выборке. В данном случае сравниваем p-значения с выбранным уровнем значимости (0.05);

    • Нижнее 95% и Верхнее % - это границы доверительного интервала данного параметра, определенные для 95% уровня вероятности суждения.


    Таблица «Вывод остатка»

    • Предсказанное У – это рассчитанное по решенному уравнению регрессии значение зависимой переменной при данном значении фактора в каждом конкретном наблюдении;

    • Остаток- это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

    1   ...   7   8   9   10   11   12   13   14   ...   20


    написать администратору сайта