Главная страница
Навигация по странице:

  • Основные принципы с большими данными

  • Дневник_отчет_Погосян_3. Национальный исследовательский ядерный университет мифи институт финансовых технологий и экономической безопасности кафедра финансовый мониторинг


    Скачать 1 Mb.
    НазваниеНациональный исследовательский ядерный университет мифи институт финансовых технологий и экономической безопасности кафедра финансовый мониторинг
    Дата22.07.2022
    Размер1 Mb.
    Формат файлаdocx
    Имя файлаДневник_отчет_Погосян_3.docx
    ТипРеферат
    #635011
    страница2 из 3
    1   2   3

    Глава II

    2.1 Принципы работы с большими данными


    Основные принципы с большими данными:

    1. Горизонтальная масштабируемость. Данные могут быть сколько угодно много. Любая система, которая подразумевает обработку данных, должна быть расширяемой.

    2. Отказоустойчивость. Принцип масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop кластер Yahoo имеет более 4200 машин.

    3. Локальность. В больших распределенных системах данные распределены по большему количеству машин. Если данные находятся на одном сервере, а обкатывается в другом сервере, то расходы могут не окупаться. По этой причине, следует большим данным обрабатывать данных на той машине, на которой хранится.

    Все средства для больших данные в современном мире, следует этим принципам. Чтобы им следовать-они должны придумывать свойственные методы, способы и парадигмы для разработки данных.

    Техники и методы анализа, применяемые к большим данным:


    Степень использования данных в разных отраслях на примере:

    низкая

    средняя

    высокая

    Видео

    Изображения

    Текст/числа

    Банковский сектор

    средняя

    средняя

    высокая

    Страхование

    низкая

    низкая

    высокая

    Ценные бумаги и инвестиции

    низкая

    низкая

    высокая

    Производство

    средняя

    средняя

    высокая

    Розничная торговля

    средняя

    низкая

    высокая

    Оптовая торговля

    низкая

    низкая

    высокая

    Профессиональные услуги

    средняя

    средняя

    высокая

    Развлекательные услуги

    средняя

    низкая

    средний

    Здравоохранение

    низкая

    высокая

    высокая

    Транспортные услуги

    средняя

    средняя

    высокая

    СМИ

    высокая

    средняя

    высокая

    Коммунальные услуги

    средняя

    средняя

    высокая



    2.2 Построение модели с фиктивными переменными


    О линейных регрессионных моделях с переменной структурой будем говорить в тех случаях, когда на результативную переменную помимо отобранных и измеренных объясняющих признаков оказывают существенное воздействие некоторые меняющиеся (одновременно с предопределёнными переменными во времени и/или в пространстве) качественные факторы, что может вести к скачкообразным изменениям коэффициентов линейной регрессии.

    Очевидна идея, связанная с 3разбиением исходных статистических данных на качественно-однородные группы и последующей оценкой функции регрессии в каждой из таких групп. Но такой подход либо ведёт к снижению статистической надёжности результатов, либо невозможен ввиду малого объёма выборки хотя бы в одной из регрессионно-однородных подвыборок.

    Выход заключается во введении фиктивных переменных («манекенов»), однако следует обоснованно подходить к их введению, поскольку каждая новая переменная ведёт к уменьшению степеней свободы и снижению надёжности выводов. Приобретение навыков построения и анализа эконометрических моделей по регрессионно-неоднородным данным является целью предлагаемой работы.

    По имеющимся данным о рынке жилья в Коврове, продемонстрируем процедуру построения регрессионной модели по неоднородным данным:

    Y1 –стоимость однокомнатной квартиры (тыс. руб.);

    Y2 –стоимость двухкомнатной квартиры (тыс. руб.);

    Х1- дом улучшенной планировки, дом хрущёвка;

    X2 – расположение квартиры (промежуточный этаж, первый/последний этаж);

    X3-дом панельный (блочный)/кирпичный;

    X4-жилая площадь, (кв.м);

    X5- общая площадь (кв.м);


    Рисунок 1-исходные данные

    По имеющимся данным о рынке строящегося жилья в г. Коврове, продемонстрируем процедуру построения регрессионной модели по неоднородным данным. В нашем случае результативные признаки:

    Y1 - Стоимость однокомнатной квартиры (тыс.руб)
    Y2 - Стоимость двухкомнатной квартиры (тыс.руб)

    Объясняющие признаки:

    - Дом улучшенной планировки или «хрущевка»;
    - Квартира, расположенная на одном из промежуточных, первых (последних) этажей;
    - Дом панельный/кирпичный;
    - Жилая площадь, кв.м;
    - Общая площадь, кв.м.

    Построим модель множественной регрессии для Y1 и Y2

    Таблица 1 – Результаты множественной регрессии для Y1


    N=61

    Regression Summary for Dependent Variable: у1 (данные in Workbook1)
    R= ,71811988 R?= ,51569616 Adjusted R?= ,49899602
    F(2,58)=30,880 p<,00000 Std.Error of estimate: 4,0180

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(58)

    p-value

    intercept

     

     

    14,08140

    4,132478

    3,40750

    0,001197

    x4

    -0,102843

    0,091446

    -0,00010

    0,000092

    -1,12464

    0,265375

    x5

    0,706793

    0,091446

    0,89651

    0,115991

    7,72911

    0,000000





    Таблица 2 – Результаты множественной регрессии для Y2


    N=83

    Regression Summary for Dependent Variable: у2 (данные in Workbook1)
    R= ,63191317 R?= ,39931425 Adjusted R?= ,38429711
    F(2,80)=26,591 p<,00000 Std.Error of estimate: 4,1775

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(80)

    p-value

    intercept

     

     

    30,69917

    5,841391

    5,255456

    0,000001

    x4

    0,036922

    0,106074

    0,08142

    0,233911

    0,348076

    0,728697

    x5

    0,609898

    0,106074

    0,65045

    0,113127

    5,749758

    0,000000



    Таблица 3 –Результаты множественной регрессии для объединенной выборки


    N=144

    Regression Summary for Dependent Variable: у (лаб 4 in Workbook1)
    R= ,89704707 R?= ,80469345 Adjusted R?= ,80192315
    F(2,141)=290,47 p<0,0000 Std.Error of estimate: 4,8575

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(141)

    p-value

    intercept

     

     

    5,317065

    2,194902

    2,42246

    0,016685

    x4

    -0,045225

    0,037374

    -0,000134

    0,000111

    -1,21006

    0,228281

    x5

    0,891785

    0,037374

    1,194972

    0,050080

    23,86117

    0,000000



    Далее устраняем мультиколлинерность с помощью метода пошаговой регрессии.



    Рисунок 1- Результаты множественной регрессии для объединенной выборки после устранения мультиколлинеарности


    N=144

    Regression Summary for Dependent Variable: у (лаб 4 in Workbook1)
    R= ,89591587 R?= ,80266525 Adjusted R?= ,80127557
    F(1,142)=577,59 p<0,0000 Std.Error of estimate: 4,8654

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(141)

    p-value

    intercept







    5,034570

    2,186016

    2,30308

    0,022727

    x5

    0,895916

    0,037278

    1,200507

    0,049952

    24,03309

    0,000000


    Табл. 4 – Результаты множественной регрессии для объединенной выборки после устранения мультиколлинеарности


    Рис.2 - Гистограмма регрессионных остатков
    Поскольку можно предположить нормальный характер распределения регрессионных остатков (рис.2)

    На основании отчета делаем выводы:

    - модель значима;

    - значимое влияние на результативные признаки-1 комнатные и 2 комнатные квартиры, оказывает объясняющая переменная – общая площадь квартиры;

    -Оценка уравнения регрессии:




    Введем фиктивные перемены

    На цену квартиры могут влиять качественные переменные х1-дом улучшенной планировки/дом хрущёвка, х2-квартира расположена на одном из промежуточных этажей/квартира расположена на первом (последнем) этаже, х3- дом панельный/дом кирпичный, х6- квартира однакомнатная/двухкомнатная.

    Проверим эти гипотезы. Так как качественные признаки ( ) имеют две градации, то для них введем фиктивные переменные. Качественный признак ( ) имеет три градации, то для него введем следующие фиктивные переменные:











    Таким образом, модель регрессии будем искать в виде:



    Но прежде, чем вводить фиктивные переменные необходимо проверить выборочную совокупность на регрессионную однородность, применяя критерий Чоу.

    Разделим всю совокупность на две подвыборки. Так как объем подвыборок достаточно велик, то проверим гипотезы об однородности выборочных совокупностей:





    Гипотеза проверяется с помощью этой статистики:



    В условиях справедливости H0 эта статистика распределена по закону Фишера – Снедекора с и .

    Построив уравнение по объединенной выборке, получили следующие результаты:

    Табл. 5 – Результаты оценивания параметров регрессионной модели

    N=144

    Regression Summary for Dependent Variable: у1 (in Workbook1)
    R= ,89704707 R?= ,80469345 Adjusted R?= ,80192315
    F(2,141)=290,47 p<0,0000 Std.Error of estimate: 4,8575

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(141)

    p-value

    intercept

     

     

    5,317065

    2,194902

    2,42246

    0,016685

    x5

    0,891785

    0,037374

    1,194972

    0,050080

    23,86117

    0,000000

    x4

    -0,045225

    0,037374

    -0,000134

    0,000111

    -1,21006

    0,228281

    Табл. 6 – Результаты дисперсионного анализа

    Effect


    Analysis of Variance; DV: у1 (лаб 4)

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    13707,41

    2

    6853,705

    290,4710

    0,00

    Residual

    3326,92

    141

    23,595

     

     

    Total

    17034,33

     

     

     

     

    Находим значение суммы квадратов остатков = 3326,92.

    Аналогично оцениваем регрессионные остатки для каждой под выборки.

    Для фиктивной переменной :

    «улучшенная планировка»

    «хрущевка»

    Для квартир с улучшенной планировкой (n1=106), получим следующие результаты:

    Табл. 7 – Результаты дисперсионного анализа для 106 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)
    Include condition: V0<=106

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    9301,16

    2

    4650,579

    245,9300

    0,00

    Residual

    1947,75

    103

    18,910




     

    Total

    11248,91

     

     

     

     


    Для квартир хрущевок (n2=38), получим следующие результаты:

    Табл. 8 – Результаты дисперсионного анализа для 38 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)
    Include condition: V0>106

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    3517,056

    2

    1758,528

    85,40635

    0,000000

    Residual

    720,655

    35

    20,590







    Total

    4237,711













    Таким образом,

    = 1947,75

    = 720,655

    Подставим полученные результаты в формулу.

    = 11,35

    На уровне значимости 0,05 и числу степеней свободы и , найдем по таблице Фишера-Снедекора.

    Так как , то гипотеза Н отвергается, следовательно, подвыборки неоднородны.

    Для фиктивной переменной :



    иначе

    Для квартир, находящихся на первом этаже (n1=45), получим следующие результаты:

    Табл. 9 – Результаты дисперсионного анализа для 45 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)
    Include condition: V0<=45

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    5003,888

    2

    2501,944

    125,6322

    0,000000

    Residual

    836,423

    42

    19,915







    Total

    5840,311














    Для квартир, находящихся на остальных этажах (n2=99), получим следующие результаты:

    Табл. 10 – Результаты дисперсионного анализа для 99 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)

    Include condition: V0>45

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    8984,36

    2

    4492,181

    224,3586

    0,000000

    Residual

    1922,14

    96

    20,022







    Total

    10906,51














    Таким образом,

    = 836,423

    = 1922,14



    На уровне значимости 0,05 и числу степеней свободы и , найдем по таблице Фишера-Снедекора.

    Так как , то гипотеза Н отвергается, следовательно, подвыборки неоднородны.

    Для фиктивной переменной :

    – последний этаж

    - иначе

    Для квартир, находящихся на промежуточном этаже (n1=49), получим следующие результаты:

    Табл. 11 – Результаты дисперсионного анализа для 49 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)
    Include condition: V0<=49

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    5454,066

    2

    2727,033

    117,6301

    0,000000

    Residual

    1066,423

    46

    23,183







    Total

    6520,490































    Для квартир, находящихся на первом (последнем) этаже (n2=95), получим следующие результаты:

    Табл. 12 – Результаты дисперсионного анализа для 49 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)

    Include condition: V0>49

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    8714,42

    2

    4357,208

    224,5872

    0,000000

    Residual

    1784,89

    92

    19,401







    Total

    10499,31














    Таким образом,

    = 1066,423

    = 1784,89



    На уровне значимости 0,05 и числу степеней свободы и , найдем по таблице Фишера-Снедекора.

    Так как , то гипотеза Н отвергается, следовательно, подвыборки неоднородны.

    Для фиктивной переменной :

    «панельный дом»

    «кирпичный дом»

    Для квартир в панельном доме (n1=76), получим следующие результаты:

    Табл. 13 – Результаты дисперсионного анализа для 76 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)
    Include condition: V0<=76

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    8600,812

    2

    4300,406

    302,6278

    0,000000

    Residual

    1037,346

    73

    14,210







    Total

    9638,158














    Для квартир в кирпичном доме (n2=68), получим следующие результаты:
    Табл. 14 – Результаты дисперсионного анализа для 68 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)

    Include condition: V0>76

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    5816,763

    2

    2908,381

    119,7298

    0,000000

    Residual

    1578,928

    65

    24,291







    Total

    7395,691













    Таким образом,

    =1037,346

    =1578,928


    На уровне значимости 0,05 и числу степеней свободы и найдем по таблице Фишера-Снедекора.

    Так как , то гипотеза Н0 отвергается, следовательно, подвыборки неоднородны.

    Для фиктивной переменной :

    однокомнатная квартира



    Для квартир в панельном доме (n1=61), получим следующие результаты:

    Табл. 15 – Результаты дисперсионного анализа для 61 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)
    Include condition: V0<=61

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    997,069

    2

    498,5345

    30,87976

    0,000000

    Residual

    936,374

    58

    16,1444

     

     

    Total

    1933,44

     

     

     

     


    Для квартир в кирпичном доме (n2=83), получим следующие результаты:

    Табл. 16 – Результаты дисперсионного анализа для 83 объектов

    Effect

    Analysis of Variance; DV: у1 (лаб 4 in Workbook1)

    Include condition: V0>61

    Sums of Squares

    df

    Mean Squares

    F

    p-value

    Regress

    928,074

    2

    464,0368

    26,59056

    0,000000

    Residual

    1396,095

    80

    17,4512

     

     

    Total

    2324,169

     

     

     

     


    Таким образом,

    = 936,374

    = 1396,095


    На уровне значимости 0,05 и числу степеней свободы и найдем по таблице Фишера-Снедекора. Так как , то гипотеза Н0 отвергается, следовательно, подвыборки неоднородны.

    В системе Statistica для удобной работы с переменными, принимающими текстовые значения, реализован так называемый механизм "двойной записи". Согласно этому, каждому текстовому значению переменной ставится в соответствие некоторое число. Таким образом, устанавливается соответствие вида Число=Текстовое значение.

    Построим уравнение множественной регрессии результативной переменной Y с использованием количественных переменных , , и качественных переменных и затем устраним мультиколлинеарность методом пошаговой регрессии.

    Табл. 17 - Результаты множественной регрессии

    N=144

    Regression Summary for Dependent Variable: у (лаб 4 in Workbook1)
    R= ,93664536 R?= ,87730453 Adjusted R?= ,87098932
    F(7,136)=138,92 p<0,0000 Std.Error of estimate: 3,9202

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(136)

    p-value

    Intercept

     

     

    27,13541

    3,528046

    7,69134

    0,000000

    d6

    0,533298

    0,063590

    11,73842

    1,399670

    8,38656

    0,000000

    d1

    -0,106556

    0,041355

    -2,62953

    1,020538

    -2,57661

    0,011044

    d2

    -0,040256

    0,035175

    -0,94461

    0,825373

    -1,14447

    0,254439

    d3

    0,025492

    0,035508

    0,58517

    0,815092

    0,71792

    0,474036

    d4

    -0,054270

    0,040750

    -1,18234

    0,887780

    -1,33179

    0,185157

    х4

    -0,012040

    0,030793

    -0,00004

    0,000091

    -0,39100

    0,696408

    х5

    0,421463

    0,064479

    0,56475

    0,086401

    6,53640

    0,000000


    Табл. 18 – Результаты множественной регрессии после устранения мультиколлинеарности


    N=144

    Regression Summary for Dependent Variable: у (лаб 4 in Workbook1)
    R= ,93376571 R?= ,87191841 Adjusted R?= ,86917380
    F(3,140)=317,68 p<0,0000 Std.Error of estimate: 3,9477

    b*

    Std.Err. of b*

    b

    Std.Err. of b

    t(140)

    p-value

    Intercept

     

     

    25,87174

    3,130780

    8,26367

    0,000000

    d6

    0,507023

    0,058328

    11,16008

    1,283850

    8,69267

    0,000000

    d1

    -0,134425

    0,036389

    -3,31726

    0,897980

    -3,69414

    0,000316

    х5

    0,437862

    0,062192

    0,58673

    0,083336

    7,04044

    0,000000


    На уровне значимости 0,05 можно принять нулевую гипотезу о том, что распределение регрессионных остатков не отличаются от нормального.



    Рис. 4 – Гистограмма регрессионных остатков

    1   2   3


    написать администратору сайта