Методические указания по решению типовых задач Учебнометодическое пособие для направления подготовки
Скачать 2.09 Mb.
|
Типовые задачи модуля IV Задача 4.1. Отбор факторов при формировании модели множественной регрессии. Условие: в приложении 1 представлена база данных – результаты выборочного наблюдения за рынком строящегося жилья в Санкт-Петербурге. Число наблюдений равно 68. Представлена информация о значениях девяти факторах и результативном признаке – стоимости квартиры (млн.руб). Требуется: используя средства MS EXCEL, отобрать факторы стоимости квартиры для построения корректного множественного уравнения регрессии, пригодного для анализа и прогноза. Решение. В соответствии с правилами отбора факторов в уравнение регрессии, все факторы должны иметь количественное выражение. В базе данных имеются три качественных признака – район города, наличие балкона и тип дома. Поскольку районы города не анализировались на предмет экологического состояния, удаленности от центра и прочих особенностей, важных для стоимости квартиры, то мы не можем расположить эти районы по рангу и, следовательно, не можем включить этот фактор в модель. Наличие балкона является альтернативным признаком, поэтому единицей будем обозначать наличие балкона – «1», а его отсутствие – «0». Что касается типа дома, то кирпичную застройку обозначим «1» (лучший вариант), а панельную, соответственно «0». Таким образом, мы имеем девять количественных переменных: одна результативная и восемь факторных. Занесем их столбцами в таблицу Excel. Табл. 4.1.1. Исходные данные
Если мы хотим включить все факторы в модель с целью получения максимального коэффициента детерминации, то необходимо проверить соблюдение прочих ограничений по отбору факторов. Требование по соотношению числа факторов и числа наблюдений выполняется: поскольку на каждый фактор в модели требуется минимум 6-7 наблюдений, то минимальное число наблюдений должно быть 48-56, а в базе данных представлено 68 наблюдений. Следующие ограничения состоят в том, что ни один из факторов не может быть частью другого и факторы не должны быть интеркоррелированы. В нашем случае эти требования нарушаются: жилая площадь квартиры и площадь кухни являются частью общей площади, а число комнат тесно связано с жилой и общей площадью квартиры. Чтобы выяснить, какие факторы следует оставить в модели, а какие из них исключить, проверим их на мультиколлинеарность. Для этого используем встроенный в Excel инструмент «Пакет анализа», выбираем «Корреляция». Входной интервал охватывает весь массив данных без условных обозначений. Выводим результат анализа на экран: он будет представлять собой шахматную таблицу, где показаны коэффициенты парной корреляции каждой переменной с каждой (табл.4.1.2). Необходимо внимательно отнестись к последовательности столбцов во входном интервале, поскольку коэффициенты парной корреляции будут даны в такой же последовательности. Табл 4.1.2. Коэффициенты парной корреляции
Шахматная таблица коэффициентов по диагонали имеет единицы, поскольку в этих ячейках измеряется корреляционная связь каждой переменной с самой собой. В других ячейках на пересечении столбца и строки показаны коэффициенты корреляции между соответствующими переменными. Серым фоном выделены значения коэффициентов более 0,7: мы видим тесную и очень тесную связь между факторами х1 и х3 (r1-3=0.87); х1 и х4 (r1-4=0.92); х3 и х4 (r3-4=0.97), а также между факторами х6 и х9 (r6-9=0.77). Мы имеем так называемую мультиколлинеарность, когда сразу несколько факторов имеют тесную взаимосвязь друг с другом. Чтобы решить вопрос о том, какие из них следует оставить в модели, нужно измерить зависимость каждого фактора со всеми остальными. Для этой цели мы будем использовать встроенный инструмент «регрессия». В базе данных каждый раз будет требоваться перестановка столбцов, поскольку в качестве зависимой переменной («входной интервал у») будут вводиться последовательно все факторы, ответственные за мультиколлинеарность, а «входной интервал х» должен охватывать все остальные факторные столбцы единым массивом. В Выводе итогов на экран нас интересует только один показатель – множественный коэффициент детерминации. Именно он покажет, как сильно данный фактор связан со всеми остальными. Из модели будем удалять факторы с максимальным множественным коэффициентом детерминации межфакторной связи (табл. 4.1.3.). Анализируя мультиколлинеарность первого, третьего и четвертого факторов, мы видим, что коэффициент детерминации третьего фактора с остальными является максимальным (0,971>0,969>0,864). Следовательно, третий фактор (общая площадь квартиры) следует удалить из модели. Анализ интеркорреляции шестого и девятого фактора приводит нас к выводу, что из модели также следует удалить шестой фактор (тип дома), так как 0,653>0,625. Табл. 4.1.3. Анализ межфакторной взаимосвязи
Таким образом, на этом этапе мы оставили шесть факторов – х1, х4, х5, х7, х8, х9. Повторим процедуру выявления коллинеарности для оставшихся переменных (табл.4.1.4). Табл. 4.1.4 Коэффициенты парной корреляции
Как видим, полностью избавиться от факторной взаимосвязи не удалось: первый и четвертый факторы одновременно в модели присутствовать не могут. Для того, чтобы решить вопрос, кого из них оставить, обратимся к последней строке таблицы, где показаны коэффициенты парной корреляции факторов с результативным показателем – стоимостью квартиры. Взаимосвязь результата с четвертым фактором сильнее, чем с первым (0,89>0,78), следовательно, жилая площадь имеет большее значение для формирования стоимости квартиры, чем число комнат. Выбор очевиден – первый фактор удаляем из модели. Еще раз повторяем процедуру выявления коллинеарности (табл. 4.1.5). Табл. 4.1.5. Коэффициенты парной корреляции
Так как ни один из коэффициентов межфакторной связи по своей величине не превышает 0,7, мы получили оптимальный состав переменных для построения корректной модели множественной регрессии. Вывод. Анализ состава переменных на предмет мультиколлинеарности позволил нам обнаружить и исключить из модели факторы с наибольшим коэффициентом межфакторной связи. В окончательном варианте в модель множественной регрессии рекомендуется включить следующие переменные: у- стоимость квартиры, млн. руб.; х4 – жилая площадь квартиры, м2; х5 – площадь кухни, м2; х7 – наличие балкона; х8 – число месяцев до окончания срока строительства; х9 – расстояние до метро, минут пешком. Задача 4.2. Построение и анализ уравнения множественной линейной регрессии. Условие. В предшествующей работе выявлен оптимальный состав переменных для построения корректной модели множественной регрессии. Исходные данные представлены в приложении 1. |