Министерство цифрового развития
Скачать 237.33 Kb.
|
МИНИСТЕРСТВО ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ ИМ. ПРОФ. М.А. БОНЧ-БРУЕВИЧА» (СПбГУТ) Факультет «Информационных систем и технологий»Кафедра «Интеллектуальных систем автоматизации и управления»
ЛАБОРАТОРНАЯ РАБОТА №1 по дисциплине:Системный анализ и принятие решений на тему: Вариант №5
Санкт-Петербург 2022 Цель выполнения работыЦель выполнения лабораторной работы – освоение методологии краткосрочного прогнозирования объема продаж продукции с использованием моделей и методов регрессионного анализа и программы Statistica. Постановка задачиИмеется совокупность результатов наблюдений за поведением переменной Y в зависимости от изменения одной или нескольких независимых переменных X (X1, X2, …,Xn). Необходимо установить количественную взаимосвязь между показателем Yи факторами X, т.е. определить такую функциональную зависимость Y*=f(X1,X2,…,Xn), которая наилучшим образом описывает имеющиеся экспериментальные данные. На основании построенного уравнения регрессии требуется спрогнозировать значение зависимой переменной Y на шаг вперед (момент времени (t+1)) при условии, что значения влияющих факторов на этот период известны. Описание метода решения задачиМатематическое уравнение, которое описывает линию простой (парной) линейной регрессии с учетом влияния одного фактора, имеет вид: Yt+1=b0+b1X, гдеYt+1– прогнозное значение зависимой переменной на момент времени (t+1); b0,b1– параметры, которые оцениваются на основе статистических данных (угловые коэффициенты или коэффициенты регрессии); X– значение влияющего фактора (независимая переменная). Однофакторная линейная регрессионная модель может быть расширена путем включения в нее более одной независимой переменной. При совместном влиянии на Yнескольких факторов (X1,X2,…,Xn), уравнение множественной регрессии принимает вид: Yt+1=b0+b1X1+b2X2+…+bnXn, где n– число факторов. Коэффициенты регрессии представляют собой независимые вклады каждой независимой переменной в предсказание зависимой переменной. Если коэффициент bположителен, то связь переменной с зависимой переменной положительна, если коэффициент отрицателен, то и связь носит отрицательный характер (чем меньше значение фактора, тем больше значение переменной Y). Если b=0, то связь между переменными отсутствует. Для проверки гипотезы о нулевых значениях коэффициентов регрессии (т.е. об отсутствии связи между Y и совокупностью факторов) анализируются значения F- статистики Фишера. F-критерий определяется отношением дисперсии оценки модели к дисперсии остатка и равен: F= 𝑆𝑆𝑅/𝑞 , 𝑆𝑆𝐸/(𝑛−(𝑞+1)) где SSR – сумма квадратов, объясненная уравнением регрессии (Sum of Squares about Regression); SSE– сумма квадратов остатков (Sum of Squares Errors); n– число наблюдений; q– число коэффициентов регрессии. Гипотеза об отсутствии линейной зависимости между переменной Y и факторами X отклоняется при больших значениях F-критерия и значении p-levelменьше 0,05(вероятность ошибочной оценки относительно принятой гипотезы не превышает 5%уровня). Наиболее простым методом определения коэффициентов регрессии является метод наименьших квадратов (МНК). С помощью этого метода параметры регрессионной модели вычисляются таким образом, чтобы сумма квадратов ошибок (расстояний от линии регрессии до фактических значений данных) была бы минимальной. Функция ошибки при этом равна: f=(b0+b1x11 +b2x21 +…+bkxk1–y1)2+(b0+b1x12 +b2x22 + …+bkxk2 –y2)2 +…………… + +(b0 +b1x1n+b2x2n +…+bkxkn – yn)2 Минимизируя функцию f положим: f b0 f b1 ... f bn 0. Для определения коэффициентов модели множественной линейной регрессии, используя систему уравнений, получим систему нормальных линейных уравнений, которая в векторно-матричной форме имеет вид: n x1i n i1 n x2i i1 ... xki i1 0 b yi i1 x x2 xx ... xx nxy 1i i1 1i i1 i1 1i 2i i1 1i ki b1 1i i i1 n n n 2 n b2 n x2i x21 x1i x2i ... x2ixki ... x2iyi i1 i1 i1 i1 i1 n... ... n ... n ... n ... n bk n ... xki xkix1i xkix2i xi x2 xkiyi i1 i1 i1 i1 ki i1 i1 , где n- число экспериментальных точек; i- номер точки. Отклонение отдельной точки от линии регрессии (предсказанного значения) называется остатком. Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем лучше прогноз. Оценка качества линейной регрессии проводится с помощью коэффициента детерминации R2, который показывает какая доля дисперсии отклика объясняется влиянием независимых переменных в построенной модели. R2=SSR/SST, где SST– полная сумма квадратов (Total Sum of Squares). Если связь между переменными Xи Yотсутствует, то отношение остаточной изменчивости переменной Yк исходной дисперсии равно 1. Если Xи Yкоррелируют между собой, то остаточная изменчивость отсутствует и отношение дисперсий будет равно 0. Например, если имеется R2=0,4, то изменчивость значений переменной Y около линии регрессии составляет 1-0,4 от исходной дисперсии, т.е. 40% от исходной изменчивости могут быть объяснены, а 60%остаточной изменчивости остаются необъясненными. Значение R2является индикатором степени подгонки модели к данным (значение R2 близкое к 1показывает, что модель объясняет почти всю изменчивость соответствующих переменных). При поиске лучшей регрессионной модели руководствуются требованием R2≥0,8. Функциональные возможности программы StatisticaДля решения задачи краткосрочного прогнозирования объема продаж предполагается использовать программу Statistica. Пакет прикладных программ, разработанный компанией StatSoft, позволяет проводить исчерпывающий, всесторонний анализ данных, представлять результаты анализа в виде таблиц и графиков, автоматически создавать отчеты о проделанной работе.Предоставляет мощные и удобные в использовании инструменты для статистического и графического анализа, реализует функции управления данными, добычи и визуализации данных, datamining и др. Программа Statistica имеет модульную структуру, т.е. состоит из модулей, каждый из которых используется для решения конкретного класса задач, а именно: анализ временных рядов и прогнозирование, множественная регрессия, нелинейное оценивание, факторный анализ, кластерный анализ, канонический анализ, непараметрическая статистика, дисперсионный и дискриминантный анализ. Несколько модулей объединены в группу промышленная статистика: контроль качества, анализ процессов, планирование эксперимента. Оценка коэффициентов однофакторной и многофакторной линейной регрессии осуществляется в отдельном окне системы Statistica, где представлены коэффициенты, оцененные методом наименьших квадратов, коэффициент детерминации, статистика Фишера оценки значимости регрессии, статистики Стьюдента, оценки значимости коэффициентов, коэффициент корреляции (матрица корреляций), статистика Дарбина- Уотсона. Можно анализировать большие модели, содержащие до 500 переменных. Пример (вариант 1) Описание деловой ситуацииПусть предприятие работает на рынке определенного продукта. При формировании маркетингового решения возникла необходимость в прогнозировании уровня платежеспособного спроса (объема продаж) на выпускаемую продукцию. Для решения задачи краткосрочного прогнозирования спроса предполагается использовать модели и методы регрессионного анализа. Маркетологи фирмы располагают статистическими данными за период, равный 30 месяцам, о фактических значениях объемов продаж продукции по месяцам, расходах на рекламу по месяцам, ценах на продукцию фирмы и на продукцию конкурирующей фирмы (см. табл. 1). Такие факторы, как расходы на рекламу, цена на продукцию фирмы и ее основного конкурента были выбраны как наиболее значимые по степени влияния на выходной показатель – объем продаж продукции. Требуется: 1. Рассчитать ожидаемый предприятием объем продаж продукции на 31- й месяц работы при условии, что предполагаемые на этот месяц значения факторов, влияющих на объем продаж, составят: расходы на рекламу – 93 тыс. руб., цена единицы продукции – 340 руб., цена единицы продукции конкурирующей фирмы – 343 руб. Построить последовательно однофакторную линейную регрессионную модель (с учетом только одного фактора – расходов на рекламу), двухфакторную линейную регрессионную модель (с учетом таких факторов, как расходы на рекламу и цена единицы продукции предприятия) и трехфакторную линейную регрессионную модель (с учетом трех факторов - расходы на рекламу, цена единицы продукции предприятия и цена на единицу продукции фирмы-конкурента). Рассчитать оценки прогнозов объема продаж в 31 месяце, используя построенные регрессионные модели. Провести сравнительный анализ прогнозных оценок объемов продаж продукции, полученных с помощью однофакторной, двухфакторной и трехфакторной регрессионных моделей. При поиске лучшей регрессионной модели следует руководствоваться следующими наиболее общими требованиями: Регрессионная модель должна объяснять не менее 80% вариации зависимой переменной, т.е. R2 0.8. Стандартная ошибка оценки зависимой переменной по уравнению должна составлять не более 5% среднего значения зависимой переменной; Коэффициенты уравнения регрессии и его свободный член должны быть значимы на 5%-ом уровне. Остатки от регрессии должны быть нормально распределены и без систематической составляющей. Таблица 1. Исходные данные для прогнозирования спроса
Анализ результатов решения задачиВ программе Statistica задаются исходные данные по 25 месяцам из таблицы 1. Проводится построение однофакторной линейной регрессионной модели (с учетом одного фактора – расходов на рекламу) вида Y=b0+b1X1. Коэффициенты регрессии b0, b1, рассчитанные для однофакторной модели представлены на рисунке 1. Рисунок 1. Итоги регрессионного анализа однофакторной модели Проведен расчет значений коэффициентов регрессии для модели с учетом влияния фактора «Расходы на рекламу». Выражение однофакторной линейной регрессии можно представить в виде: Y26=-19,27+1,43*X1. Расчет прогнозного значения объема продаж на 31-й месяц в ручном режиме: Y26=-19,27+1,43*87=105,32 Прогнозное значение объема продаж на 31-й месяц с учетом влияния расходов на рекламу, полученное в автоматическом режиме Y26=105,32 тыс.руб. (рис. 2). Рисунок 2. Расчет прогнозного значения объема продаж с использованием однофакторной линейной регрессионной модели Строится двухфакторная линейная регрессионная модель (с учетом двух факторов – расходов на рекламу и цены единицы продукции) вида Y=b0+b1X1+b2X2. Значения коэффициентов регрессии b0, b1, b2представлены на рисунке 3. Рисунок 3. Итоги регрессионного анализа двухфакторной модели Проведен расчет значений коэффициентов регрессии для модели с учетом влияния факторов «Расходы на рекламу» и «Цена единицы продукции». Выражение двухфакторной линейной регрессии можно представить в виде: Y26=-80,57+1,04*X1+0,29*X2. Расчет прогнозного значения объема продаж на 31-й месяц в ручном режиме: Y26=-80,57+1,04*87+0,29*331=104,52 Прогнозное значение объема продаж на 26-й месяц с учетом влияния расходов на рекламу и цены единицы продукции предприятия, полученное в автоматическом режиме составляет Y26=104,52 тыс.руб. Рисунок 4. Расчет прогнозного значения объема продаж при использовании двухфакторной регрессионной модели Значения коэффициентов регрессии b0, b1, b2, b3, рассчитанные для трехфакторной линейной регрессионной модели (с учетом трех факторов – расходов на рекламу, цены единицы продукции предприятия и цены единицы продукции фирмы-конкурента) вида Y=b0+b1X1+b2X2+b3X3, представлены на рисунке 5. Рисунок 5. Итоги регрессионного анализа трехфакторной модели Проведен расчет значений коэффициентов регрессии для модели с учетом влияния факторов «Расходы на рекламу», «Цена единицы продукции предприятия» и «Цена единицы продукции фирмы-конкурента». Выражение трехфакторной линейной регрессии можно представить в виде: Y26=-111,68+0,98*X1-0,52*X2+0,91*Х3 Расчет прогнозного значения объема продаж на 31-й месяц в ручном режиме: Y26=391,67+0,895*87-0,43*331+0,83*336=106,04 Рисунок 6. Расчет прогнозного значения объема продаж с использованием трехфакторной регрессионной модели Прогнозное значение объема продаж на 31-й месяц с учетом влияния расходов на рекламу, цены единицы продукции предприятия и цены единицы продукции фирмы- конкурента, полученное в автоматическом режиме Y26=106,04 тыс. руб. ЗаключениеВ ходе лабораторной работы была решена задача прогнозирования объема продаж с применением метода регрессионного анализа. Осуществлено последовательное построение моделей регрессионного анализа с учетом влияния одного, двух и трех рассматриваемых факторов на значение объема продаж для 26 месяца работы предприятия. Анализ построенных моделей показал, что только третья модель корректна, имеет значение R2>0,8, т.е. объясняет больше 80%разброса значений переменной Yотносительно среднего: для однофакторной модели R2=0,745; для двухфакторной модели R2=0,765; для трехфакторной моделиR2=0,806. Во всех построенных регрессионных моделях стандартная ошибка оценки зависимой переменной составляет порядка 2,5%, что является допустимым значением. Построенные регрессии значимы, а гипотеза об отсутствии связи между переменными может быть отклонена, т.к. большим значениям F-критериев соответствуют уровни значимости (p-level) меньше 5%. Результаты получены на последнем шаге регрессии и проведен анализ остатков для каждой регрессионной модели (табл. 2). По графикам можно сделать вывод, что остатки нормально распределены (в пределах ±20 ед.), заметных выбросов нет. Фактор X2(цена единицы продукции предприятия) в двухфакторной и трехфакторной моделях имеет низкий уровень значимости (p-levelбольше 0,05), т.е. этот фактор в меньшей степени влияет на изменение уровня объема продаж, чем остальные факторы. Таблица 2. Распределение остатков, полученных по результатам построенных регрессионных моделей
Таким образом, только одна из построенных регрессионных моделей может быть использована для решения задачи прогнозирования объема продаж продукции предприятия. Окончательным решением задачи прогнозирования будем считать прогнозное значение Y26=106,04 тыс. руб., полученное при использовании трехфакторной регрессионной модели, т.к. этой модели соответствует наиболее высокий уровень коэффициента детерминации R2и наименьший разброс остатков (в пределах ±14 ед.). |