Задание№3. Задание 3 Использование инструментов "Fill From Example" и "Forecast" Задание 1
Скачать 305.36 Kb.
|
Задание №3 Использование инструментов "Fill From Example" и "Forecast" Задание 1. Проведите анализ данных при помощи инструмента Fill From Example и опишите полученные результаты. Измените обучающий набор данных следующим образом. Найдите строку со значением "расстояние до работы 2-5 км", (например, строку с идентификатором 19562, 96-я строка в таблице) и для параметра "Высоко-доходный клиент" поставьте значение "Нет". Повторите анализ. Как изменился отчет о шаблонах? Объясните эти изменения. Задание 2. С помощью инструмента постройте прогноз продаж на год (12 значений). Проанализируйте график. На ваш взгляд, какой тип периодичности обнаружил инструмент в исходных данных и использует для предсказания? В качестве исследуемого набора данных, будет использоваться тот же локализованный пример для Excel, что и в прошлой лабораторной. Нужные данные находятся на листе «Заполнение из примера» Набор данных описывает ряд клиентов магазина. Для некоторых из них отмечено, является ли данный клиент «высокодоходным» или нет. Эти строки будут использоваться как обучающая выборка. Задачей анализа будет являться оценка остальных клиентов по этому параметру. Для решения этой задачи используется алгоритм Microsoft Logistic Regression. Для создания модели в обучающей выборке должны быть представлены варианты со всеми возможными значениями целевого столбца. Как правило, чем больше характерных примеров в обучающей выборке, тем более качественно будет обучена модель. Данный инструмент непригоден для задачи предсказания значений параметра, который может принимать непрерывные числовые значения. Еще одна особенность – анализ проводится по столбцам (т.е. предсказывается значение столбца). Если ряд, который необходимо заполнить, хранится в виде строки, перед началом анализа надо выполнить транспонирование (скопировать в буфер, выбрать в контекстном меню «Специальная вставка» и отметить флажок «Транспонировать»). Запустим инструмент Fill From Example. В первом окне будет предложено выбрать столбец, содержащий образцы данных. В нашем случае он автоматически определен верно – «Высокодоходный клиент». Как и в предыдущих случаях, по ссылке «Choose columns to be used for analysis», можно выбрать столбцы, учитываемые при анализе. Эвристический механизм определил, что поле ID учитывать не надо. На практике, рекомендуемые настройки стоит менять только в случае, если точно известно о взаимной независимости параметров. Обратите внимание, что не только изменилась раскраска строки таблицы, но и произошли изменения в отчете, показывающем теперь наличие 33 исключений. Автоматический пересчет работает только в том случае, если сессия работы с аналитическими службами SQL Server остается открытой. Если таблица Excel была закрыта и снова открыта, то автоматического пересчета не будет (нужно снова провести анализ). Также в описаниях отмечается, что инструмент реагирует только на изменение данных в диапазоне ячеек, использовавшемся при обучении. Если после начала работы инструмента в конец таблицы добавить новые строки, то они оцениваться не будут. Как уже отмечалось выше, если нужно рассматривать только наиболее сильные выбросы, можно увеличить значение порога откло нения и инструмент изменит оценки в соответствии с заданным значением (рис.5.37). Повторный запуск инструмента удалит результаты предыдущего анализа. Учитывая, что проводимые инструментом изменения достаточно сложны (раскраска строк таблицы и т.д.), если нужно удалить результаты работы, рекомендуется запустить повторный анализ, согласиться с удалением результатов и потом в окне, аналогичном представленному на рисунке 5.33, нажать кнопку Close (отказаться от анализа данных). Инструмент Scenario Analysis позволяет моделировать влияние, оказываемое изменением одного из параметров (значений одного столбца) на другой, связанный с первым. В основе работы инструмента лежит использование алгоритма Microsoft Logistic Regression. Для формирования временной модели требуется обучающая выборка, содержащая не менее 50 записей [3]. Инструмент Scenario Analysis включает две составные части – «Анализ сценария поиска решений» (Goal Seek) и «Анализ возможных вариантов» («What-If»). «Анализ сценария поиска решений» (Goal Seek) Использование инструмента Goal Seek позволяет оценить, сможем ли мы достичь желаемого значения в целевом столбце, меняя значения выбранного параметра. С его помощью можно провести анализ как для одной записи, так и для всей таблицы. Используя этот инструмент надо быть готовым, что не для всех вариантов запроса может быть получен ответ. Это может быть связано с тем, что в исходных данных нет интересующих нас сочетаний. Также могут быть проблемы из-за типов данных. Кроме того, нельзя забывать, что запрос нужно формировать с учетом знаний о предметной области. Например, можно запросить систему, если человек хочет увеличить годовой доход на 20 процентов, надо ли ему приобретать велосипед. И даже получить какой-то ответ. Но понятно, что в такой постановке сам вопрос является бессмысленным. Пусть мы хотим узнать, как будет влиять образование на уровень достатка человека. Сначала проведем анализ для одной записи. Например, нас интересует клиент с идентификатором 12496 (первая запись в наборе данных). Откроем набор данных «Клиенты» и на вкладке Analysis выберем Scenario Analysis->Goal Seek (рис.5.38). Также можно указать точное значение и диапазон (выбрав ―In range‖). Для значений, не являющихся числовыми, варианты ―Percentage‖ и ―In range‖ будут неактивны. Для достижения искомого значения будем менять столбец «Образование». Перейдя по ссылке ―Choose columns to be used for analysis‖, от- метим, что при анализе в рассмотрение не берем столбцы «ID», «Дети», «Расстояние до работы», «Приобрел велосипед». После закрытия окна ―Advanced Columns Selection‖ стоит еще раз проверить настройки в секции ―Goal to seek‖ – иногда при переходе между окнами переключатель между ―Exactly‖, ―Percentage‖ и ―In range‖ сбрасывается в значение по умолчанию (―Exactly‖). Результат анализа, выполненного по нажатию кнопки Run, представлен на рисунке 5.40. Для выбранной строки найден шаблон, рекомендующий для параметра «Образование» значение «Неоконченное высшее». При этом уровень достоверности – Confidence (иногда верхняя часть надписи затирается, как на рисунке), оценивается как очень низкий (―Very low‖). Если переместиться на следующую строку и снова нажать Run, получим результат для новых данных (рис.5.41). В этом случае, под ходящего решения не было найдено, и был предложен наиболее близкий вариант. Если в секции ―Specify Row or Table‖ установить переключатель в ―Entire table‖, то сценарии будут посчитаны для всех строк (рис.5.42). Результаты будут указаны в двух столбцах, добавленных в исходную таблицу. Для тех строк, которые отмечены крестиком в красном круге, соответствующего желаемому сценарию шаблона найдено не было. |