Главная страница
Навигация по странице:

  • "Анализ сценария поиска решений" (GoalSeek)

  • "Анализ возможных вариантов"("What-If")

  • Расчет прогноза

  • Анализ покупательской корзины

  • Задание№5. Задание 5 Надстройки интеллектуального анализа данных для Microsoft Office Задание


    Скачать 298.15 Kb.
    НазваниеЗадание 5 Надстройки интеллектуального анализа данных для Microsoft Office Задание
    Дата05.05.2022
    Размер298.15 Kb.
    Формат файлаdocx
    Имя файлаЗадание№5.docx
    ТипДокументы
    #513973

    Задание №5 Надстройки интеллектуального анализа данных для Microsoft Office
    Задание. Проведите анализ для двух различных наборов значений прибыли от истинных прогнозов и убытков от ложных. Прокомментируйте результаты.
    Краткая характеристика задания: использование инструментов "Расчет прогноза" ("PredictionCalculator") и "Анализ покупательской корзины" ("ShoppingBasketAnalysis").
    Один из возможных вариантов проведения интеллектуального анализа данных средствами Microsoft SQL Server 2008 - использование надстроек для пакета Microsoft Office 2007.В этом случае источником данных может служить, например, электронная таблица Excel. Данные передаются на SQL Server 2008, там обрабатываются, а результаты возвращаются Excel для отображения. Для использования подобной "связки", вам должен быть доступен MS SQL Server 2008 в одной из версий, поддерживающих инструменты DataMining, MS Office 2007 в версии Professional или более старшей. Сами надстройки интеллектуального анализа данных для MSOffice 2007 свободно доступны на сайте Microsoft по адресу (ссылка приводится для локализованной версии, возможно, выпущены более свежие версии): http://www.microsoft.com/downloads/ru-ru/details.aspx?FamilyID=a42c6fa1-2ee8-43b5-a0e2-cd30d0323ca3&displayLang=ru


    По окончании настройки можно открыть и протестировать подключение к серверу. Для этого надо перейти на вкладку DataMining и в разделе Connection нажать кнопку DMAddinsDB. Появится окно, отображающее настроенные соединения. Кнопка TestConnection позволяет проверить подключение. Когда соединение создано и проверено, можно начинать работу. Необходимо учитывать, что инструменты интеллектуального анализа таблиц работают с данными, отформатированными в виде таблицы. Поэтому ваши данные в Excel нужно выделить и выбрать "Форматировать как таблицу». После этого надо выбрать стиль таблицы и указать заголовок. Вкладка Analyze с инструментами TableAnalysisTools появится при щелчке в области таблицы.



    По окончании настройки можно открыть и протестировать подключение к серверу. Для этого надо перейти на вкладку DataMining и в разделе Connection нажать кнопку DMAddinsDB. Появится окно, отображающее настроенные соединения. Кнопка TestConnection позволяет проверить подключение. Когда соединение создано и проверено, можно начинать работу. Необходимо учитывать, что инструменты интеллектуального анализа таблиц работают с данными, отформатированными в виде таблицы. Поэтому ваши данные в Excel нужно выделить и выбрать "Форматировать как таблицу». После этого надо выбрать стиль таблицы и указать заголовок. Вкладка Analyze с инструментами TableAnalysisTools появится при щелчке в области таблицы.

    Инструмент AnalyzeKeyInfluencers позволяет определить, как зависит интересующий нас параметр от других. При этом важно правильно определить, что и от чего может зависеть. Собственно в этом отчасти и заключается мастерство аналитика, основанное на его знании предметной области и используемых методов DM. (Пример – покупатели велосипедов - Table Analysis Tools Sample) Стоит сразу убрать из рассмотрения полностью независимые и наоборот, полностью зависимые параметры - например, уникальный идентификатор. Теперь определим, от чего зависит решение клиента о покупке велосипеда. Нажимаем на кнопку Analyze Key Influencers и указываем в качестве целевого столбца столбец "Приобрел велосипед". Перейдем по ссылке "Choose columns to be used for analysis", чтобы указать параметры, влияние которых мы хотим оценить. Здесь сбросим отметку напротив "ID" и "Приобрел велосипед». Результат - Факторы влияния для Purchase.

    Инструмент Detect Categories позволяет решить задачу кластеризации, т.е. разделения всего множества вариантов на "естественные" группы, члены которых наиболее близки по ряду признаков. Подобная задача также называется задачей сегментации. Нажимаем кнопку Detect Categories и настраиваем параметры. Кроме указания учитываемых параметров, можно явно указать число категорий (или оставить по умолчанию автоматическое определение). Также по умолчанию поставлен флажок "Appenda Category column to the original Excel table", указывающий, что к записям в исходной таблице будет добавлено указание на категорию. Пример: Отчет по категориям.

    Инструмент Scenario Analysis позволяет моделировать влияние, оказываемое изменением одного из параметров (значений одного столбца) на другой, связанный с первым. В основе работы инструмента лежит использование алгоритма Microsoft Logistic Regression. Для формирования временной модели требуется обучающая выборка, содержащая не менее 50 записей. Инструмент Scenario Analysis включает две составные части - "Анализ сценария поиска решений" (GoalSeek) и "Анализ возможных вариантов"("What-If").

    "Анализ сценария поиска решений" (GoalSeek)

    Использование инструмента GoalSeek позволяет оценить, сможем ли мы достичь желаемого значения в целевом столбце, меняя значения выбранного параметра. Инструмент позволяет провести анализ как для одной записи, так и для всей таблицы. Используя этот инструмент надо быть готовым, что не для всех вариантов запроса может быть получен ответ. Это может быть связано с тем, что в исходных данных нет интересующих нас сочетаний. Также могут быть проблемы из-за типов данных. Пусть мы хотим узнать, как будет влиять образование на уровень достатка человека. Пример: Table Analysis Tools Sample (4).



    "Анализ возможных вариантов"("What-If")

    Инструмент What-If позволяет решить обратную по отношению к GoalSeek задачу: оценить значение целевой переменной при определенном изменении заданного параметра. Например, можно оценить, как изменился бы уровень дохода человека, если бы повысился его уровень образования. Пример: Table Analysis Tools Sample (5)



    Расчет прогноза

    Инструмент Prediction Calculator помогает сгенерировать и настроить "калькулятор", который позволяет оценить шансы на получение ожидаемого значения целевого параметра без подключения к аналитическим службам SQL Server. Пусть цель анализа - определить, купит ли клиент велосипед. Пример: Расчет прогноза для Purchase

    Отчет Prediction Calculator Report позволяет указать прибыль от истинных прогнозов и убыток от ложных. На основе этих данных определяется пороговое значение, обеспечивающее максимум прибыли. По умолчанию, для истинного позитивного прогноза указывается прибыль 10 (долларов или других единиц), для ложного позитивного - такой же убыток ( таблица в левой верхней части экрана). В этом случае максимум прибыли (график справа вверху) как раз и будет соответствовать пороговому значению для прогноза в 615 баллов.

    Анализ покупательской корзины

    В наборе Table Analysis Tools нам осталось рассмотреть инструмент Shopping Basket Analysis. Он позволяет, например, на основе данных о покупках выделить товары, чаще всего встречающиеся в одном заказе, и сформировать рекомендации относительно совместных продаж. В процессе анализа используется алгоритм MicrosoftAssociationRules. Пример: Группы элементов в списке покупок, Рекомендации по созданию списка покупок


    написать администратору сайта