Главная страница
Навигация по странице:

  • 8. Как функционирует опция Predict online

  • 1. Что такое дерево решений

  • Лабораторные по МИСПИТ. ЛР. Интеллектуальные системы


    Скачать 1.43 Mb.
    НазваниеИнтеллектуальные системы
    АнкорЛабораторные по МИСПИТ
    Дата21.05.2023
    Размер1.43 Mb.
    Формат файлаpdf
    Имя файлаЛР.pdf
    ТипМетодические указания
    #1148348
    страница2 из 6
    1   2   3   4   5   6
    5. Каково максимальное число элементарных логических собы- тий, которое может обнаружить WizWhy в данных?
    6. Поясните состав блока общей информации об обнаруженных правилах.
    7. Поясните структуру правила, обнаруживаемого при помощи
    WizWhy.

    8. Как функционирует опция Predict online?
    Список литературы
    1. Конспект лекций по дисциплине «Интеллектуальные системы и технологии».

    29
    Лабораторная работа №2. Проверка аналитических возможностей системы WizWhy
    Цель работы: Проверить прогностические возможности аналитиче- ской системы WizWhy.
    Описание программного обеспечения
    Данная лабораторная работа должна выполняться при помощи
    ПО WizWhy.
    Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
    Изучить по лекциям особенности работы алгоритмов поиска ас- социативных правил.
    Порядок выполнения лабораторной работы
    1. Создать базу данных (предметная область – любая, кроме ав- томобилей), содержащую скрытые закономерности (15 шт.).
    2. Попытаться выявить скрытые закономерности при помощи
    WizWhy.
    3. Сделать выводы.
    Пояснения к лабораторной работе
    1. Создать базу данных, содержащую ассоциативные правила
    (скрытые закономерности).
    ВНИМАНИЕ! При создании базы весь текст (названия полей, значения) – на латинице. Формат - .txt.
    Создание базы начинается с выбора предметной области. Допу- стим, Вы выбрали «Автомагазин». После этого необходимо создать для базы 15 скрытых закономерностей (правил), которые Вы попытае- тесь обнаружить при помощи WizWhy. Закономерности представля- ются в формате «Если»… «то». Например, закономерность может вы- глядеть так: «Если цвет машины = красный то цена = $20000».

    30
    Итак, вы создали первую закономерность (правило). Каким же образом поместить закономерность в базу данных? Для этого инфор- мацию из созданного правила необходимо добавить в базу данных.
    Делается это следующим образом. Создаём пустую базу данных. Вы
    (для примера) выбрали автомобили:
    Табл. 2
    Цве т
    Марка
    С пробегом
    Тип кузова
    Приобрете- ние в кредит
    Тип дви- гателя
    Цена
    Заносим в неё информацию из правила:
    Табл.3
    Цвет
    Мар- ка
    С про- бегом
    Тип кузо- ва
    Приобрете- ние в кредит
    Тип дви- гателя
    Цена крас- ный
    2000 0
    Заполняем оставшиеся ячейки произвольной информацией.
    Например:
    Табл.4
    Цвет
    Мар- ка
    С про- бегом
    Тип кузо- ва
    Приобрете- ние в кредит
    Тип дви- гателя
    Цена крас- ный
    Форд
    Да
    Се- дан
    Да бензин
    2000 0
    Как было сказано выше, все надписи должны быть на латинице.
    Поэтому:
    Табл.5
    Cvet
    Marka
    S probe- gom
    Tip kuzova
    V kred- it
    Dvigatel
    Cena krasny
    Ford
    Da
    Sedan
    Da benzin
    20000

    31
    Т.о., у Вас получилась база данных состоящая (пока) из одной за- писи, в которой содержится скрытая закономерность «Если цвет ма- шины = красный то цена = $20000».
    В Вашей базе 7 атрибутов (полей). Это сделано специально. Про- грамма WizWhy имеет следующее ограничение: она может находить закономерности (правила), в условной части которых содержится не более шести условий, т.е. правило вида: «Если условие1=a и усло- вие2=b и… и условие 6=f то следствие=z» будет самым сложным, которое сможет найти система. Поэтому в Вашей базе (ОБЯЗАТЕЛЬ-
    НОЕ УСЛОВИЕ!!!) должно быть 6 условий (или независимых пере- менных) и одно следствие (зависимая или целевая переменная). В дан- ном примере первые 6 атрибутов (полей) – независимые переменные, а последняя – зависимая.
    Табл. 6
    Cvet
    Marka
    S probe- gom
    Tip kuzova
    V kred- it
    Dvigatel
    Cena krasny
    Ford
    Da
    Sedan
    Da benzin
    20000
    Продолжаем создавать закономерности и заполнять базу. Необ- ходимо создать ещё четыре закономерности с одним условием в условной части (т.е., в сумме будет 5). Принцип их создания аналоги- чен рассмотренному выше: создаём (и записываем) закономерность – переносим информацию из неё в базу данных – заполняем оставшиеся поля - создаём (и записываем) закономерность – переносим информа- цию из неё в базу данных-… .
    Далее, создаём закономерность с тремя условиями в условной ча- сти (их тоже должно быть пять штук) и с шестью условиями в услов- ной части (пять штук).
    Таким образом, Вы создали 15 закономерностей, каждая из кото- рых содержится в соответствующей записи базы данных. Ваша база содержит 15 уникальных записей, но этого мало. Почему? А потому, что WizWhy имеет ещё одно ограничение: эта система находит только те закономерности, которые встречаются в базе данных хотя бы четы- ре раза. Поэтому, чтобы точно выполнить это условие скопируйте Ва- ши 15 записей три раза. Получим базу из 60 записей. Ваша база готова.
    Замечания

    32
    - Целевая переменная – всегда одна и та же. Выбрали целевой пере- менной атрибут «цена», значит для всех 15 закономерностей он и бу- дет целевым (значения целевого атрибута, естественно, могут быть разными в разных закономерностях; например, цена = 10000, цена =
    20000 и т.д.).
    - Если создаёте базу в формате .txt – отделяйте значения в одном столбце о другого табуляцией.
    2. Проверить возможности системы WizWhy по обнаружению скрытых закономерностей.
    Загружаем базу в WizWhy (см. лр №1). И начинаем проверять правила. Для этого выполняем следующий набор действий: a) Выбираем первое правило: Если цвет машины = красный то цена =
    $20000. b) Настраиваем параметры поиска правил (см. лр №1). При этом зада-
    ём: цена = $20000, minimum number of cases in a rule = 4, maximum number of condition in a rule = 6. c) Запускаем процесс поиска правил (см. практическую работу). d) После завершения процесса поиска правил, получаем набор правил
    (модель), которую можно использовать для поиска закономерностей. e) При помощи опции predict online (см. практическую работу) пы- таемся обнаружить первую закономерность: Если цвет машины = красный то цена =
    $20000. Вводим зна- чение условия и запускаем процесс поиска. f) В результате система формирует отчёт, содержащий различную информацию. Вас ин- тересует строка, которая начинает со слова Prediction. Это результат поиска. Например, для данного случая: Prediction = 20000 – закономерность обнаружена;
    Prediction = No
    20000 – не обнаружена. g) Скопируйте отчёт в отчёт по контрольной работе. h) Повторите пп. a – g для оставшихся закономерностей.
    Напоминаю: цель работы состоит в проверке возможностей си- стемы. Если какие-то из закономерностей не удалось обнаружить, то это не значит, что Вы ошиблись. Это значит, что программа не смогла

    33 найти эту закономерность, и вы смело копируете результаты её работы в отчёт.
    Содержание отчёта
    1. Титульный лист
    2. Цель работы
    3. 15 закономерностей в формате если… то.
    4. 15 уникальных записей из БД (скриншот).
    5. 15 отчётов из predict online.
    6. Выводы по работе (сколько правил найдено, сколько нет).

    34
    Лабораторная работа №3. Деревья решений
    Цель работы: Научиться использовать деревья решений для анализа данных
    Введение
    Определение
    Деревья решений – это способ представления правил в иерархи- ческой, последовательной структуре, где каждому объекту соответ- ствует единственный узел, дающий решение.
    Правило – логическая конструкция вида «Если… то…».
    Рис.18 Фрагмент дерева решений
    Области применения деревьев решений
     Описание данных: позволяют хранить точное описание объек- тов в компактной форме.
     Классификация: деревья решений хорошо справляются с зада- чами классификации (отнесения объектов к одному из заранее известных классов); целевая переменная должна быть дис- кретной.
     Регрессия: если целевая переменная имеет непрерывные зна- чения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных.
    Общие принципы построения деревьев решений

    35
    Пусть задано некоторое обучающее множество T, содержащее объекты (примеры), каждый из которых характеризуется m атрибута- ми, причём один из них указывает на принадлежность объекта к опре- делённому классу.
    Пусть через {C
    1
    , C
    2
    , ... C
    k
    } обозначены классы (значения метки класса), тогда существуют 3 ситуации:
    1. множество T содержит один или более примеров, относящих- ся к одному классу C
    k
    . Тогда дерево решений для Т – это лист, определяющий класс C
    k
    ;
    2. множество T не содержит ни одного примера, т.е. пустое мно- жество. Тогда это снова лист, и класс, ассоциированный с ли- стом, выбирается из другого множества отличного от T, ска- жем, из множества, ассоциированного с родителем;
    3. множество T содержит примеры, относящиеся к разным клас- сам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, име- ющий два и более отличных друг от друга значений O
    1
    , O
    2
    , ...
    O
    n
    . T разбивается на подмножества T
    1
    , T
    2
    , ... T
    n
    , где каждое подмножество T
    i
    содержит все примеры, имеющие значение
    O
    i
    для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же клас- су.
    Вышеописанная процедура лежит в основе многих современных алгоритмов построения деревьев решений, этот метод известен ещё под названием разделения и захвата (divide and conquer). Очевидно, что при использовании данной методики, построение дерева решений будет происходит сверху вниз.
    Поскольку все объекты были заранее отнесены к известным нам классам, такой процесс построения дерева решений называется обуче- нием с учителем (supervised learning). Процесс обучения также назы- вают индуктивным обучением или индукцией деревьев (tree induction).
    На сегодняшний день существует значительное число алгорит- мов, реализующих деревья решений CART, C4.5, NewId, ITrule,
    CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили следующие два:
     CART (Classification and Regression Tree) – это алгоритм по- строения бинарного дерева решений. Каждый узел дерева при

    36 разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии.
     C4.5 – алгоритм построения дерева решений, количество по- томков у узла не ограничено. Не умеет работать с непрерыв- ным целевым полем, поэтому решает только задачи классифи- кации.
    Большинство из известных алгоритмов являются "жадными алго-
    ритмами". Если один раз был выбран атрибут, и по нему было произ- ведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атри- бут, в конечном итоге, оптимальное разбиение.
    Описание программного обеспечения
    Данная лабораторная работа должна выполняться при помощи
    ПО Deductor Academic 5.3.
    Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
    Изучить по лекциям и учебной литературе особенности построе- ния деревьев решений и работы в ПО Deductor Academic 5.3.
    Порядок выполнения лабораторной работы
    Задание №1 1. Запустите Deductor.
    2. Импортируйте набор данных из текстового файла «Голосова- ние конгресса.txt» (выберите «Сценарии», нажмите «F6», вы- берите пункт «Text», выберите путь к файлу, остальные поля оставляйте без изменений).
    3. Запустите мастер обработки (выберите в разделе «Сценарии» пункт «Текстовый файл…» и нажмите «F7»).
    4. В открывшемся окне выберите пункт «Дерево решений».
    Нажмите «Далее».
    5. В открывшемся окне обозначьте поле «Класс» как выходное, а остальные – как входные. Нажмите «Далее».

    37 6. На следующем этапе производится разбиение исходного мно- жества на обучающее и тестовое. Настройки не изменяйте.
    Нажмите «Далее».
    7. На следующем этапе производится настройка параметров обу- чения дерева. Настройки не изменяйте. Нажмите «Далее».
    8. На следующем этапе производится настройка способа обуче- ния дерева. Настройки не изменяйте. Нажмите «Далее».
    9. На следующем этапе нажмите «Пуск». Когда процесс будет завершён, нажмите «Далее».
    10. На следующем этапе необходимо определить способы отоб- ражения полученных результатов. Отметьте пункты «Дерево решений», «Правила», «Значимость атрибутов». «Таблица со- пряжённости» и «Что-если». Нажмите «Далее», а затем «Гото- во».
    11. Сохраните полученные результаты.
    12. Сделайте выводы об эффективности построенного дерева.
    Задание №2 1. Запустите Deductor.
    2. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
    3. Запустите мастер обработки.
    4. В открывшемся окне выберите пункт «Дерево решений».
    Нажмите «Далее».
    5. В открывшемся окне обозначьте поле, которое у Вас было це- левым в лабораторной работе №2, как выходное, а остальные
    – как входные. Нажмите «Далее».
    6. На следующем этапе производится разбиение исходного мно- жества на обучающее и тестовое. Настройки не изменяйте.
    Нажмите «Далее».
    7. На следующем этапе производится настройка параметров обу- чения дерева. Настройки не изменяйте. Нажмите «Далее».
    8. На следующем этапе производится настройка способа обуче- ния дерева. Настройки не изменяйте. Нажмите «Далее».
    9. На следующем этапе нажмите «Пуск». Когда процесс будет завершён, нажмите «Далее».

    38 10. На следующем этапе необходимо определить способы отоб- ражения полученных результатов. Отметьте пункты «Дерево решений», «Правила», «Значимость атрибутов». «Таблица со- пряжённости» и «Что-если». Нажмите «Далее», а затем «Гото- во».
    11. Сохраните полученные результаты.
    12. При помощи опции «Что-если» попытайтесь найти скрытые закономерности, введённые в БД в лабораторной работе №2.
    Для удаления введённых значений входных параметров ис- пользуйте функцию «Очистить значения входных полей» (см. рис. 2). Результаты поиска (скриншоты) сохраните в тексто- вый файл.
    13. Сделайте выводы об эффективности построенного дерева и результатах поиска.
    Задание №3 1. Запустите Deductor.
    2. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
    3. Запустите мастер обработки.
    4. В открывшемся окне выберите пункт «Дерево решений».
    Нажмите «Далее».
    5. В открывшемся окне обозначьте поле, которое у Вас было це- левым в лабораторной работе №2, как выходное, а остальные
    – как входные. Нажмите «Далее».
    6. На следующем этапе производится разбиение исходного мно- жества на обучающее и тестовое. Настройки не изменяйте.
    Нажмите «Далее».
    7. На следующем этапе производится настройка параметров обу- чения дерева. Настройки не изменяйте. Нажмите «Далее».
    8. На следующем этапе производится настройка способа обуче- ния дерева. Выберите «Интерактивное построение».
    9. На следующем этапе необходимо определить способы отоб- ражения полученных результатов. Отметьте пункты «Дерево решений», «Правила», «Значимость атрибутов». «Таблица со- пряжённости» и «Что-если». Нажмите «Далее», а затем «Гото- во».

    39 10. При помощи опции «Разбить текущий узел на подузлы» (см. рис.3) постройте дерево решений, ориентируясь на значение параметра Gain Ratio. Внимание: при Gain Ratio = 0, исполь- зовать атрибут для разбиения не нужно! Проводите разбиение узлов до тех пор, пока для всех переменных Gain Ratio не ста- нет равным нулю.
    11. Сохраните полученные результаты.
    12. При помощи опции «Что-если» попытайтесь найти скрытые закономерности, введённые в БД в лабораторной работе №2.
    Для удаления введённых значений входных параметров ис- пользуйте функцию «Очистить значения входных полей» (см. рис. 2). Результаты поиска (скриншоты) сохраните в тексто- вый файл.
    13. Сделайте выводы об эффективности построенного дерева, сравнив его с деревом из задания №2. Сделайте выводы о ре- зультатах поиска скрытых закономерностей.
    Рис.19. Функция «Очистить значения входных полей»
    Рис.20. Опция «Разбить текущий узел на подузлы»
    Содержание отчёта
    1. Титульный лист.
    2. Цель лабораторной работы.
    3. Предметную область Вашей базы данных.
    4. 15 уникальных записей из Вашей базы данных.
    5. Результаты выполнения задания №1 (дерево решений, прави- ла, значимость атрибутов (привести только значимые атрибу- ты!), таблица сопряжённости, выводы).

    40 6. Результаты выполнения задания №2 (дерево решений, прави- ла, значимость атрибутов (привести только значимые атрибу- ты!), таблица сопряжённости, выводы).
    7. Результаты выполнения задания №3 (дерево решений, прави- ла, значимость атрибутов (привести только значимые атрибу- ты!), таблица сопряжённости, выводы).
    Контрольные вопросы

    1. Что такое дерево решений?
    2. Как построить дерево решений в Deductor?
    3. Поясните содержимое вкладок «Дерево решений», «Правила»,

    «Значимость атрибутов». «Таблица сопряжённости» и «Что- если»?
    4. Что такое «жадный алгоритм»?

    5. Области применения деревьев решений?
    Список литературы
    1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии».
    2. Сайт basegroup.ru.
    3. Руководство пользователя ПО Deductor Academic.

    41
    Лабораторная работа №4. Ассоциативные правила
    Цель работы: Научиться использовать ассоциативные правила для анализа данных
    Введение
    Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила, служит утверждение, что покупатель, приобретающий "Хлеб", приобретёт и "Молоко" с вероятностью 75%.
    Первая практическая задача, для решения которой были исполь- зованы ассоциативные правила, - нахождение типичных шаблонов покупок, совершаемых в супермаркете (анализ рыночной корзины, market basket analysis).
    Он производится путём анализа баз данных транзакций с целью определения комбинаций товаров, связанных между собой. То есть, выполняется обнаружение товаров, наличие которых в транзакции влияет на вероятность появления других товаров или их комбинаций.
    Результаты, полученные с помощью анализа рыночной корзины, позволяют оптимизировать ассортимент товаров и запасы, размещение их в торговых залах, увеличивать объёмы продаж за счёт предложения клиентам сопутствующих товаров. Например, если в результате анали- за будет установлено, что совместная покупка макарон и кетчупа явля- ется типичным шаблоном, то разместив эти товары на одной и той же витрине можно «спровоцировать» покупателя на их совместное при- обретение.
    Для решения задачи анализа рыночной корзины используются ас- социативные правила вида «если… то...». Например, «если клиент ку- пил пиво, то он купит и чипсы». Каждая покупка именуется «транзак-
    цией», на основании большего набора таких транзакций и строят ис- следования поведения клиента.
    Для характеристики правила используются следующие метрики
    Правило X→Y имеет поддержку s (support), если s транзакций из
    D, содержат пересечение множеств X и Y. Достоверность правила по- казывает какова вероятность того, что из X следует Y. Правило X→Y справедливо с достоверностью c (confidence), если c транзакций из D, содержащих X, также содержат Y, conf(X→Y) = supp(X→Y)/supp(X).
    Например, «75% транзакций, содержащих хлеб, также содер- жат молоко. 3% от общего числа всех транзакций содержат оба това- ра». 75% – это достоверность (confidence) правила, 3% - это поддержка

    42
    (support), или «Хлеб»«Молоко» с вероятностью 75% и поддержкой
    3%.
    В основном, очевидные правила имеют высокую поддержку и до- стоверность (60% и больше), но не являются знаниями де-факто. Ос- новное внимание необходимо уделять правилам, имеющим поддержку
    5-10%, именно они могут стать источником идеи промоакции или услуги.
    Описание программного обеспечения
    Данная лабораторная работа должна выполняться при помощи
    ПО Deductor Academic 5.3.
    Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
    Изучить по лекциям и учебной литературе особенности обнару- жение ассоциативных правил и работы в ПО Deductor Academic 5.3.
    Порядок выполнения лабораторной работы
    Задание №1
    Произвести анализ совместно покупаемых товаров (бытовая хи- мия).
    1. Запустите Deductor.
    2. Импортируйте набор данных из текстового файла «Чеки.txt».
    3. Запустите мастер обработки.
    4. В открывшемся окне выберите пункт «Ассоциативные прави- ла». Нажмите «Далее».
    5. Убедитесь, что «ID» - это идентификатор транзакции, а
    «ITEM» - элемент транзакции.
    6. Дальнейшие настройки оставьте без изменений. Запустите процесс поиска правил.
    7. После завершения процесса поиска правил необходимо опре- делить способы отображения полученных результатов. От- метьте пункты «Правила», «Популярные наборы», «Дерево правил», «Что-если», «Таблица».
    Правила - в визуализаторе выводятся полученные ассоциативные пра-
    вила и их основные расчётные характеристики; Популярные наборы -

    43
    отображается множество найденных популярных предметных набо-
    ров; Дерево правил - отображение множества ассоциативных правил
    в виде двухуровневого дерева построенного по условию или по след-
    ствию; Что-если - позволяет ответить на вопрос, что будет в каче-
    стве следствия, если изменяться данные условия.
    8. Сохраните полученные результаты.
    9. Сделайте выводы о полученных правилах (достоверность, поддержка)
    Задание №2 1. Внесите изменения в Вашу БД из лабораторной работы №2, чтобы она стала пригодна для анализа средствами Deductor на предмет поиска ассоциативных правил. Убедитесь, что в фай- ле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования.
    Замечание: если Вы до этой работы использовали в своей базе цифро- вую кодировку значений параметров – уберите её!
    2. Запустите Deductor.
    3. Сгенерируйте набор правил и, при помощи опции «Что-если», попытайтесь выявить скрытые закономерности в Вашей БД
    (15 штук). Результаты поместите в отчёт. Сделайте выводы.
    Содержание отчёта
    1. Титульный лист.
    2. Цель лабораторной работы.
    3. Предметная область Вашей базы данных.
    4. 15 уникальных записей из Вашей базы данных.
    5. Перечень правил и выводы (задание №1).
    6. Скриншоты результатов поиска скрытых закономерностей и выводы (задание №2).
    Контрольные вопросы

    1   2   3   4   5   6


    написать администратору сайта