Главная страница

Лабораторные по МИСПИТ. ЛР. Интеллектуальные системы


Скачать 1.43 Mb.
НазваниеИнтеллектуальные системы
АнкорЛабораторные по МИСПИТ
Дата21.05.2023
Размер1.43 Mb.
Формат файлаpdf
Имя файлаЛР.pdf
ТипМетодические указания
#1148348
страница1 из 6
  1   2   3   4   5   6

Федеральное агентство связи
Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования
Поволжский государственный университет телекоммуникаций и информатики
Кафедра «Информационные системы и технологии»
Пальмов С.В.
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
И ТЕХНОЛОГИИ методические указания к лабораторным работам по дисциплине для студентов очной формы обучения направления
«Информационные системы и технологии»
Самара, ИУНЛ ПГУТИ, 2014

2
Пальмов С.В. Методические указания к лабораторным работам по дисциплине «Интеллектуальные системы и технологии» для студентов очной формы обучения направления «Информационные системы и технологии».– Самара: ПГУТИ, 2014. – 122 с., ил.
Методические указания предназначены для студентов очного от- деления направления 09.03.02 (Информационные системы и техноло- гии) по дисциплине «Интеллектуальные системы и технологии». Ла- бораторный цикл включает в себя двенадцать лабораторных работ, выполнение которых поможет студентам изучить основные возможно- сти интеллектуальных информационных систем.
Методические указания подготовлены на кафедре «Информацион- ные системы и технологии».
Методические указания рекомен- дованы к изданию методическим
Советом ПГУТИ (заседание № 12 от 11.11.2014)
© ФГОБУ ВПО ПГУТИ
© ПАЛЬМОВ С.В.
2014

3
Оглавление
ЛАБОРАТОРНАЯ РАБОТА №1. ЗНАКОМСТВО С СИСТЕМОЙ
WIZWHY ................................................................................................ 4
ЛАБОРАТОРНАЯ РАБОТА №2. ПРОВЕРКА АНАЛИТИЧЕСКИХ
ВОЗМОЖНОСТЕЙ СИСТЕМЫ WIZWHY ..................................... 29
ЛАБОРАТОРНАЯ РАБОТА №3. ДЕРЕВЬЯ РЕШЕНИЙ............... 34
ЛАБОРАТОРНАЯ РАБОТА №4. АССОЦИАТИВНЫЕ ПРАВИЛА
............................................................................................................... 41
ЛАБОРАТОРНАЯ РАБОТА №5. КЛАСТЕРИЗАЦИЯ
(САМООРГАНИЗУЮЩАЯСЯ КАРТА КОХОНЕНА) ................... 45
ЛАБОРАТОРНАЯ РАБОТА №6. НЕЙРОННЫЕ СЕТИ ................ 50
ЛАБОРАТОРНАЯ РАБОТА №7. АВТОКОРРЕЛЯЦИЯ.
КОРРЕЛЯЦИЯ. ФАКТОРНЫЙ АНАЛИЗ ....................................... 56
ЛАБОРАТОРНАЯ РАБОТА №8. ДУБЛИКАТЫ И
ПРОТИВОРЕЧИЯ. ТРАНСФОРМАЦИЯ ДАННЫХ ..................... 70
ЛАБОРАТОРНАЯ РАБОТА №9. ВЫРАБОТКА
РЕКОМЕНДАЦИЙ ............................................................................. 75
ЛАБОРАТОРНАЯ РАБОТА №10. ГЕНЕТИЧЕСКОЕ
ПРОГРАММИРОВАНИЕ .................................................................. 88
ЛАБОРАТОРНАЯ РАБОТА №11. ИГРА «ЖИЗНЬ» .................... 115
ЛАБОРАТОРНАЯ РАБОТА №12. ПОСТРОЕНИЕ ГРАФА
ЭКСПЕРТНОЙ СИСТЕМЫ ............................................................ 119

4
Лабораторная работа №1. Знакомство с системой WizWhy
Цель работы: Ознакомиться с аналитической системой WizWhy
Введение
Среди систем анализа данных, относящих себя к области Data
Mining, видное место занимают системы для поиска if-then правил. С помощью таких систем решаются задачи прогнозирования, классифи- кации, распознавания образов, сегментации БД, извлечения из данных "скрытых" знаний, интерпретации данных, установления ассоциаций в
БД и др. Методы поиска if-then правил предъявляют минимальные требования к типу данных и применимы для обработки разнородной информации. Их результаты прозрачны для восприятия.
Описание программного обеспечения
Данная лабораторная работа должна выполняться при помощи
ПО WizWhy.
Домашнее задание студентам для подготовки к выполнения лабо- раторной работы
Изучить по лекциям особенности работы алгоритмов поиска ас- социативных правил.
Порядок выполнения лабораторной работы
Задание №1. Обзор системы WizWhy
Загрузка и управление данными.
Первое, что нужно сделать при работе с WizWhy, это загрузить анализируемый файл данных. Здесь имеется несколько возможностей:
-
Вы можете подготавливать и читать файлы ASCII.
-
Вы можете напрямую работать с файлами dBase(*.dbf), MS
Access (*.mdb), Oracle и таблицами MS SQL.
-
Вы можете воспринимать наборы данных посредством ODBC
(Open Database Connectivity).

5
Для начала работы с процедурой загрузки следует, прежде всего, обратиться к закладке «Basic Data» в окне диалога с именем текущего проекта (рис.1). Здесь в поле «Open Data of Type» нужно указать тип загружаемых данных.
Рис.1. Начало работы с системой WizWhy
Для примера возьмём таблицу с данными по ультразвуковой диа- гностике почек в текстовом формате ASCII (разделителями колонок является знак табуляции, в первой строке таблицы данных записаны имена переменных). Укажем требуемый тип данных и в появившемся окне диалога выберем файл USR.txt – на экране выдаётся окно диалога системы WizWhy для редактирования и преобразования текстовых файлов (рис.2).
В поле Record Type (тип записи) устанавливаем переключатель в положение Delimited (данные с разделителем) и ставим флажок в по- зиции First record for fields names, говорящий о том, что имена пере- менных располагаются в первой строке таблицы данных. В поле Field
Delimiters (разделитель) ставим флажок в позиции Tab (знак табуля- ции).
Нажимаем кнопку Parse, после чего система производит автома- тический грамматический разбор данных. Просматриваем результаты этого разбора и при необходимости вносим коррективы – в поле Col- umn (field) предоставляются возможности для изменения имён и типов переменных, а также отказа от импорта каких-либо колонок. Нажима- ем ОК. Система импортирует данные для дальнейшей обработки, что

6 отражается в диалоговом окне для управления данными Basic Data
(рис.3).
Рис.2. Диалоговое окно для чтения данных в текстовом фор- мате
В поле Data Source указываются местоположение и имя файла, из которого были импортированы данные. Кнопка View Data предназна- чена для вызова окна для просмотра загруженных данных (в нём де- монстрируются 100 первых строк таблицы) данных. В поле Field Grid отображаются имена и типы введённых переменных и предоставляют- ся возможности проведения следующих операций:
-
Назначение целевой, или так называемой зависимой (dependent) переменной. Это переменная, значения которой будут связывать- ся с помощью if-then-правил со значениями так называемых неза- висимых (independent) переменных. В нашем случае такой целе- вой переменной является Diagnosis – выставляем флажок в соот- ветствующей позиции колонки Dependent Variable.
-
Модификация переменных. В колонке Field Name можно редак- тировать имена переменных. Для этого нужно щёлкнуть на соот- ветствующей позиции и ввести новое имя. Кроме этого, в позици- ях колонки Field Type можно изменять тип переменной. Напри-

7 мер, заменить тип Category (категориальный) на Number (количе- ственный) или Date (дата) в формате День-Месяц-Год (Год-
Месяц-День) и т.п. Здесь заметим, что в зависимости от выбран- ного типа данных в дальнейшем к переменной применяются раз- личные процедуры обработки.
Рис. 3. Окно диалога для управления данными
В поле Data Source указываются местоположение и имя файла, из которого были импортированы данные. Кнопка View Data предназна- чена для вызова окна для просмотра загруженных данных (в нём де- монстрируются 100 первых строк таблицы) данных. В поле Field Grid отображаются имена и типы введённых переменных и предоставляют- ся возможности проведения следующих операций:
-
Назначение целевой, или так называемой зависимой (dependent) переменной. Это переменная, значения которой будут связывать- ся с помощью if-then-правил со значениями так называемых неза- висимых (independent) переменных. В нашем случае такой целе- вой переменной является Diagnosis – выставляем флажок в соот- ветствующей позиции колонки Dependent Variable.
-
Модификация переменных. В колонке Field Name можно редак- тировать имена переменных. Для этого нужно щёлкнуть на соот- ветствующей позиции и ввести новое имя. Кроме этого, в позици- ях колонки Field Type можно изменять тип переменной. Напри-

8 мер, заменить тип Category (категориальный) на Number (количе- ственный) или Date (дата) в формате День-Месяц-Год (Год-
Месяц-День) и т.п. Здесь заметим, что в зависимости от выбран- ного типа данных в дальнейшем к переменной применяются раз- личные процедуры обработки.
В системе WizWhy предусмотрен также случай, когда пропуски в таблице данных (пустые ячейки) представляют собой самостоятельные информативные события. Для учёта подобных пропусков в значениях какой-либо переменной ставится флажок против неё в колонке Analyze if Empty. В свою очередь, если имеется необходимость исключить пе- ременную из анализа, нужно выставить флажок в колонке Ignore Field.
В нашем примере две переменные имеют категориальный (Cate- gory) формат – целевой признак Diagnosis, признак Sex (пол пациента) и признак LR (левая или правая почка.) Остальные переменные (Age
(возраст), Length (длина почки), Width (ширина почки), Thickness
(толщина почки), Thickpar (толщина паренхемы), Speed (средняя ско- рость кровотока), Index (индекс резистентности) и Accel (ускорение артериального потока в систолу)) - количественные (Number).
Задание параметров процедуры поиска правил
В системе WizWhy целевой признак разделяет всё множество объектов на две части. Это делается следующим образом.
Если целевая переменная является категориальной, WizWhy про- сматривает все объекты (записи) и отбирает те из них, для которых целевая переменная имеет выбранное значение. Отобранные таким образом объекты составляют первую группу. Правила, характерные для данной группы, называются if-then-правила. Оставшиеся объекты составляют вторую группу, и для этой группы характерные правила обозначаются как if-they-NOT-правила.
Если целевой признак является количественным, пользователь должен указать область значений этого признака. Правила if-then бу- дут определяться для этой указанной области. В свою очередь, if-they-
NOT-правила будут описывать объекты, не попавшие в выделенную область.
В рассматриваемом нами практическом примере целевой признак категориальный. Он принимает три значения: 1 – в классе «здоровая почка», 2 – в классе «множественные кисты» и 3 – в классе «гидроне- фроз». Будем искать в данных if-then-правила для объектов с диагно- зом «множественные кисты». Для этого с помощью закладки Rule Pa-

9 rameters (параметры правил) войдём в соответствующее окно диалога и в поле Predicted Value выставим значение «2».
Примечание: Если при попытке выполните вышеуказанный пункт
задания программа WizWhy «вылетает», то следует сменить тип
переменной «Diagnosis» с категориального на количественный и
установить следующие значения полей «More than» и «Less or equal
than» (см. рис. 4).
Последующие действия выполняются вне зависимости от того,
«вылетала» программа или нет.
После задания области значений целевой переменной или, как в нашем случае, её одного значения система WizWhy читает данные и вычисляет простые статистики, которые могут быть использованы в дальнейшем анализе. Так, например, справа от поля Predicted Value система выводит значение частоты, с которой в анализируемых дан- ных встречается значение Diagnosis = 2. Как указывают авторы, чтение больших наборов, данных способно занимать много времени. Пользо- ватель может прекратить процесс чтения, нажав кнопку Cancel на спе- циальной панели. В этом случае дальнейшему исследованию подвер- гается только та информация, которая успела прочитаться. Но при же- лании процесс поиска данных можно повторить.
Следующим шагом является задание собственно параметров пра- вил, которые будут искаться в прочитанных данных. Сюда, прежде всего, относят Minimum probability of if-then rules (минимальная веро- ятность if-then-правил) и Minimum probability of if-then-NOT rules (ми- нимальная вероятность if-then-NOT-правил). Эти параметры есть ни что иное, как точность правила. Поставим в соответствующих полях окна диалога одинаковые значения указанных вероятностей 80% про- центов. Это означает, что системе WizWhy формулируется требование обнаружить правила, которые будут ошибаться не более чем в 20% случаев (имеются в виду ошибки на анализируемой выборке).
В принципе, можно задавать любые значения минимальных веро- ятностей от 0 до 100%. Но следует хорошо представлять, что, задав слишком низкий уровень точности, мы получим большое количество правил, среди которых будет много малоинформативных компонентов.
В свою очередь, выставив требование 100%, мы, скорее всего, не по- лучим вообще ничего.

10
Рис. 4.
Ещё одним важным параметром служит Maximum number of con- ditions in a rule (максимальное число условий в правиле). Это макси- мальное количество элементарных логических событий в одном пра- виле. Хотя авторы ничего не говорят о предельном значении данного параметра, установлено, что оно равно 6.
Следующим параметром, который необходимо задать для работы процедуры поиска правил, является Minimum number of cases in a rule
(минимальное число объектов в правиле). Выставим здесь значение 10, обозначив тем самым наше желание обнаружить в данных правила, которые распространяются не менее чем на 10 объектов. Нижний пре- дел составляет 4 объекта.
Окно Rule Report
Настройки этого окна (см. рис.5) касаются способов выдачи ре- зультатов. Во-первых, нужно ввести параметр Maximum number of rules to be displayed (максимальное количество отображаемых правил).
Этот параметр не влияет на работу процедуры поиска правил. Он предназначен только для ограничения количества правил, выдаваемых в отчёт (Rule Report). Далее следует указать способ сортировки правил в отчёте (по уровню значимости – Significance level, по точности –
Probability, по количеству объектов – Number of cases). В поле Present examples where (представить примеры) можно выразить желание по-

11 смотреть примеры работы выявляемых правил. Если поставить фла- жок в позиции Rule in effect, то система будет формировать в отчёте для каждого правила список номеров объектов, для которых правило не ошибается. Длина списка ограничивается заданным числом. Соот- ветственно, флажок в позиции Rule in not effect запрашивает у системы выдачу списка номеров объектов, на которых какое-либо правило ра- ботает с ошибкой.
Рис.5
Работа с другими окнами диалога
Окно диалога Data Format предназначено для задания и корректи- ровки формата информации, с которой работает WizWhy (рис. 6).
Прежде всего, сюда относится формат данных. В поле number and Cur- rency Format имеется возможность задавать количество цифр и виды разделителей в числовых и денежных данных, а в поле Data Format выбирать формат для записи дат.
Кроме того, в нижней части окна диалога предусмотрены пара- метры, выбор которых определяет место выдачи отчёта о результатах работы системы (на принтер, на экран, в текстовый файл и т.д.). В поле
Subheading заносится подзаголовок отчёта. Нажатием кнопки Font в правом нижнем углу вызывается окно диалога для выбора используе- мых шрифтов.

12
Крайнее диалоговое окно – Prediction Input – предназначено для ввода, просмотра и коррекции внешних данных, на которых требуется проверить действие найденных правил. Оно изображено на рис.7. Ра- бота с этим окном аналогична работе с уже рассмотренным диалого- вым окном Basic Data.
В окне Error Costs (стоимость ошибок) требуется ввести соответ- ствующие значения по отдельности для двух видов ошибок: пропуска объектов (Cost of miss) и ложной тревоги (Cost of false alarm) (рис. 8).
По умолчанию эти значения равны «1». Учёт различной стоимо- сти указанных ошибок может оказаться весьма ценным при решении практических задач.
Рис. 6
Результаты работы системы
После внесения необходимой информации в рассмотренные выше окна диалога можно приступить к поиску правил в загруженных данных. Для этого нужно нажать кнопку Issue Rules (выдача правил) – система WizWhy выдаёт три отчёта:
-
Отчёт о правилах (Rule report), в котором перечисляются обнару- женные правила с указанием их характеристик.

13
-
Отчёт о трендах (Trend report), в котором представлены результа- ты сегментации отдельных признаков.
-
Отчёт о неожиданных правилах.
Рассмотрим указанные отчёты более подробно.
Рис. 7
Рис. 8
Отчёт о правилах
Отчёт о правилах размещён в трёх окнах (рис. 9):
-
Левое окно – список правил (Rule List).
-
Правое верхнее окно – содержание записи в деталях (Record
Details Grid).
-
Правое нижнее окно – индекс признака (Field Index).

14
Рис. 9
Список правил
Список правил предваряется информацией о заданных парамет- рах поиска. Здесь на примере данных по ультразвуковой диагностике почек, как видим, говорится, что общее число обработанных записей
(объектов) составляет 74, минимальная вероятность правил if-then и if- then-NOT равны по 0.8, минимальное количество объектов для правил
– 10. Затем подтверждается, что правила находятся для переменной
Diagnosis, конкретно для значения этой переменной, равного 2 (если в пункте 2 программа у вас «вылетала», то в строке Predicted Value будет указано: between 1,00 and 2,00). Также указывается, что стоимость ошибок в виде пропусков и ложных тревог составляет 1, а средняя ве- роятность (априорная вероятность) прогнозируемого значения пере- менной равна 0.5
Далее система выдаёт следующий блок общей информации об обнаруженных правилах:

15
ANALYSIS OF THE RULES EXPLANATORY POWER
Decision point: Predict between 1,00 and 2,00 when conclusive probabil- ity is more than 0,572
Number of misses: 3
Number of false alarms: 4
Total number of errors: 7
Total cost of errors: 7
Success rate when predicting between 1,00 and 2,00 : 0,889
Success rate when predicting NOT between 1,00 and 2,00 : 0,903
Number of records with no relevant rules : 7
Average cost (per record): 0,104
Expected average cost (per record) : 0,500
Improvement Factor: 4,786
Из приведённого блока можно почерпнуть сведения о значениях некоторых служебных параметров - Decision point (точка решения),
Average cost (средние потери (на запись)), Expected average cost (ожи- даемые средние потери) и Improvement Factor (выигрыш), представля- ющий собой отношение ожидаемых средних потерь к реальным поте- рям на запись.
Точка решения – когда WizWhy формирует прогноз, то вычисля-
ется вероятность того, что значение зависимой переменной в анали-
зируемой записи равно «1» (допустим «1» – это спрогнозированное
значение зависимой переменной). Эта вероятность называется ито-
говой (conclusive). Если значение итоговой вероятности больше зна-
чения точки решения, то прогнозируемое значении = 1, а если меньше,
то не равно 1.
Средние потери на запись – общая сумма ошибок, поделённая на
количество записей в исследуемом массиве данных.
Ожидаемые средние потери есть результат формирования про-
гноза только на основании частоты появления прогнозируемого зна-
чения, стоимости пропуска объекта, стоимости ложной тревоги.
Другими словами – это ожидаемые средние потери при условии, что
неизвестно ни одного правила. Например, пусть частота появления
прогнозируемого значения = 15%, стоимость пропуска объекта = 2, а
стоимость ложной тревоги = 1. В этом случае, если в анализируемых
записях не найдено ни одного правила, то WizWhy формирует следую-
щий прогноз: «прогнозируемое значение зависимой переменной не
встречается ни в одной записи из исследуемого набора». В таком слу-
чае (для прогноза такого вида) средние потери на запись называются

16
ожидаемыми средними потерями. Для данного примера они будут
равны 0.3 (15% (или, другим словами, 0.15) умножить на 2 и умно-
жить на 1 = 0.3).
Кроме того, в блоке содержатся сведения о прогнозирующей спо- собности все совокупности обнаруженных правил – количество про- пусков при прогнозировании (Number of misses), число ложных тревог
(Number of false alarms), общее количество ошибок (Total number of errors), общие потери (Total cost of errors), вероятность успешного про- гнозирования для класса 2 (Success rate when predicting 2), вероятность успешного прогнозирования альтернативного класса (Success rate when predicting NOT 2) и количество объектов, не охваченных выделенными правилами (Number of records with no relevant rules).
Список правил состоит из правил, упорядоченных по заданному критерию. В данных по ультразвуковой диагностике почек при уста- новленных параметрах система WizWhy обнаружила 19 правил. Рас- смотрим (для примера) правило № 5:
5)
If LR is R and Speed is 16,30 ... 41,50 (average = 25,44 ) and Index is 0,70 ... 0,80 (average = 0,72 )
Then
Diagnosis is not between 1,00 and 2,00
Rule's probability: 1,000
The rule exists in 10 records.
Significance Level: Error probability < 0,001
Positive Examples (records' serial numbers):
3, 61, 63, 64, 65, 66, 67, 72, 73, 74
Это правило представляет собой конъюнкцию трёх элементарных высказываний. Первое - LR is R - говорит о том, что правило относит- ся только к правой почке. Второе - Speed is 16,30 ... 41,50 – определяет диапазон значений для средней скорости кровотока, и третье - Index is
0,70 ... 0,80 – описывает интервал значений индекса резистентности.
Высказывание Diagnosis is not between 1,00 and 2,00 (или Diagnosis is
not 2 – если у вас программа не «вылетала») означает, что правило характерно для объектов, не имеющих диагноз «множественные ки- сты».
Запись Rule's probability: 1,000 означает, что точность правила в данном случае равна 1. Следующая запись - The rule exists in 10 records
– характеризует объём множества объектов, для которых справедливо

17 рассматриваемое правило, а другая запись - Significance Level: Error
probability < 0,001 – касается статистической оценки уровня значи- мости полученного правила (как видим, доверие к правилу превышает
90%). Последняя запись - Positive Examples (records' serial numbers) – означает «положительные» примеры, которые затем представлены как номера записей (объектов) в наборе данных.
Система WizWhy предоставляет возможность визуализации по- лученного правила. Для этого нужно щёлкнуть на правиле левой кноп- кой мыши и затем с помощью правой кнопки вызвать контекстное ме- ню, в котором выбрать диаграмму правила Rule Chart (рис. 10).
Рис.10. Диаграмма выделенного правила № 5
Эта диаграмма иллюстрирует отдельные компоненты правила и даёт графическое отображение совокупного взаимодействия перемен- ных.
Содержание записи в деталях
Окно «Содержание записи в деталях» позволяет просмотреть зна- чение признаков для каждого объекта. Для этого требуется ввести но- мер объекта в поле Record и нажать клавишу Enter. Пример для объек- та № 25 приведён на рис. 11.
Другая возможность состоит в том, что если дважды щёлкнуть левой кнопкой мыши на номере объекта в списке правил, который там приведён в качестве положительного или отрицательного примера, соответствующие значения признаков отобразятся в рассматриваемом окне. При этом целевая переменная будет отмечена специальным

18 значком красного цвета, а все остальные – значками зелёного цвета.
Кроме того, на значках, расположенных сразу слева от названия при- знаков, указываются типы данных признаков.
Рис. 11
Индекс признака
В окне «Индекс признака», расположенным в правом нижнем уг- лу, отображаются порядковые номера правил, в которых появляются те или иные признаки (рис. 12).
Рис. 12.

19
Можно просмотреть всё окно, используя прокрутку. Также в си- стеме предусмотрена другая возможность – если в списке правил два- жды щёлкнуть на каком-либо признаке в любом из правил, то этот признак будет автоматически выделен в окне «Индекс признака». По представляемой информации удобно выносить суждения о полезности признаков (о коэффициенте использования признаков) для классифи- кации данных и прогнозирования. В свою очередь, если дважды щёлк- нуть в окне «Индекс признака» по любому номеру правила, то это пра- вило моментально будет выделено в списке правил.
Распечатка и экспорт правил
Для распечатки правил или их экспорта в другой файл требуется нажать соответствующую кнопку печати на главном окне WizWhy – на экране появится специальное диалоговое окно Print Rules (рис. 13).
Рис. 13
В поле Print to указывается адрес, по которому направляется ре- зультирующая информация. В поле Print/Export range указывается диа- пазон порядковых номеров правил, которые должны быть распечатаны или экспортированы. В нижней части окна диалога проставляются по необходимости флажки для распечатки или экспорта введения к спис- ку правил Print Introduction и содержимого окна «Индекс признака».
Кроме того, в поле Heading моно ввести заголовок для результирую- щей информации.
Отчёт о трендах

20
Отчёт о трендах представляет результаты сегментации отдельных признаков. Окно данного отчёта разделено на три области (рис. 14).
В области, расположенной в левом верхнем углу, мы задаём ана- лизируемый признак (Field to be analyzed). Здесь можно не только вы- бирать требуемый признак, но и сортировать признаки по какому-либо критерию (в алфавитном порядке, по номеру поля, по информативно- сти).
Другие две области предназначены для отражения отношений между значениями признака и зависимой переменной. В верхней пра- вой области окна отчёта приводятся статистические характеристики сегментов выделенного признака. В нижней области отчёта приводит- ся графическая иллюстрация информативности каждого сегмента. На графике по горизонтальной оси располагаются сегменты, на которые выбранный признак автоматически разбивается системой WizWhy. По вертикальной оси откладывается отношение количества объектов класса if-then к общему количеству объектов, попадающих в сегмент.
Таким образом, высота столбиков на графике отражает информатив- ность сегментов. Если столбик выше синей горизонтальной черты, значит, в данный сегмент чаще попадают объекты класса if-then, а если ниже горизонтальной черты – класса if-then-NOT. В свою очередь, ши- рина столбиков пропорциональна количеству объектов, относящихся к данному сегменту.
Отчёт о неожиданных правилах
В системе WixWhy введено представление о так называемых неожиданных правилах (unexpected rules). Под неожиданными пони- маются правила в виде конъюнкции двух и более простых высказыва- ний, комбинация которых даёт точность и полноту прогноза выше, чем это можно было бы ожидать при независимости простых высказыва- ний. Это представление, по-видимому, имеет цель дополнительно за- интриговать конечного пользователя возможностью открывать в дан- ных нетривиальные закономерности.
В нашем случае система не обнаружила таких неожиданных пра- вил. Однако можно попытаться это сделать, если мы изменим задание на поиск правил. Например, уменьшим минимальную вероятность if- then- и if-then-NOT-правил с 80 до 70% в окне Rule Parameters. Проде- лайте указанную операцию и нажмите кнопку Issue Rules – теперь си- стема обнаружит в данных по ультразвуковой диагностике 38 правил, и среди них окажется 4 неожиданных, отчёт о которых выдаётся в спе- циальном окне (рис. 15). Окно отчёта о неожиданных правилах разде-

21 лено на три секции. В левой верхней секции отображается в стандарт- ной форме найденное неожиданное правило. Правая верхняя секция содержит информацию об элементах, из которых составлено неожи- данное правило. И наконец, нижняя секция предназначена для сорти- ровки неожиданных правил и графического представления результа- тов.
Рис. 14
Так, в нашем случае первое неожиданное правило, изображённое на рис. 15, расшифровывается следующим образом: если (пол жен- ский) и (ширина почки в интервале от 61 до 75) и (ускорение кровото- ка от 148 до 275), то диагноз (множественные кисты). Данное правило вместе с рассчитанными характеристиками приведено ниже. Здесь по сравнению с ранее рассмотренными характеристиками выдаются две новые – уровень неожиданности (Level of Unlikelihood) и ожидавшаяся вероятность правила (Expected rule probability) Как видно, за счёт вза- имосвязи элементов правила точность целого правила составила 0,999 и оказалась значительно выше ожидавшейся (0,81).

22
Рис. 15
Unexpected Rule # 1 (out of 4)
Level of Unlikelihood : 0,999 1)
If Sex is F and Width is 61,00 ... 77,00 (average = 67,30 ) and Accel is 148,00 ... 275,00 (average = 216,10 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 1,000
The rule exists in 10 records.
Significance Level: Error probability < 0,001
Expected rule probability : 0,810
Actual minus Expected probability: 0,190
В правой верхней секции приводится статистический разбор ком- понентов, из которых состоит неожиданное правило. Оно состоит из двух частей (табл. 1)
Базисные правила (Basic Rules) представляют собой комбинации простых событий, входящих в неожиданное правило.

23
Табл.1
Basic Rules
Basic Trends
1)If Width is 59,00 ... 101,00 (average =
69,00 ) and Accel is 148,00 ... 279,00 (aver- age = 214,11 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,778
The rule exists in 14 records.
Significance Level: Error probabil-
ity < 0,01 2)If Sex is F and Accel is 148,00 ... 275,00
(average = 222,14 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,810
The rule exists in 17 records.
Significance Level: Error probabil-
ity < 0,001 3)
If Sex is F and Width is 60,00 ... 85,00 (average
= 68,29 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,706
The rule exists in 12 records.
Significance Level: Error probabil-
ity < 0,1 4) If Accel is 148,00 ... 279,00 (average =
217,18 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,706
The rule exists in 24 records.
Significance Level: Error
probability < 0,01 5)
If Sex is F
Then
Diagnosis is be- tween 1,00 and 2,00
Trend's probabil-
ity : 0,595
The trend exists in
25 records.
6)
If Width is 59,00
... 101,00
Then
Diagnosis is be- tween 1,00 and 2,00
Trend's probabil-
ity : 0,556
The trend exists in
20 records.

24
Базисные тренды (Basic Trends) – это статистический разбор сег- ментов анализируемых переменных, составляющих собственно логи- ческие события.
Как видим из таблицы, все компоненты неожиданного правила по отдельности имеют точность существенно ниже 1 – самое высокое значение точности наблюдается у базисного правила №2.
Нижняя секция отчёта о неожиданных правилах разделена на две части. В левой части располагаются элементы управления для сорти- ровки этих правил. По умолчанию правила проранжированы по вели- чине разности между реальной и ожидаемой точностями правил. Если установить переключатель в поле Field и выбрать из списка какой- либо признак, то будут отображаться только те неожиданные правила, в которых встречается указанный признак. В свою очередь, в поле
Type можно выбрать один из трёх типов фильтров правил: All (все правила), if-then-правила и if-then-NOT.
В правой части нижней секции отчёта о неожиданных правилах даётся графическое представление характеристик правил и их состав- ляющих. Первый слева столбик относится к найденному неожиданно- му правилу – его высота равна точности, а ширина пропорциональна количеству покрываемых объектов. Следующий столбик отображает ожидавшиеся характеристики правила, а остальные столбики соответ- ствуют описанным выше базисным правилам и трендам. Если щёлк- нуть левой кнопкой мыши по какому-либо столбику, то система
WizWhy автоматически изменит содержание верхних окон отчёта о неожиданных правилах. Можно также щёлкнуть правой кнопкой мы- ши – появляется контекстное меню, в котором можно выбрать иллю- страцию в виде диаграммы правила (Rule chart).
Прогнозирование на основе полученных правил
В системе WizWhy предусмотрены две возможности использова- ния обнаруженных правил для предсказания значений целевого пока- зателя на новом материале.
Первая возможность заключается в ручном вводе значений при- знаков и обработке нового одиночного объекта (записи). Она реализу- ется следующим образом.
Нажмите кнопку Predict online – на экран выдаётся диалоговое окно для ручного ввода значений признаков (рис. 16).

25
Рис. 16
После заполнения окошек предложенной таблицы (здесь возмож- ны пропуски) нажмите кнопку Issue Report – система создаёт отчёт, в котором подробно описывает как конечный результат предсказания, так и характеристики каждого отдельного правила, использованных для получения прогноза. Пример отчёта представлен ниже:
WIZWHY PREDICTION REPORT
File Name: G:\WIZWHY 3.01 DEMO\USR.txt
Condition Fields:
Age = 50,00
Width = 60,00
Speed = 15,00
Index = 1,00
Accel = 1,00
Dependent Variable: Diagnosis
Subject for Prediction: Diagnosis is between 1,00 and 2,00
Prediction's significance level: Error probability = 0,000
Primary Prediction's probability: 0,500
Conclusive Prediction's probability: 0,884
Prediction: between 1,00 and 2,00
Relevant rules:

26 1)
If Age is 46,00 ... 70,00 (average = 62,00 ) and Speed is 2,30 ... 15,40 (average = 13,17 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,909
The rule exists in 10 records.
Significance Level: Error probability < 0,01 2)
If Width is 54,00 ... 87,00 (average = 64,82 ) and Speed is 2,30 ... 15,40 (average = 13,28 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,909
The rule exists in 10 records.
Significance Level: Error probability < 0,01 3)
If Speed is 2,30 ... 15,40 (average = 13,28 )
Then
Diagnosis is between 1,00 and 2,00
Rule's probability: 0,833
The rule exists in 10 records.
Significance Level: Error probability < 0,1
Как видим, в данном случае система выдала предсказание, что рассматриваемый объект относится к классу 2. Это решение система приняла на основании трёх правил.
Вторая возможность использования множества правил заключа- ется в обработке сразу большого массива новой информации. Для это- го перейдите к закладке Prediction Input в окне диалога для ввода дан- ных и в ней укажите файл, в котором записана новая информация.
Пусть это будет тот же самый файл с обучающей выборкой USR.txt.
Затем требуется задать имя файла, в который будут записываться ре- зультаты прогнозирования. Данная операция осуществляется с помо- щью кнопки Print result to… И наконец, нажимается кнопка Predict to file – система производит необходимые расчёт и сообщает, что резуль- таты успешно записаны в указанный файл.
Итогом выполнения первого задания работы должны быть:
1. Прогноз, полученный при помощи опции Predict online (ручной ввод) для произвольной записи. Результаты скопируйте в файл:
WizWhy_1_Фамилия.doc.

27 2. Прогноз, полученный при помощи опции Predict online (для большого массива файлов); используйте файл USR.txt.
Задание №2
В качестве источника данных выберите файл Stock (таблица
Companies1) (в папке «WizWhy»). Зависимая переменная – «Industry» - может принимать следующие значения:
1. 036 - Software & Programming
2. 0727 - Regional Banks
3. 1018 - Computer Services
4. 0803 - Biotechnology & Drugs
5. 0909 - Business Services
6. 0730 - S&Ls/Savings Banks
7. 0812 - Medical Equipment & Supplies
8. 0915 - Communications Services
9. 1024 - Electronic Instruments & Controls
10. 0721 - Misc. Financial Services
11. 1003 - Communications Equipment
12. 0933 - Real Estate Operations
13. 1030 - Scientific & Technical Instruments
14. 0609 - Oil & Gas Operations
15. 0218 - Misc. Capital Goods
16. The others.
Выберите согласно вашему варианту из вышеприведённого списка значение зависимой переменной. Установите следующие зна- чения параметров:
Рис. 17

28
Выполните процедуру поиска правил. После этого, при помощи опции Predict online выполните прогнозирование на основе получен- ных правил (в качестве анализируемого набор данных выберите таб- лицу Companies2 из файла Stock).
Содержание отчёта (часть 2): Аналогично части 1.
Содержание отчёта (в отдельных файлах):
1. Прогноз, полученный при помощи опции Predict online (руч- ной ввод) для произвольной записи. Результаты скопируйте в файл: WizWhy_1_Фамилия.doc; используйте файл USR.txt.
2. Прогноз, полученный при помощи опции Predict online (для большого массива файлов); используйте файл USR.txt.
3. Прогноз, полученный при помощи опции Predict online (руч- ной ввод) для произвольной записи. Результаты скопируйте в файл: WizWhy_1_Фамилия.doc; используйте файл Stock.
4. Прогноз, полученный при помощи опции Predict online (для большого массива файлов); используйте файл Stock.
Контрольные вопросы
1. Назовите форматы файлов, с которыми может работать
WizWhy.
2. Дайте понятие зависимой и независимой переменной. Приве- дите примеры.
3. Опишите процесс задания параметров поиска правил.
4. Поясните содержимое окна Error Costs.

  1   2   3   4   5   6


написать администратору сайта