Предварительные знания
Скачать 3.17 Mb.
|
Свойства информации • Полнота информации. Это свойство характеризует качество информации и определяет достаточность данных для принятия решений, т.е. информация должна содержать весь необходимый набор данных. Пример. "Продажи товара А начнут сокращаться" Эта информация неполная, поскольку неизвестно, когда именно они начнут сокращаться. Пример полной информации. "Начиная с первого квартала, продажи товара А начнут сокращаться." Этой информации достаточно для принятия решений. • Достоверность информации. Информация может быть достоверной и недостоверной. В недостоверной информации присутствует информационный шум, и чем он выше, тем ниже достоверность информации. • Ценность информации. Ценность информации не может быть абстрактной. Информация должна быть полезной и ценной для определенной категории пользователей. • Адекватность информации. Это свойство характеризует степень соответствия информации реальному объективному состоянию. Адекватная информация - это полная и достоверная информация. 46 • Актуальность информации. Информация должна быть актуальной, т.е. не устаревшей. Это свойство информации характеризует степень соответствия информации настоящему моменту времени. • Ясность информации. Информация должна быть понятна тому кругу лиц, для которого она предназначена. • Доступность информации. Доступность характеризует меру возможности получить определенную информацию. На это свойство информации влияют одновременно доступность данных и доступность адекватных методов. • Субъективность информации. Информация носит субъективный характер, она определяется степенью восприятия субъекта (получателя информации). Требования, предъявляемые к информации • Динамический характер информации. Информация существует только в момент взаимодействия данных и методов, т.е. в момент информационного процесса. Остальное время она пребывает в состоянии данных. • Адекватность используемых методов. Информация извлекается из данных. Однако в результате использования одних и тех же данных может появляться разная информация. Это зависит от адекватности выбранных методов обработки исходных данных. Данные, по своей сути, являются объективными. Методы являются субъективными, в основе методов лежат алгоритмы, субъективно составленные и подготовленные. Таким образом, информация возникает и существует в момент диалектического взаимодействия объективных данных и субъективных методов. Для бизнеса информация является исходной составляющей принятия решений. Всю информацию, возникающую в процессе функционирования бизнеса и управления им, можно классифицировать определенным образом. В зависимости от источника получения, информацию разделяют на внутреннюю и внешнюю (например, информация, описывающая явления, происходящие за пределами фирмы, но имеющие к ней непосредственное отношение). Также информация может быть классифицирована на фактическую и прогнозную. К фактической информации о бизнесе относится информация, характеризующая 47 свершившиеся факты; она является точной. Прогнозная информация является рассчитываемой или предполагаемой, поэтому ее нельзя считать точной, она может иметь определенную погрешность. Знания Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача. Итак, формирование информации происходит в процессе сбора и передачи, т.е. обработки данных. Каким же образом из информации получают знания? Все чаще истинные знания образуются на основе распределенных взаимосвязей разнородной информации [19]. Когда информация собрана и передана для получения явно не определенного заранее результата, то вы получаете знания. Сама по себе информация в чистом виде бессмысленна. Отсюда следует вывод, что информация - это чье-то тактическое знание, передаваемое в виде символов и при помощи каких-либо прикладных средств. По определению Денхема Грэя, "знания - это абсолютное использование информации и данных, совместно с потенциалом практического опыта людей, способностями, идеями, интуицией, убежденностью и мотивациями". Знания имеют определенные свойства, которые отличают их от информации [20]. 1. Структурированность. Знания должны быть "разложены по полочкам". 2. Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа к знаниям. 3. Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота. 4. Непротиворечивость. Знания не должны противоречить друг другу. 5. Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний - возможность их передачи другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т.е. наличие специальных форматов знаний. Сопоставление и сравнение понятий "информация", "данные", "знание" Для того чтобы уверенно оперировать понятиями "информация", "данные", "знание", необходимо не только понимать суть этих понятий, но и прочувствовать отличия между ними. Однако, одной интуитивной интерпретации этих понятий здесь недостаточно. Сложность понимания отличий вышеупомянутых понятий - в их кажущейся синонимичности. Вспомним, что понятие Data Mining переводится на русский язык при помощи этих же трех понятий: как добыча данных, извлечение информации, раскопка знаний. 48 Для того чтобы прочувствовать разницу, рассмотрим применение этих трех понятий на простом примере. Для начала сделаем попытку разобраться в этих терминах на простых примерах. 1. Студент, который сдает экзамен, нуждается в данных. 2. Студент, который сдает экзамен, нуждается в информации. 3. Студент, который сдает экзамен, нуждается в знаниях. При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично. Информация, в отличие от данных, имеет смысл. Понятия "информация" и "знания", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно. Понятие "информации" непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений. Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными. Они есть часть одного потока: у истока его находятся данные, в процессе передачи которых возникает информация, и в результате использования информации, при определенных условиях, возникают знания. В лекции уже отмечалось, что в процессе движения вверх по информационной пирамиде объемы данных переходят в ценность знаний. Однако большие объемы данных вовсе не означают и, тем более, не гарантируют получение знаний. Существует определенная зависимость ценности полученных знаний от качества и мощности процедур обработки данных. Типичным примером информации, которую нельзя превратить в знание, является текст на иностранном языке. При отсутствии словаря и переводчика эта информация вообще не имеет ценности, она не может перейти в знание. При наличии словаря процесс перехода от информации к знанию возможен, но длителен и трудоемок. При наличии переводчика информация действительно переходит в знания. Таким образом, для получения ценных знаний необходимы качественные процедуры обработки. Процесс перехода от данных к знаниям занимает много времени и стоит дорого. Поэтому очевидно, что технология Data Mining с ее мощными и разнообразными алгоритмами является инструментом, при помощи которого, продвигаясь вверх по информационной пирамиде, мы можем получать действительно качественные и ценные знания. 49 Задачи Data Mining. Классификация и кластеризация В предыдущей лекции мы кратко остановились на основных задачах Data Mining. Две из них - классификацию и кластеризацию - мы рассмотрим подробно в этой лекции. Задача классификации Классификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Ввиду распространенности задач классификации необходимо четкое понимания сути этого понятия. Приведем несколько определений. Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства. Классификация - упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами. Классификация требует соблюдения следующих правил: • в каждом акте деления необходимо применять только одно основание; • деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия; • члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться; • деление должно быть последовательным. Различают: • вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка; • естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т.к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов. В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть: • простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А"); 50 • сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система химических элементов. Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила). Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением. Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных. Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто - нет, кто воспользуется услугой фирмы, а кто - нет, и т.д. Этот тип задач относится к задачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1). Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной. Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам). Многомерная классификация была разработана биологами при решении проблем дискриминации для классифицирования организмов. Одной из первых работ, посвященных этому направлению, считают работу Р. Фишера (1930 г.), в которой организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров. Биология была и остается наиболее востребованной и удобной средой для разработки многомерных методов классификации. Рассмотрим задачу классификации на простом примере. Допустим, имеется база данных о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и комфортный отдых и более дешевый, молодежный отдых. Соответственно, определены два класса клиентов: класс 1 и класс 2. База данных приведена в таблице 5.1 Таблица 5.1. База данных клиентов туристического агентства Код клиента Возраст Доход Класс 1 18 25 1 51 2 22 100 1 3 30 70 1 4 32 120 1 5 24 15 2 6 25 22 1 7 32 50 2 8 19 45 2 9 22 75 1 10 40 90 2 Задача. Определить, к какому классу принадлежит новый клиент и какой из двух видов рекламных материалов ему стоит отсылать. Для наглядности представим нашу базу данных в двухмерном измерении (возраст и доход), в виде множества объектов, принадлежащих классам 1 (оранжевая метка) и 2 (серая метка). На рис. 5.1 приведены объекты из двух классов. Рис. 5.1. Множество объектов базы данных в двухмерном измерениии Решение нашей задачи будет состоять в том, чтобы определить, к какому классу относится новый клиент, на рисунке обозначенный белой меткой. 52 Процесс классификации Цель процесса классификации состоит в том, чтобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определенному критерию. Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков. Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в нашем случае выступает база данных. Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта. Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое. Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели. Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели. Тестовое (test set) множество также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели. Процесс классификации состоит из двух этапов [21]: конструирования модели и ее использования. 1. Конструирование модели: описание множества предопределенных классов. o Каждый пример набора данных относится к одному предопределенному классу. o На этом этапе используется обучающее множество, на нем происходит конструирование модели. o Полученная модель представлена классификационными правилами, деревом решений или математической формулой. 2. Использование модели: классификация новых или неизвестных значений. o Оценка правильности (точности) модели. 1. Известные значения из тестового примера сравниваются с результатами использования полученной модели. 2. Уровень точности - процент правильно классифицированных примеров в тестовом множестве. 3. Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества. o Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен. Процесс классификации, а именно, конструирование модели и ее использование, представлен на рис. 5.2. - 5.3 53 Рис. 5.2. Процесс классификации. Конструирование модели Рис. 5.3. Процесс классификации. Использование модели Методы, применяемые для решения задач классификации Для классификации используются различные методы. Основные из них: • классификация с помощью деревьев решений; • байесовская (наивная) классификация; • классификация при помощи искусственных нейронных сетей; • классификация методом опорных векторов; • статистические методы, в частности, линейная регрессия; 54 • классификация при помощи метода ближайшего соседа; • классификация CBR-методом; • классификация при помощи генетических алгоритмов. Схематическое решение задачи классификации некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены на рис. 5.4 - 5.6 Рис. 5.4. Решение задачи классификации методом линейной регрессии if X > 5 then grey else if Y > 3 then orange else if X > 2 then grey else orange Рис. 5.5. Решение задачи классификации методом деревьев решений 55 Рис. 5.6. Решение задачи классификации методом нейронных сетей Точность классификации: оценка уровня ошибок Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс- проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку. Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое - одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться. |