Главная страница
Навигация по странице:

  • Требования, предъявляемые к информации

  • Структурированность

  • Непротиворечивость

  • Сопоставление и сравнение понятий "информация", "данные", "знание"

  • Задачи Data Mining. Классификация и кластеризация

  • Код клиента Возраст Доход Класс

  • Рис. 5.2.

  • Рис. 5.4.

  • Рис. 5.6.

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница6 из 34
    1   2   3   4   5   6   7   8   9   ...   34
    Свойства информации

    Полнота информации.
    Это свойство характеризует качество информации и определяет достаточность данных для принятия решений, т.е. информация должна содержать весь необходимый набор данных.
    Пример. "Продажи товара А начнут сокращаться" Эта информация неполная, поскольку неизвестно, когда именно они начнут сокращаться.
    Пример полной информации. "Начиная с первого квартала, продажи товара А начнут сокращаться." Этой информации достаточно для принятия решений.

    Достоверность информации.
    Информация может быть достоверной и недостоверной. В недостоверной информации присутствует информационный шум, и чем он выше, тем ниже достоверность информации.

    Ценность информации.
    Ценность информации не может быть абстрактной. Информация должна быть полезной и ценной для определенной категории пользователей.

    Адекватность информации.
    Это свойство характеризует степень соответствия информации реальному объективному состоянию. Адекватная информация - это полная и достоверная информация.
    46


    Актуальность информации.
    Информация должна быть актуальной, т.е. не устаревшей. Это свойство информации характеризует степень соответствия информации настоящему моменту времени.

    Ясность информации.
    Информация должна быть понятна тому кругу лиц, для которого она предназначена.

    Доступность информации.
    Доступность характеризует меру возможности получить определенную информацию. На это свойство информации влияют одновременно доступность данных и доступность адекватных методов.

    Субъективность информации.
    Информация носит субъективный характер, она определяется степенью восприятия субъекта (получателя информации).
    Требования, предъявляемые к информации

    Динамический характер информации.
    Информация существует только в момент взаимодействия данных и методов, т.е. в момент информационного процесса. Остальное время она пребывает в состоянии данных.

    Адекватность используемых методов.
    Информация извлекается из данных. Однако в результате использования одних и тех же данных может появляться разная информация. Это зависит от адекватности выбранных методов обработки исходных данных.
    Данные, по своей сути, являются объективными. Методы являются субъективными, в основе методов лежат алгоритмы, субъективно составленные и подготовленные. Таким образом, информация возникает и существует в момент диалектического взаимодействия объективных данных и субъективных методов.
    Для бизнеса информация является исходной составляющей принятия решений.
    Всю информацию, возникающую в процессе функционирования бизнеса и управления им, можно классифицировать определенным образом. В зависимости от источника получения, информацию разделяют на внутреннюю и внешнюю (например, информация, описывающая явления, происходящие за пределами фирмы, но имеющие к ней непосредственное отношение).
    Также информация может быть классифицирована на фактическую и прогнозную. К фактической информации о бизнесе относится информация, характеризующая
    47
    свершившиеся факты; она является точной. Прогнозная информация является рассчитываемой или предполагаемой, поэтому ее нельзя считать точной, она может иметь определенную погрешность.
    Знания
    Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача.
    Итак, формирование информации происходит в процессе сбора и передачи, т.е. обработки данных. Каким же образом из информации получают знания?
    Все чаще истинные знания образуются на основе распределенных взаимосвязей разнородной информации [19]. Когда информация собрана и передана для получения явно не определенного заранее результата, то вы получаете знания. Сама по себе информация в чистом виде бессмысленна. Отсюда следует вывод, что информация - это чье-то тактическое знание, передаваемое в виде символов и при помощи каких-либо прикладных средств.
    По определению Денхема Грэя, "знания - это абсолютное использование информации и данных, совместно с потенциалом практического опыта людей, способностями, идеями, интуицией, убежденностью и мотивациями".
    Знания имеют определенные свойства, которые отличают их от информации [20].
    1. Структурированность. Знания должны быть "разложены по полочкам".
    2. Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа к знаниям.
    3. Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота.
    4. Непротиворечивость. Знания не должны противоречить друг другу.
    5. Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний - возможность их передачи другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т.е. наличие специальных форматов знаний.
    Сопоставление и сравнение понятий "информация", "данные", "знание"
    Для того чтобы уверенно оперировать понятиями "информация", "данные", "знание", необходимо не только понимать суть этих понятий, но и прочувствовать отличия между ними. Однако, одной интуитивной интерпретации этих понятий здесь недостаточно.
    Сложность понимания отличий вышеупомянутых понятий - в их кажущейся синонимичности. Вспомним, что понятие Data Mining переводится на русский язык при помощи этих же трех понятий: как добыча данных, извлечение информации, раскопка знаний.
    48

    Для того чтобы прочувствовать разницу, рассмотрим применение этих трех понятий на простом примере.
    Для начала сделаем попытку разобраться в этих терминах на простых примерах.
    1. Студент, который сдает экзамен, нуждается в данных.
    2. Студент, который сдает экзамен, нуждается в информации.
    3. Студент, который сдает экзамен, нуждается в знаниях.
    При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично.
    Информация, в отличие от данных, имеет смысл.
    Понятия "информация" и "знания", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно.
    Понятие "информации" непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений.
    Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными. Они есть часть одного потока: у истока его находятся данные, в процессе передачи которых возникает информация, и в результате использования информации, при определенных условиях, возникают знания.
    В лекции уже отмечалось, что в процессе движения вверх по информационной пирамиде объемы данных переходят в ценность знаний. Однако большие объемы данных вовсе не означают и, тем более, не гарантируют получение знаний. Существует определенная зависимость ценности полученных знаний от качества и мощности процедур обработки данных. Типичным примером информации, которую нельзя превратить в знание, является текст на иностранном языке. При отсутствии словаря и переводчика эта информация вообще не имеет ценности, она не может перейти в знание. При наличии словаря процесс перехода от информации к знанию возможен, но длителен и трудоемок. При наличии переводчика информация действительно переходит в знания.
    Таким образом, для получения ценных знаний необходимы качественные процедуры обработки. Процесс перехода от данных к знаниям занимает много времени и стоит дорого. Поэтому очевидно, что технология Data Mining с ее мощными и разнообразными алгоритмами является инструментом, при помощи которого, продвигаясь вверх по информационной пирамиде, мы можем получать действительно качественные и ценные знания.
    49

    Задачи Data Mining. Классификация и кластеризация
    В предыдущей лекции мы кратко остановились на основных задачах Data Mining. Две из них - классификацию и кластеризацию - мы рассмотрим подробно в этой лекции.
    Задача классификации
    Классификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Ввиду распространенности задач классификации необходимо четкое понимания сути этого понятия.
    Приведем несколько определений.
    Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.
    Классификация - упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.
    Классификация требует соблюдения следующих правил:

    в каждом акте деления необходимо применять только одно основание;

    деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия;

    члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться;

    деление должно быть последовательным.
    Различают:

    вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка;

    естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т.к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов.
    В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:

    простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А");
    50


    сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система химических элементов.
    Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
    Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).
    Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением.
    Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.
    Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто - нет, кто воспользуется услугой фирмы, а кто - нет, и т.д. Этот тип задач относится к задачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1).
    Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.
    Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).
    Многомерная классификация была разработана биологами при решении проблем дискриминации для классифицирования организмов. Одной из первых работ, посвященных этому направлению, считают работу Р. Фишера (1930 г.), в которой организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров. Биология была и остается наиболее востребованной и удобной средой для разработки многомерных методов классификации.
    Рассмотрим задачу классификации на простом примере. Допустим, имеется база данных о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и комфортный отдых и более дешевый, молодежный отдых. Соответственно, определены два класса клиентов: класс 1 и класс 2.
    База данных приведена в таблице 5.1
    Таблица 5.1. База данных клиентов туристического агентства
    Код клиента
    Возраст
    Доход
    Класс
    1 18 25 1
    51

    2 22 100 1
    3 30 70 1
    4 32 120 1
    5 24 15 2
    6 25 22 1
    7 32 50 2
    8 19 45 2
    9 22 75 1
    10 40 90 2
    Задача. Определить, к какому классу принадлежит новый клиент и какой из двух видов рекламных материалов ему стоит отсылать.
    Для наглядности представим нашу базу данных в двухмерном измерении (возраст и доход), в виде множества объектов, принадлежащих классам 1 (оранжевая метка) и 2
    (серая метка). На рис. 5.1
    приведены объекты из двух классов.
    Рис. 5.1. Множество объектов базы данных в двухмерном измерениии
    Решение нашей задачи будет состоять в том, чтобы определить, к какому классу относится новый клиент, на рисунке обозначенный белой меткой.
    52

    Процесс классификации
    Цель процесса классификации состоит в том, чтобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определенному критерию.
    Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.
    Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в нашем случае выступает база данных.
    Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта.
    Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое.
    Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели.
    Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.
    Тестовое (test set) множество также содержит входные и выходные значения примеров.
    Здесь выходные значения используются для проверки работоспособности модели.
    Процесс классификации состоит из двух этапов [21]: конструирования модели и ее использования.
    1. Конструирование модели: описание множества предопределенных классов. o
    Каждый пример набора данных относится к одному предопределенному классу.
    o
    На этом этапе используется обучающее множество, на нем происходит конструирование модели.
    o
    Полученная модель представлена классификационными правилами, деревом решений или математической формулой.
    2. Использование модели: классификация новых или неизвестных значений. o
    Оценка правильности (точности) модели.
    1. Известные значения из тестового примера сравниваются с результатами использования полученной модели.
    2. Уровень точности - процент правильно классифицированных примеров в тестовом множестве.
    3. Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.
    o
    Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
    Процесс классификации, а именно, конструирование модели и ее использование, представлен на рис. 5.2.
    -
    5.3 53

    Рис. 5.2. Процесс классификации. Конструирование модели
    Рис. 5.3. Процесс классификации. Использование модели
    Методы, применяемые для решения задач классификации
    Для классификации используются различные методы. Основные из них:

    классификация с помощью деревьев решений;

    байесовская (наивная) классификация;

    классификация при помощи искусственных нейронных сетей;

    классификация методом опорных векторов;

    статистические методы, в частности, линейная регрессия;
    54


    классификация при помощи метода ближайшего соседа;

    классификация CBR-методом;

    классификация при помощи генетических алгоритмов.
    Схематическое решение задачи классификации некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены на рис. 5.4
    -
    5.6
    Рис. 5.4. Решение задачи классификации методом линейной регрессии if X > 5 then grey else if Y > 3 then orange else if X > 2 then grey else orange
    Рис. 5.5. Решение задачи классификации методом деревьев решений
    55

    Рис. 5.6. Решение задачи классификации методом нейронных сетей
    Точность классификации: оценка уровня ошибок
    Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс- проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.
    Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое
    - одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться.
    1   2   3   4   5   6   7   8   9   ...   34


    написать администратору сайта