РЕФЕРАТ На тему «Интеллектуальные методы анализа данных». Реферат. Интеллектуальные методы анализа данных
Скачать 32.73 Kb.
|
РЕФЕРАТ На тему «Интеллектуальные методы анализа данных» Методы интеллектуального анализа данных Предпосылки развития автоматических методов добычи данных. Определения OLAP, Data Mining, KDD и взаимосвязи между ними. OLAP. Аналитическая отчетность и многомерное представление данных. Хранилище данных. Измерения и факты. Типы задач, решаемые методами Data Mining. Алгоритмы, получившие наибольшее распространение для каждого типа задач. Предпосылки развития автоматических методов анализа данных Существует два способа получения информации: документальный и экспертный. В первом случае данные содержатся во всевозможных информационных источниках (книги, документы, базы данных, информационные системы и т.п.). Экспертный способ предполагает извлечение и структурирование знаний из памяти человека – эксперта, или специалиста в предметной области. Часто их называют методами, направленными на использование интуиции и опыта специалистов. Среди методов первой группы в экономике распространены методы математической статистики. Данные методы решают большой спектр задач, однако не позволяют находить и извлекать знания из массивов данных. Кроме того, высокие требования к квалификации конечных пользователей ограничивают их использование. Среди второй группы распространены так называемые экспертные системы, представляющие собой специальные компьютерные программы, моделирующие рассуждения человека. Например, экспертная система принятия решений на рынке ценных бумаг, экспертная система оценки кредитных рисков и т.п. Высокая стоимость создания и внедрения экспертных систем, неспособность людей обнаруживать сложные и нетривиальные зависимости, часто отсутствие специалистов, способных грамотно структурировать свои знания также затрудняют тиражирование такого подхода. Специфика современных требований к обработке информации (огромный объем данных и их разнородная природа) делает бессильными как статистические, так и экспертные подходы во многих практических областях, в том числе и экономических. Поэтому для анализа информации, накопленной в современных базах данных, методы должны быть эффективными, т.е. простыми в использовании, обладать значительным уровнем масштабируемости и определенным автоматизмом. Это концепция лежит в основе двух современных технологий Data Mining и KDD – Knowledge Discovery in Databases. Классическое определение технологии «добычи данных» (Data Mining) звучит следующим образом: это обнаружение в исходных («сырых») данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. То есть информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других. Примеры Приведенные ниже примеры из разных областей экономики демонстрируют основное преимущество методов Data Mining – способность обнаружения новых знаний, которые невозможно получить методами статистического, регрессионного анализа или эконометрики. 1. Множество клиентов компании с помощью одного из инструментов Data Mining были объединены в группы,или сегменты со схожими признаками. Это позволило проводить компании различную маркетинговую политику и строить отдельные модели поведения для каждого клиентского сегмента. Наиболее значимыми факторами для разделения на группы оказались следующие: удаленность региона клиента, сфера деятельности, среднегодовые суммы сделок, количество сделок в неделю. 2. Автоматический анализ банковской базы данных кредитных сделок физических лиц выявил правила, по которым потенциальным заемщикам отказывалось в выдаче кредита. В частности, решающими факторами при выдаче кредитов на небольшие суммы, оказались: срок кредита, среднемесячный доход и расход заемщика. В дальнейшем это учитывалось при экспресс-кредитовании наиболее дешевых товаров. 3. При анализе базы данных клиентов страховой компании был установлен социальный портрет человека, страхующего жизнь - это оказался мужчина 35-50 лет, имеющий 2 и более детей и среднемесячный доход выше $2000. Обнаружение знаний в базах данных (Knowledge Discovery in Databases, KDD) – это последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Эта последовательность не описывает конкретный алгоритм или математический аппарат, не зависит от предметной области. Это набор атомарных операций, комбинируя которые, можно получить нужное решение. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining, постобработки данных, интерпретации полученных результатов. Сердцем всего этого процесса являются методы Data Mining, позволяющие обнаруживать закономерности и знания. Кратко рассмотрим последовательность шагов, выполняемых на каждом этапе KDD. Подготовка исходного набора данных. Этот этап заключается в подготовке набора данных, в том числе из различных источников, выбора значимых параметров и т.д. Для этого должны существовать развитые инструменты доступа к различным источникам данных. Предобработка данных. Для эффективного применения методов Data Mining следует обратить серьезное внимание на вопросы предобработки данных. Данные могут содержать пропуски, шумы, аномальные значения и т.д. Кроме того, данные могут быть избыточны, недостаточны и т.д. В некоторых задачах требуется дополнить данные некоторой априорной информацией. Ошибочно предполагать, что если подать данные на вход системы в существующем виде, то на выходе будут получены полезные знания. Входные данные должны быть качественны и корректны. Трансформация, нормализация данных. Этот шаг необходим для тех методов, которые требуют, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее. Data Mining. На этом шаге применяются различные алгоритмы для нахождения знаний. Это нейронные сети, деревья решений, алгоритмы кластеризации и установления ассоциаций и т.д. Постобработка данных. Интерпретация результатов и применение полученных знаний в бизнес приложениях. Например, требуется получить прогноз объемов продаж на следующий месяц. Имеется сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующим шагом будет предобработка собранных данных: их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Это можно сделать с помощью линейной регрессии или нейронных сетей. Имея такую модель, можно получить прогноз, подав на вход модели историю продаж. Зная прогнозное значение, его можно использовать, например, в приложениях оптимизации для лучшего размещения товара на складе. Самое главное преимущество KDD в том, что полученные таким способом знания можно тиражировать. Т.е. построенную одним человеком модель могут применять другие, без необходимости понимания методик, при помощи которой эти модели построены. Найденные знания должны быть использованы на новых данных с некоторой степенью достоверности. Хранилища данных. Основы OLAP Методы интеллектуального анализа информации, Data Mining, часто рассматриваются как естественное развитие концепции хранилищ данных, поэтому перед их изложением необходимо иметь представление о хранилищах данных и многомерном представлении информации. В чем отличие хранилища от базы данных? В первую очередь в том, что их создание и эксплуатация преследуют различные цели. База данных играет роль помощника в оперативном управлении организации. Это каждодневные задачи получения актуальной информации: бухгалтерской отчетности, учета договоров и т.д. В свою очередь хранилище данных консолидирует всю необходимую информацию для осуществления задач стратегического управления в среднесрочном и долгосрочном периоде. Например, продажа товара и выписка счета производятся с использованием базы данных, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, — с помощью хранилища данных. Таким образом, хранилище данных - это специальным образом систематизированная информация из разнородных источников (базы данных учетных систем компании, маркетинговые данные, мнения клиентов, исследования конкурентов и т.п.), необходимая для обработки с целью принятия стратегически важных решений в деятельности компании. Для того чтобы получить качественный прогноз, нужно собрать максимум информации об исследуемом процессе, описывающей его с разных сторон. Например, для прогнозирования объемов продаж может потребоваться следующая информация: история продаж; состояние склада на каждый день - если спад продаж часто связан с отсутствием товара на складе, а вовсе не из-за отсутствия спроса; сведения о ценах конкурентов; изменения в законодательстве; общее состояние рынка; курс доллара, инфляция; сведения о рекламе; сведения об отношении к продукции клиентов; различного рода специфическую информацию. Например, для продавцов мороженого -температуру, а для аптечных складов - санитарно-эпидемиологическую обстановку, и многое другое. Проблема заключается в том, что обычно в системах оперативного учета большей части этой информации просто нет, а та, что есть, искаженная и(или) неполная. Лучшим вариантом в этом случае будет создание хранилища данных, куда бы с определенной заданной периодичностью поступала вся необходимая информация, предварительно систематизированная и отфильтрованная. Эффективная архитектура хранилища данных должна быть организована таким образом, чтобы быть составной частью информационной системы управления предприятием. Наиболее распространен случай, когда хранилище организовано по типу «звезда», где в центре располагаются факты и агрегатные данные, а «лучами» являются измерения. Каждая «звезда» описывает определенное действие, например, продажу товара, отгрузку, поступления денежных средств и прочее. Обычно данные копируются в хранилище из оперативных баз данных и других источников согласно определенному расписанию. OLAP (On-Line Analytical Processing) является ключевым компонентом организации хранилищ данных. Эта технология основана на построении и визуализации многомерных кубов данных с возможностью произвольного манипулирования информации, содержащейся в кубе. Это позволяет представить информацию для анализа в любом разрезе. Вернемся к примеру с анализом продаж. Пусть руководителя интересуют объемы продаж за некоторый период, к примеру, за только что завершившийся месяц. Компания продает не один, а множество товаров и имеет большое число клиентов, «разбросанных» по разным городам страны. Первые два простейших вопроса, на которые нам сразу же хотелось бы иметь ответы, - это объемы продаж по объемы продаж товаров по каждому городу за каждый месяц. Очевидно, что «ответ» на каждый из этих вопросов будет оформлен в виде двумерной таблицы. В первом случае строками и столбцами этой таблицы соответственно будут названия товаров, месяцы и суммы, а во втором - названия городов и суммы. Однако анализировать информацию в таком виде неудобно. Возникает потребность «соединить» данные нескольких таблиц. В итоге в таком отчете будет фигурировать три равноправных аналитических измерения (город, товар и месяц), и вместо двумерных таблиц появляется трехмерная модель представления данных, так называемый куб. Методы извлечения знаний и области их применения в экономике Data Mining - это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов. 1. Классификация – отнесение объектов (наблюдений, событий) к одному из заранее известных классов. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. 2. Кластеризация – это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация. Часто применительно к экономическим задачам вместо кластеризации употребляют термин сегментация. 3. Регрессия, в том числе задача прогнозирования. Это установление зависимости непрерывных выходных переменных от входных. К этому же типу задач относится прогнозирование временного ряда на основе исторических данных. 4. Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis). 5. Последовательные шаблоны – установление закономерностей между связанными во времени событиями. Укажем наиболее известные применения этих задач в экономике. Классификация используется в случае, если заранее известны классы отнесения объектов. Например, отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо категории. При кредитовании это может быть, например, отнесение клиента по каким-то признакам к одной из групп риска. Кластеризация может использоваться для сегментации и построения профилей клиентов (покупателей). При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально. Поэтому клиентов удобно объединить в группы – сегменты с однородными признаками. Выделять сегменты клиентов можно по нескольким группам признаков. Это могут быть сегменты по сфере деятельности, по географическому расположению. После сегментации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных предпочтений. Регрессия используется для установления зависимостей в факторах. Например, в задаче прогнозирования зависимой величиной является объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. Или, например, при кредитовании физических лиц вероятность возврата кредита зависит от личных характеристик человека, сферы его деятельности, наличия имущества. Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ним бутылочку соуса. Последовательные шаблоны могут быть использованы при планировании продаж или предоставлении услуг. Пример последовательного шаблона: если человек приобрел фотопленку, то через неделю он отдаст ее на проявку и закажет печать фотографий. Для решения вышеперечисленных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как математика, статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из пяти задач Data Mining – главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение. Рассмотрим кратко наиболее известные алгоритмы и методы, применяющиеся для решения каждой задачи Data Mining. Деревья решений Деревья решений (decision trees) предназначены для решения задач классификации. Иногда используют другие названия метода - деревья классификации, деревья решающих правил. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ…ТО…» (if-then), имеющую вид дерева. Чтобы принять решение, к какому классу следует отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид «Значение параметра А больше В?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня; затем снова следует вопрос, связанный с соответствующим узлом и т. д. Приведенный пример иллюстрирует работу так называемых бинарных деревьев решений, в каждом узле которых, ветвление производится по двум направлениям (т. е. на вопрос, заданный в узле, имеется только два варианта ответов, например «Да» или «Нет»). Однако, в общем случае, ответов а, следовательно, ветвей, выходящих из узла, может быть больше. Дерево решений состоит из узлов, где производится проверка условия, и листьев – конечных узлов дерева, указывающих на класс (узлов решения). Качество построенного дерева после обучения можно оценить по нескольким параметрам. Во-первых, это число распознанных примеров в обучающем и тестовом наборах данных. Чем оно выше, тем качественнее построенное дерево. Во-вторых, это количество узлов в дереве. При очень большом их числе дерево становится трудным для восприятия. Это также означает очень слабую зависимость выходного поля от входных полей. Каждое правило характеризуется поддержкой и достоверностью. Поддержка – общее количество примеров классифицированных данным узлом дерева. Достоверность – количество правильно классифицированных данным узлом примеров. Дерево решений строится по определенному алгоритму. Наибольшее распространение получили алгоритмы CART и C4.5(C5.0). |