Тема 6 (2). Лекции Технологии машинного обучения Технологии Nosql data Mining Глубокое обучение
Скачать 31.09 Kb.
|
Data MiningАналитик данных, опираясь на опыт, интуицию, свои знания выдвигает различные гипотезы. Знания, скрытые в больших данных, возможно выявить автоматическим путем посредством использования методов Data Mining (добыча данных). Классическое определение Data Mining было сформулировано в 1996 г. Г. Пятницким-Шипиро. DataMining– это исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Знания, скрытые в больших данных должны обладать следующими свойствами: нетривиальность; должны иметь практический характер; доступны для понимания человеку. Методы Data Mining полезны для аналитика данных, т.е. позволяют решать разнообразные задачи. Среди большого разнообразия задач, связанных с анализом больших данных можно выделить следующие: регрессия; разработка ассоциативных правил; кластеризация данных; классификация данных. Одним из наиболее эффективных и современных способов анализа бизнес-информации является Data Mining. Английское слово «mining» переводится как «добыча полезных ископаемых», и, действительно, развитие Data Mining во многом напоминает развитие технологий, используемых в горнодобывающей отрасли. Data Mining – это собирательный термин, используемый для обозначения целого спектра методов и технологий, используемых для обнаружения новых нетривиальных знаний в больших массивах неструктурированных данных. Термин «Data Mining» на сегодняшний день не имеет общепринятого перевода на русский язык, поэтому при русскоязычных ссылках на него используются такие словосочетания, как «просев информации», «добыча данных», «извлечение данных» или «интеллектуальный анализ данных». Наиболее точным и полным определением можно считать «обнаружение знаний в базах данных». Интегрированная технология Data Mining появилась на стыке статистики, машинного обучения, искусственного интеллекта, технологий баз данных, алгоритмизации, визуализации, распознавания образов, статистики и других дисциплин. В последнее время искусственный интеллект и конвергирующие НБИКС-технологии также активно задействуются в Data Mining. Ключевым понятием в Data Mining являются знания, образующие целостное описание, соответствующее некоторому вопросу. Использование знаний подразумевает их действительное применение при принятии управленческих решений для достижения конкретных конкурентных преимуществ. В отличие от традиционных методов, ориентированных в основном на проверку заранее сформулированных гипотез, одна из основных целей Data Mining – это поиск неочевидных закономерностей, что подразумевает возможность средств Data Mining формулировать гипотезы самостоятельно. Важная особенность Data Mining состоит в сочетании целого спектра математических средств и современных достижений в области информационных технологий. Технология Data Mining объединяет количественный (строго формализованный) и качественный (неформальный) анализ данных. Data Mining может интегрировать деревья принятия решений, искусственные нейронные сети, методы ближайшего и k- ближайшего соседа, различные символьные правила, методы распознавания образов, метод опорных векторов, байесовские сети, кластерный анализ, корреляционно-регрессионный анализ, методы поиска ассоциативных правил, метод ограниченного перебора, генетические алгоритмы, всевозможные методы визуализации данных и ряд других методов. Следует отметить, что большая часть аналитических методов, используемых в Data Mining, – это ранее известные математические методы и алгоритмы. Принципиальное новшество заключается в возможности их применения для решения конкретных задач благодаря прорывным результатам в создании программных и технических средств. Множество методов Data Mining активно используют технологии искусственного интеллекта. Метод Data Mining представляет собой правило, путь или способ решения задачи какого бы то ни было характера: практического, теоретического, управленческого или познавательного. Порядок применения метода определяется алгоритмом. Хотя понятие алгоритма появилось задолго до создания компьютеров, сейчас именно алгоритмы лежат в основе решения многих теоретических и прикладных задач в самых разных различных областях деятельности человека. Алгоритм – это точная последовательность действий (шагов), преобразующих входные данные в выходные. Процесс применения технологии Data Mining принято делить на три стадии: стадия свободного поиска, где выявляются закономерности и осуществляется их валидация (проверка достоверности); стадия прогностического моделирования, где выявленные закономерности используются для прогнозирования неизвестных величин; стадия анализа исключений, где выявляются и объясняются аномалии, ранее обнаруженные в закономерностях. На стадии свободного поиска решаются следующие задачи: выявление закономерностей условной логики (описание в компактной форме схожих групп объектов, задачи кластеризации и классификации); выявление закономерностей ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация); определения колебаний и трендов. На стадии свободного поиска требуется осуществлять валидацию закономерностей, т.е. проверять достоверность выявленных закономерностей на той части данных, которые не использовались при формировании закономерностей. Данный подход, при котором данные разбиваются на обучающее и контрольное (по-другому – проверочное или тестовое) множество применяется в нейронных сетях и деревьях принятия решений. На стадии прогностического моделирования используются результаты свободного поиска. Здесь найденные закономерности применяются непосредственно для построения прогноза. Прогностическое моделирование решает следующие задачи: предсказание неизвестных величин; прогнозирование развития процессов. Прогностическое моделирование решают задачи классификации и прогнозирования. Задача классификации заключается в использовании результатов свободного поиска для того, чтобы отнести новый объект к одному из ранее известных (предопределенных) классов на основании известных значений. Такое отнесение осуществляется с определенной, как правило, не 100%-ой долей уверенности. При решении задачи прогнозирования результаты свободного поиска (определенные тренды или колебания) применяются для предсказания неизвестных (пропущенных или будущих) значений указанной целевой переменной или переменных. Проиллюстрируем стадию прогностического моделирования на рассмотренном выше примере с кадровым агентством. Результатами прогностического моделирования могут быть следующие выводы: «Если кандидат ищет руководящую должность и его стаж более 15 лет, то на 70 % можно быть уверенным в том, что его возраст более 37 лет» или «Если возраст соискателя более 37 лет и желаемая заработная плата более 40000 рублей, то на 85% можно быть уверенным в том, что соискатель ищет должность руководителя. Если сравнить свободный поиск и прогностическое моделирование, то можно сказать, что свободный поиск раскрывает общие закономерности. Он индуктивен, поскольку формирует закономерности от частного к общему. После стадии свободного поиска мы получаем общее знание о некотором классе объектов, основываясь на данных об отдельных его представителях. Например, общее правило «Если возраст кандидата меньше 20 лет и желаемая заработная плата больше 25000 рублей, то в 80% случаев кандидат ижет работу менеджера» сформировано на основании отдельных наблюдений, т.е. на основании информации о свойствах «возраст меньше 20 лет» и «желаемый уровень вознаграждения больше 25000 рублей», делается вывод об общем, а именно, что кандидаты – менеджеры. Прогностическое моделирование же является дедуктивным. Закономерности, обнаруженные на этой стадии, формируются от общего к частному и единичному. При этом формируется новое знание о конкретном объекте или группе объектов на основании знания класса, к которому они принадлежат, и знания общего правила, которому подчиняются объекты данного класса. Например, мы знаем, что кандидат ищет руководящую должность, и его стаж составляет более 15 лет, тогда на 70% можно быть уверенным в том, что его возраст более 37 лет. Здесь на основании общих правил «цель кандидата – руководящая должность» и «стаж более 15 лет», мы делаем вывод о частном – «возраст соискателя более 37 лет». Процесс получения закономерностей может быть и прозрачным, и непрозрачным (черным ящиком). Пример черного ящика – это нейронная сеть. Теперь рассмотрим третью стадию – анализ исключений, где анализируются аномалии, обнаруженные в найденных закономерностях. Задача данной стадии – это выявление отклонений. Для этого определяется некоторая норма, которая рассчитывается на стадии свободного поиска. Продолжим один из ранее рассмотренных примеров. Пусть найдено такое правило: «Если возраст кандидата более 37 лет и желаемая заработная плата более 40000 рублей, то в 85% случаев кандидат ищет руководящую должность». Тогда возникает вопрос – куда отнести оставшиеся 15% случаев? Возможно два варианта: логическое объяснение или ошибки исходных данных. В первом случае объяснение можно привести к новому правилу, а во втором – очистить ошибочные данные. Если оказывается возможным логическое объяснение, то разумно каким-либо образом расширить сформулированное правило, чтобы оно покрывало и эти 15% или их часть. Сегодня технология Data Mining используется во многих сферах человеческой деятельности, где накоплены ретроспективные данные. В данном разделе мы рассмотрим пять основных сфер применения этой технологии: банковское дела, бизнес, наука, правительственные исследования и web-направление. Распространенные направления применения Data Mining в бизнесе следующие: банковское дело, финансы, страхование, системы управления взаимодействием с клиентами, телекоммуникации, производство, электронная коммерция, фондовый рынок, маркетинг и другие. При решении задач государственного уровня Data Mining используется, например, для поиска лиц, уклоняющихся от налогов и в борьбе с терроризмом. Data Mining активно используется при проведении научных исследований в медицине, биологии, молекулярной генетике и генной инженерии, биоинформатике, астрономии, прикладной химии. Наконец, Data Mining может применяться в создании сетевых поисковых машин и различных счетчиков. Классический пример использования технологии применения Data Mining в кредитно-финансовой деятельности – это задача определения возможной некредитоспособности потенциального заемщика. Инструменты Data Mining можно использовать при привлечении новых клиентов банка посредством их классификации на «более выгодных» и «менее выгодных» клиентов. Data Mining может использоваться для выявления случаев мошенничества с кредитными карточками. При этом используются «подозрительные стереотипы поведения», выявляемые посредством анализа банковских операций, впоследствии оказавшихся мошенническими. Задача выявления мошенничества в страховом бизнесе также может решаться средствами Data Mining. Полученные алгоритмы Data Mining применяются для определения структур макромолекул, а также их функций, с целью объяснения различных биологических явлений. Традиционно для постановки медицинских диагнозов используются экспертные системы, которые построены на основе символьных правил, сочетающих, например, симптомы пациента и его заболевание. |