Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных
Скачать 2.95 Mb.
|
4. ОСНОВНЫЕ ЗАДАЧИ И КЛАССИФИКАЦИЯ МЕТОДОВ АНАЛИЗА ДАННЫХ 4.1. Этапы интеллектуального анализа данных Выделяют следующие типовые этапы, сопровождающие реше- ние задач интеллектуального анализа данных: 1. Анализ предметной области, формулировка целей и задач ис- следования. 2. Извлечение и сохранение данных. 3. Предварительная обработка данных: – очистка (англ. cleaning): исключение противоречий, случай- ных выбросов и помех 1 , пропусков; – интеграция (англ. integration): объединение данных из не- скольких возможных источников в одном хранилище; – преобразование (англ. transformation): может включать агре- гирование и сжатие данных, дискретизацию атрибутов и сокраще- ние размерности и т.п.; 4. Содержательный анализ данных методами Data Mining (уста- новление общих закономерностей или решение более конкретных, частных задач). 5. Интерпретация полученных результатов с помощью их пред- ставления в удобном формате (визуализация и отбор полезных пат- тернов, формирование информативных графиков и / или таблиц). 6. Использование новых знаний для принятия решений. 4.2. Общие типы закономерностей при анализе данных Как правило, выделяют пять стандартных типов закономерно- стей, которые позволяют относить используемые методы к методам Data Mining: 1. Ассоциация. 2. Последовательность. 1 Если они сами не являются предметом анализа в данном случае. Интеллектуальный анализ данных 38 3. Классы. 4. Кластеры. 5. Временные ряды. Ассоциация (англ. Association) имеет место в случае, если не- сколько событий связаны друг с другом. Например, исследование показывает, что 75% покупателей, приобретавших кукурузные чипсы, приобретают и «колу». Эта ассоциация позволяет предло- жить скидку за такой тип продуктового «комплекта» и, возможно, увеличить тем самым объемы продаж. В случае, если несколько событий связаны друг с другом во вре- мени, имеет место тип зависимости, именуемый последователь- ность (англ. Sequential Patterns). Например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником. Закономерность классы (англ. Classes) появляется в случае, если имеется несколько заранее сформированных классов (групп, типов) объектов. Отнесение нового объекта к какому-либо из существую- щих классов выполняется путем классификации. Закономерность кластеры (англ. Clusters) отличается тем, что классы (группы, типы) заранее не заданы, а их количество и состав определяется автоматически в результате процедуры кластеризации. Хранимая ретроспективная информация позволяет определить еще одну закономерность, заключающуюся в поиске существую- щих временных рядов (англ. Time Series) и прогнозировании дина- мики значений в них на будущие периоды времени. 4.3. Группы задач анализа данных Наряду с поиском самых общих типов закономерностей, кото- рые могут присутствовать в данных (см. разд. 4.2), также выделяют группы более конкретных, частных задач анализа данных. Не- смотря на обширную сферу применения Data Mining в бизнесе, медицине или государственном управлении (см. разд. 3.1, 3.2), по- давляющее большинство этих задач может быть объединено в срав- нительно небольшое число групп (табл. 1). 39 4. Основные задачи и классификация методов анализа данных Т а б л и ц а 1 О сно вн ы е гр упп ы за да ч а на л из а да нн ы х Г ру пп а за да ч (а нгл .) А на ло г в отечес тве нн ой литер ат ур е (р ус .) По яс не ни е Пр им ер з ада чи Cla ss if ica ti o n a n d Pre d icti o n Кл ас сиф ик аци я и пр ог но зир ов ани е Ин ду кти вно р аз ра ба тыв ае тся обо бще нн ая м оде ль ил и ф ор м у- лир уе тся не ко то ра я гип отез а, опи сы ва ющ ая пр ин адл ежно сть объ ек то в к со отве тств ующ им кл ас са м Пр едс ка за ни е ро ста о бъе м ов пр ода ж на о сно ве тек ущ их з на че - ни й, отнес ени е пр етенд ента н а кр еди т к из ве стны м к ла сс ам к ре - ди то спо со бн ос ти, в ы яв ле ни е ло ял ьн ы х ил и не ло ял ьн ы х де ржа- тел ей к ре ди тн ы х ка рт, к ла сс иф и- ка ци я стр ан по к лим атич ес ким зо на м и т .п. Clu ste rin g Кл ас тер из аци я Вы де ле ни е не ко то ро го к ол иче- ства г ру пп, им еющ их с хо дн ы е в не ко то ро м с м ы сл е пр из на ки. О с- но вно й пр ин ци п – м ак сим из ац ия м ежк ла сс ов ог о и м ин им из аци я вн утр ик ла сс ов ог о ра сс то яни я Об на ру жен ие но вы х се гм енто в ры нк а, с ов ер ш енс тво ва ни е ре - кл ам ны х стр атегий дл я ра зл ич- ны х гр упп по тр еби тел ей Asso cia ti o n s, L in k A n a lys is А сс оци аци и, ана лиз вз аим оз ав ис им ос тей По ис к ин тер ес ны х ас со ци аци й и / ил и к ор ре ля ци онн ы х св яз ей 95 % по ку па те ле й а вто м оби льн ы х ш ин и ав то ак се сс уа ро в так же пр ио бр етал и па ке т се рв ис но го обс лу жив ани я ав то м оби ля , 8 0% по ку па те ле й г аз ир ов ки пр ио бр е- тают и «в оз ду ш ну ю » ку ку ру зу 40 Интеллектуальный анализ данных П р о д о л ж е н и е т а б л 1 Г ру пп а за да ч (а нгл .) А на ло г в отечес тв енн ой литер ат ур е (р ус .) По яс не ни е Пр им ер з ада чи Vi su a li za ti o n Виз уа лиз ац ия С ис по льзо ва ни ем г ра ф ичес ки х м ето до в виз уа лиз ац ии ин ф ор м а- ци и со зда ется г ра ф ич ес кий о бр аз ана лиз ир уе м ы х да нн ы х, о тр ажа- ющ ий им еющ ие ся в да нн ы х ин те- ре сны е за ко но м ер но сти Виз уа лиз аци я не ко то ры х за вис им ос тей с и спо льзо ва ни ем 2 D - и 3 D - из м ер ени й S u mm a riza ti o n По дв еде ни е ито го в Ин тегр ал ьн ое (г ене ра лиз ов анн ое ) опи са ни е ко нк ре тны х гр уп п объе кто в из а на лиз ир уе м ог о на бо ра да нн ы х С ум м ир ов ани е да нн ы х се тев ог о тр аф ик а пр и о це нк е эфф ек тив но - сти ка на ло в св яз и [ 11 ], по дг о- то вк а кр атк ог о ре ф ер ата по тек - ст у зна чител ьн ог о объе м а, в из уа - лиз аци я м но го м ер ны х да нн ы х бо льшо го о бъе м а De via ti o n (An o ma ly) De tec ti o n , Ou tl ier An a lys is Оп ре де ле ние и ан ал из отк ло не ни й и / ил и вы бр ос ов в да нн ы х Об на ру жен ие ф ра гм енто в да н- ны х, с ущ ес тве нн о отли ча ющ их ся от об щ ег о м но жес тва да нн ы х, вы яв ле ни е не ха ра ктер ны х па т- тер но в (ш абл оно в) А на лиз на личия ш ум а / ош иб ок , а так же в ы яв ле ни е м ош енн иче- ск их д ейс тви й 41 4. Основные задачи и классификация методов анализа данных О к о н ч а н и е т а б л 1 Г ру пп а за да ч (а нгл .) А на ло г в отечес тве нн ой литер ат ур е (р ус .) По яс не ни е Пр им ер з ада чи Esti ma ti o n Оц ени ва ни е Пр едс ка за ни е не пр ер ы вн ы х зна че ни й пр из на ка Оц енк а пр оиз во ди тел ьн ос ти пр о- це сс ор а на о пр еде ле нн ы х за да ча х по р яду па ра м етр ов пр оце сс ор а, оце нк а чи сл а де тей в с ем ье по ур ов ню о бр аз ов ани я м атер и, оце нк а до хо да с ем ьи по к ол иче- ств у в не й ав то м оби ле й, оце нк а сто им ос ти не дв ижим ос ти в за ви- сим ос ти от ее у да ле нн ос ти от би зне с- це нтр а Fea tu re S elec ti o n , Fea tu re En g in ee rin g Отбо р зна чим ы х пр из на ко в Пр им ен яе тся пр и ан ал из е пр из на - ко вы х пр ос тр анс тв бо льшо й р аз - м ер но сти пу тем с ок ра щ ени я ра з- м ер но сти и / ил и в ы бо ра з на чи- м ы х пр из на ко в с тр анс ф ор м аци ей пр из на ко во го п ро ст ра нс тва ил и бе з тр анс ф ор м аци и Ка к пр ав ил о, пр им еня ется к ак вс по м ог ател ьн ы й м ето д на эта пе пр ед ва рител ьн ой о бр або тк и да н- ны х, а так же д ля по вы ш ени я эф- ф ек тив но сти м ето до в виз уа лиз а- ци и в м но го м ер ны х пр из на ко вы х пр ос тр анс тва х Интеллектуальный анализ данных 42 4.4. Классификация методов Существует большое количество различных оснований для стра- тификации, категоризации, классификации значительного количе- ства существующих и вновь разрабатываемых методов Data Mining. Например, можно встретить классификации по принципу работы с исходными обучающими данными (подвергаются они или нет в результате обработки изменениям), по типу получаемого резуль- тата (предсказательные и описательные; рис. 8), по видам приме- няемого математического аппарата (статистические и кибернети- ческие) и др. Рис. 8. Иллюстрация примера классификации методов Data Mining Например, по типу используемого математического аппарата, как правило, выделяют следующие основные группы методов Data Mining: 1. Дескриптивный анализ и описание исходных данных, предва- рительный анализ природы статистических данных (проверка гипо- тез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.). Data Mining Предсказа- тельные Описатель- ные Классифи- кация Анализ временных рядов Предсказание Регрессия Кластери- зация Ассоциатив- ные правила Исследование последова- тельности Накопле- ние 4. Основные задачи и классификация методов анализа данных 43 2. Многомерный статистический анализ (линейный и нелиней- ный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и т.п.). 3. Поиск связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и т.п.). 4. Анализ временных рядов (динамические модели и прогнози- рование). Т а б л и ц а 2 Пример классификации методов Data Mining по математическому аппарату № п/п Раздел Методы, способы 1 Метрические методы классификации Метод ближайших соседей и его обобщения, отбор эталонов и оптимизация метрики 2 Логические методы классификации Понятия закономерности и информативности, решающие списки и деревья 3 Линейные методы классификации Градиентные методы, метод опорных векторов 4 Байесовские методы классификации Оптимальный байесовский классификатор, пара- метрическое и непараметрическое оценивание плотности, разделение смеси распределений, логистическая регрессия 5 Методы регрессионного анализа Многомерная линейная регрессия, нелинейная параметрическая регрессия, непараметрическая регрессия, неквадратичные функции потерь, прогнозирование временных рядов 6 Нейросетевые ме- тоды классификации и регрессии Многослойные нейронные сети 7 Композиционные методы классифика- ции и регрессии Линейные композиции, бустинг, эвристические и стохастические методы, нелинейные алгоритми- ческие композиции 8 Критерии выбора моделей и методы отбора признаков Задачи оценивания и выбора моделей, теория обобщающей способности, методы отбора признаков 9 Ранжирование 10 Обучение без учителя Кластеризация, сети Кохонена, таксономия, поиск ассоциативных правил, задачи с частичным обуче- нием, коллаборативная фильтрация, тематическое моделирование, обучение с подкреплением Интеллектуальный анализ данных 44 Детализируя используемый математический аппарат, являю- щийся важнейшим компонентом практически любых современных методов Data Mining, можно получить существенно более глубокую классификацию существующих методов (табл. 2), многие из кото- рых более подробно изложены в главе 5. 4.5. Сравнительные характеристики основных методов В завершение различных подходов к классификации методов Data Mining приведем пример сравнительного анализа наиболее широко используемых методов между собой, используя в качестве характеристики каждого из атрибутов следующую шкалу оценок: чрезвычайно низкая, очень низкая, низкая / нейтральная, нейтраль- ная / низкая, нейтральная, нейтральная / высокая, высокая, очень высокая (табл. 3). Т а б л и ц а 3 Пример сравнительного анализа методов Data Mining Метод Характе- ристика Линейная регрессия Нейронные сети Методы визуализа- ции Деревья решений K-ближай- шего соседа Точность Нейтраль- ная Высокая Низкая Низкая Низкая Масштабируе- мость Высокая Низкая Очень низкая Высокая Очень низкая Интерпрети- руемость Высокая / нейтральная Низкая Высокая Высокая Высокая / нейтральная Пригодность к использованию Высокая Низкая Высокая Высокая / нейтральная Нейтраль- ная Трудоемкость Нейтраль- ная Нейтраль- ная Очень высокая Высокая Низкая / нейтральная Разносторон- ность Нейтраль- ная Низкая Низкая Высокая Низкая Быстрота Высокая Очень низ- кая Чрезвычай- но низкая Высокая / нейтральная Высокая Популярность Низкая Низкая Высокая / нейтральная Высокая/ нейтральная Низкая 4. Основные задачи и классификация методов анализа данных 45 Видно, что ни один из методов нельзя признать единственно эф- фективным, имеющим очевидное превосходство над другими мето- дами. Это подтверждает тезис о том, что залогом успешного решения задач Data Mining является необходимость погружения не только в особенности предметной области, но и в математические основы различных методов обработки и анализа данных. Интеллектуальный анализ данных 46 5. ПРИНЦИПИАЛЬНЫЕ ОСНОВЫ МАШИННОГО ОБУЧЕНИЯ Машинное обучение (англ. Machine Learning) изучает способы построения особого класса алгоритмов из области искусственного интеллекта, отличающихся способностью к обучению. Такое обучение в некоторой степени аналогично обучению, ко- торое доступно человеку. Например, когда родители показывают ребенку автомобиль, он позднее способен его отличать от других объектов (дерева, дома, человека и др.), причем даже если это авто- мобиль другого цвета, модели, размера и др. Алгоритмы машинного обучения предполагают аналогичный подход, при котором некото- рая модель (статистическая, нейросетевая, комбинированная и т.п.) в результате обучения настраивает собственные параметры таким образом, чтобы отличать предъявленные ей образы. При этом обу- чение осуществляется с использованием специально подготовлен- ных обучающих данных, позволяющих предусмотреть достаточно однозначное соответствие между предъявляемыми признаками и ожидаемым на них ответом модели (рис. 9). В общем случае для построения алгоритмов машинного обуче- ния требуется подготовить три типа выборок – обучающие (англ. train set), валидационные (англ. validation set), тестовые (англ. test set). Сначала алгоритм обучается на обучающей выборке, с исполь- зованием которой происходит начальная настройка «внутренних» параметров модели (собственно обучение). Это размеченные данные (каждому набору признаков в выборке уже сопоставлено значение целевой переменной – метки с «правильным ответом»), предварительно обработанные и выбранные с учетом самого глав- ного критерия – репрезентативности. Предполагается, что обуча- ющая выборка должна включать в себя наиболее характерные прецеденты, описывая статистические свойства генеральной сово- купности. 5. Принципиальные основы машинного обучения 47 Р ис . 9 . П рин ци пи ал ьн ая с хе м а м аш ин но го о бу че ни я Обуче ни е На стр ой ка Очист ка , сниж .ра зм ., изв ле че ние призна ко в И сх од ны е «с ы - ры е» да нн ы е Пр из на ки и м етк и Об уч ающ ая вы бо рк а Т ес то ва я вы бо рк а М аш ин но е обу че ни е Ф ин ал ьна я м оде ль Н ов ы е пр из на ки Пр едс ка за нн ы е м етк и И ЗВЛЕЧЕНИ Е ОБ У ЧЕНИ Е П Р О Г Н О ЗИ Р О ВА Н И Е Оц енк а Г ип ер па ра м етр ы : по д- бо р и в ал ид аци я Ва лид ац ио н- на я вы бо рк а М оде ль 48 Интеллектуальный анализ данных Р ис . 10 . Оц енк а ка че ст ва м оде ли 1. Р аз би ени е сл уч айн ы м о бр аз ом на в ы бо рк и с обу ча ющ им и и тес то вы м и д анн ы м и Об уч ени е Т ес тир ов ани е М оде ль Т ес тир ов ани е пр ог но зир ов ани я Пр из на ки & М етк и 2 Т ре ни ро вк а ML м оде ли на о бу ча ющ их да нн ы х 3. П ро гно стиче ск ое тес тир ов ани е 4. Ср ав не ни е пр огно сти чес ко го тес тир ов ани я с це ле вы м тес тир ов ани ем дл я оце нк и т оч но сти 5. Принципиальные основы машинного обучения 49 Далее обученная модель применяется на валидационной вы- борке (англ. validation set, development set), в процессе чего произ- водятся настройка гиперпараметров / метапараметров модели, настройка признакового пространства, осуществляется промежу- точный контроль переобучения. Например, в регрессионной модели таким гиперпараметром будет вид регрессионной зависимости, а собственно коэффициенты регрессионной модели, значение кото- рых будет «подстраиваться» в процессе обучения, такими гиперпа- раметрами не будут. Аналогично, например, архитектура нейросети в нейросетевой модели будет гиперпараметром, а собственно весо- вые коэффициенты формальных нейронов, значения которых будут «подстраиваться» в процессе обучения, такими гиперпараметрами не будут. Финальное качество обученной модели оценивают по тестовой выборке. Основное ее отличительное свойство заключается в сле- дующем: тестовая выборка не должна участвовать в обучении мо- дели, ее настройке и оптимизации. Очевидно, тестовая выборка также должна быть размеченной (т.е. каждому набору признаков в выборке должен соответствовать правильный ответ, который мы ожидаем от модели) для проведения оценки качества обучения. Несмотря на очевидность и простоту данного правила, на практике нередки случаи, когда в процессе обучения в обучающую или вали- дационную выборку попадают элементы тестовой выборки, разру- шая корректность обучения модели и проверки ее адекватности. В общем случае оценка качества модели производится путем сравнения результатов применения обученной модели на тестовой выборке, сопоставляя ответы модели и размеченные ответы тесто- вой выборки (рис. 10). На сегодняшний день существует множество рекомендаций и уже сформированных практик оптимального разбиения данных на выборки, так же как и существует множество критериев оценки ка- чества моделей, о которых пойдет речь ниже. |