Главная страница
Навигация по странице:

  • 4.2. Общие типы закономерностей при анализе данных

  • 4.3. Группы задач анализа данных

  • 4.4. Классификация методов

  • Пример классификации методов Data Mining по математическому аппарату

  • 4.5. Сравнительные характеристики основных методов

  • Пример сравнительного анализа методов Data Mining

  • 5. ПРИНЦИПИАЛЬНЫЕ ОСНОВЫ МАШИННОГО ОБУЧЕНИЯ

  • Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных


    Скачать 2.95 Mb.
    НазваниеИнтеллектуальный анализ данных
    АнкорИнтеллектуальный анализ данных учебное пособие
    Дата30.09.2022
    Размер2.95 Mb.
    Формат файлаpdf
    Имя файлаИАД Лекции Замятин 20.pdf
    ТипУчебное пособие
    #707536
    страница4 из 16
    1   2   3   4   5   6   7   8   9   ...   16
    4. ОСНОВНЫЕ ЗАДАЧИ И КЛАССИФИКАЦИЯ
    МЕТОДОВ АНАЛИЗА ДАННЫХ
    4.1. Этапы интеллектуального анализа данных
    Выделяют следующие типовые этапы, сопровождающие реше- ние задач интеллектуального анализа данных:
    1. Анализ предметной области, формулировка целей и задач ис- следования.
    2. Извлечение и сохранение данных.
    3. Предварительная обработка данных:
    – очистка (англ. cleaning): исключение противоречий, случай- ных выбросов и помех
    1
    , пропусков;
    – интеграция (англ. integration): объединение данных из не- скольких возможных источников в одном хранилище;
    – преобразование (англ. transformation): может включать агре- гирование и сжатие данных, дискретизацию атрибутов и сокраще- ние размерности и т.п.;
    4. Содержательный анализ данных методами Data Mining (уста- новление общих закономерностей или решение более конкретных, частных задач).
    5. Интерпретация полученных результатов с помощью их пред- ставления в удобном формате (визуализация и отбор полезных пат- тернов, формирование информативных графиков и / или таблиц).
    6. Использование новых знаний для принятия решений.
    4.2. Общие типы закономерностей при анализе данных
    Как правило, выделяют пять стандартных типов закономерно- стей, которые позволяют относить используемые методы к методам
    Data Mining:
    1. Ассоциация.
    2. Последовательность.
    1
    Если они сами не являются предметом анализа в данном случае.

    Интеллектуальный анализ данных
    38 3. Классы.
    4. Кластеры.
    5. Временные ряды.
    Ассоциация (англ. Association) имеет место в случае, если не- сколько событий связаны друг с другом. Например, исследование показывает, что 75% покупателей, приобретавших кукурузные чипсы, приобретают и «колу». Эта ассоциация позволяет предло- жить скидку за такой тип продуктового «комплекта» и, возможно, увеличить тем самым объемы продаж.
    В случае, если несколько событий связаны друг с другом во вре- мени, имеет место тип зависимости, именуемый последователь-
    ность (англ. Sequential Patterns). Например, после покупки дома в
    45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
    Закономерность классы (англ. Classes) появляется в случае, если имеется несколько заранее сформированных классов (групп, типов) объектов. Отнесение нового объекта к какому-либо из существую- щих классов выполняется путем классификации.
    Закономерность кластеры (англ. Clusters) отличается тем, что классы (группы, типы) заранее не заданы, а их количество и состав определяется автоматически в результате процедуры кластеризации.
    Хранимая ретроспективная информация позволяет определить еще одну закономерность, заключающуюся в поиске существую- щих временных рядов (англ. Time Series) и прогнозировании дина- мики значений в них на будущие периоды времени.
    4.3. Группы задач анализа данных
    Наряду с поиском самых общих типов закономерностей, кото- рые могут присутствовать в данных (см. разд. 4.2), также выделяют группы более конкретных, частных задач анализа данных. Не- смотря на обширную сферу применения Data Mining в бизнесе, медицине или государственном управлении (см. разд. 3.1, 3.2), по- давляющее большинство этих задач может быть объединено в срав- нительно небольшое число групп (табл. 1).

    39
    4. Основные задачи и классификация методов анализа данных
    Т
    а б
    л и
    ц а
    1
    О
    сно
    вн
    ы
    е
    гр
    упп
    ы
    за
    да
    ч
    а
    на
    л
    из
    а
    да
    нн
    ы
    х
    Г
    ру пп а за да ч
    (а нгл
    .)
    А
    на ло г в отечес тве нн ой литер ат ур е
    (р ус
    .)
    По яс не ни е
    Пр им ер з
    ада чи
    Cla
    ss
    if
    ica
    ti
    o
    n
    a
    n
    d
    Pre
    d
    icti
    o
    n
    Кл ас сиф ик аци я и пр ог но зир ов ани е
    Ин ду кти вно р
    аз ра ба тыв ае тся обо бще нн ая м
    оде ль ил и ф ор м
    у- лир уе тся не ко то ра я гип отез а,
    опи сы ва ющ ая пр ин адл ежно сть объ ек то в к со отве тств ующ им кл ас са м
    Пр едс ка за ни е ро ста о бъе м
    ов пр ода ж на о
    сно ве тек ущ их з
    на че
    - ни й, отнес ени е пр етенд ента н а кр еди т к из ве стны м
    к ла сс ам к
    ре
    - ди то спо со бн ос ти,
    в ы
    яв ле ни е ло ял ьн ы
    х ил и не ло ял ьн ы
    х де ржа- тел ей к ре ди тн ы
    х ка рт,
    к ла сс иф и- ка ци я стр ан по к
    лим атич ес ким зо на м
    и т
    .п.
    Clu
    ste
    rin
    g
    Кл ас тер из аци я
    Вы де ле ни е не ко то ро го к
    ол иче- ства г
    ру пп, им еющ их с
    хо дн ы
    е в не ко то ро м
    с м
    ы сл е пр из на ки.
    О
    с- но вно й пр ин ци п
    – м
    ак сим из ац ия м
    ежк ла сс ов ог о и м ин им из аци я вн утр ик ла сс ов ог о ра сс то яни я
    Об на ру жен ие но вы х се гм енто в ры нк а,
    с ов ер ш
    енс тво ва ни е ре
    - кл ам ны х стр атегий дл я ра зл ич- ны х гр упп по тр еби тел ей
    Asso
    cia
    ti
    o
    n
    s,
    L
    in
    k
    A
    n
    a
    lys
    is
    А
    сс оци аци и, ана лиз вз аим оз ав ис им ос тей
    По ис к ин тер ес ны х ас со ци аци й и
    / ил и к ор ре ля ци онн ы
    х св яз ей
    95
    %
    по ку па те ле й а вто м
    оби льн ы
    х ш
    ин и ав то ак се сс уа ро в так же пр ио бр етал и па ке т се рв ис но го обс лу жив ани я ав то м
    оби ля
    , 8 0%
    по ку па те ле й г аз ир ов ки пр ио бр е- тают и
    «в оз ду ш
    ну ю
    » ку ку ру зу

    40
    Интеллектуальный анализ данных
    П
    р о
    д о
    л ж
    е н
    и е
    т а
    б л
    1
    Г
    ру пп а за да ч
    (а нгл
    .)
    А
    на ло г в отечес тв енн ой литер ат ур е
    (р ус
    .)
    По яс не ни е
    Пр им ер з
    ада чи
    Vi
    su
    a
    li
    za
    ti
    o
    n
    Виз уа лиз ац ия
    С ис по льзо ва ни ем г
    ра ф
    ичес ки х м
    ето до в виз уа лиз ац ии ин ф
    ор м
    а- ци и со зда ется г
    ра ф
    ич ес кий о
    бр аз ана лиз ир уе м
    ы х да нн ы
    х,
    о тр ажа- ющ ий им еющ ие ся в
    да нн ы
    х ин те- ре сны е за ко но м
    ер но сти
    Виз уа лиз аци я не ко то ры х за вис им ос тей с и
    спо льзо ва ни ем
    2
    D
    - и 3
    D
    - из м
    ер ени й
    S
    u
    mm
    a
    riza
    ti
    o
    n
    По дв еде ни е ито го в
    Ин тегр ал ьн ое
    (г ене ра лиз ов анн ое
    ) опи са ни е ко нк ре тны х гр уп п объе кто в из а
    на лиз ир уе м
    ог о на бо ра да нн ы
    х
    С
    ум м
    ир ов ани е да нн ы
    х се тев ог о тр аф ик а пр и о це нк е эфф ек тив но
    - сти ка на ло в св яз и [
    11
    ],
    по дг о- то вк а кр атк ог о ре ф
    ер ата по тек
    - ст у зна чител ьн ог о объе м
    а,
    в из уа
    - лиз аци я м
    но го м
    ер ны х да нн ы
    х бо льшо го о
    бъе м
    а
    De
    via
    ti
    o
    n
    (An
    o
    ma
    ly)
    De
    tec
    ti
    o
    n
    ,
    Ou
    tl
    ier
    An
    a
    lys
    is
    Оп ре де ле ние и ан ал из отк ло не ни й и
    /
    ил и вы бр ос ов в
    да нн ы
    х
    Об на ру жен ие ф
    ра гм енто в да н- ны х,
    с ущ ес тве нн о отли ча ющ их ся от об щ
    ег о м
    но жес тва да нн ы
    х,
    вы яв ле ни е не ха ра ктер ны х па т- тер но в
    (ш абл оно в)
    А
    на лиз на личия ш
    ум а
    / ош иб ок
    , а так же в ы
    яв ле ни е м
    ош енн иче- ск их д
    ейс тви й

    41
    4. Основные задачи и классификация методов анализа данных
    О
    к о
    н ч
    а н
    и е
    т а
    б л
    1
    Г
    ру пп а за да ч
    (а нгл
    .)
    А
    на ло г в отечес тве нн ой литер ат ур е
    (р ус
    .)
    По яс не ни е
    Пр им ер з
    ада чи
    Esti
    ma
    ti
    o
    n
    Оц ени ва ни е
    Пр едс ка за ни е не пр ер ы
    вн ы
    х зна че ни й пр из на ка
    Оц енк а пр оиз во ди тел ьн ос ти пр о- це сс ор а на о
    пр еде ле нн ы
    х за да ча х по р
    яду па ра м
    етр ов пр оце сс ор а,
    оце нк а чи сл а де тей в с
    ем ье по ур ов ню о бр аз ов ани я м
    атер и, оце нк а до хо да с
    ем ьи по к
    ол иче- ств у в не й ав то м
    оби ле й, оце нк а сто им ос ти не дв ижим ос ти в за ви- сим ос ти от ее у
    да ле нн ос ти от би зне с- це нтр а
    Fea
    tu
    re
    S
    elec
    ti
    o
    n
    ,
    Fea
    tu
    re
    En
    g
    in
    ee
    rin
    g
    Отбо р зна чим ы
    х пр из на ко в
    Пр им ен яе тся пр и ан ал из е пр из на
    - ко вы х пр ос тр анс тв бо льшо й р аз
    - м
    ер но сти пу тем с
    ок ра щ
    ени я ра з- м
    ер но сти и
    / ил и в ы
    бо ра з
    на чи- м
    ы х пр из на ко в с тр анс ф
    ор м
    аци ей пр из на ко во го п
    ро ст ра нс тва ил и бе з тр анс ф
    ор м
    аци и
    Ка к пр ав ил о,
    пр им еня ется к
    ак вс по м
    ог ател ьн ы
    й м ето д на эта пе пр ед ва рител ьн ой о бр або тк и да н- ны х,
    а так же д ля по вы ш
    ени я эф- ф
    ек тив но сти м
    ето до в виз уа лиз а- ци и в м
    но го м
    ер ны х пр из на ко вы х пр ос тр анс тва х

    Интеллектуальный анализ данных
    42
    4.4. Классификация методов
    Существует большое количество различных оснований для стра- тификации, категоризации, классификации значительного количе- ства существующих и вновь разрабатываемых методов Data Mining.
    Например, можно встретить классификации по принципу работы с исходными обучающими данными (подвергаются они или нет в результате обработки изменениям), по типу получаемого резуль- тата (предсказательные и описательные; рис. 8), по видам приме- няемого математического аппарата (статистические и кибернети- ческие) и др.
    Рис. 8. Иллюстрация примера классификации методов Data Mining
    Например, по типу используемого математического аппарата, как правило, выделяют следующие основные группы методов Data
    Mining:
    1. Дескриптивный анализ и описание исходных данных, предва- рительный анализ природы статистических данных (проверка гипо- тез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.).
    Data Mining
    Предсказа- тельные
    Описатель- ные
    Классифи- кация
    Анализ временных рядов
    Предсказание
    Регрессия
    Кластери- зация
    Ассоциатив- ные правила
    Исследование последова- тельности
    Накопле- ние

    4. Основные задачи и классификация методов анализа данных
    43 2. Многомерный статистический анализ (линейный и нелиней- ный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и т.п.).
    3. Поиск связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и т.п.).
    4. Анализ временных рядов (динамические модели и прогнози- рование).
    Т а б л и ц а 2
    Пример классификации методов Data Mining
    по математическому аппарату
    № п/п
    Раздел
    Методы, способы
    1
    Метрические методы классификации
    Метод ближайших соседей и его обобщения, отбор эталонов и оптимизация метрики
    2
    Логические методы классификации
    Понятия закономерности и информативности, решающие списки и деревья
    3
    Линейные методы классификации
    Градиентные методы, метод опорных векторов
    4
    Байесовские методы классификации
    Оптимальный байесовский классификатор, пара- метрическое и непараметрическое оценивание плотности, разделение смеси распределений, логистическая регрессия
    5
    Методы регрессионного анализа
    Многомерная линейная регрессия, нелинейная параметрическая регрессия, непараметрическая регрессия, неквадратичные функции потерь, прогнозирование временных рядов
    6
    Нейросетевые ме- тоды классификации и регрессии
    Многослойные нейронные сети
    7
    Композиционные методы классифика- ции и регрессии
    Линейные композиции, бустинг, эвристические и стохастические методы, нелинейные алгоритми- ческие композиции
    8
    Критерии выбора моделей и методы отбора признаков
    Задачи оценивания и выбора моделей, теория обобщающей способности, методы отбора признаков
    9
    Ранжирование
    10 Обучение без учителя
    Кластеризация, сети Кохонена, таксономия, поиск ассоциативных правил, задачи с частичным обуче- нием, коллаборативная фильтрация, тематическое моделирование, обучение с подкреплением

    Интеллектуальный анализ данных
    44
    Детализируя используемый математический аппарат, являю- щийся важнейшим компонентом практически любых современных методов Data Mining, можно получить существенно более глубокую классификацию существующих методов (табл. 2), многие из кото- рых более подробно изложены в главе 5.
    4.5. Сравнительные характеристики основных методов
    В завершение различных подходов к классификации методов
    Data Mining приведем пример сравнительного анализа наиболее широко используемых методов между собой, используя в качестве характеристики каждого из атрибутов следующую шкалу оценок: чрезвычайно низкая, очень низкая, низкая / нейтральная, нейтраль- ная / низкая, нейтральная, нейтральная / высокая, высокая, очень высокая (табл. 3).
    Т а б л и ц а 3
    Пример сравнительного анализа методов Data Mining
    Метод
    Характе- ристика
    Линейная регрессия
    Нейронные сети
    Методы визуализа- ции
    Деревья решений
    K-ближай- шего соседа
    Точность
    Нейтраль- ная
    Высокая
    Низкая
    Низкая
    Низкая
    Масштабируе- мость
    Высокая
    Низкая
    Очень низкая
    Высокая
    Очень низкая
    Интерпрети- руемость
    Высокая / нейтральная
    Низкая
    Высокая
    Высокая
    Высокая / нейтральная
    Пригодность к использованию
    Высокая
    Низкая
    Высокая
    Высокая / нейтральная
    Нейтраль- ная
    Трудоемкость
    Нейтраль- ная
    Нейтраль- ная
    Очень высокая
    Высокая
    Низкая / нейтральная
    Разносторон- ность
    Нейтраль- ная
    Низкая
    Низкая
    Высокая
    Низкая
    Быстрота
    Высокая
    Очень низ- кая
    Чрезвычай- но низкая
    Высокая / нейтральная
    Высокая
    Популярность
    Низкая
    Низкая
    Высокая / нейтральная
    Высокая/ нейтральная
    Низкая

    4. Основные задачи и классификация методов анализа данных
    45
    Видно, что ни один из методов нельзя признать единственно эф- фективным, имеющим очевидное превосходство над другими мето- дами.
    Это подтверждает тезис о том, что залогом успешного решения задач Data Mining является необходимость погружения не только в особенности предметной области, но и в математические основы различных методов обработки и анализа данных.

    Интеллектуальный анализ данных
    46
    5. ПРИНЦИПИАЛЬНЫЕ ОСНОВЫ
    МАШИННОГО ОБУЧЕНИЯ
    Машинное обучение (англ. Machine Learning) изучает способы построения особого класса алгоритмов из области искусственного интеллекта, отличающихся способностью к обучению.
    Такое обучение в некоторой степени аналогично обучению, ко- торое доступно человеку. Например, когда родители показывают ребенку автомобиль, он позднее способен его отличать от других объектов (дерева, дома, человека и др.), причем даже если это авто- мобиль другого цвета, модели, размера и др. Алгоритмы машинного обучения предполагают аналогичный подход, при котором некото- рая модель (статистическая, нейросетевая, комбинированная и т.п.) в результате обучения настраивает собственные параметры таким образом, чтобы отличать предъявленные ей образы. При этом обу- чение осуществляется с использованием специально подготовлен- ных обучающих данных, позволяющих предусмотреть достаточно однозначное соответствие между предъявляемыми признаками и ожидаемым на них ответом модели (рис. 9).
    В общем случае для построения алгоритмов машинного обуче- ния требуется подготовить три типа выборок – обучающие (англ.
    train set), валидационные (англ. validation set), тестовые (англ. test
    set). Сначала алгоритм обучается на обучающей выборке, с исполь- зованием которой происходит начальная настройка «внутренних» параметров модели (собственно обучение). Это размеченные данные (каждому набору признаков в выборке уже сопоставлено значение целевой переменной – метки с «правильным ответом»), предварительно обработанные и выбранные с учетом самого глав- ного критерия – репрезентативности. Предполагается, что обуча- ющая выборка должна включать в себя наиболее характерные прецеденты, описывая статистические свойства генеральной сово- купности.

    5. Принципиальные основы машинного обучения
    47
    Р
    ис
    . 9
    . П
    рин ци пи ал ьн ая с
    хе м
    а м
    аш ин но го о
    бу че ни я
    Обуче
    ни
    е
    На
    стр
    ой
    ка
    Очист ка
    , сниж
    .ра зм
    ., изв ле че ние призна ко в
    И
    сх од ны е
    «с ы
    - ры е»
    да нн ы
    е
    Пр из на ки и м
    етк и
    Об уч ающ ая вы бо рк а
    Т
    ес то ва я вы бо рк а
    М
    аш ин но е обу че ни е
    Ф
    ин ал ьна я м
    оде ль
    Н
    ов ы
    е пр из на ки
    Пр едс ка за нн ы
    е м
    етк и
    И
    ЗВЛЕЧЕНИ
    Е
    ОБ
    У
    ЧЕНИ
    Е
    П
    Р
    О
    Г
    Н
    О
    ЗИ
    Р
    О
    ВА
    Н
    И
    Е
    Оц
    енк
    а
    Г
    ип ер па ра м
    етр ы
    : по д- бо р и в ал ид аци я
    Ва лид ац ио н- на я вы бо рк а
    М
    оде ль

    48
    Интеллектуальный анализ данных
    Р
    ис
    . 10
    . Оц енк а ка че ст ва м
    оде ли
    1.
    Р
    аз би ени е сл уч айн ы
    м о
    бр аз ом на в
    ы бо рк и с обу ча ющ им и и тес то вы м
    и д анн ы
    м и
    Об уч ени е
    Т
    ес тир ов ани е
    М
    оде ль
    Т
    ес тир ов ани е пр ог но зир ов ани я
    Пр из на ки
    &
    М
    етк и
    2
    Т
    ре ни ро вк а
    ML
    м оде ли на о
    бу ча ющ их да нн ы
    х
    3.
    П
    ро гно стиче ск ое тес тир ов ани е
    4.
    Ср ав не ни е пр огно сти чес ко го тес тир ов ани я с це ле вы м
    тес тир ов ани ем дл я оце нк и т оч но сти

    5. Принципиальные основы машинного обучения
    49
    Далее обученная модель применяется на валидационной вы- борке (англ. validation set, development set), в процессе чего произ- водятся настройка гиперпараметров / метапараметров модели, настройка признакового пространства, осуществляется промежу- точный контроль переобучения. Например, в регрессионной модели таким гиперпараметром будет вид регрессионной зависимости, а собственно коэффициенты регрессионной модели, значение кото- рых будет «подстраиваться» в процессе обучения, такими гиперпа- раметрами не будут. Аналогично, например, архитектура нейросети в нейросетевой модели будет гиперпараметром, а собственно весо- вые коэффициенты формальных нейронов, значения которых будут
    «подстраиваться» в процессе обучения, такими гиперпараметрами не будут.
    Финальное качество обученной модели оценивают по тестовой выборке. Основное ее отличительное свойство заключается в сле- дующем: тестовая выборка не должна участвовать в обучении мо- дели, ее настройке и оптимизации. Очевидно, тестовая выборка также должна быть размеченной (т.е. каждому набору признаков в выборке должен соответствовать правильный ответ, который мы ожидаем от модели) для проведения оценки качества обучения.
    Несмотря на очевидность и простоту данного правила, на практике нередки случаи, когда в процессе обучения в обучающую или вали- дационную выборку попадают элементы тестовой выборки, разру- шая корректность обучения модели и проверки ее адекватности.
    В общем случае оценка качества модели производится путем сравнения результатов применения обученной модели на тестовой выборке, сопоставляя ответы модели и размеченные ответы тесто- вой выборки (рис. 10).
    На сегодняшний день существует множество рекомендаций и уже сформированных практик оптимального разбиения данных на выборки, так же как и существует множество критериев оценки ка- чества моделей, о которых пойдет речь ниже.

    Интеллектуальный анализ данных
    50
    1   2   3   4   5   6   7   8   9   ...   16


    написать администратору сайта