Главная страница
Навигация по странице:

  • УДК 519.254 ББК 32.81 З26 Замятин А.В. З26

  • УДК 519.254 ББК 32.81 Рецензенты

  • 1. АКТУАЛЬНОСТЬ

  • 2. ТЕРМИНОЛОГИЯ

  • Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных


    Скачать 2.95 Mb.
    НазваниеИнтеллектуальный анализ данных
    АнкорИнтеллектуальный анализ данных учебное пособие
    Дата30.09.2022
    Размер2.95 Mb.
    Формат файлаpdf
    Имя файлаИАД Лекции Замятин 20.pdf
    ТипУчебное пособие
    #707536
    страница1 из 16
      1   2   3   4   5   6   7   8   9   ...   16

    МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ
    РОССИЙСКОЙ ФЕДЕРАЦИИ
    НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
    ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
    А.В. Замятин
    ИНТЕЛЛЕКТУАЛЬНЫЙ
    АНАЛИЗ ДАННЫХ
    Учебное пособие
    Томск
    Издательский Дом Томского государственного университета
    2020

    2
    УДК 519.254
    ББК 32.81
    З26
    Замятин А.В.
    З26 Интеллектуальный анализ данных : учебное пособие. – Томск :
    Издательский Дом Томского государственного университета,
    2020. – 196 с.
    ISBN 978-5-94621-898-6
    В учебном пособии рассматриваются вопросы, связанные с популяр- ной сегодня областью машинного обучения и интеллектуального анализа данных. Исследуются основные технологические тренды, наиболее ак- тивно использующие алгоритмы интеллектуальной обработки данных, – бизнес, медицина, управление, индустрия. Обсуждаются вопросы терми- нологии, основные методы анализа и интерпретации данных, методы и инструменты машинного обучения.
    Приведены вопросы для самопроверки.
    Для студентов университетов и втузов.
    УДК 519.254
    ББК 32.81
    Рецензенты:
    доктор технических наук, профессор Л.Г. Гагарина доктор технических наук, профессор С.П. Сущенко
    ISBN 978-5-94621-898-6
    © Замятин А.В., 2020
    © Томский государственный университет, 2020

    3
    ОГЛАВЛЕНИЕ
    Введение ................................................................................................ 6 1. Актуальность .................................................................................... 7 2. Терминология ................................................................................. 11 2.1. Data Mining / Data Science ....................................................... 15 2.2. Big Data ..................................................................................... 18 2.2.1. Основные понятия ............................................................ 20 2.2.2. Свойства Big Data ............................................................. 21 2.3. Data Mining и Big Data ............................................................ 22 2.4. Дедукция и индукция .............................................................. 22 3. Примеры применения..................................................................... 23 3.1. Интеллектуальный анализ данных в бизнесе ....................... 23 3.1.1. Розничная торговля .......................................................... 24 3.1.2. Сфера развлечений ........................................................... 25 3.1.3. Маркетинг, страхование, работа с персоналом ............. 26 3.1.4. Примеры применения классификации, кластеризации и прогнозирования ............................................ 27 3.2. Интеллектуальный анализ данных в решении сложных прикладных задач ........................................ 29 3.2.1. Медицина .......................................................................... 30 3.2.2. Государственное управление........................................... 31 3.3. Интеллектуальный анализ данных в ранней диагностике опасных заболеваний ................................ 32 3.4. Интеллектуальный анализ данных в индустриальной предиктивной аналитике ................................ 33 4. Основные задачи и классификация методов анализа данных ...... 37 4.1. Этапы интеллектуального анализа данных ........................... 37 4.2. Общие типы закономерностей при анализе данных ............ 37 4.3. Группы задач анализа данных ................................................ 38 4.4. Классификация методов.......................................................... 42 4.5. Сравнительные характеристики основных методов ............ 44 5. Принципиальные основы машинного обучения.......................... 46 6. Основные методы анализа и интерпретации данных .................. 50 6.1. Предварительная обработка данных ...................................... 50

    4 6.2. Оптимизация признакового пространства ............................ 56 6.2.1. С трансформацией пространства признаков .................. 57 6.2.2. Без трансформации пространства признаков ................. 59 6.3. Классификация ........................................................................ 61 6.3.1. Постановка задачи классификации ................................. 61 6.3.2. Контролируемая непараметрическая классификация ..... 65 6.3.3. Контролируемая непараметрическая нейросетевая классификация ..................................................... 66 6.3.4. Классификация по методу машины опорных векторов 70 6.3.5. Деревья решений .............................................................. 72 6.4. Неконтролируемая классификация (кластеризация)............ 84 6.5. Регрессия .................................................................................. 89 6.5.1. Понятие регрессии ............................................................ 89 6.5.2. Основные этапы регрессионного анализа ...................... 90 6.5.3. Методы восстановления регрессии ................................. 91 6.6. Ассоциация............................................................................... 92 6.6.1. Описание алгоритма ......................................................... 95 6.6.2. Пример исполнения алгоритма ....................................... 96 6.7. Последовательная ассоциация................................................ 98 6.7.1. Алгоритмы семейства «Априори» .................................. 99 6.7.2. Алгоритм GSP ................................................................. 102 6.8. Многоуровневое машинное обучение ................................. 107 6.8.1. Бутстрэппинг ................................................................... 108 6.8.2. Бэггинг ............................................................................. 109 6.8.3. Стекинг ............................................................................ 111 6.8.4. Бустинг ............................................................................ 112 6.9. Обнаружение аномалий ........................................................ 115 7. Визуализация ................................................................................ 118 8. Нейросетевые подходы и глубокое обучение ............................ 120 8.1. Функции активации ............................................................... 120 8.2. Основные типы искусственных нейронных сетей ............. 123 8.3. Сверточные нейронные сети
    (Convolutional Neural Networks) .................................................. 131 8.4. Популярные архитектуры CNN............................................ 134 8.5. Среды и фреймворки глубинного обучения ....................... 138

    5 9. Обработка естественного языка .................................................. 140 9.1. Основные задачи обработки текста ..................................... 140 9.2. Этапы предварительной обработки текста ......................... 143 10. Критерии точности ..................................................................... 145 10.1. Метрики качества классификации ..................................... 145 10.2. Гипотеза A/B ........................................................................ 150 10.3. Каппа-индекс согласия ........................................................ 150 10.4. ROC-кривая .......................................................................... 152 10.5. Метрика качества прогноза временного ряда ................... 153 10.6. Метрики качества кластеризации ...................................... 155 11. Высокопроизводительная обработка данных .......................... 157 11.1. Принципы высокопроизводительных вычислений .......... 157 11.2. Особенности построения вычислительного кластера ...... 161 11.3. Среды и инструменты высокопроизводительных вычислений ...................................... 171 12. Инструменты Data Mining ......................................................... 176 12.1. Программные инструменты для высокопроизводительной обработки данных ..................... 177 12.1.1. Программная среда ....................................................... 177 12.1.2. Базы данных .................................................................. 178 12.1.3. Языки программирования ............................................ 179 12.2. Примеры программных систем .......................................... 179 12.2.1. Примеры самостоятельных систем ............................. 179 12.2.2. Примеры облачных систем .......................................... 180
    Вопросы и темы для самопроверки ................................................ 182
    Литература ........................................................................................ 184

    Интеллектуальный анализ данных
    6
    ВВЕДЕНИЕ
    Стремительная технологическая эволюция последних лет в сфере информационно-коммуникационных технологий позволила сфор- мировать существенный задел в части развитой программно-аппа- ратной инфраструктуры, поддерживающей накопление и постоян- ное пополнение архивов данных различной природы и назначения.
    Обостряющаяся конкурентная борьба в различных областях че- ловеческой деятельности – бизнесе, медицине, корпоративном управлении и др. – и сложность внешней среды делают крайне вос- требованными подходы к экспертному использованию имеющихся данных для повышения обоснованности и оперативности принятия управленческих решений.
    При этом не всегда сегодня возможно непосредственное эффек- тивное применение хорошо проработанного и известного аппарата теории вероятностей или математической статистики без учета осо- бенностей конкретной предметной области, компьютерных наук, вычислительной сложности известных и распространенных алго- ритмов (включая детали хранения, передачи и обработки данных, алгоритмов машинного обучения и т.п.), современного и перспек- тивного состояния информационных систем и технологий.
    Именно поэтому относительно недавно стала привлекать особое внимание область, связанная с высокопроизводительной интеллек- туальной аналитической обработкой данных, направленная на то, чтобы оперативно извлекать из значительных массивов накоплен- ных и поступающих данных ценные экспертные знания, поддержи- вая эффективную управленческую деятельность.
    Учитывая междисциплинарный характер этой предметной обла- сти, ее глубину и ярко выраженную прикладную направленность, до сих пор существует определенный дефицит систематизирован- ных представлений о ней, на устранение которых в некоторой сте- пени направлено данное пособие.

    1. Актуальность
    7
    1. АКТУАЛЬНОСТЬ
    С 1960-х гг. информационно-коммуникационные технологии (ИКТ) последовательно эволюционировали от простых систем обработки файлов до сложных, мощных систем управления базами данных (БД).
    Исследования в области БД с 1970-х гг. смещались от ранних иерар- хических и сетевых баз данных к реляционным системам управле- ния базами данных (СУБД), инструментам моделирования данных, а также к вопросам индексирования и организации данных. Пользо- ватели получили гибкий и удобный интерфейс доступа к данным с помощью языков запросов (типа SQL), пользовательские интер- фейсы, управление транзакциями и т.п. При этом создаваемые и под- держиваемые БД преимущественно имели ограниченный регистри- рующий характер, поддерживая рутинные операции линейного персонала. Основным требованием к таким системам было обеспече- ние транзакционности и оперативности выполнения всех изменений.
    Технология баз данных начиная с середины 1980-х гг. характеризо- валась популяризацией, широким внедрением и концентрацией иссле- довательских усилий на новых, все более мощных СУБД. Появились новые модели данных, такие как объектно-ориентированные, объ- ектно-реляционные, дедуктивные модели. Возникали различные пред- метно-ориентированные базы данных и СУБД (пространственные, временные, мультимедийные, научные и пр.). Эффективные методы онлайновой обработки транзакций (On-Line Transaction Processing;
    OLTP
    1
    ) внесли большой вклад в эволюцию и широкое внедрение ре- ляционной технологии в качестве одного из главных универсальных инструментов эффективного хранения, извлечения и управления боль- шими объемами структурированных данных реляционных СУБД.
    С развитием сети Интернет получили развитие и вопросы по- строения распределенных баз данных, создания распределенных
    1
    Способ организации БД, при котором система работает большим потоком с неболь- шими по размерам транзакциями при минимальном времени отклика системы.

    Интеллектуальный анализ данных
    8 глобальных информационных систем. Многократно возросла ин- тенсивность формирования и архивирования различных данных, следствием чего стало развитие масштабируемых программно- аппаратных комплексов, дорогостоящих мощных и недорогих пользовательских компьютеров и накопителей данных.
    Все это способствовало всплеску развития индустрии ИКТ и сде- лало огромное количество баз данных доступными для хранения раз- нородной информации в значительных объемах и управления тран- закциями в них. При этом все больше актуализировалась потребность анализа имеющихся данных в разновременном аспекте с возможно- стью построения произвольных запросов при условии обработки сверхбольших объемов данных, полученных в том числе из различ- ных регистрирующих БД. Использование для реализации таких задач традиционных регистрирующих систем и БД крайне затруднительно.
    Например, в регистрирующей системе информация актуальна исклю- чительно на момент обращения к БД, а в следующий момент времени по тому же запросу можно ожидать другой результат. Интерфейс подобных систем рассчитан на проведение определенных стандарти- зованных операций, и возможности получения результатов на нере- гламентированный произвольный запрос ограничены. Возможности обработки больших массивов данных также могут быть ограничены вследствие ориентации СУБД на нормализованные данные, харак- терные для стандартных реляционных регистрирующих БД.
    Ответом на возникшую потребность стало появление новой тех- нологии организации баз данных – технологии хранилищ данных
    (Data Warehouse
    1
    ), предполагающей некоторую предварительную обработку данных и их интеграцию, а также онлайновую аналити- ческую обработку (On-Line Analytical Processing; OLAP
    2
    ).
    1
    Предметно-ориентированная информационная база данных, предназначенная глав- ным образом для поддержки принятия решений с помощью отчетов.
    2
    Технология анализа данных, предполагающая подготовку агрегированной структу- рированной многомерной информации на основе больших массивов данных (OLAP- куба), используемой в реляционной БД при построении сложных многотабличных запросов.

    1. Актуальность
    9
    Несмотря на очевидную пользу такого инструмента анализа дан- ных, он ориентирован на хорошо нормализованные табличные дан- ные и не предполагает использования целого ряда дополнительного аналитического инструментария типа классификации, кластериза- ции, регрессионного анализа, моделирования, прогнозирования и интерпретации многомерных данных и т.п.
    Таким образом, сегодня наблюдается высокий уровень развития масштабируемой аппаратно-программной ИКТ-инфраструктуры, позволяющей увеличивать и без того значительные архивы данных.
    Имеется достаточно существенный задел в области компьютерных наук и информационных технологий, разработаны теория и при- кладные аспекты теории вероятностей и математической стати- стики. Вместе с тем следует признать, что присутствует заметный
    избыток данных
    1
    при дефиците информации
    2
    и знаний
    3
    . Быстро растущие объемы накопленных и пополняемых (автоматически, а не людьми – как это было когда-то) архивов данных пока суще- ственно превышают способности человека в их практически полез- ной обработке. Для обострения этого тезиса иногда говорят, что
    «…большие базы данных стали могилами, которые редко посеща-
    ются…» Как следствие, важные решения порой принимаются не на основе аналитических выводов из информативных БД, а на ос- нове интуиции человека, не имеющего подходящих инструментов для извлечения полезных знаний из имеющихся огромных объемов данных.
    Поэтому в последние годы стремительное развитие получила об- ласть Data Science / Data Mining
    4
    (в отечественной литературе наиболее используемая аналогия – интеллектуальный анализ
    1
    Под данными будем понимать представление некоторых фактов в формализован- ном виде, пригодном для хранения, обработки и передачи.
    2
    Под информацией будем понимать сведения в любой форме; в отличие от данных информация имеет некоторый контекст.
    3
    Под знаниями будем понимать совокупность информации о мире, свойствах объ- ектов, закономерностях процессов и явлений, а также правилах их использования
    для принятия решений.
    4
    Вопросам терминологии посвящена глава 2.

    Интеллектуальный анализ данных
    10
    данных, ИАД), направленная на поиск и разработку методов извле- чения из имеющихся данных знаний, позволяющих принимать на их основе конкретные, в высокой степени обоснованные, практиче- ски полезные управленческие решения.
    Рис. 1. Пример обобщенного иерархического представления методологий обработки данных при принятии управленческих решений
    На рис. 1 приведен пример обобщенного иерархического пред- ставления методологий обработки данных, начиная от интеграции разнородных источников данных и завершая использованием мето- дов Data Mining для принятия управленческих решений.
    Конечный пользователь
    Бизнес аналитик
    Рост уровня поддержки бизнес- решений
    Аналитик данных
    Анали- тик
    БД
    Источники данных
    Статьи, файлы, документы, БД, OLTP
    Хранилища данных
    OLAP
    Анализ данных
    Статистический анализ
    Представление данных
    Визуализация
    Data Mining
    Исследование информации
    Принятие решений

    2. Терминология
    11
    2. ТЕРМИНОЛОГИЯ
    Рассматривая вопросы терминологии, описывающей обсуждае- мую предметную область интеллектуального анализа данных, логично изучить существующую и наиболее устоявшуюся в мире
    англоязычную терминологию, и уже ориентируясь на нее обсудить удачные терминологические аналогии, используемые в русскоязыч- ных публикациях по данной тематике.
    Выше, в главе 1, отмечено, что с развитием ИКТ-индустрии стре- мительно развиваются возможности генерирования значительных массивов данных, при умелом анализе которых могут быть найдены полезные знания, позволяющие повысить эффективность принятия управленческих решений в бизнесе, медицине или государственном управлении. Область, изучающую эти вопросы, принято называть
    Data Mining (сегодня за рубежом даже чаще встречается понятие
    Data Science), а специалиста этой области – Data Scientist.
    На рис. 2 изображен график роста востребованности данных специалистов за последние несколько лет. На рис. 3 приведена диаграмма, отражающая число вакансий специалистов Data Scien-
    tist в последнее время на портале для поиска работы. Интересно отметить, что на сегодняшний день около 85% всех вакантных по- зиций такого типа открыты в США, а 15% – в странах Западной
    Европы [108].
    Рис. 2. График уровня востребованности специалистов Data Scientist

    Интеллектуальный анализ данных
    12
    Рис. 3. Иллюстрация востребованности специалистов Data Scientist.
    Источник: http//www.indeed.com/jobtrends June 2016 0
    5000 10000 15000 20000 25000 30000
    H2O
    Mllib
    Theano
    Apache MXNet
    SAP
    Databricks
    Apache Flink
    Spotfire
    Gaffe
    JMP
    Keras
    Ajteryx
    Minitab
    Pytorch
    Scikit Learn
    Cognos
    Stata
    Teradata
    Apache Pig
    Splunk
    Tensorflow
    SPSS
    MATLAB
    Scata
    Apache Hive
    Microsoft Azure
    Google
    SAS
    Apache Spark
    Tableau
    Hadoop
    C/C++/C#
    R
    Amazon ML
    Java
    SQL
    Python
    Количество вакансий специалистов на Indeed.com

    2. Терминология
    13
    Интересной выглядит визуализация частоты запросов к поиско- вой системе, наглядно демонстрирующая широту использования основной и вспомогательной терминологии в данной предметной области (рис. 4).
    а
    б
    Рис. 4. Пример профиля частотности запросов:
    а – о предметной области анализа данных; б – о специалистах
    При этом, если посмотреть на желаемый профиль специалиста
    Data Science, то видно, насколько разносторонней (междисципли- нарной) квалификацией, с точки зрения современного работода- теля, он должен сегодня обладать (рис. 5):
    – SQL – 54%;
    – Python – 46%;
    – R – 44%;
    – SAS – 36%;
    – Hadoop – 35%;
    – Java – 32%;
    – optimization – 23%;
    – C++ – 21%4
    – visualization – 20%;
    – MATLAB – 18%;
    – Business Intelligence – 17%;
    – distributed – 16%;
    – regression – 16%;
    – unstructured – 16%;
    – Hive – 16%;
    – mobile – 15%.

    Интеллектуальный анализ данных
    14
    Рис. 5. Ожидаемая квалификация специалиста Data Science: наиболее важные умения специалистов Data Science на Linkedln
    Учитывая продолжающееся интенсивное развитие области ана- лиза данных, встречается отличающаяся терминология, описываю- щая одно и тоже явление или сферу, или один термин, который может быть трактуем по-разному. Например, в англоязычной лите- ратуре можно встретить различные термины и их сочетания, опи- сывающие область интеллектуального анализа данных и являющи- еся достаточно близкими по значению:
    – Data Science;
    – Data Mining;
    – Big Data;
    – Machine Learning;
    – Deep Learning;
    – Statistical Analysis and Data Mining;
    – Predictive Analytics and Data Mining;
    – Data Science and Data Mining;
    – Discovery Driven Data Mining;
    – Knowledge Discovery in Databases и др.
    0 10 20 30 40 50 60
    SAS
    Pig
    NoSQL
    Mapreducr
    Hive
    R
    Java
    Python
    Hadoop
    SQL

    2. Терминология
    15
    Обзору большинства этих терминов посвящено данное пособие, однако одно из ключевых мест занимает сегодня понятие «глубин- ного / глубокого обучения» (англ. Deep Learning). Такое обучение предполагает применение преимущественно нейросетевых моделей, причем отличающихся именно сложной архитектурой и высокой обучающейся емкостью (например, к таким нейросетевым моделям относят сверточные нейронные сети, рассматриваемые в разд. 8.3).
      1   2   3   4   5   6   7   8   9   ...   16


    написать администратору сайта