Главная страница
Навигация по странице:

  • Data Mining

  • Диссертация. Основам искусственного интеллекта и анализа данных в курсе информатики на уровне среднего общего образования Научная


    Скачать 4.76 Mb.
    НазваниеОсновам искусственного интеллекта и анализа данных в курсе информатики на уровне среднего общего образования Научная
    Дата17.10.2022
    Размер4.76 Mb.
    Формат файлаpdf
    Имя файлаДиссертация.pdf
    ТипДиссертация
    #737975
    страница8 из 17
    1   ...   4   5   6   7   8   9   10   11   ...   17
    Data Science) – дисциплина, возникшая на стыке прикладной математики, статистики, технологий и бизнеса и связанная с обработкой исходных (первичных) данных (raw data) из баз данных для получения полезных знаний, применимых для принятия решений например, ИТ-стратегий
    5
    ) [38]. Часто науку о данных включают в искусственный интеллект, хотя она также применяет инструменты статистики и других областей математики, а еще требует участия экспертов из тех областей, которым посвящены проекты (например, биологов или иных профильных специалистов, становящихся консультантами проектов. Наука о данных объединяет самые разные методы обработки данных машинное обучение, кластерный анализ, инструменты глубинного интеллектуального анализа и визуализацию. Интеллектуальный (глубинный) анализ данных (Data Mining) – процесс аналитического исследования больших массивов информации с целью выявления важных (полезных) закономерностей и систематических взаимосвязей между объектами, которые можно применить к новым
    5
    ИТ-стратегия — максимально эффективное использование информационных технологий для достижения целей.

    103 совокупностям данных [20]. Другими словами, это добыча (mining) информации для будущего развития из уже имеющихся данных. Data
    Mining – сложная область, существующая на стыке статистики, экономики, теории баз данных, машинного обучения и других дисциплин. Но практически до 2000 года серьёзные математики называли её задворками статистики. Кстати, до 2013 года нейронные сети тоже считали неперспективными, но всё изменилось с ростом вычислительных мощностей компьютеров и увеличением доступных объёмов памяти. Глубинный анализ данных является наиболее значимой областью Big
    Data – совокупности больших данных и их обеспечения (методов обработки, вычислительных мощностей и т. д. Его задачей стал поиск практически полезных нетривиальных интерпретаций знаний, что актуально, например, для экономических исследований. В свою очередь, эта задача и процедуры, её решающие, появились как расширение бизнес-
    анализа (Business Intelligence), о котором мы также упоминали ранее. Новые методы способны работать с большими данными, выявляя новые связи между признаками объектов и доступными интерпретациями знаний, которые необходимы для принятия решений в различных областях деятельности человека. Часто для снижения требований к вычислительной мощности компьютеров и используемой памяти применяют масштабируемые интеллектуальные алгоритмы. Работа в области любой науки о данных ив частности, Data Mining отличается от остальной деятельности программных инженеров. Поскольку цель и результат исследования в таких задачах могут периодически обновляться и уточняться в зависимости от результатов первичного анализа данных, вследствие чего специалистам нужно постоянно взаимодействовать с коллегами из разных научных и прикладных областей.

    104 Наука о данных, согласно популярным мифам, должна заменить специалистов самых разных профессий, нона самом деле она не может существовать без экспертов. Окончательное решение об использовании результатов анализа данных также остается за человеком. Важно понимать, что у проектов в этой области существует два типа конечных потребителей
    потребитель-машина и
    потребитель-человек. Характеристика потребителя влияет на представление результатов и цели анализа. Рассмотрим их подробнее. Если мы работаем над программой, которая войдёт в программный комплекс определенной специализации, то конечным клиентом- потребителем считают машину. Приданных обстоятельствах важна упаковка информации в совместимые с остальными продуктами форматы, а также высокая скорость работы при минимальных затратах вычислительных мощностей. В этом случае нужно написать оптимизированный код. Применение готовых фреймворков и пакетов будет избыточно в отношении занимаемой памяти и иных ресурсов. Если клиентом-потребителем является человек, то возможны два результата. Первый заключается в презентации уже готового решения Data проекта с предоставлением клиенту отчёта в графическом и комбинированном (текст, презентация и таблицы) виде. Второй результат – это программа, которую для нужд компании смогут использовать работники, не имеющие квалификации в области науки о данных или даже информационных технологий. Для них должна быть написана типовая инструкция. А если вы предоставляете кодон должен содержать минимальное количество строк, в которых работник может допустить ошибку. В этом случае предлагается скорее модель решения с демонстрационным выполнением на примере конкретной выборки. Всё это, в конечном счёте, влияет на стиль и характер работы. В курсе информатики,

    105 где рассматривается вопрос анализа данных как часть темы ИИ, мы будем рассматривать взаимодействие с конечным потребителем-человеком. Между наукой о данных и реальным миром существует строгий цикл обратной связи каждый проект обязательно проходит несколько итераций
    6
    до получения приемлемых для потребителя результатов. Любой проект в
    Data Science состоит из следующих этапов [32].
    1. Определение области проблемы (уточнение проблемы, выбор онтологии, в которой будет производиться работа, анализ требований клиента, постановка цели исследования.
    2. Выделение данных (нормализация, удаление и/или оставление шумов и критических значений, стандартизация, выявление ключевых свойств данных – извлечение особенностей. Именно здесь происходит исследовательский анализ – этап анализа, фокусирующийся на изучении данных и выработке гипотез о них. Он в значительной степени опирается на визуализацию
    3. В данный этап входит фильтрация данных с помощью специальных программ, масштабирующих данные по определённым заданным признакам. До 75–80% времени работы над проектом может быть уделено именно выявлению необходимых для дальнейшей обработки данных, особенно, если работа ведётся с многомерными данными, требующими большого количества преобразований. Здесь важно участие эксперта, и его невозможно заменить машиной. Работа по выбору ключевых особенностей всегда производится в связке эксперт в определённой области + исследователь данных + куратор/проектировщик баз данных. Итеративный подход (англ. iteration — повторение) в разработке программного обеспечения — это выполнение работ параллельно с непрерывным анализом полученных результатов и корректировкой предыдущих этапов работы. Проект при этом подходе в каждой фазе развития проходит повторяющийся цикл PDCA: планирование – реализация – проверка – оценка (англ. plan – do – check – act).

    106 4. Выбор модели (выбор необходимого направления, семейства и конкретного алгоритма или связки алгоритмов, количества итераций и других свойств.
    5. Запуск модели (развёртывание кода, применение алгоритмов на полученных выборках) – этап свободного поиска (Discovery).
    6. Анализ результатов модели (выявление ассоциативных правил, семантический анализ) – составление правили или описаний, этап смыслового поиска.
    7. Выявление полезной информации (этап работы эксперта, который выбирает из составленных правили описаний действительно нужные.
    8. Подготовка отчёта и составление выводов (выводы эксперта, визуализация результатов, составление сопроводительной документации) – этап упорядочивания информации. Пункты 3–5 можно объединить в Моделирование и анализ, причём на каждом из этих этапов, сопровождаемых развёртыванием кода, производится постоянная проверка результатов и настройка модели. Если неуда тся прийти к действительно полезным выводам, цикл начинается сначала, но выбираются другие особенности или же другая модель. Стоит отметить, что на разных этапах анализа данных работают сих разными категориями, куда входят данные, информация, знания. [153] На этапе свободного поиска интеллектуальные алгоритмы не учитывают семантику, те. смысловую нагрузку того, что они проверяют. Поскольку нет интерпретации, работа идёт только сданными. Наследующем этапе при составлении правил или описаний важен новый смысли взаимосвязи элементов, поэтому работа производится с информацией.

    107 Последний этап
    упорядочивания, проводимый обязательно с непосредственным участием специалиста-человека, касается работы с совокупностью знаний, полезных для принятия решений. Напомним, что отличие знаний от информации в том, что они проверены практикой, обработаны и могут многократно использоваться для принятия решений. В данной монографии мы затронем также инженерию знаний
    (knowledge engineering) – область искусственного интеллекта, связанную с разработкой экспертных систем и систем принятия решений. Тема МОДЕЛИ ГЛУБИННОГО АНАЛИЗА ДАННЫХ. Под моделями в Data Science и Data Mining понимают совокупность методов (и их свойств, решающих поставленные в проекте задачи.
    Приведём одну из классификаций моделей Data Mining – по задачам получения прогнозирующих или описательных результатов см. рис. 16) на основе 153]. Такая классификация моделей, впрочем, не учитывает все варианты. Например, регрессионные модели стали основой для многих прогнозирующих (прогностических) моделей, хотя сами они не являются ни описательными, ни прогнозирующими, а представляют собой статистическую гипотезу, требующую подтверждения или опровержения. Статистические методы часто относятся к математическому инструментарию. К ним мы вернёмся позднее (в материале о регрессии. В простых случаях модель тождественно равна её классификатору применяемому алгоритму сего конкретными параметрами и метриками, поэтому внимание уделяется конкретному алгоритму. Однако, это не отменяет того факта, что выбор исследователем способа предварительной обработки данных и ключевых параметров делает каждую модель Data
    Mining уникальной.
    7
    Метрика — специальная функция расстояний (см. далее раздело классификации.

    108 Рис. 16. Модели глубинного анализа данных (Data Mining) Важно отметить, что на практике редко используется чистый подходи одна модель из тех, которые мы рассмотрим в учебных целях. Чаще всего в реальной жизни исследователю необходимо построить гибридную модель, сочетающую в себе несколько алгоритмов из разных подходов [20]. Разные алгоритмы могут применяться последовательно или в зависимости от изменения входных данных, в том числе при прохождении очередной итерации. Data Mining (ив целом) как процесс имеет бесконечную итерацию, поскольку работает с динамическими данными. В этом можно убедиться, если обработать сеты данных (наборы данных, data Модели Data Mining Прогнозирующие
    (predictive) анализ временных рядов (включая линии треда) генетические алгоритмы и другие Описательные
    (descriptive) модели кластеризации классификаторы ассоциативные правила и другие

    109 set) по одной теме одного исследователя, но заразные временные промежутки одинаковой длительности. Для первичной обработки данных можно использовать дополнительные пакеты и модули. Иногда исследователи включают продукты других компаний для предварительной обработки данных. Несмотря на то, что визуализация как шаг анализа данных в дорожной карте находится позже исследования, во многих случаях оказывается полезным визуализировать данные вовремя первичной обработки, чтобы отделить выбросы или незначимые данные — аномальные значения, возникающие в силу ошибки записи, неправильной работы датчиков или же иных сбоев оборудования. Например, визуализация данных анализа поведения клиентов торговой фирмы хорошо выявляет потребителей, которые совершали покупки как физические лица, но при этом являлись индивидуальными предпринимателями, перепродающими продукт или использующими его в профессиональных целях, так как постоянно ив больших объёмах приобретали практически весь ассортимент. Если таких клиентов оставить, они повлияют на характеристику остального множества, а также прогнозы поведения полученных групп. Тема КЛАССИФИКАЦИЯ ИНТЕЛЛЕКТУАЛЬНЫХ АЛГОРИТМОВ Интеллектуальные системы являются основными продуктами исследований ИИ, в работе которых используются интеллектуальные алгоритмы. Программная часть этих систем реализуется с помощью машины вывода и базы знаний с ограниченной онтологией, а также интеллектуального интерфейса – правил взаимодействия внутри системы. Интерфейс и машина вывода реализуются с помощью интеллектуальных

    8
    Дорожная карта проекта — это собранные водном месте основные пункты плана проекта с пояснениями о рисках, ресурсах и затратах, включая вариативность выполнения, часто сопровождаемое визуализацией. Тезисное изложение хода разработки и реализации планируемого проекта с комментариями.

    110 алгоритмов (ИА) – алгоритмов, решающих задачи безучастия человека лица, принимающего решения) [45]. Речь, конечно, идёт не о решении расчётного примера или типовой задачи, а о сложных логических выводах, которые обычно делал человек и которые не в состоянии сделать ни один даже самый продвинутый компьютер. Здесь же следует уточнить, что интеллектуальный алгоритм это набор эвристики (упрощенно правила выбора пути решения) и вычислений наборов математических действий для каждого выбора, создающих на основе данных модель, которая обучается на исследуемых закономерностях с целью уменьшения коэффициента ошибки. То есть интеллектуальный алгоритм по своей сущности не является алгоритмом в рамках некоторых определений алгоритма, и это верно, если, например, мы рассмотрим определение нормального алгоритма по А.А. Маркову, где предусматривает выполнение свойства однозначности детерминированности, что невозможно, например, в генетических алгоритмах [45]. Не существует единой и признанной всеми классификации ИА, однако есть классификации, предусматривающие их разделение по различным группам признаков. Самый простой способ – это классификация алгоритмов по участию человека в машинном обучении (уровень самостоятельности системы)
    [19]: обучение с учителем решает класс задач, в котором есть обучающая выборка, те. описания объектов с уже известными решениями, например классами (на которых и учится система. Насколько хорошо модель выучилась проверяется, как правило, на отдельной выборке – наборе описанных объектов, который в обучении не использовался обучение без учителя решает класс задач, в которых есть набор объектов (описанных своими признаками, нонет ответов. Обучение модели заключается в выявлении закономерности, например, для разбиения

    111 объектов на классы. В этом случае тестовая выборка ненужна и не используется (потому что заранее известных ответов от учителя нет, есть только объекты. Следующая классификация касается отношения к исходным данным
    [153]: алгоритмы, которыеиспользуют или сохраняют исходные данные, никак не уменьшая выборку. Пример алгоритмы классификации и кластеризации алгоритмы, которыевыявляют и используют формализованные закономерности, производят дистилляцию шаблонов. Это значит, что при работе исходные данные заменяются некими формальными конструкциями, размер которых меняется от итерации к итерации. Пример байесовские сети и другие методы кросс-табуляции. Задачи, которые решает Data Mining, порождают классификацию алгоритмов по конечной цели их применения [45]. Классификация – отнесение объектов выборки к одному из заранее описанных классов. Например, проверка принадлежности учеников к классу по их свойствам (возраст, направление обучения и т. д. Регрессия – установление зависимости непрерывных выходных данных от признаков входных объектов. Например, нахождение линии тренда продаж чего-либо за сезон. Кластеризация (сегментация) – отнесение объектов к одному из кластеров (классов с заранее неизвестными параметрами) на основе свойств этих объектов. Количество кластеров может быть известно, нов отличие от классификации, кластеры не имеют строгого описания. Объекты из разных кластеров отличаются друг от друга, внутри одного кластера – максимально
    9
    Под дистилляцией шаблонов понимают набор функций, производящих упорядочивание полученных машиной закономерностей в знания, понятные пользователю-человеку, те. интерпретируемые исследователем.

    112 похожи. Например, при распознавании номера автомобиля буквы группируются по соседним пикселям, какие буквы – заранее неизвестно. Ассоциация – это выявление существующих (необязательно явных для человека) закономерностей между различными событиями выявление и анализ ассоциативных правил (впервые применено в анализе потребительских корзин. Служит также для прогнозирования данных. Например, для определения предпосылок к поломке мотора по описаниям неполадок, ей предшествующих. Последовательные шаблоны (эволюционный анализ) – это выявление закономерностей (аналогично ассоциативным правилам, для которых важна последовательность событий и промежуток времени между ними. Например, прогнозирование движения урагана. Анализ отклонений – выявление нехарактерного поведения и его шаблонов. Позволяет выявить причины отклонения реальных данных от эталона. В случае с выявлением выбросов (который может рассматриваться как отдельная проблема) задача заключается в анализе данных, не попадающих ни под один шаблон или класс. Например, широко применяется в биологических исследованиях, чтобы выявить мутации.
    Приведённые выше категории алгоритмов не всегда имеют чёткие границы часто алгоритмы одного семейства могут решать разные задачи. Например, метод k-NN (метод k ближайших соседей) может рассматриваться как алгоритм классификации или линейной регрессии. Также зачастую в составе сложных моделей алгоритмы применяются как части нейронных сетей. Рассмотрим далее конкретные области глубинного анализа данных и самые популярные применяемые в них классификаторы (интеллектуальные алгоритмы.

    113 Тема ЗАДАЧИ КЛАССИФИКАЦИИ. МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ. Знакомство с интеллектуальными алгоритмами (ИА) обычно начинают именно с алгоритмов, решающих задачу классификации. Самоназвание модели — классификатор — подталкивает к этому. Мы уже приводили описание задачи классификации при обсуждении различных классификаций интеллектуальных алгоритмов. В качестве основных тезисов при изучении выносятся следующие Классификация – отнесение объектов выборки к одному из заранее описанных классов. Например, проверка принадлежности учеников к категории по их свойствам (возраст, оценки и т. д. Методы классификации относятся к описательным, те. они помогают описать и упорядочить представление о данных. Классификацию часто встречают в глубинном анализе данных (Data
    Mining), причём это связано с предыдущим пунктом, так как она позволяет получить дополнительные описания к уже существующим объектами связям. Также мы говорили о разной степени участия человека в обучении системы. Классификация относится к классу задач, предусматривающих обучение с учителем. Это значит, что тренировка нашего будущего классификатора будет проходить с помощью заранее подготовленной нами обучающей выборки, состоящей из описаний объектов в виде некого n- размерного вектора и дополнительного множества с ответами. Каждый объект описывают набором признаков Под признаком (он же атрибут) понимается характеристика объекта (его конкретное свойство, имеющая [35]: либо непрерывные значения (например, количественные числовые значения либо дискретные значения. Такой характеристикой могут быть

    114 ранговые признаки – переменные, обладающие свойством упорядоченности (например, оценки, группы, баллы и т. д номинальные признаки – значения свойств, не обладающие упорядоченностью и относящиеся к шкале наименований (например, цвет волос, гендерная принадлежность и пр) Каждый объект, таким образом, это n значений признаков – вектор. Для выполнения вычислений мы должны все признаки представить в виде чисел (и номинальные признаки тоже. Чтобы это сделать, используют различные методы нормирования (normalization). Нормирование — это процесс, при котором для описания отношения между объектами вводится математическая норма, то есть величина, с помощью которой объекты можно сравнивать [48]. Норма, в свою очередь, порождает метрику — правила нахождения расстояний между объектами. Понятие метрики Евклида введено к этому времени на уроках геометрии как расстояние между точками
    , где и Текстовые данные (чаще всего это номинальные признаки) преобразуются в числовые, однако при этом теряется их смысловая нагрузка (действительно, обычно нельзя сказать даже, что синий меньше зеленого. Тогда исследователь выбирает, каким образом подсчитывать расстояние через введение шкал или же через специальные редакторские метрики, которые учитывают в качестве расстояния отличия букв, их перестановку и т. д. Для удобства визуального представления данных их часто сводят к двумерным или трёхмерным векторам, образующим матрицу расстояний с ненулевым определителем. Если исследователь неправильно выберет способ представления исходных данных, то работа алгоритма окажется бессмысленной.

    115 К какому бы виду небыли приведены данные, любая метрика, используемая внутри алгоритмов для проверки расстояния d между объектами выборки x и y при анализе данных, будет отвечать таким свойствам, как
    1) не отрицательность расстояния d(x, y)

    0;
    2) симметрия d(x, y) = d(y, x), те. расстояние можно измерять от одного объекта к другому в любом направлении, получая один и тот же результат
    3) неравенство треугольника
    , те. если проложить путь между двумя объектами через третий, то он либо окажется на прямой между ними, либо сумма расстояний будет больше прямого пути
    4) различимость нетождественных объектов те. два объекта не могут совпадать, если они имеют разное описание свойства
    5) неразличимость тождественных объектов те. объекты с одинаковыми свойствами будут совпадать. Когда исследователь выбрал подходящую норму и метрику (опираясь на особенности данных, он может представить любые данные в виде векторов, которые потребуется разбить на две выборки обучающую и контрольную. Математически наша обучающая выборка X
    обуч выглядит как множество, состоящее из i объектов, те векторов, следующего вида [20]:
    , где d – количество свойств этих объектов.
    — множество меток классов, те. названий или

    116 индексов классов, ставящихся в соответствие объектам. Для обучающей выборки действует следующее правило
    ∀ 𝑥
    𝑖
    (𝑎
    𝑖1
    , 𝑎
    𝑖2
    , … , 𝑎
    𝑖𝑑
    ) ∈ 𝑋
    обуч
    ∃! 𝑦
    𝑖
    ∈ 𝑌
    обуч
    Именно поэтому выборка называется обучающей в ней уже указывается прямое соответствие описываемых объектов меткам классов Поскольку задачей классификации является именно нахождение метки класса, здесь мы подаём на вход алгоритму готовые примеры, чтобы он обучился – нашёл правила соответствия свойств меткам. Выше приведена формула для непересекающихся классов, с которыми в дальнейшем проводится работа на практических занятиях. В противном случае (при работе с пересекающимися классами, что бывает куда реже) квантор единственности (

    !) заменяется на существует (

    ). Но такие задачи встречаются намного реже. Классификатор тренируется на обучающей выборке, выявляя с помощью повторяющихся тестов связи между объектами и метками классов, а затем по этим связям пытается самостоятельно получить результат и сравнивает его с объявленным учителем (человеком. Чем ниже коэффициент ошибки то есть количество неверно определенных классов) при обучении, тем выше достоверность классификатора. Казалось бы, решение простое дать классификатору как можно больше информации, чтобы он хорошо натренировался (или много раз повторить процесс обучения. Нов этом случае может появиться проблема переобучения, когда выявляются связи, которые на самом деле не являются значимыми, и наоборот, приводят в реальных задачах к ошибке [64]. Отличным примером переобучения моделей являются алгоритмы нейронных сетей, участвовавшие в конкурсе по распознаванию на изображениях собак. В конечном итоге их натренировали до такой степени,

    117 что при подаче на вход картинки с белым шумом, эти сети всё равно пытались определить собаку, причём иногда им это даже удавалось. Вторая выборка, с которой работает алгоритм классификации, называется контрольной (тестовой — контр. Именно по ней делается вывод, который интересен исследователю. контр — это множество из j объектов
    , где d – количество свойств этих объектов. Как вы успели заметить, в контрольной выборке отсутствуют метки классов. Контрольная выборка в обучении не участвует. После обучения для оценки результата классификатор определяет классы для контрольной (тестовой) выборки и сравнивает их с имеющимися классами – чтобы определить, как будет действовать модель на реальных данных, на которых она не училась. Стоит обратить внимание, что количество свойств объектов (d) совпадает для обеих выборок, однако количество элементов в обучающей и тестовой выборках (i и j) необязательно одинаковое. Обычно j > i, поскольку алгоритму на вход подаются большие данные, а тренируется он на маленьком множестве. Чаще всего, имеющиеся данные делят в соотношении 70/30 или 80/20 – то есть обучающая выборка 70%, контрольная – 30% [32, 97]. Если есть возможность, то хорошо бы иметь вообще отдельный набор примеров (а не выборку из набора данных, на котором потом дополнительно оценить модель. Задача классификатора — самостоятельно выбрать соответствие
    ,

    118 те. присвоить каждому объекту контрольной выборки отметку класса, объявленную в тестовой выборке. Новые классы здесь никак возникнуть не могут. Все перечисленные в объяснении множества как объектов, таки ответов не являются пустыми. Целевая функция для построения алгоритма классификации выглядит так Данная запись означает, что алгоритм будет устанавливать соответствие между множеством объектов X и метками классов Y. Алгоритмы классификации применяют, когда
    • известны критерии разбивки объектов на множества. Например, уже есть оформленная база данных, которую надо дополнить недостающими значениями (есть выборка с тестовыми значениями для обучения классификатора
    • известно, сколько должно быть классов — ответов
    • все данные дискретны. Часто при применении классификации размерность выборки по количеству классов небольшая. Например, биологи, когда видят новое животное, выписывают его основные характеристики (количество лапок, тип глаз и т. д) и сравнивают их с указанными в специальных таблицах и каталогах. После чего учёные могут назвать роди семейство, к которым принадлежит представитель фауны. В этом случае их тестовая выборка, на которой они учатся определять вид животного, — это данные из каталогов, а животные в заповеднике или на иной вверенной им территории — контрольная выборка. Результат такой работы — присвоение меток класса, и хотя жучков или обезьян одного видана просторах заповедника может быть не одна особь, а целая семья, у всех будет одна и та же метка.

    119 Существует большое количество различных алгоритмов классификации. В рамках курса информатики мы предлагаем рассмотреть наиболее популярный – метод ближайших соседей (
    1   ...   4   5   6   7   8   9   10   11   ...   17


    написать администратору сайта