Кафедра математических и компьютерных методов курсовая работа методология интеллектуального анализа данных
Скачать 0.51 Mb.
|
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» (ФГБОУ ВО «КубГУ») Кафедра математических и компьютерных методов КУРСОВАЯ РАБОТА Методология интеллектуального анализа данных Работу выполнил А.С. Захаров (подпись, дата) Факультет экономический курс 1 Направление 27.03.03. cистемный анализ и управление Научный руководитель доцент кафедры МКМ, канд.эконом.наук, доцент Г.Н. Библя (подпись, дата) Нормоконтролер ст. лаборант Ю.Д. Кравченко (подпись, дата) Краснодар 2018 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» (ФГБОУ ВО «КубГУ») Кафедра математических и компьютерных методов ЗАДАНИЕ на курсовую работу Студенту __________________________________________________ группы 113 направления 27.03.03 Системный анализ и упрапвление Тема курсовой работы: «Методология интеллектуального анализа данных» Цель: Изучить предметную область. Рассмотреть возможности применения методики интеллектуального анализа данных для предмета исследования. Проанализировать предприятия с помощью нейронных систем. Основные вопросы, подлежащие разработке (исследованию): 1) Теоретический обзор современных подходов, методов и алгоритмов исследования проблемы; 2) Анализ предметной области, спецификации интеллектуальных методов; 3) Реализация изученных методов. Основная литература: Фрейдина, Е.В. Исследование систем управления организации. Учебное пособие [Электронный ресурс]: учебное пособие / Е.В Фрейдина — Электрон. текстовые дан. — М. : Омега-Л, 2013. 368 с. Силич, М.П. Теория систем и системный анализ [Электронный ресурс] : учебное пособие / М.П. Силич, В.А. Силич. — Электрон. текстовые дан. — М. : ТУСУР (Томский государственный университет систем управления и радиоэлектроники), 2011. — 276 с. Архипова, Н.И Теория системного анализа и управления: учеб. пособие для вузов / Н.И Архипова, В.В. Кульба, С.А. Косяченко. – М.: «Издательство ПРИОР», 2008. – 384с. Срок представления законченной работы 30 мая 2018 г. Дата выдачи задания 05 февраля 2018 г. Руководитель ________________ /Г.Н. Библя / Задание получил 05 февраля 2018 г. Студент ____________________ /_____________________/ РЕФЕРАТ Курсовая работа 34 с., 11 рис., 4 табл., 10 источников. МЕТОДОЛОГИЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ, НЕЙРОННЫЕ СЕТИ И ДЕРЕВО РЕШЕНИЙ Объект исследования – Банкрот-предприятия и функционирующая организация. Предмет исследования – система финансов и организация рабочего процесса предприятий. Целью курсовой работы является изучение и анализ функционирования финансов и реализации предприятий, создание моделей нейронных сетей финансирования и принятие решений с помощью дерева решений. Метод исследования – методы интеллектуального анализа данных, методы системного анализа, методы нейронных сетей, методы дерева решений. Для выполнения поставленных задач были использованы данные из электронного ресурса и реестра ранее функционирующих предприятий. Актуальность и практическая значимость предлагаемой работы заключаются в решении проблем, связанных с финансовой деятельностью, банкротством и реализацией товара предприятий. СОДЕРЖАНИЕ Введение ................................................................................................................5 1. Теория и методы интеллектуального анализа данных...................................7 1.1 Данные и требования к их обработке…...............................................8 1.2 Виды данных и критерии их оценивания...........................................11 1.3 Классификация стадий Data Mining....................................................13 1.4 Классификация методов интеллектуального анализа......................14 1.5 Задачи интеллектуального анализа.....................................................15 2. Виды анализа и их практическое применение ............................................16 2.1 Деревья решений ......................................................…..................….17 2.2 Метод опорных векторов.....................................................................18 2.3 Метод ближайшего соседа...................................................................21 2.4 Метод нейронных сетей.......................................................................22 3. Применение методов интеллектуального анализа на предоставленных предприятиях.....................................................…...............................................23 3.1 Дерево решений....................................................................................27 Заключение ...........................................................................................................32 Список использованных источников.......................................................................33 Приложение А Дерево решений для кредитования с условиями....................34 ВВЕДЕНИЕ В наше время, количество имеющихся данных в мире удваивается каждый год, но это по самым грубым оценкам, что так же предоставляет нам возможность сказать о том, что и актуальная для использования информация существенно быстро уменьшается. Стремительное развитие всех видов технологий и сбора данных о них в огромные массивы, которые регулярно необходимо анализировать создает огромную нагрузку на человеческие возможности, а объемы данных уже настолько велики, что все это обосновывает непрерывный поиск возможностей и способов по извлечению полезной человеку информации из огромного потока данных. Исследования в области искусственного интеллекта в качестве замены человеческому продвинулись далеко вперед и позволили разработать методологию интеллектуального анализа данных (ИАД), которая является независимой от каких-либо определенных областей и может применяться, как и во всей сфере, так и в частных случаях. Осознание несопоставимого преимущества использования инструментария и методов ИАД и понимание того, что осуществляет интеллектуальный анализ данных, помогает людям предоставлять необходимые рекомендации, которые улучшают функционирование систем. Таким образом, интеллектуальные системы анализа данных (ИСАД) призваны максимально минимизировать усилия тех или иных лиц, принимающих решения (ЛПР), во всем процессе анализа данных, а также в настройке определенных алгоритмов анализа. Многие ИСАД способны выявлять причинно-следственные связи, скрытые закономерности, которые так же подвергаются анализу. По сути, интеллектуальный анализ данных — это обработка базы данных и выявления в ней тенденций, которые помогают принимать решения. Принципы ИАД известны в течение многих лет, но широкое распространение получили только с появлением огромного потока данных. Они и привели к взрыву популярности данного анализа - Data Mining. Раздел №1 включает в себя полноразмерное описание всех стадий подготовки к интеллектуальному анализу, введение терминологии и первичное ознакомление со методами анализа. Раздел №2 состоит из описания и практического применения самых эффективных и часто используемых методов в интеллектуальном анализе. Раздел №3 заключается в полноценном разборе метода нейронных сетей и дерева решений. 1. Теория и методы интеллектуального анализа данных Перейдем к Data Mining непосредственно. Data mining (сбор данных) — мультидисциплинарная область, возникшая и развивающаяся на базе прикладной статистики, распознавание образов, искусственного интеллекта, теории баз данных, визуализации, машинного обучения и других дисциплин. Разберем некоторые из них более подробно. Статистика — наука о способах сбора данных, их анализа и обработки для выявления тенденций, присущих определенному явлению. То есть, это совокупность методов планирования сбора и анализа данных. Она оперирует данными. Машинное обучение — процесс получения программой новых знаний. Самым наглядным примером являются нейронные сети. Искусственный интеллект — научное направление в ходе которого ставятся и решаются задачи разных видов моделирования человеческой деятельности, традиционно считающихся интеллектуальными. Иными словами, это свойство интеллектуальных систем выполнять творческие функции, которые изначально считаются ориентированными на человека. Технология Data Mining заключается в поиске неподготовленных, безызвестных ранее данных, а также полезных и доступных к использованию знаний для принятия решений. Так как данная технология предназначена для функционирования в глобальных базах данных, то на практике она имеет несколько закономерностей, а именно: неочевидных, объективных и практически полезных. Неочевидные закономерности подразумевают под собой закономерности, которые нельзя обнаружить стандартным путем анализа. Объективные — данные закономерности полностью соответствую действительности, чего нельзя сказать об экспертном мнении, которое является субъективным. Практически полезные закономерности говорят нам о том, что конкретным значениям можно найти прямое практическое применение. Прежде чем приступить к обзору уже существующих методов, мы перейдем к объекту обращения ИАД — данные. Данные и требования к их обработке Данные — это факты, тексты, графики числовые выражения, документы, и другого рода сегменты. Все это может может быть получено в результате практической деятельности. Данные должны быть конвертируемыми, а, то есть, способны менять свою форму для необходимого типа хранения. Можно сказать и проще, данные — набор необработанной информации. Данные включают в себя 2 категории: объекты и атрибуты. Объектом может являться просто строка чисел. Атрибутами могут являться различные характеристикам объекта, т.е, это своего рода переменная. В результате перехода из неопределенного состояния в определенное получается набор переменных изучаемого понятия. Обратим внимание на понятие переменной — это общее свойство всех объектов, которое может меняться от перехода от одного к другому. Главным значением переменной является наличие признака. При анализе базы данных обычно нет возможности рассмотреть общую совокупности объектов в виду огромного потока данных, но вполне достаточно рассмотреть лишь некоторую ее часть. Размер данной части должен зависеть от разнообразия имеющихся объектов представленных в генеральной совокупности. Генеральная совокупность — совокупность элементов необходимая исследователю. Выборка — часть генеральной совокупности, которая была отобрана по определенным параметрам. А параметры — числовые характеристики. Также, наряду с закономерностями существует и определенная специфика требований к обработке данных. Неограниченный объем Разнородность Корректные результаты Простые инструменты для обработки Традиционный процесс сбора данных состоит из: Анализ предметной области Постановка задачи Подготовка данных Построение моделей Проверка и оценка Выбор Применение Коррекция и обновление Анализ предметной области включает в себя отделение значительных и незначительных факторов влияющих на проводимое исследование. Существенность выбранных данных зависит от первоначально поставленной задач. В процессе ее исследования мы составляем ее элементарную модель. Она может включать в себя специализированные графические нотации, диаграммы потоков и различные структурные анализы. Модель в свою очередь, описывает процессы, происходящие в области и данные, которые для этих процессов используются. От того, насколько корректно составлена модель, зависит успех дальнейшего функционирования приложения Data Mining. Постановка задачи включает в себя: формулировку и формализацию задачи. Также, в ее состав входит описание статического и динамического подведения объектов. Описание статистки требует описание объектов в целом и их свойств. Динамка подразумевает под собой такие характеристики, которые влияют на поведение объекта непосредственно. Порой анализ и постановку объединяют в один этап, если спектр данных не так велик. Подготовка данных является важнейшим этапом, который влияет на конечный результат всех процессов. Данный этап включает в себя несколько шагов: Определение и анализ требований к данным. Это и есть непосредственно создание модели данных, которые необходимы для функционирования Data Mining. При этом изучаются все вопросы распределения данных, доступа к ним, необходимость дополнительных источников и общие аналитические характеристики системы. Сбор данных. Наличие централизованного хранилища данных весомо облегчает работу с ними. Также, это значительно дешевле, чем использование отдельных витрин и баз данных. Конечно, использование централизованного хранилища не всегда предоставляется возможным, тогда используют архивную систему базы данных, что так же значительно проще работы с отдельными частями. Если данные уже упорядочены, то следует определить имею ли они сезонность или цикличность компонентов. Если нет, то есть, компоненты не связаны временным диапазоном и не имеют хронологического порядка, то необходимо иметь в виду, что: недостаточное количество записей в наборе может стать причиной некорректного функционирования составленной модели, возможно, что некоторые из данных являются устаревшими и их нужно исключить из имеющегося списка, алгоритмы, которые используются для моделирования должны быть масштабируемыми, должно быть определенное соотношение входных переменных и наблюдений, а количество записей должно значительно их превышать, сам набор данных должен быть широкого спектра всевозможных ситуаций, чтобы иметь свойство адаптивности. Предварительная обработка данных включает в себя анализ данных. Анализировать можно как качественные, так и некачественные данные, но результат будет достигнут и в том, и в другом случае. Чтобы разграничить данные существует критерий качества. Это важный этап процесса Data Mining. 1.2 Виды данных и критерии их оценивания Качество данных — критерий, определяющий полноту и точность предоставляемых данных, а также, возможность их интерпретации. Данные высокого качества- это полные и точные данные, обеспечивающие исследователю на их фоне составить полномерную корректно функционирующую модель способную к интерпретации и принятию решений. Данные низкого качества, соответственно, таких характеристик не имеют, включая неверный формат. Наиболее распространенные виды так называемых «грязных» данных: Пропущенные значения Дубликаты Шумы и выбросы Пропущенные значения. Некоторые из значений могут быть пропущены из-за того, что данные попросту не были собраны или некоторые атрибуты априори не могут быть применены к данным. Дублирование данных. Сами по себе дубликаты являются записи имеющие одинаковую информацию по всем параметрам. Наличие дубликатов в базе может являться ориентиром для пользователя, что данные имеют особы приоритет над других. Но чаще можно столкнуться с тем, что это просто ошибка в их подготовке. Есть всего два варианта обработки дубликатов: удаление всех дубликатов (только в случае обесценивании информации) или замена группы в одну уникальную запись. Шумы и выбросы представляют собой особую группу характеристик некачественных данных. Выбросы — абсолютно отличающиеся от остальных данных объекты, по типу данных и виду их формата. Они могут быть как самостоятельными, так и иметь целую объединенную группу. Их важно не только обнаружить, но и оценить их дальнейшее влияние на данные. Различные методы интеллектуального анализа имеют различную чувствительность к шумам и выбросам. С ними нужно быть особенно осторожными, так как обработка таких данных не может нести в себе ни полезности, ни надёжности. Некачественные данные подлежат очистке, а, то есть, происходит выявление и удаление ошибок. Метод должен удовлетворять определенным критериям: Удаление всех основных ошибок; Поддержание определенных инструментов; Не затрагивать основные данные; Функции очистки данных должны быть адаптивными и к другим базам данных; Надёжность выполнения всех этапов Этапы очистки данных включают в себя 5 шагов: анализ данных, определение порядка и правил преобразования, подтверждение, преобразования и противоток очищенных данных. Анализ данных необходим для выявления и удаления поверхностных и легкодоступных ошибок. Определение порядка и правил преобразования. В зависимости от количества данных, степени их неопределенности и загрязненности,данные могут требовать обширного исследования на ошибки. Для этого необходимо составить порядок их анализа. Подтверждение. На данном этапе определяется эффективность предыдущего этапа. Это происходит путем тестирования копии источника. Преобразования. Просто обновление хранилища данных при ответе на запросы множества источников. Противоток очищенных данных. После очистки данных нужно произвести замену данных на новые, качественные, во всех возможных источниках и в хранилище непосредственно. Этот процесс требует больших объемов метаданных. Основная особенность интеллектуального анализа — это широкий математический инструментарий. К методам и алгоритмам относятся искусственные нейронные сети, деревья решений, символьные правила, метод ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ, методы поиска ассоциативных правил, визуализации данных, генетические алгоритмы и ограниченного перебора. Что же касается аналитических методов, то они несут в себе характер автоматизированных математических методов. К вышеперечисленным методам мы вернемся далее. 1.3 Классификация стадий Data Mining Data Mining может включать в себя от двух до трёх стадий: свободный поиск и выявление закономерностей, прогностическое моделирование и анализ исключений. Первая стадия «Свободного поиска» включает в себя поиск скрытых закономерностей. Также, система определяет предварительные шаблоны, которые особенно полезны в сверхбольших базах данных Вторая стадия состоит из анализа первой стадии и в предсказании неизвестных значений, прогнозирования развития процессов. Решаются задачи классификации и прогнозирования. Прогностическое моделирование дедуктивно. Закономерности, сформированные на этой стадии, формируются от общего к частному и единичному. Третья стадия занимается анализом исключений или аномалий, выявленных в неопределённостях. Также, здесь появляется понятие нормы и пределы отклонений от неё. Существует два варианта трактовок: логическое объяснение оформленное в виде правила и фактические ошибки исходных данных. Классификация методов интеллектуального анализа У интеллектуального анализа есть 2 больше группы методов по которым осуществляется его функционирование. Непосредственное использование или сохранение данных в детализированном виде и используются на 2 и 3 стадии. Основная проблема - несопоставимость с большим объемом данных. К данному методу относятся: кластерный анализ, метод ближайшего соседа, рассуждение по аналогии. Выявление и использование формализованных закономерностей. Здесь используется шаблон (образец) для правильного анализа данных и происходит преобразование в формальные конструкции, вид которых зависит от используемого метода интеллектуального анализа. Методы данной группы: визуализация, уравнения, кросс-табуляция и логические методы. Логические методы ( методы индукции) включаются в себя нечеткие запросы и анализы, деревья решений и генетические алгоритмы. Они являются наиболее интерпретируемыми к базам данных Методы кросс-табуляции. Они не отвечают одному из требований к интеллектуальному анализу — самостоятельному поиску закономерностей, однако полностью находит и предоставляет пользователю шаблоны. Методы на основе уравнений говорят сами за себя и являются отдельной, исключительно математической группой. Однако, они могут работать лишь с численными значениями при наличии переменных, которые должны быть закодированы определенным образом. Кибернетические методы. Это компьютерная математика и использование искусственного интеллекта. Сюда относят: искусственные нейронные сети (прогноз), оптимизация, деревья решений, нечеткая логика. 1.5 Задачи интеллектуального анализа Задачи в интеллектуальном анализе зачастую называют закономерностями.. Есть несколько видов задач: классификация, кластеризация, ассоциация, последовательность, прогнозирование, оценивание, визуализация, подведение итогов. Классификация представляет собой самую простую и распространённую из задач. В результате решения задачи обнаруживаются схожие признаки в базе данных и происходит распределение на классы. Кластеризация — логическое продолжение классификации. Особенность данной задачи заключается в том, что данные изначально не предопределены на классы. Ассоциация выявляет закономерности между связанным событиями. Отличием данной задачи от предыдущих является в том, что поиск закономерностей происходит не на основе свойств объекта, а между несколькими событиями. Последовательность или последовательная ассоциация позволяет найти именно временные закономерности. То есть, осуществляется поиск закономерностей между событиями происходящими не одновременно, как в ассоциации, а в одно время. Иными словами, это задача нахождения последовательных шаблонов. Прогнозирование. Здесь оценивается особенность исторических данных или будущие значения целевых численных показателей. Оценивание и визуализация представляют собой предсказание непрерывных значений признака и создание графического образа анализируемых данных. Подведение итогов — описание определенных групп объектов из предмета исследования. 2. Виды анализов и их практическое применение Корреляционный анализ. Данный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Обычно вычисляют коэффициент корреляции Пирсона, который отражает степень зависимости между двумя множествами данных: (1.1) х и у — значения признаков, n — число пар данных. Варианты связи, указывающие на отсутствие или наличие линейной связи между признаками: Большие значения из одного набора данных связаны с большими значениями другого набора — наличие прямолинейной связи; Малые значения в одном наборе и большие в другом — отрицательная связь; Данные двух диапазонов никак не связаны — отсутствие линейной связи; Регрессионный анализ. Основная его особенность это получение конкретных сведений о форме и характере зависимости между переменными. Он включает в себя несколько этапов, некоторые из них: формулировка задачи, определение зависимых и независимых переменных, сбор данных, определение функции регрессии и предсказание значений зависимой переменной. Выяснение действия на переменную определяется функцией регрессии. Уравнение регрессии имеет вид: Y= a+b*x (1.2) Если знак при коэффициенте регрессии положительный — связь с независимой переменной будет положительная, если отрицательный, то, соответственно, отрицательной. Все значения, полученные данным методом являются средними. 2.1 Деревья решений Метод деревьев решений являтся одним из наиболее популярным. Принцип данного метода заключается в том, что если зависимая переменная принимает дискретные значения, то при помощи метода дерева решений решается задача классификации, если переменная принимает непрерывные значения, то метод устанавливает зависимость переменной от независимых переменных, то есть, решает задачу прогнозирования. |