3нания должны быть новые, ранее неизвестные. Знания должны быть нетривиальны
![]()
|
![]() 3нания должны быть новые, ранее неизвестные.Знания должны быть нетривиальны.Знания должны быть практически полезны.Знания должны быть доступны для понимания человеку.![]() Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого параметра из множества действительных чисел.При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций)Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных.![]() Решение предсказатедьных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий. ![]() Unsupervised learning объединяет задачи, выявляющие описательные модели. Например закономерности в покупках, совершаемых клиентами большого магазина. Достоинством таких задач является возможность их решения без каких либо предварительных знаний. об анализируемых данных. К этим задачам относятся клaстеризация и поиск ассоциативных правил. ![]() Клиент банка: «кредитоспособен» и «некредитоспособен».Фильтр электронной почты: «спам», «не спам»Распознавание цифр: от 0 до 9.В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров.Задача клaссификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных.![]() количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем точнее будет построенная на ее основе функция классификации или регрессии;в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;для каждого класса в задаче классификации или для каждого интервала области значений в задаче регрессии выборка должна содержать достaточное количество объектов.На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).![]() ![]() В сфере обслуживания интерес представляет информация о том, какими услугами клиенты предпочитают пользоваться в совокупности.В медицине - анализ сочетания симптомов и болезней.Сиквенциальный анализ учитывает последовательность происходящих событий (телекоммуникационные компании, анализ аварий).![]() Периодическая система элементов Д.И. Менделеева.Сегментация в маркетинге. Критериями сегментации являются: гeoграфическое местоположение, социально-демографические характеристики, мотивы совершения покупки и т. п.На основании результатов сегментации маркетолог может определить, нaпример, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы потребителей, чьи потребности не удовлетворяются в полной мере ни одним производителем, работающим на данном сегменте рынка, и т. п. ![]() Интернет-технологииИнтернет-технологииперсонализация посетителей Web-сайтовпоиск случаев мошенничества с кредитными картамиWeb Mining: Web content mining и Web usage miningТорговляанализ рыночных корзин и сиквенциональный анализТелекоммуникациианализ доходности и риска потери клиентовзащита от мошенничества,выявление категорий клиентов с похожими стepeoтипами пользования услугами и разработка привлекательных наборов цен и услуг![]() прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса.Медицина и биологияпостроение диагностической системыисследование эффективности хирургическoгo вмешательстваБиоинформатика – изучение генов, разработка новых лекарствБанковское делооценка кредитоспособности заемщика![]() Предсказательные моделиПредсказательные моделимодели классификациимодели последовательностейОписательные моделирегрессионные моделимодели кластеровмодели исключенийитоговые моделиассоциативные модели![]() модели последовательностей описывают функции, позволяющие прогнозировать изменение непрерывных числовых параметров. Они строятся на основании данных об изменении некоторого параметра за прошедший период времени. ![]() модели кластеров описывают группы (кластеры), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты (наблюдения, события) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть "похожими" друr на друrа и отличаться от объектов, вошедших в другие кластеры. Чем сильнее "похожи" объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация; ![]() ![]() ассоциативные модели - выявление закономерностей между связанными событиями.![]() Нечеткая логикаГенетические алгоритмыНейронные сети![]() 1. Неизвестность.2. Неполнота (недостаточность, неадекватность).3. Недостоверность.Недостоверность бывает физической (источником ее является внешняя среда)и лингвистической (возникает в результате словесного обобщения и обусловливается необходимостью описания бесконечного числа ситуаций oгpaниченным числом слов в ограниченное время).![]() 1. Неточность.2. Случайность.Для обработки физических неопределенностей успешно используются методы теории вероятностей и классическая теория множествВыделяют два вида лингвистической неопределенности:1. Неопределенность значений слов (многозначность, расплывчатость, неясность, нечеткость).2. Неоднозначность смысла фраз (выделяют синтаксическую и семантическую ).![]() Заде предложил лингвистическую модель, которая использует не математические выражения, а слова, отражающие качество. Человеку в процессе управления сложными объектами свойственно оперировать понятиями и отношениями с расплывчатыми границами. Источником расплывчатости является существование классов объектов, степень принадлежности к которым величина, непрерывно изменяющаяся от полной принадлежности к нему до полной непринадлежности. ![]() 2. Вместо одного четкого обобщенного правила нечеткая логика оперирует со множеством частных правил.3. Правила в виде "если ... , то ... " позволяют решать задачи классификации в режиме диалога с оператором, что способствует повышению качества классификатора уже в процессе эксплуатации.![]() ![]() ИНС представляют собой систему соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. ![]() ![]() представить данные в виде таблицы,очистить данные по столбцам,очистить данные по строкам.![]() библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;коробочные или настольные решения ("черные ящики").![]() Что такое Data Mining?Что такое Data Mining?Основные задачи Data Mining.Описательные и предсказательные задачи.Supervised learning и unsupervised learning.Этапы интеллектуального анализа данных.Методы интеллектуального анализа данных.![]() |