3нания должны быть новые, ранее неизвестные. Знания должны быть нетривиальны

Название	3нания должны быть новые, ранее неизвестные. Знания должны быть нетривиальны
Дата	21.11.2018
Размер	0.69 Mb.
Формат файла
Имя файла	349260.ppt
Тип	Задача #57172

3нания должны быть новые, ранее неизвестные.

Знания должны быть нетривиальны.

Знания должны быть практически полезны.

Знания должны быть доступны для понимания человеку.

Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого параметра из множества действительных чисел.

При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций)

Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных.

Решение предсказатедьных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.

Unsupervised learning объединяет задачи, выявляющие описательные модели. Например закономерности в покупках, совершаемых клиентами большого магазина. Достоинством таких задач является возможность их решения без каких либо предварительных знаний. об анализируемых данных. К этим задачам относятся клaстеризация и поиск ассоциативных правил.

Клиент банка: «кредитоспособен» и «некредитоспособен».

Фильтр электронной почты: «спам», «не спам»

Распознавание цифр: от 0 до 9.

В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров.

Задача клaссификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных.

количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем точнее будет построенная на ее основе функция классификации или регрессии;

в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;

для каждого класса в задаче классификации или для каждого интервала области значений в задаче регрессии выборка должна содержать достaточное количество объектов.

На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).

В сфере обслуживания интерес представляет информация о том, какими услугами клиенты предпочитают пользоваться в совокупности.

В медицине - анализ сочетания симптомов и болезней.

Сиквенциальный анализ учитывает последовательность происходящих событий (телекоммуникационные компании, анализ аварий).

Периодическая система элементов Д.И. Менделеева.

Сегментация в маркетинге. Критериями сегментации являются: гeoграфическое местоположение, социально-демографические характеристики, мотивы совершения покупки и т. п.

На основании результатов сегментации маркетолог может определить, нaпример, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы потребителей, чьи потребности не удовлетворяются в полной мере ни одним производителем, работающим на данном сегменте рынка, и т. п.

Интернет-технологии

персонализация посетителей Web-сайтов

поиск случаев мошенничества с кредитными картами

Web Mining: Web content mining и Web usage mining

Торговля

анализ рыночных корзин и сиквенциональный анализ

Телекоммуникации

анализ доходности и риска потери клиентов

защита от мошенничества,

выявление категорий клиентов с похожими стepeoтипами пользования услугами и разработка привлекательных наборов цен и услуг

прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса.

Медицина и биология

построение диагностической системы

исследование эффективности хирургическoгo вмешательства

Биоинформатика – изучение генов, разработка новых лекарств

Банковское дело

оценка кредитоспособности заемщика

Предсказательные модели

модели классификации

модели последовательностей

Описательные модели

регрессионные модели

модели кластеров

модели исключений

итоговые модели

ассоциативные модели

модели последовательностей описывают функции, позволяющие прогнозировать изменение непрерывных числовых параметров. Они строятся на основании данных об изменении некоторого параметра за прошедший период времени.

модели кластеров описывают группы (кластеры), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты (наблюдения, события) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть "похожими" друr на друrа и отличаться от объектов, вошедших в другие кластеры. Чем сильнее "похожи" объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация;

ассоциативные модели - выявление закономерностей между связанными событиями.

Нечеткая логика

Генетические алгоритмы

Нейронные сети

1. Неизвестность.

2. Неполнота (недостаточность, неадекватность).

3. Недостоверность.

Недостоверность бывает физической (источником ее является внешняя среда)

и лингвистической (возникает в результате словесного обобщения и обусловливается необходимостью описания бесконечного числа ситуаций oгpaниченным числом слов в ограниченное время).

1. Неточность.

2. Случайность.

Для обработки физических неопределенностей успешно используются методы теории вероятностей и классическая теория множеств

Выделяют два вида лингвистической неопределенности:

1. Неопределенность значений слов (многозначность, расплывчатость, неясность, нечеткость).

2. Неоднозначность смысла фраз (выделяют синтаксическую и семантическую ).

Заде предложил лингвистическую модель, которая использует не математические выражения, а слова, отражающие качество. Человеку в процессе управления сложными объектами свойственно оперировать понятиями и отношениями с расплывчатыми границами. Источником расплывчатости является существование классов объектов, степень принадлежности к которым величина, непрерывно изменяющаяся от полной принадлежности к нему до полной непринадлежности.

2. Вместо одного четкого обобщенного правила нечеткая логика оперирует со множеством частных правил.

3. Правила в виде "если ... , то ... " позволяют решать задачи классификации в режиме диалога с оператором, что способствует повышению качества классификатора уже в процессе эксплуатации.

ИНС представляют собой систему соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам.
Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

представить данные в виде таблицы,

очистить данные по столбцам,

очистить данные по строкам.

библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;

коробочные или настольные решения ("черные ящики").

Что такое Data Mining?

Основные задачи Data Mining.

Описательные и предсказательные задачи.

Supervised learning и unsupervised learning.

Этапы интеллектуального анализа данных.

Методы интеллектуального анализа данных.