Главная страница
Навигация по странице:

  • Основные понятия Родовое и видовое понятия

  • Приведем примеры деления понятий

  • Данные

  • Генеральная совокупность

  • Параметры

  • Дихотомическая шкала

  • Условно-постоянные данные

  • Данные за период

  • Задачи анализа данных Классификация

  • Оценивание

  • Лекция № 1. Интеллектуальный анализ данных. Введение в интеллектуальный анализ данных


    Скачать 377.41 Kb.
    НазваниеВведение в интеллектуальный анализ данных
    АнкорЛекция № 1. Интеллектуальный анализ данных
    Дата24.10.2022
    Размер377.41 Kb.
    Формат файлаpdf
    Имя файлаЛ_1.pdf
    ТипЛекция
    #750974

    Лекция № 1
    Тема: Введение в интеллектуальный анализ данных.
    Определение Data Mining. Основные понятия.
    Задачи интеллектуального анализа данных
    План:
    1. Введение в интеллектуальный анализ данных.
    2. Определение Data Mining. Основные понятия.
    3. Задачи интеллектуального анализа данных.
    Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. (Григорий Пиатецкий-Шапиро)
    Традиционные методы анализа данных (статистические методы) и
    OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных
    (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей.
    Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях.
    Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.
    Основные понятия
    Родовое и видовое понятия - делимое понятие - это родовое, а его члены деления - это виды данного рода, несовместимые между собой, т.е. не пересекающиеся по своему объему (не имеющие общих элементов).
    Приведем примеры деления понятий: В зависимости от источника энергии электростанции(род) делят на(виды) гидроэлектростанции, гелиоэлектростанции, геотермальные, ветровые и тепловые (к разновидностям тепловых относят АЭС).

    Данные - это необработанный материал, предоставляемый поставщиками данных и используемый потребителями для формирования информации на основе данных.
    Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д.
    Атрибут - свойство, характеризующее объект. Например: цвет глаз человека, температура воды и т.д. Атрибут также называют переменной, полем таблицы, измерением, характеристикой.
    Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя.
    Выборка (sample) - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности.
    Параметры - числовые характеристики генеральной совокупности.
    Статистики - числовые характеристики выборки.
    Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов. Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь.
    В этом случае целью исследования может быть объяснение изменений конкретной переменной, в данном случае - продолжительности жизни.
    Допустим, существует гипотеза, что зависимая переменная
    (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т.д.), которые и являются независимыми переменными.
    Однако переменная изначально не является зависимой или независимой. Она становится таковой после формулировки конкретной гипотезы. Зависимая переменная в одной гипотезе может быть независимой в другой.
    Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.
    В процессе подготовки данных измеряется не сам объект, а его характеристики.
    Шкала - правило, в соответствии с которым объектам присваиваются числа. Существует пять типов шкал измерений: номинальная, порядковая, интервальная, относительная и дихотомическая.

    Номинальная шкала (nominal scale) - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия. Номинальная шкала состоит из названий, категорий, имен для классификации и сортировки
    объектов или наблюдений по некоторому признаку. Пример такой шкалы: профессии, город проживания, семейное положение. Для этой шкалы применимы только такие операции: равно (=), не равно ().

    Порядковая шкала (ordinal scale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними.Шкала измерений дает возможность ранжировать значения переменных. Измерения же в порядковой шкале содержат информацию только о порядке следования величин, но не позволяют сказать "насколько одна величина больше другой", или "насколько она меньше другой".Пример такой шкалы: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге. Для этой шкалы применимы только такие операции: равно (=), не равно (), больше (>), меньше (<).

    Интервальная шкала (interval scale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. Эта шкала позволяет находить разницу между двумя величинами, обладает свойствами номинальной и порядковой шкал, а также позволяет определить количественное изменение признака. Пример такой шкалы: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше.
    Номинальная и порядковая шкалы являются дискретными, а интервальная шкала - непрерывной, она позволяет осуществлять точные измерения признака и производить арифметические операции сложения, вычитания.
    Для этой шкалы применимы только такие операции: равно (=), не равно (), больше (>), меньше (<), операции сложения (+) и вычитания (-).

    Относительная шкала (ratio scale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Пример такой шкалы: вес новорожденного ребенка (4 кг и 3 кг).
    Первый в 1,33 раза тяжелее. Цена на картофель в супермаркете выше в 1,2 раза, чем цена на базаре. Относительные и интервальные шкалы являются числовыми. Для этой шкалы применимы только такие операции: равно (=), не равно (), больше (>), меньше (<), операции сложения (+) и вычитания (-
    ), умножения (*) и деления (/).

    Дихотомическая шкала (dichotomous scale) - шкала, содержащая только две категории. Пример такой шкалы: пол (мужской и женский).

    Переменные данные - это такие данные, которые изменяют свои значения в процессе решения задачи.

    Постоянные данные - это такие данные, которые сохраняют свои
    значения в процессе решения задачи (математические константы, координаты неподвижных объектов) и не зависят от внешних факторов.

    Условно-постоянные данные - это такие данные, которые могут иногда изменять свои значения, но эти изменения не зависят от процесса решения задачи, а определяются внешними факторами.

    Данные за период характеризуют некоторый период времени.
    Примером данных за период могут быть: прибыль предприятия за месяц, средняя температура за месяц.

    Точечные данные представляют значение некоторой переменной в конкретный момент времени. Пример точечных данных: остаток на счете на первое число месяца, температура в восемь часов утра.
    Задачи анализа данных
    Классификация (Classification) Наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных
    - классы; по этим признакам новый объект можно отнести к тому или иному классу. Методы решения. Для решения задачи классификации могут использоваться методы: ближайшего соседа (Nearest Neighbor); k- ближайшего соседа (k-Nearest Neighbor); байесовские сети (Bayesian
    Networks); индукция деревьев решений; нейронные сети (neural networks).
    Кластеризация (Clustering) Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.
    Ассоциация (Associations) В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori.
    Последовательность (Sequence), или последовательная ассоциация
    (sequential association) Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным
    интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий.
    Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю. Эту задачу Data
    Mining также называют задачей нахождения последовательных шаблонов
    (sequential pattern). Правило последовательности: после события X через определенное время произойдет событие Y. Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом
    (Customer Lifecycle Management).
    Прогнозирование (Forecasting) В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.
    Определение отклонений или выбросов (Deviation Detection), анализ отклонений или выбросов Цель решения данной задачи - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
    Оценивание (Estimation) Задача оценивания сводится к предсказанию непрерывных значений признака.
    Анализ связей (Link Analysis) - задача нахождения зависимостей в наборе данных.
    Визуализация (Visualization, Graph Mining) В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях.
    Подведение итогов (Summarization) - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных.
    Категория обучение с учителем представлена следующими задачами Data
    Mining: классификация, оценка, прогнозирование.
    Категория обучение без учителя представлена задачей кластеризации.
    В категорию другие входят задачи, не включенные в предыдущие две стратегии.

    методы и модели Data Mining;

    практическое применение Data Mining;
    Средства Data Mining. Weka.


    написать администратору сайта