Главная страница
Навигация по странице:

  • Алгоритм CART.

  • 6.4. Неконтролируемая классификация (кластеризация)

  • Алгоритм k-means

  • 6.5. Регрессия 6.5.1. Понятие регрессии

  • 6.5.2. Основные этапы регрессионного анализа

  • 6.5.3. Методы восстановления регрессии

  • Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных


    Скачать 2.95 Mb.
    НазваниеИнтеллектуальный анализ данных
    АнкорИнтеллектуальный анализ данных учебное пособие
    Дата30.09.2022
    Размер2.95 Mb.
    Формат файлаpdf
    Имя файлаИАД Лекции Замятин 20.pdf
    ТипУчебное пособие
    #707536
    страница8 из 16
    1   ...   4   5   6   7   8   9   10   11   ...   16
    Алгоритм С4.5. Алгоритм С 4.5 также предложен Д. Куинла- ном в развитие алгоритма ID3 и расширяет его возможности в ча- сти [5]:
    – дополнительной функциональности по отсечению ветвей во избежание проблемы переобучения;
    – построения дерева из обучающей выборки с пропусками дан- ных (отсутствуют значения для некоторых атрибутов);
    – работы не только с дискретными, но и с непрерывными чис- ловыми атрибутами.
    Основной недостаток алгоритма ID3 – склонность к переобуче- нию. Действительно, при большом количестве возможных значе- ний признака (возможно, несущественно отличающихся друг от друга) будет построено большое число ветвей с атрибутами этого признака. В крайнем случае число листьев такого дерева может быть эквивалентно числу имеющихся примеров обучающего мно- жества. Очевидно, для задач классификации такое дерево решений будет бесполезным. Более того, поиск верного признака x
    i
    при по- строении следующего узла в таком дереве также проблематичен – в
    (6.27) log
    2
    (1) = 0, поэтому в (6.30) прирост информации для всех x
    i
    максимален.
    Во избежание указанных проблем в алгоритме предусмотрено нормирование при расчете прироста информации путем расчета до- полнительного показателя с оценкой потенциальной информации, созданной при разбиении множества T на n подмножеств T
    i
    :
    Split_Info(T) = – ∑
    [
    |𝑇
    𝑘
    |
    |𝑇|
    log
    2
    (
    |𝑇
    𝑘
    |
    |𝑇|
    )]
    𝑛
    𝑘=1
    (6.31)
    Критерий прироста информации (6.30) с использованием выра- жения (6.32) модифицирован следующим образом:
    Split_Info(S)=
    Gain (T,𝑆)
    Split
    Info(T)
    (6.32)
    С учетом того, что способ расчета критерия прироста информа- ции (6.32) учитывает не только прирост, но и оценку ее потенциаль- ной информативности («полезности»), это способствует выбору более удачного атрибута, построению менее избыточного дерева решений и улучшению классификации.

    6. Основные методы анализа и интерпретации данных
    83
    Еще одной отличительной особенностью алгоритма С4.5 по от- ношению к ID3 является наличие адаптации к присутствию пропус- ков данных в исходном обучающем множестве.
    Вообще проблема пропусков в данных является для практики очень важной, для ее решения на этапе предварительной обработки данных применяют различные приемы и технологии (см. разд. 6.1), позволяющие представить данные для обработки методами Data
    Mining без столь очевидных недостатков.
    Тем не менее для полноты представления алгоритма отметим суть вышеуказанной особенности работы с пропусками в данных.
    В алгоритме С4.5 предполагается, что экземпляры обучающего множества с неизвестными значениями имеют статистическое рас- пределение соответствующего признака согласно относительной частоте появления известных значений. Для фиксации этой харак- теристики введен параметр F, который представляет собой число наблюдений в наборе исходных данных с известным значением данного признака, отнесенное к общему числу наблюдений. Тогда модифицированный для работы с пропущенными значениями кри- терий прироста информации будет иметь вид:
    Gain(S) = F × [Info(T) – Info
    S
    (T)].
    (6.33)
    Алгоритм CART. CART (англ. Classification and Regression Tree, дерево классификации и регрессии), предложенный в 1984 г., пред- назначен для построения бинарного дерева решений (каждый узел имеет только две ветви-потомка) [10].
    Основными отличиями алгоритма CART от алгоритмов семей- ства ID3 являются:
    – бинарное представление дерева решений;
    функция оценки качества разбиения;
    – механизм отсечения дерева;
    – алгоритм обработки пропущенных значений;
    – возможность построения деревьев регрессии.
    На каждом шаге построения дерева правило, формируемое в узле, делит заданное множество примеров на две части, в которых выполняется (первая часть) и не выполняется (вторая часть) реша- ющее правило. При этом производится перебор всех признаков,

    Интеллектуальный анализ данных
    84 на основе которых может быть построено разбиение, и выбирается тот, который максимизирует значение некоторого показателя.
    Например, таким показателем может быть
    H(T) =
    2 𝑃
    𝐿
    𝑃
    𝑅

    [𝑃
    𝐿
    (
    𝑗
    ) − 𝑃
    𝑅
    (
    𝑗
    )]
    𝑞
    𝑗=1
    ,
    (6.34) где P
    L
    и P
    R
    – отношение числа примеров в левом и правом потомках к их общему числу в обучающем множестве T, 𝑃
    𝐿
    (
    𝑗
    ) и 𝑃
    𝑅
    (
    𝑗
    ) – отношение числа примеров класса 
    𝑖
    в левом и правом потомках соответственно к их общему числу в каждом из них.
    Также в качестве такого показателя применяют выражение, основанное на использовании индекса Джини. Если множество Т содержит данные n классов, тогда индекс Джини определяется как
    Gini(T) = 1 – ∑
    𝑝
    𝑖
    2
    𝑛
    𝑖=1
    ,
    (6.35) где p
    i
    – вероятность (относительная частота) класса 
    𝑖
    в T. Для узла бинарного дерева с двумя ветвями-потомками после ряда преобра- зований и упрощений показатель «успешности» разбиения множе- ства рассчитывается как
    𝐺
    split
    =
    1
    𝐿

    𝑙
    𝑖
    2
    𝑛
    𝑖=1
    +
    1
    𝑅

    𝑟
    𝑖
    2
    𝑛
    𝑖=1
    ,
    (6.36) где L, R – число примеров соответственно в левом и правом по- томке, l
    i
    и r
    i
    – число экземпляров 
    𝑖
    -го класса в левом и правом потомке. Лучшим будет то разбиение, для которого величина G
    split будет максимальной.
    Алгоритм CART предусматривает построение не только класси- фикационных деревьев, но и регрессионных. Для этого процесс реализуется аналогично, но вместо меток классов в листьях будут располагаться числовые значения.
    6.4. Неконтролируемая классификация (кластеризация)
    Любой способ кластеризации требует максимизации межклассо- вых расстояний и минимизации внутриклассовых расстояний. Вы- деляют целый ряд способов кластеризации, различающихся крите- рием построения кластеров. Критериями могут быть:

    связность;

    центроидность;

    6. Основные методы анализа и интерпретации данных
    85

    распределения;

    плотность;

    прочие.
    Неконтролируемая классификация (англ. clustering, кластериза- ция) позволяет разбить исходный набор данных на конечное коли- чество однородных в некотором смысле кластеров. Неконтролиру- емая классификация реализуется методами кластерного анализа и позволяет выявлять свойства данных группироваться около некото- рых значений (центров). В общем концепцию кластерного анализа многомерных данных можно определить как распределение всех возможных точек (объектов) P-мерного пространства признаков по соответствующим кластерам [70], т.е. разбиение пространства при- знаков на взаимно непересекающиеся области, каждая из которых соответствует некоторому кластеру С
    i
    с центром
    μ
    𝑖

    (i = 1, …, M').
    При этом объекты одного кластера группируются в признаковом пространстве компактно, т.е. расстояние между объектами одного кластера меньше, чем расстояние между объектами различных кла- стеров.
    Среди методов кластерного анализа можно выделить такие, как
    методы итерационной оптимизации (англ. Iterative Self Organizing
    Data Analysis Technique, ISODATA метод) [50], методы иерархиче-
    ской кластеризации [70], анализ пиков гистограмм [103].
    Метод ISODATA осуществляет итерационную оценку струк- туры исходных многомерных данных. На каждой итерации опре- деляется новое уточненное пространство кластеров С
    i
    и их цен- тров μ
    𝑖

    (рис. 20, б, в), исходя из условия минимума расстояния между точками и центрами каждого кластера. Для этого на каждом шаге определяются ближайшие к центрам кластеров элементы изображения и вычисляются новые центры, также осуществляется слияние близких кластеров на основе заданных критериев. В каче- стве совокупного критерия точности кластеризации метод
    ISODATA использует суммарную квадратичную ошибку S, опреде- ляемую как


    '
    1

    i
    M
    ii
    i
    x C
    S
    d x




     
    (6.37)

    Интеллектуальный анализ данных
    86
    x
    2
    x
    1
    C2
    C1
    C3
    C4
    C5
    C5
    C4
    C3
    C2
    C1
    C5
    C4
    C3
    C1
    C2
    x
    2
    x
    1
    x
    2
    x
    1
    а
    x
    2
    x
    1
    C2
    C1
    C3
    C4
    C5
    C5
    C4
    C3
    C2
    C1
    C5
    C4
    C3
    C1
    C2
    x
    2
    x
    1
    x
    2
    x
    1
    б
    в
    Рис. 20. Иллюстрация процедуры кластерного анализа
    (итерационный метод ISODATA):
    аначальное размещение центров; б – первая итерация; в – вторая итерация
    Таким образом, качество кластеризации будет наилучшим при наименьшем значении S, т.е. при минимальном значении суммы расстояний от всех точек кластеров C
    i
    до их центров µ'
    i
    (i = 1, …, M).
    Критерием останова итерационного процесса кластеризации мето- дом ISODATA является заданное количество итераций и порог

    6. Основные методы анализа и интерпретации данных
    87 суммарной квадратичной ошибки S (6.37). При этом в качестве меры близости между точками кластера C
    i
    и его центром µ'
    i
    могут быть использованы L1 или Евклидова метрика расстояния. L1 – рас- стояние между P-мерными вектором x и центром µ'
    i
    – определяется выражением:
    1 1
    ( ,μ )
    μ
    P
    L
    i
    iv
    d
    x

    





    x
    ,
    (6.38) а Евклидово расстояние – выражением:
    2 1
    ( ,μ )
    (
    μ )
    P
    E
    i
    i
    iv
    d
    x
    





    x
    ,
    (6.39)
    Отмечают, что метрика (6.39) более предпочтительна по крите- рию точности по сравнению с метрикой (6.38), поэтому ее исполь- зование при кластеризации более целесообразно.
    Алгоритм k-means (алгоритм k-внутригрупповых средних,
    k-средних).Основан на минимизации функционала Q суммарной выборочной дисперсии, характеризующего разброс элементов от- носительно центров кластеров:
    Q = ∑ |𝑋
    𝑖
    | ∑
    𝑑(𝐱, 𝐶
    i
    )
    x∈𝑋
    𝑖
    i
    → min,
    (6.40) где С
    𝑖
    =
    1
    |𝑋
    𝑖
    |

    x x∈X
    i
    – центр кластера X
    i
    Алгоритм выполняется итерационно (рис. 21). На каждой итера- ции находятся центры кластеров, а также производится разбиение выборки на кластеры. Вычисления продолжаются, пока функцио- нал Q не перестанет уменьшаться.
    Порядок выполнения алгоритма следующий:
    1. Выделяются начальные центры кластеров
    С
    1
    (0)
    , … , С
    𝑚
    (0)
    , k = 0.
    2. Выборка разбивается на m кластеров по принципу ближай- шего соседства, и получаются некоторые кластеры 𝑋
    1
    (𝑘)
    , … , 𝑋
    𝑚
    (𝑘)
    3. Находим новые центры кластеров как
    𝐶
    𝑖
    (𝑘+1)
    =
    1
    |𝑋
    (𝑘)
    |

    x x∈X
    i
    (k)
    .,
    (6.41)
    4. Если не выполняется условие с
    𝑖
    (𝑘+1)
    = с
    𝑖
    (𝑘)
    для всех k = 1, …, m, то переходим на шаг 2.

    Интеллектуальный анализ данных
    88
    Рис. 21. Графическая иллюстрация работы алгоритма k-средних
    Пересчет кла- стерных цен- тров (покоорди- натных сред- них)
    Пересчет кла- стерных центров
    (покоординат- ных средних)
    Перераспределение объектов
    Перераспределение объектов
    Назначение каждого объекта наиболее под- ходящему (похожему кластеру)
    k = 2
    Произвольный выбор k объектов исходных цен- тров кластеров

    6. Основные методы анализа и интерпретации данных
    89
    Преимуществом алгоритма k-средних являются быстрота и про- стота реализации. К его недостаткам можно отнести неопределен- ность выбора числа и исходных центров кластеров, неверный выбор которых может вести к неудовлетворительным результатам работы итерационной процедуры или чрезмерному количеству необходи- мых итераций. Кроме того, алгоритм может быть чувствителен к выбросам, которые могут существенно искажать среднее. В этом случае может быть применена модификация алгоритма с использо- ванием k-медианы, имеющая, однако, бóльшую вычислительную сложность, препятствующую работе с большими наборами данных.
    6.5. Регрессия
    6.5.1. Понятие регрессии
    Термин регрессия (англ. regression, обратное движение) введен в
    1886 г. антропологом Ф. Гальтоном при изучении статистических закономерностей наследственности роста, которые позволили вы- явить линейную связь между средним ростом отцов и их сыновей.
    Причем рост отцов в среднем оказался выше, чем средний рост сы- новей, что позволило исследователю сделать вывод о «…регрессии
    к посредственности…», т.е. о снижении роста в популяции к ее среднему значению [18]. Вместе с подобным «прикладным» появ- лением термина «регрессия» справедливо отмечают и еще одно до- полнительное принципиальное основание. Термин регрессия также отражал новизну в очередности этапов исследования: сначала со- браны данные, а затем по ним угадана модель зависимости, в то время как традиционно данные использовались для проверки апри- ори построенных теоретических моделей. Позднее термин «регрес- сия» закрепился как канонический, отражающий методы восстанов- ления зависимостей между переменными.
    Сегодня под регрессией принято понимать зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин, а под регрессионным анализом – методы ис- следования взаимосвязи переменных. Если пространство объектов

    Интеллектуальный анализ данных
    90 обозначить как X и множество возможных ответов как Y, то суще- ствует неизвестная целевая зависимость y*: XY, значения кото- рой известны только на объектах обучающей выборки X

    = (x
    i
    , y
    i
    )

    i=1
    ,
    y
    i
    = y*(x
    i
    ). Требуется построить алгоритм, который принято назы- вать функцией регрессии f: XY, аппроксимирующий целевую зависимость y*. Наконец, задачу обучения по прецедентам (x
    i
    , y
    i
    ), позволяющую найти регрессионную зависимость y*, называют
    восстановлением регрессии [66].
    Следует отметить, что регрессионный подход не только позво- ляет выявлять зависимости между признаками, но и решает задачи прогнозирования (например, временного ряда на основе ретроспек- тивных данных), а также задачи классификации (например, путем использования кривой регрессии в качестве разделяющей плоско- сти между классами), примеры которых рассмотрены в разд. 3.1.4.
    6.5.2. Основные этапы регрессионного анализа
    Выделяют следующий обобщенный многоэтапный подход к ре- грессионному анализу:
    5. Формулировка задачи. На этом этапе формируются предвари- тельные гипотезы о зависимости исследуемых явлений.
    6. Определение зависимых и независимых (объясняющих) пере- менных.
    7. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.
    8. Формулировка гипотезы о форме связи (простая или множе- ственная, линейная или нелинейная).
    9. Определение функции регрессии (заключается в расчете чис- ленных значений параметров уравнения регрессии).
    10. Оценка точности регрессионного анализа.
    11. Интерпретация полученных результатов.
    12. Полученные результаты регрессионного анализа сравнива- ются с предварительными гипотезами. Оцениваются корректность и правдоподобие полученных результатов.
    13. Предсказание неизвестных значений зависимой переменной.

    6. Основные методы анализа и интерпретации данных
    91
    6.5.3. Методы восстановления регрессии
    Существует целый ряд методов восстановления регрессии. Приме- рами таких методов являются непараметрическая регрессия с ядерным сглаживанием, линейная и нелинейная регрессия, опорные векторы, регрессионные деревья решений, многомерные адаптивные регресси- онные сплайны (англ. Multivariate Adaptive Regression Splines, MARS), мультилинейная интерполяция (англ. Multilinear Interpolation), ради- альные базисные функции (англ. Radial Basis Functions), робастная ре- грессия (англ. Robust Regression), каскадная корреляция (англ. Cascade
    Correlation) и многие другие способы и подходы. Детали каждого из этих подходов могут быть найдены в специальной литературе.
    Вместе с тем большинство исследуемых на практике зависимо- стей может быть аппроксимировано стандартными нелинейными математическими функциями, для построения которых широко ис- пользуют метод наименьших квадратов (МНК). Его суть заключа- ется в следующем.
    Пусть задана модель регрессии – параметрическое семейство функций g(x, α), где α ∈ R
    p
    – вектор параметров модели. Определим функционал качества аппроксимации целевой зависимости на вы- борке X

    как сумму квадратов ошибок:
    Q(α, X

    )
    = ∑
    (𝑔(𝑥
    𝑖
    , α)– 𝑦
    𝑖
    )
    2

    𝑖=1
    (6.42)
    Обучение МНК состоит в том, чтобы найти вектор параметров
    α
    *
    , при котором достигается минимум среднего квадрата ошибки на заданной обучающей выборке X

    :
    α

    = arg min
    α∈R
    P
    𝑄(α, 𝑋

    ).
    (6.43)
    Стандартный способ решения этой оптимизационной задачи – вос- пользоваться необходимым условием минимума. Если функция g(x, α) достаточное число раз дифференцируема по α, то в точке минимума выполняется система p уравнений относительно p неизвестных:
    𝜕𝑄
    𝜕α
    (α, X

    ) = 2 ∑
    (𝑔(𝑥
    𝑖
    , α)– 𝑦
    𝑖
    )
    𝜕𝑔
    𝜕α

    𝑖=1
    (𝑥
    𝑖
    , α) = 0.
    (6.44)
    Решение системы таких уравнений (методами Гаусса или Кра- мера) позволяет найти необходимые коэффициенты α в уравнении регрессии.

    Интеллектуальный анализ данных
    92
    1   ...   4   5   6   7   8   9   10   11   ...   16


    написать администратору сайта