Главная страница
Навигация по странице:

  • 6.3. Классификация 6.3.1. Постановка задачи классификации

  • 6.3.2. Контролируемая непараметрическая классификация

  • 6.3.3. Контролируемая непараметрическая

  • Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных


    Скачать 2.95 Mb.
    НазваниеИнтеллектуальный анализ данных
    АнкорИнтеллектуальный анализ данных учебное пособие
    Дата30.09.2022
    Размер2.95 Mb.
    Формат файлаpdf
    Имя файлаИАД Лекции Замятин 20.pdf
    ТипУчебное пособие
    #707536
    страница6 из 16
    1   2   3   4   5   6   7   8   9   ...   16
    6.2.2. Без трансформации пространства признаков
    Основной идеей метода попарной разделимости ДМ для сни- жения размерности многомерных данных метода является использование перебора исходного P-мерного набора признаков
    x = {x
    i
    , i = 1, …, P} с целью максимизации заданного критерия ин- формативности и выделения подпространства y = {y
    i
    , i' = 1, …, P'} наиболее информативных полезных признаков. При этом в качестве критерия информативности признаков используется критерий инте- гральной разделимости известного набора классов {
    i
    , i = 1, …, M}, определяемых соответствующими обучающими выборками {V
    i
    ,
    i = 1, …, M}. Интегральная разделимость вычисляется как средне- взвешенное значение попарных классовых разделимостей, опреде- ляемых расстоянием ДМ (JM) [33], характеризующим среднее

    Интеллектуальный анализ данных
    60 расстояние между функциями условных плотностей распределения
    p(x|
    i
    ) и p(x|
    j
    ) соответствующей пары классов 
    i
    и 
    j
    . Расстояние
    JM
    ij
    между классами 
    i
    и 
    j
    определяется следующим выражением:
    𝐽𝑀
    𝑖𝑗
    = ∫ {√𝑝(𝐱|
    𝑖
    ) − √𝑝(𝐱|
    𝑗
    )}
    2
    𝑑𝐱
    x
    (6.3)
    Если в выражении (6.3) использовать предположение о нормаль- ном распределении условных плотностей вероятности распределения признаков x, то расчет критерия ДМ может быть представлен в виде:
    JM
    ij
    = 2(1 – e
    B
    ),
    (6.4) где – расстояние Бхаттачария [33], зависящее от параметров двух многомерных нормальных распределений N
    i
    (x
    i
    , 
    i
    ) и N
    j
    (x
    j
    , 
    j
    ), определяемых вектором средних µ и ковариационной матрицей  как
    𝐵 =
    1 8(µ
    𝑖
    –µ
    𝑗
    )
    T
    {
    𝑖+𝑗
    2
    }
    −1

    𝑖
    –µ
    𝑗
    )
    +
    1 2ln{
    |(𝑖+𝑗)/2|
    |𝑖|
    1 2|𝑗|
    1 2
    }
    (6.5)
    Для нахождения интегральной метрики разделимости JM
    ave всех классов признакового пространства используют вычисления с ис- пользованием элементов симметричной матрицы ||JM|| попарных разделимостей, расположенных выше главной диагонали
    𝐽𝑀
    ave
    = ∑

    𝑝(ω
    𝑖
    )𝑝(ω
    𝑗
    )𝐽𝑀
    𝑖𝑗
    𝑀
    𝑗=𝑖+1
    𝑀
    𝑖=1
    ,
    (6.6) где p(
    i
    ) и p(
    j
    ) – весовые коэффициенты (априорные вероятности) классов 
    i
    и 
    j
    соответственно. Функция JM
    ij
    – расстояния (6.3) асимптотически сходится к значению 2,0. Если элемент матрицы
    JM
    ij
    = 2,0, то это означает, что классы 
    i
    и 
    j
    абсолютно разделимы и вероятность их перепутывания равна нулю.
    Для снятия ограничения на согласованность распределения с гауссовым в распознаваемых классах вместо оценок (6.4) и (6.5) для расчета попарных классовых разделимостей JM
    ij
    используется оценка (6.3). В качестве метода численного интегрирования для нахождения значений оценки (6.3) применяется метод Монте-Карло вычисления кратных определенных интегралов.
    В силу высокой вычислительной сложности нахождения значе- ний оценки (6.3) задача полного перебора комбинаций исходных
    B

    6. Основные методы анализа и интерпретации данных
    61 признаков (количество сочетаний из P по P' – С
    𝑃

    𝑃
    ) заменяется усе- ченным перебором, основанном на отыскании информативных под- наборов (1–2 признака) в исходном P-мерном наборе признаков x из условия максимума критерия JM
    ave
    (6.6). Каждый найденный поднабор признаков добавляется в информативный набор y, и кри- терий JM
    ave проверяется для всех попавших в набор y компонент.
    Усеченный перебор исходных признаков из x завершается по дости- жении приемлемого значения критерия JM
    ave
    (обычно 1,9–2,0) или по завершении перебора всех исходных признаков x.
    Несмотря на бóльшую по сравнению с МГК вычислительную сложность, данный метод не накладывает ограничения на вид рас- пределения исходных признаков классифицируемых объектов и не вносит дополнительные искажения в признаковую структуру про- странства.
    6.3. Классификация
    6.3.1. Постановка задачи классификации
    Задачу классификации математически в общем случае можно представить следующим образом [67]. Для каждого класса 
    i
    из ис- ходного алфавита {
    i
    , i = 1, ..., M} (M – количество предопределен- ных типов) введем понятие вероятности появления класса 
    i
    в про- странстве признаков (x). Данная вероятность p(
    i
    ) называется
    априорной вероятностью класса 
    i
    . Также предположим, что для каждого класса 
    i
    известна многомерная (P-мерная) функция p(x| 
    i
    ), описывающая условную плотность распределения (УПР) вектора признаков x в классе 
    i
    , для которой справедливо
    ( | ω )
    1
    i
    i
    p
    d



    x
    x
    ,
    (6.7)
    Априорная вероятность p(
    i
    ) и УПР p(x
    |

    i
    ) являются наиболее полными вероятностными характеристиками класса 
    i
    Таким образом, задача классификации может быть сформулиро- вана в виде задачи статистических решений (испытание M стати-

    Интеллектуальный анализ данных
    62 стических гипотез) с помощью определения дискриминантной
    функции (x), принимающей значение 
    i
    в случае, когда принима- ется гипотеза H
    i
    :x
    i
    . Полагается, что принятие классификатором решения 
    i
    , когда в действительности входной образ принадлежит к классу 
    j
    , приводит к потере, определяемой функцией потерь
    L(
    i
    |

    j
    ). Тогда условный риск R(
    i
    |
    x)принятия решения 
    i
    в случае
    x 
    j
    находится как
    1
    (
    | )
    (
    | ω ) (ω | )
    M
    i
    i
    j
    j
    j
    R
    L
    p





    x
    x
    ,
    (6.8) где p(
    j
    |
    x) носит название апостериорной вероятности события
    x 
    j
    и вычисляется исходя из априорной вероятности p(
    i
    ) и условной плотности распределения p(x
    |

    i
    ) согласно теореме Бай- еса [67] следующим образом:
    1
    (ω ) ( | ω )
    (ω | )
    (ω )
    ( | ω )
    j
    j
    j
    M
    k
    k
    k
    k
    p
    p
    p
    p
    p



    x
    x
    x
    (6.9)
    Задача классификации сводится к выбору наименьшего услов- ного риска (6.8), т.е.
    (x) = 
    i
    : (x 
    i
    ), если R(
    i
    |
    x) < R(
    j
    |
    x),  ij.
    (6.10)
    Правило классификации (6.10) носит название байесовского
    решающего правила классификации. При использовании в (6.8) нуль-единичной функции потерь
    0,
    (
    |
    )
    ,
    1,...,
    1,
    i
    j
    i
    j
    L
    i j
    M
    i
    j


      

     

    (6.11) риск, соответствующий такой функции, является средней вероятно- стью ошибки (ложной классификации) и, исходя из (6.8) и (6.11), определяется как
    (
    | )
    (ω | ) 1
    (ω | ),
    i
    j
    i
    j i
    R
    p
    p



     

    x
    x
    x i, j = 1, ..., M.
    (6.12)
    Исходя из (6.10) и (6.12), дискриминантная функция 
    i
    (x) при использовании нуль-единичной функции потерь (6.11) выглядит следующим образом:

    i
    (x) = p(
    i
    ) p( x
    |

    i
    ), i, j = 1, ..., M,
    (6.13)

    6. Основные методы анализа и интерпретации данных
    63 и согласно (6.9) и (6.13) байесовское решающее правило (6.10) можно записать:
    m(x): x 
    i
    , если p(
    i
    ) p( x
    |

    i
    ) > p(
    j
    ) p( x
    |

    j
    ),  i j. (6.14)
    В параметрическом подходе к классификации при оценке УПР
    p(x
    |

    i
    ) принимается гипотеза о некотором известном виде плотно- сти распределения признаков (например, гауссовом), что позволяет использовать для нахождения p(x
    |

    i
    ) ее параметрическую оценку.
    Следует отметить, что УПР называют правдоподобием, а такой под- ход к классификации – методом максимального правдоподобия
    (англ. maximum likelihood, ML). В случае гауссова распределения ис- пользуется оценка вида [33]:


    1/ 2
    / 2 1
    ˆ
    ˆ
    ˆ
    ( | ω )
    (2 )
    exp 1/ 2(
    )
    (
    ) ,
    P
    t
    i
    i
    i
    i
    i
    p



     


      
     
    x
    x
    x
    i = 1, ..., M,
    (6.15) где 
    i
    – выборочный вектор средних типа 
    i
    ; 
    i
    – выборочная кова- риационная матрица типа 
    i
    ; P – количество признаков; |
    i
    | – детер- минант выборочной ковариационной матрицы типа 
    i
    ; 
    i
    –1
    – обрат- ная выборочная ковариационная матрица типа 
    i
    [67, 112]. При этом вычисление априорной вероятности p(
    i
    ) в выражении (6.9) производится с помощью простых способов, в которых p(
    i
    ) прини- мается равной для всех классов:
    p(
    i
    ) = p(
    j
    ),  i, j = 1, ..., M,
    (6.16) либо пропорциональной размеру имеющихся обучающих данных:
    1
    (
    )
    ,
    i
    i
    M
    k
    k
    N
    p
    N

     

    i = 1, ..., M,
    (6.17) где N
    k
    – размер обучающей выборки, соответствующий типу 
    k
    Классификацию, в основе которой лежит байесовское решающее правило (6.9), причем вне зависимости от вида используемой оценки УПР (параметрическая или непараметрическая), называют
    байесовской (англ. Bayes или Naive Bayes
    1
    ).
    1
    «Наивным» байесовский классификатор называют из-за предположения о неза- висимости признаков вектора x между собой.

    Интеллектуальный анализ данных
    64
    Таким образом, основой большинства современных классифика- торов является теорема Байеса, а их математический аппарат может быть реализован с использованием различных подходов. Среди них выделяют непараметрические статистические классификаторы, включающие простые, такие как классификатор по правилу парал- лелепипеда, и значительно более сложные, использующие в своей основе непараметрическое оценивание УПР признаков [58, 71, 97,
    117]. При классификации оценка УПР в выражении (6.9) на основе непараметрического подхода характеризуется меньшей чувстви- тельностью к статистическим характеристикам данных, эффективна с точки зрения точности классификации при произвольном (неиз- вестном) распределении признаков, в том числе и отличном от нор- мального (гауссова). Однако непараметрические классификаторы требуют перебора всех значений обучающей выборки при оценке
    УПР для каждого x, поэтому их отличают высокие вычислительные затраты. Рассмотрим более подробно этот подход в разд. 6.3.2.
    Также к непараметрическим относят нейросетевые классифика-
    торы, основанные на использовании аппарата искусственных
    нейронных сетей (ИНС)[100]. Однако в этом случае, как правило, не осуществляется оценка УПР. Для краткости изложения такие классификаторы называют нейросетевыми классификаторами, а искусственные нейронные сети – просто нейросетями. Рассмотрим их более подробно в разд. 6.3.3.
    В последнее время набирают популярность более математически сложные классификаторы с использованием машины опорных век-
    торов (англ. support vector machineSVM) [7, 33]. Они характери- зуются достаточно высокой устойчивостью к статистическим ха- рактеристикам исходных векторов признаков [37, 59]. При этом классификаторы SVM по сравнению с нейросетевыми классифика- торами для задач классификации в пространстве большой размер- ности выглядят предпочтительнее – при практической реализации они вместо многоэкстремальной задачи (с вероятностью попадания в локальный экстремум) решают задачу квадратичного программи- рования, имеющую единственное решение. Кроме того, разделяю- щие поверхности решения классификаторов SVM обладают более

    6. Основные методы анализа и интерпретации данных
    65 высокими дифференцирующими (разделяющими) возможностями за счет максимизации ширины разделяющей полосы [37, 59]. Это относит такие классификаторы к перспективным с точки зрения вы- числительной эффективности и точности. Детали построения таких классификаторов изложены в разд. 6.3.4.
    6.3.2. Контролируемая непараметрическая классификация
    Как отмечено выше, для проведения классификации признаков, распределение которых априори неизвестно или не согласовано с нормальным законом распределения, используют различные под- ходы к непараметрической оценке плотности распределения. Среди них наиболее широкое распространение получил подход к оценке
    УПР по методу k-го ближайшего соседа (для краткости будем при- водить англоязычную аббревиатуру названия метода – k-NN), кото- рая определяется, исходя из выражения [117]:
    1 1
    ( |
    )
    V(
    ,
    , )
    P
    i
    P
    k
    p
    N
    k
    N

     
    x
    x
    , i = 1, ..., M,
    (6.18) где k
    P
    – параметр близости соседа, N – величина выборки, V(k
    P
    , N, x) – объем множества всех элементов обучающей выборки, расстояние которых до точки x в P-мерном пространстве меньше или равно R
    k
    P
    В случае использования евклидова расстояния
    / 2 1/2
    V(
    , , )
    A
    [(
    2) / 2]
    P
    P
    k
    P
    R
    k N
    P




    x
    ,
    (6.19) где Ггамма-функция, A– единичная матрица.
    В выражении (6.18) величина k
    P
    является параметром, при этом существует ряд методик нахождения ее оптимального значения
    k
    опт
    [117]. К сожалению, поиск значения k
    опт ведет к увеличению вы- числительной сложности алгоритмов оценки УПР, что затрудняет их использование при решении практических задач. Поэтому на практике значение k
    P
    часто принимают фиксированным (например,
    1, 3, 21, 87,
    N
    , где N – размер выборки [20, 23, 25, 117]). При этом очевидно, что большее значение k
    P
    требует большего количества

    Интеллектуальный анализ данных
    66 операций по расчету расстояния R
    k
    P
    в (6.19), что ведет к дополни- тельным вычислительным затратам при классификации. Поэтому, учитывая важность проведения непараметрической классификации с высокой вычислительной эффективностью, это значение прини- мают фиксированным (например, k
    P
    = 3).
    Выше отмечено, что более широкому использованию непарамет- рических подходов к оценке плотности распределения препят- ствует их низкая вычислительная эффективность, связанная с необ- ходимостью перебора всех значений обучающей выборки для оценки УПР в точке x P-мерного пространства. Поэтому задача по- вышения вычислительной эффективности оценки УПР в непара- метрических методах оценки плотности для решения практических задач классификации является отдельной, интенсивно разрабатыва- емой, областью исследований [77, 99].
    6.3.3. Контролируемая непараметрическая
    нейросетевая классификация
    На сегодняшний день нейросетевой аппарат достаточно широко применяется при решении самых различных задач классификации, прогнозирования, оценки плотности распределения, поэтому при- ведем здесь лишь некоторые необходимые пояснения, связанные с областью ИНС [7, 100]. Так, широко используется такое понятие, как формальный нейрон, представляющий собой упрощенную ма- тематическую абстракцию биологического нейрона (рис. 13).
    Каждый такой нейрон обладает группой синапсов – однонаправ- ленных входных связей, соединенных с выходами других нейронов, а также имеет аксон – выходную связь данного нейрона, с которой сигнал может поступать на синапсы других нейронов. Каждый си- напс характеризуется величиной синаптической связи или ее весом
    w
    i
    . Кроме того, важной характеристикой любого формального нейрона является функция активации, или пороговая функция f (S).
    Наиболее распространенными пороговыми функциями являются сигмоидные функции типа гиперболического тангенса и логистиче- ской функции [98].

    6. Основные методы анализа и интерпретации данных
    67
    Рис. 13. Схема формального нейрона
    Наиболее популярными и широко распространенными, в том числе и для решения задач контролируемой классификации, явля- ются нейросети прямого распространения – многослойные персеп-
    троны [98]. Они позволяют работать с данными произвольного рас- пределения и учитывать такие закономерности в данных, которые затруднительно учесть другими методами [7].
    Потенциально нейросетевые классификаторы обладают рядом существенных преимуществ по сравнению с традиционными стати- стическими классификаторами. Так, в качестве входных данных для них можно использовать трудноформализуемые взаимозависимые факторы произвольного распределения. Нейросетевые классифика- торы учитывают такие закономерности в данных, которые порой не могут быть учтены никаким другим классификатором [7, 100]. При этом точность классификации нейросетевых классификаторов вы- сока и приближается к байесовской [98].
    Несмотря на очевидные достоинства нейросетевого подхода при классификации, существует ряд проблем, требующих решения [7, 100].
    Одной из основных проблем является необходимость экспертного обучения нейросети. При этом требует решения задача определения оптимальных параметров, задающих структуру нейросети, а также параметров ее обучения. Решение этой задачи для данных различ- ной природы может иметь длительный итерационный характер, что для конечного пользователя может оказаться неприемлемым.
    Аксон
    Выход
    𝑌 = 𝑓(𝑆)
    S
    𝑥
    1
    𝑥
    2
    𝑥
    3
    𝑤
    1
    𝑤
    3
    𝑤
    2
    Входы Синапсы

    Интеллектуальный анализ данных
    68
    Существуют некоторые сложности практического применения нейросетей при решении практических задач классификации. В част- ности, применение многослойного персептрона (далее – просто нейросети) связано с решением одной из таких задач, заключающейся в определении его оптимальной топологии – количества слоев и эле- ментов (нейронов) в них. Именно правильно выбранная топология во многом определяет перспективность использования нейросетей в том или ином случае. Минимально необходимое количество элементов нейросети позволит быстро ее обучить и получить точные результаты ее применения. Однако задача определения топологии нейросети яв- ляется сложной и окончательно до сих пор не решена. В [41] предла- гается неравенство для оценки числа синаптических связей N
    w
    в виде:
     


    2 1
    1 1 log
    y
    p
    p
    w
    y
    x
    y
    y
    x
    p
    N N
    N
    N
    N
    N
    N
    N
    N
    N






     





    , (6.20) где N
    y
    размерность выходного вектора, N
    p
    число примеров обу- чающей выборки, N
    x
    размерность входного вектора. Для практи- чески значимого варианта нейросети с одним скрытым слоем число нейронов N в нем можно определить как
    w
    x
    y
    N
    N
    N
    N


    ,
    (6.21)
    При использовании выражений (6.20) и (6.21) число нейронов скрытого слоя, как правило, получается бóльшим, чем выбранное при решении практических задач эмпирически, поэтому предлагается использовать это число только в качестве рекомендации, а оконча- тельное решение по параметрам нейросети принимать эмпирически.
    Отметим два наиболее широко используемых на практике спо- соба определения числа нейронов в выходном слое:
    1. Число нейронов равно одному (рис. 14, а). Выход интерпрети- руется как вероятность принадлежности к конкретному типу (классу).
    2. Число нейронов более одного. Например, оно может быть равно количеству классов (рис. 14, б) или представлять собой некоторый вектор, значения которого интерпретируется в более сложной процеду- ре использования нейросети при оценке плотности распределения [40].

    69
    6. Основные методы анализа и интерпретации данных
    а
    б
    Р
    ис
    14
    Не йр ос етев ы
    е то по ло гии
    :
    а
    – оди н в ы
    хо д,
    б
    – не ск ол ьк о вы хо до в
    𝑥
    1
    𝑓
    1
    𝑥
    2
    𝑓
    2
    𝑥
    𝑁
    𝑥
    𝑓
    𝑁


    𝑖=
    1
    𝑁
    𝑥
    𝑖
    (1
    )
    𝑤
    𝑖1
    (1
    )
    𝑓
    1
    (1
    )

    𝑖=
    1
    𝑁
    𝑥
    𝑖
    (1
    )
    𝑤
    𝑖2
    (1
    )
    𝑓
    2
    (1
    )

    𝑖=
    1
    𝑁
    𝑥
    𝑖
    (1
    )
    𝑤
    𝑖𝐿
    (1
    )

    𝑓
    𝐿
    (1
    )

    𝑖=
    1
    𝐿
    𝑥
    𝑖
    (2
    )
    𝑤
    𝑖2
    (2
    )
    𝑓
    2
    (1
    )
    𝑑
    1
    Вхо
    дно
    й
    скр
    ы
    ты
    й
    вы
    хо
    дно
    й
    𝑥
    1
    𝑓
    1
    𝑥
    2
    𝑓
    2
    𝑥
    𝑁
    𝑥
    𝑓
    𝑁


    𝑖=
    1
    𝑁
    𝑥
    𝑖
    (1
    )
    𝑤
    𝑖1
    (1
    )
    𝑓
    1
    (1
    )

    𝑖=
    1
    𝑁
    𝑥
    𝑖
    (1
    )
    𝑤
    𝑖2
    (1
    )
    𝑓
    2
    (1
    )

    𝑖=
    1
    𝑁
    𝑥
    𝑖
    (1
    )
    𝑤
    𝑖𝐿
    (1
    )

    𝑓
    𝐿
    (1
    )

    𝑖=
    1
    𝐿
    𝑥
    𝑖
    (2
    )
    𝑤
    𝑖2
    (2
    )
    𝑓
    2
    (2
    )
    𝑑
    2
    Вхо
    дно
    й
    с
    кр
    ы
    тый
    вы
    хо
    дно
    й

    𝑖=
    1
    𝐿
    𝑥
    𝑖
    (2
    )
    𝑤
    𝑖1
    (2
    )
    𝑓
    1
    (2
    )
    𝑑
    1

    𝑖=
    1
    𝐿
    𝑥
    𝑖
    (2
    )
    𝑤
    𝑖𝑁
    𝑦
    (2
    )
    𝑓
    𝑁
    𝑦
    (2
    )
    𝑑
    𝑁
    𝑦

    Интеллектуальный анализ данных
    70
    Важным и необходимым этапом практического использования любой нейросети является процесс ее обучения. Обучение нейросети в общем случае представляет собой поиск глобального минимума многомерной целевой функции путем «исследования» нейросетью многомерного пространства выборочных обучающих данных и подстройкой w
    i
    и параметров функций активации f [7, 100].
    Обучающие данные представляют собой множество входных век- торов X = {X
    i
    , i = 1, ..., N
    p
    }
    и множество известных выходных векторов
    A = {A
    i
    , i = 1, ..., N
    p
    }, где X
    i
    = {x
    1
    , x
    2
    , ..., x
    Nx
    } и A
    i
    = {a
    1
    , a
    2
    , ..., a
    Ny
    }.
    В процессе обучения минимизируется значение среднеквадратиче- ской ошибки (СКО), вычисляемой согласно выражению [100]:


    2 1
    1 2
    M
    i
    i
    i
    E
    A
    Y




    ,
    (6.22) где Y
    i
    = {y
    1
    , y
    2
    , ..., y
    Ny
    } – фактические значения, получаемые с выхо- дов нейросети.
    При программной реализации моделей нейросетей и их исполь- зовании наиболее часто в качестве алгоритма обучения применяют градиентный алгоритм обратного распространения ошибки или его модификации [41]. Этот алгоритм обладает устойчивой сходи- мостью и приемлемыми требованиями к ресурсам вычислительной техники.
    1   2   3   4   5   6   7   8   9   ...   16


    написать администратору сайта