Главная страница
Навигация по странице:

  • 4.4 Формирование коллекции текстовых документов

  • 4.5 Организация процедур бустинга

  • Санктпетербургский


    Скачать 1.2 Mb.
    НазваниеСанктпетербургский
    Дата23.05.2023
    Размер1.2 Mb.
    Формат файлаpdf
    Имя файлаUch_Sis_anal_prin_resh_2021.pdf
    ТипУчебное пособие
    #1154744
    страница7 из 8
    1   2   3   4   5   6   7   8
    4.3 Статистические основы обработки тестового документа
    Полагаем, что задан текст, представленный набором слов, составленных определенным способом из ограниченного набора букв. Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частотой вхождения слова в исследуемый текст.
    Очевидно, что можно оценить количественно частоту обнаружения каждого слова в тексте. Не- которые слова будут иметь одинаковую частоту, а другие, напротив будут иметь различные значения частот. Эти наблюдения показывают возможность использования статистических ме- тодов анализа текста. Создадим группы слов с равными значениями частот. Расположим часто- ты по мере их убывания и пронумеруем. Порядковый номер частоты определим в качестве ран- га частоты. Так, например, наиболее часто встречающиеся слова будут иметь ранг 1, а следую- щие за ними слова индексируются рангами: 2, 3 и т.д. Следуя этим представлениям, положим, что вероятность обнаружения слова в тексте определяется отношением частоты вхождения слова в текст к общему количеству слов. где f i
    – частота вхождения слова в текст, N – количество слов в тексте.
    Можно отметить, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна для всего многообразия текстов одного и того же естественного языка. где R – ранг частоты
    Исследования большого количества текстов, которое принято называть корпусом, пока- зывают, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) - количество слов соответствующих данной частоте, то получившаяся кривая
    N
    f
    P
    i
    =
    N
    R
    i f
    C =

    Системный анализ и принятие решений Макаров Л.М.
    63 будет сохранять свои параметры для всех без исключения текстов. Установленная закономер- ность, обнаружена Д. Зипфом, позволяет создавать серию статистических оценок, связанных с семантическим содержанием документов. Исследования большого количества текстов показы- вают, что наиболее значимые слова лежат в определенной части диаграммы (рис. 4.3).
    Рисунок 4.3 Семантика текстового документа
    Это и понятно, поскольку такие слова задают основное смысловое поле текста. Слова, которые выделяются слишком часто, в основном оказываются предлогами и местоимениями.
    Такие слова следует исключать из анализа. Используя представления, введенные при анализе сигналов, можно сказать, что такие элементы текста являются шумом. Пользуясь этим принци- пом, можно указать на слова индексируемые малыми значениями частот встречаемости в тек- сте, которые также могут быть исключены из рассмотрения.
    Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вво- дят инверсную частоту термина. Значение этого параметра тем меньше, чем чаще слово встре- чается в документах базы данных. Вычисляют его по формуле:
    )
    log(
    F
    i
    N
    N
    =

    Системный анализ и принятие решений Макаров Л.М.
    64 где N – количество слов в корпусе документов, N
    i
    - количество встречаемости в тексте уста- новленного термина. В этом случае каждому термину можно присвоить весовой коэффициент w
    i j
    , отражающий его значимость: где w i j
    – весовой коэффициент значимости термина i в тексте j; f i
    j
    – частота встречаемости термина в тексте; F
    i
    – инверсная частота термина.
    Современные способы индексирования документов не ограничиваются анализом пере- численных параметров текста. Поисковая машина может строить весовые коэффициенты с уче- том местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и целого ряда других параметров.
    В качестве терминов могут выступать не только отдельные слова, но и словосочетания.
    Без этих законов сегодня не обходится ни одна система автоматического поиска информации в сети Интернет. Организация вычислительных процедур по отысканию необходимого информа- ционного ресурса осуществляется посредством статистических методов, учитывающих смыс- ловой характер документов.
    4.4 Формирование коллекции текстовых документов
    Анализ массива текстовых документов, проводимых человеком с целью создания груп- пы семантических схожих материалов, можно с уверенностью отнести к задаче эвристического поиска однородных групп. В такой задаче можно выделить отдельные процедуры, реализация которых требует проведения сравнения понятий терминов, а самом общем случае, сопоставле- ния слов из различных текстов.
    Деятельность человека при работе с текстовыми документами, группами текстовых до- кументов, представленных в коллекции, трудно формализуется. Опыт и знания эксперта, без- условно, являются важными в решении этой задачи, но высокий уровень эвристик порождает для разных экспертов большой набор оценок.
    Изначально полагаем, что текст состоит из слов, слова из букв. Количество различных букв в каждом языке ограничено и буквы, составляющие исходный алфавит, можно задать опе-
    i
    j
    i
    j
    i
    F
    f
    w =

    Системный анализ и принятие решений Макаров Л.М.
    65 рацией перечисления. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-грамм, сочетаемость букв друг с другом. Такое представление о тексте, как исходном материале анализа, позволяет в самом общем случае, фиксировать как от- дельные m – граммы букв, так и слов. Для достаточно больших текстовых массивов эти пред- ставления позволяют создавать статистические модели подобия. Рассмотрим типичную задачу формирования корпуса документов.
    Полагаем наличие процедуры, посредством которой реализуется подсчет числа вхожде- ний каждой n m
    возможных m-грамм в достаточно длинных открытых текстах T=t
    1
    ,t
    2
    ,…,t l
    , со- ставленных из букв алфавита {a
    1
    , a
    2
    , ..., a n
    }. При этом просматриваются подряд идущие m- граммы текста:
    Если
    )
    (
    2 1
    im
    i
    i
    a
    a
    a

    – число появлений m-граммы a i1
    a i2
    ...a im в тексте T, а L – общее число подсчитанных m-грамм, то при достаточно больших значениях параметра L име- ем:
    Это означает, что частоты для избранной m-граммы мало отличаются друг от друга. В силу этого, относительную частоту  считают приближением вероятности P (a i1
    a i2
    ...a im
    ) появле- ния данной m-граммы в случайно выбранном месте текста. Указанная закономерность хорошо известна, например, для типичных букв русского алфавита. Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово
    СЕНОВАЛИТР. Можно также предложить аналогичный способ запоминания частых букв ан- глийского языка, например с помощью слова TETRIS-HONDA.
    Устойчивыми являются также частотные характеристики m – грамм текстов, представ- ленных из разных областей знаний. Неравномерность m –грамм, в том числе и таких которые представлены словами, тесно связана с характерной особенностью открытого текста – наличи- ем в нем большого числа повторений отдельных фрагментов текста: корней, окончаний, суф- фиксов, слов и фраз. Систематически вопрос о зависимости букв алфавита в открытом тексте от предыдущих букв исследовался А. А. Марковым (1856 – 1922). Он доказал, что появления букв в открытом тексте нельзя считать независимыми друг от друга. Современные исследования
    l
    t
    m
    l
    m
    l
    m
    m
    t
    t
    t
    t
    t
    t
    t
    2 1
    1 3
    2 2
    1
    ,........,
    ,
    t
    +

    +

    +
    const
    L
    a
    a
    a
    im
    i
    i
    =
    )
    (
    2 1


    Системный анализ и принятие решений Макаров Л.М.
    66 статистических свойств текстов позволяют формировать статистические портреты текстового материала. Исследования открытых текстов показывает, что в каждом тексте можно выделить ключевые слова, для которых установлены значения вероятности встречаемости в тексте.
    Кластер текстовых документов можно определить как множество, представленное то- чечными элементами образов текстов. В свою очередь элементарный образ текста характеризу- ется некоторым набором ключевых слов, в общем случае m- грамм, с установленными значени- ями вероятностей вхождения в исходный текст.
    Для некоторого произвольно выбранного текста укажем набор m – грамм из трех ключе- вых слов: а
    1
    , а
    2
    , а
    3
    . Причем, первые две m – граммы выделим произвольно, а третью такую, что она в сочетании с первыми двумя образует семантически связанное суждение. В качестве ил- люстративного примера рассмотрим ключевые слова: формула – вставка – функция, для кото- рых установлены значения вероятности: Р(а
    1
    )=0,01; Р(а
    2
    )=0,015; Р(а
    2
    /a
    1
    )=0,012. Воспользуемся известным понятием об условной вероятности. Тогда можно записать выражение для искомой вероятности наступления события:
    Полученный результат свидетельствует о том, что произвольный выбор первых двух ключевых слов с малой долей вероятности позволяет сделать суждение о наличии описания функции в исследуемом тексте.
    Если изменить исходные данные: Р(а
    1
    )= 0,1; Р(а
    2
    )= 0,15; Р(а
    2
    /a
    1
    )= 0,012, то имеем –
    Р(А)=0,0138. В этом случае наблюдаемое повышение уровня вероятности обнаружения сужде- ния о наличии в тексте описания некоторой функции объясняется повышением значений веро- ятности обнаружения ключевых слов.
    В самом общем случае, можно дать рекомендации, которые сводятся к тому, что ключе- вые слова должны выбираться из текста с высокими значениями вероятности обнаружения.
    Использование таких слов в качестве основы построения суждений является необходимым условием.
    Рассмотрение исходного текста в качестве массива слов, для которых могут быть найде- ны вероятностные показатели, позволяет сформировать фрагменты семантической сети поня- тий, столь необходимые при формировании образа текста. Синтезируя наборы ключевых слов, представляется возможным формировать смысловой образ текстового материала.
    Расширяя понятия анализа текстовых массивов можно рассмотреть случай набора тек- стов, объединенных в корпус. Надо признать, что создание одинаковых по размеру корпусов
    00003
    ,
    0 012
    ,
    0
    *
    01
    ,
    0 015
    ,
    0
    *
    01
    ,
    0
    )
    /
    (
    *
    )
    (
    )
    (
    *
    )
    (
    )
    (
    1 2
    1 2
    1
    =

    =

    =
    a
    a
    P
    a
    P
    a
    P
    a
    P
    A
    P

    Системный анализ и принятие решений Макаров Л.М.
    67 текстов, близких по семантическим признакам, невозможно. Поскольку наборы текстов, вхо- дящих в корпус различаются своими размерами, конечные наборы также получаются различ- ными. Для работы с такими корпусами текстов требуется некоторая предварительная оценка суждений об адекватности корпусов и анализе входящих в них текстовых материалов.
    Сформулированные представления позволяют рассмотреть задачу получения статисти- ческой оценки равнозначности суждений, сформированной на произвольно выбранном корпусе текстовых документов.
    Положим, имеется 4 корпуса текстов, сформированных по единой тематике. Определим такой набор коллекцией. Полагаем, что первый корпус содержит R
    1
    =0,95 типичных материа- лов. По аналогии укажем значения типичных материалов в других корпусах: R
    2
    =0,97, R
    3
    =0,94,
    R
    4
    =0,91. При этом размер каждого корпуса в коллекции различен и составляет Q
    1
    =0,28, Q
    2
    =0,31, Q
    3
    =0,24, Q
    4
    =0,17, соответственно.
    Определим значение вероятности того, что в произвольно выбранном корпусе окажутся типичные материалы, отражающие существенные тематики избранной области знаний. Такую направленность проблемы выбора корпуса документов аргументируем наличием возможности иметь значительно больший набор корпусов, что, безусловно, потребует значительного време- ни анализа.
    Представим исходные данные в виде:
    P(A/A
    1
    )= R
    1
    P(A
    1
    )= Q
    1
    P(A/A
    2
    )= R
    2
    P(A
    2
    )= Q
    2
    P(A/A
    3
    )= R
    3
    P(A
    3
    )= Q
    3
    P(A/A
    4
    )= R
    4
    P(A
    4
    )= Q
    4
    Используя известное выражение для оценки вероятности выбора типичного документа из набора кластеров, можно записать:
    Полученный результат характеризует математическое ожидание или вероятность выбор- ки типичного документа. Фактически это долевая средняя, показывающая среднюю долю ти- пичных документов в четырех корпусах. Высокое значение вероятности выборки типичного документа позволяет избрать стратегию случайного анализа ключевых слов одного из докумен- тов, входящих в четыре корпуса.
    Полученный результат требуется уточнить. Необходимо установить минимальный раз-
    95
    ,
    0
    )
    /
    (
    )
    (
    )
    /
    (
    )
    (
    )
    /
    (
    )
    (
    )
    /
    (
    )
    P(A
    P(A)
    4 4
    3 3
    2 2
    1 1
    =
    +
    +
    +
    =
    A
    A
    P
    A
    P
    A
    A
    P
    A
    P
    A
    A
    P
    A
    P
    A
    A
    P

    Системный анализ и принятие решений Макаров Л.М.
    68
    0,7
    0,75
    0,8
    0,85
    0,9
    0,95
    1
    0,02
    0,05
    0,08
    0,11
    0,14
    0,17
    Размер корпуса R4 в коллекции
    Зн
    а
    ч
    е
    н
    и
    е
    в
    е
    р
    о
    я
    тн
    о
    с
    ти
    д
    о
    с
    то
    в
    е
    р
    н
    о
    й
    о
    ц
    е
    н
    ки
    мер одного из корпусов документов, при котором возможно обоснованное применение страте- гии случайного выбора. Используя известные наблюдения за экспертом в данной ситуации можно выдвинуть гипотезу о некотором минимальном размере корпуса, анализ которого он не станет проводить, оперируя понятиями малой достоверности получаемых суждений, на малом объеме данных.
    Проведем исследования по схеме: Q
    i
     Q min
    , вычислим значение P(A) для разных зна- чений Q
    i
    . Полагая, что все корпуса коллекции равнозначны, выберем в качестве переменной параметр Q
    4
    (2% - 17%). Проведем расчет и представим результат на рисунке 4.4.
    Полученный результат демонстрирует линейную зависимость, которая может быть по- лезна при выборе размеров корпусов текстов.
    Рисунок 4.4 Оценка достоверности суждений при различных размерах корпуса R
    4
    Для уточнения полученных результатов проведем исследование изменения значений ве- роятности достоверной оценки от размера тематических документов в одном из корпусов. Ре- зультат проведенных расчетов представим на рисунке 4.5.

    Системный анализ и принятие решений Макаров Л.М.
    69
    0,7
    0,75
    0,8
    0,85
    0,9
    0,95
    1
    0,7
    0,75
    0,8
    0,85
    0,9
    0,95
    Объем тематических документов в корпусе R4
    Зн
    а
    ч
    е
    н
    и
    е
    в
    е
    р
    о
    я
    тн
    о
    с
    ти
    д
    о
    с
    то
    в
    е
    р
    н
    о
    й
    о
    ц
    е
    н
    ки
    Рисунок 4.5 Оценка достоверности суждений при различных объемах текстовых материалов в корпусе R
    4
    Полученные результаты позволяют говорить о равнозначности приоритетов подбора, как размера корпусов, так и количества текстовых документов входящих в каждый корпус. Не акцентируя внимание на той или другой оценке можно признать их равнозначность при форми- ровании коллекции. Эти формальные результаты соответствуют интуитивным устремлениям эксперта, который на основе своих представлений формирует коллекцию документов.
    Представленные эскизные расчеты составляют основу построения многих тематических подборок документов, по которым проводится формирование суждений, как с целью установ- ления их подобия, так и извлечения дополнительной информации. Работа с коллекцией доку- ментов предполагает наличие процедур по формированию – подборке документов, каждый из которых может быть представлен разным объемом и отнесен к разному корпусу. Такие проце- дуры можно обнаружить при исполнении человеком творческой задачи анализа коллекции до- кументов.
    4.5 Организация процедур бустинга
    Простой алгоритм бустинга реализуется на основе статистического метода анализа тек- ста, применяемого к обучающим данным, где по результатам наблюдения за элементами текста определяется их частота. При работе с массивом документов – корпусом, исполняется процеду-

    Системный анализ и принятие решений Макаров Л.М.
    70 ра наблюдения за элементами корпуса (множества), а затем выполняется процедура вычисле- ния весовых коэффициентов для элементов корпуса. Укажем, что процедуры бустинга могут составлять основы различных обучающих методов, которые не поддерживают в явном виде ве- са или цены ошибок классификации. В этом случае случайное взятие подвыборок из выборок может применяться к обучающим данным на последовательных шагах итеративной процедуры повышения точности добычи знаний, где вероятность выбора наблюдения в подвыборке обрат- но пропорциональна точности прогноза для наблюдения на предыдущей итерации бустинга.
    Процедуры извлечения знаний из текстового массива формируются на представлении о векторной модели текста, основу которой составляют статистические понятия о распределении элементов текста. Векторная модель текста сформировалась на классических принципах стати- стики позволявших создать образ текстового материала в виде векторов в пространстве призна- ков. Принимая это за основу можно указать, что любой текст может быть поставлен в соответ- ствие точке в многомерном пространстве признаков, каждая координата которой соответствует частоте одного из его слов. Если допустить, что сходные мысли выражаются сходными слова- ми, то можно предположить, что тексты сходной тематики будут соответствовать простран- ственно-близким векторам.
    Очевидно, тематика обычно не зависит от длины текста, поэтому вектора нормируют, чтобы они также не зависели от длины. Для нормированных векторов в качестве меры про- странственной близости удобно использовать косинус угла между ними: эта величина легко рассчитывается скалярным произведением векторов.
    Простейшим применением векторной модели текста является классификация: выявление принадлежности текста одной из нескольких классификационных категорий. Другое очевидное применение - полнотекстовый поиск, который широко используется в поисковых системах.
    Идея полнотекстового поиска состоит в том, чтобы не просто находить ключевые слова в тексте, но учитывать их значение (семантическую составляющую) в тексте и предоставлять возможность ранжировать тексты по степени соответствия запросу. Векторная модель позволя- ет это сделать на основе предположения о том, что ключевое слово определяет тематику текста пропорционально частоте встречаемости. Это позволяет ранжировать текстовые документы в базе данных по степени релевантности запроса. Такая процедура осуществляется на основе скалярного произведения векторов, представляющих текст и запрос. Такой подход хорошо сра- батывает при необходимости найти тексты с тематикой, близкой к заданному тексту. Хотя ис- пользование его на коротких поисковых фразах приводит к менее впечатляющим результатам, это не мешает ему быть теоретической основой практически всех алгоритмов полнотекстового поиска.
    Тексты, являющиеся искаженной копией друг друга, порождают крайне близкие векто-

    Системный анализ и принятие решений Макаров Л.М.
    71 ра. Это обстоятельство дает основание применять исключительно статистические методы сопо- ставления текстовых документов. Эта близость много выше, чем близость текстов сходной те- матики. Поэтому нахождение векторов, особенно близких к вектору, представляющему данный текст, может использоваться для поиска дубликатов текста.
    В последнее время, в связи с особенным увлечением человечества проблемой копирайта, появился ряд алгоритмов, построенных на этой основе, например алгоритм Шинглов. Реализа- ция алгоритма подразумевает несколько этапов:
    • канонизация текстов;
    • разбиение текста на шинглы - элементы
    • нахождение контрольных сумм текстов
    • поиск одинаковых подпоследовательностей
    В алгоритме шинглов реализовано сравнение контрольных сумм текстов. Как известно, контрольные суммы статических функций очень чувствительны к изменениям. Алгоритм вы- числения контрольной суммы — способ цифровой идентификации некоторой последователь- ности данных, который заключается в вычислении контрольного значения ее циклического из- быточного кода. Полагая, что любой текст можно представить в виде набора слов – последова- тельных элементов, постулируется возможность реализации процедуры вычисления контроль- ных значений циклического избыточного кода.
    Алгоритм нахождения контрольных сумм текстов базируется на свойствах деления с остатком двоичных многочленов. Текущие значения являются остатком от деления многочле- на, соответствующего входным данным, на некий фиксированный порождающий многочлен.
    Например, конечной последовательности битов взаимнооднозначно со- поставляется двоичный многочлен
    , последовательность коэффициентов кото- рого представляет собой исходную последовательность. Например, последовательности битов
    1011010 соответствует многочлен:
    Алгоритм нахождения контрольных сумм можно отнести к процедуре хеширования - создания хеш функции. Хеширование — преобразование входного массива данных произвольной длины в выходную битовую строку фиксированной длины. Такие преобразования также называются хеш-функциями или функциями свертки, а их результаты называют хешем, хеш-кодом или

    Системный анализ и принятие решений Макаров Л.М.
    72 дайджестом сообщения. Сопоставление дайджест сообщений позволяет установить их подобие.
    Для выявления скрытых связей элементов текстового массива часто используется вос- произведение визуального образа. Распределение текстов в пространстве признаков можно ви- зуализировать. При этом в пространстве признаков находится поверхность, оптимальная с точ- ки зрения информативности проекции на нее, и распределение векторов в пространстве пред- ставляется проекцией на эту поверхность. Такое представление называют «картой признаков»: плотность распределения векторов выражается яркостью или цветом соответствующих участ- ков карты. На визуальном поле хорошо заметно, что в распределении текстов существует некий порядок: существуют области, в которых тексты группируются вместе, и которые разделены участками с низкой плотностью распределения векторов. Исследование таких областей пока- зывает, что они соответствуют текстам сходной тематики, что позволяет использовать карту признаков для навигации по коллекции текстов.
    Для организации навигации по коллекции текстов используются процедуры кластериза- ции. Так как различным областям распределения векторов можно поставить в соответствие различные темы, то на этой основе можно создать набор кластеров, который выявляет принад- лежность исходного текста к различным тематическим группам. Типичную процедуру класте- ризации текста и коллекции текстовых документов осуществляет модель нейронной сети Ко- хонена-Гроссберга. Это модель нейронной сети встречного распространения.
    По своим возможностям сети встречного распространения превосходят возможности однослойных сетей. Во встречном распространении объединены два хорошо известных алго- ритма: самоорганизующаяся карта Кохонена и звезда Гроссберга. При этом появляются свой- ства, которых нет ни у одного из них в отдельности. Методы, которые, подобно встречному распространению, объединяют различные сетевые парадигмы как строительные блоки, могут привести к сетям, более близким по архитектуре к мозгу, чем любые другие однородные струк- туры. Похоже, что в естественном мозге именно каскадные соединения модулей различной специализации позволяют выполнять требуемые вычисления.
    Сеть встречного распространения функционирует подобно «интеллектуальному агенту», способному к обобщению. В процессе настройки сети входные векторы ассоциируются с соот- ветствующими выходными векторами. Они могут быть двоичными, состоящими из нулей и единиц, или непрерывными. Когда сетьнастроена, приложение входного вектора приводит к требуемому выходному вектору. Обобщающая способность сети позволяет получать правиль- ный выход даже при приложении входного вектора, который является неполным или слегка искаженным (зашумленным). Таким образом, возможно, использовать данную сеть для распо- знавания образов, восстановления образов и усиления сигналов (рис. 4.6).

    Системный анализ и принятие решений Макаров Л.М.
    73
    Рисунок 4.6 Структура сети обратного распространения
    Нейроны слоя 0 (показанные кружками) служат лишь точками разветвления и не выпол- няют вычислений. Каждый нейрон слоя 0 соединен с каждым нейроном слоя 1 (называемого слоем Кохонена) отдельным весом Wij. Эти веса в целом рассматриваются как матрица весов
    W. Аналогично, каждый нейрон в слое Кохонена (слое 1) соединен с каждым нейроном в слое
    Гроссберга (слое 2) весом V ij. Эти веса образуют матрицу весов V.
    Множество весов нейронов Кохонена связывает каждый нейрон с каждым входом. По- добно нейронам выход, именуемый NET каждого нейрона Кохонена является суммой взвешен- ных входов. Формально это записывается в виде: где
    j
    NET
    — это выход J нейрона Кохонена,
    Нейрон Кохонена с максимальным значением NET является «победителем». Его выход равен единице, у остальных он равен нулю.
    Сеть Кохонена специальный тип нейронной сети, позволяющий производить кластери-
    ij
    i
    i
    x w
    NET
    1
    j

    =
    =

    Системный анализ и принятие решений Макаров Л.М.
    74 зацию объектов. Сеть Кохонена состоит всего из двух слоев – входного и выходного (рис. 4.7).
    Выходной слой часто называется «слой Кохонена». Каждый нейрон входного слоя связан со всеми нейронами выходного, а внутри слоев связей нет. На нейроны входного слоя подаются векторы признаков кластеризуемых текстов. Как и в обычной нейронной сети, входные нейро- ны не участвуют в процессе обучения и обработки данных, а просто распределяют входной сигнал по нейронам следующего слоя. Число входных нейронов равно размерности вектора признаков т.е. числу признаков исследуемого текста. Формально можно говорить о процедуре соотнесения некоторого входного объекта (документа) одному из кластеров, для которого до- бавление нового объекта не изменяет внутренней топологической целостности.
    Количество выходных нейронов сети Кохонена равно числу кластеров, которое должно быть построено моделью, и каждый нейрон ассоциирован с определенным кластером. Выходы обрабатываются по принципу «победитель забирает все», т.е. нейрон с наибольшим значением выхода выдает единицу, а остальные обращаются в 0.
    Рисунок 4.7 Схема нейронной сети Кохонена
    Таким образом, в результате обработки предъявленного сети объекта, на выходе одного из нейронов формируется 1, а на выходе остальных – 0. После чего объект относится к класте- ру, ассоциированному с единичным нейроном. Нейронная сеть позволяет проводить формиро- вание кластерного пространства, как с «учителем» так и посредством процедур самонастройки.
    Обучение сети Кохонена является самообучением, протекающим без учителя. Очень важно, что в процессе работы с такой сетью не возникает необходимости уточнять какой именно нейрон сети Кохонена будет активироваться для заданного входного вектора. Необходимо лишь гаран- тировать, чтобы в результате обучения разделялись несхожие входные векторы.
    Слой Гроссберга функционирует аналогично. Выход NET является взвешенной суммой выходов k1, k2, ….., kn, слоя Кохонена, образующих вектор K. Вектор соединяющих весов, обозначенный через V, состоит из весов v1, v2, …..,vij . Тогда выход NET каждого нейрона
    Гроссберга реализует процедуру:

    Системный анализ и принятие решений Макаров Л.М.
    75
    Где
    j
    NET
    — это выход J нейрона Гроссберга,
    Если слой Кохонена функционирует таким образом, что лишь у одного нейрона величи- на NET равна единице, а у остальных равна нулю, то всего один элемент вектора K отличен от нуля и вычисления очень просты. Фактически каждый нейрон слоя Гроссберга лишь выдает величину веса, который связывает этот нейрон с единственным ненулевым нейроном Кохонена.
    Слой Кохонена классифицирует входные векторы в группы схожих. Это достигается с помо- щью такой подстройки весов слоя Кохонена, что близкие входные векторы активируют один и тот же нейрон данного слоя. Затем задачей слоя Гроссберга является получение требуемых вы- ходов.
    Обучение Кохонена является самообучением, протекающим без учителя. Поэтому труд- но (и не нужно) предсказывать, какой именно нейрон Кохонена будет активироваться для за- данного входного вектора. Необходимо лишь гарантированно добиться, чтобы в результате обучения разделялись несхожие входные векторы.
    Для достижения этой цели требуется нормализовать входные векторы перед тем, как предъявлять их сети. Это выполняется с помощью деления каждой компоненты входного век- тора на длину вектора. Эта длина находится извлечением квадратного корня из суммы квадра- тов компонент вектора. В алгебраической форме это представляется процедурой:
    Это превращает входной вектор в единичный вектор с тем же самым направлением, т. е. в вектор единичной длины в n-мерном пространстве. Уравнение (4.1) обобщает хорошо извест- ную теорему Пифагора. На рис. 4.8 представлен двумерный вектор
    1   2   3   4   5   6   7   8


    написать администратору сайта