Главная страница
Навигация по странице:

  • 7.4. Машина Больцмана

  • 7.5. Нейронная сеть Хемминга

  • 7.6. Двунаправленная ассоциативная память

  • Учебник ИИ. _Учебник ИНС_2014_Э4743. Учебник рекомендовано Ученым советом Вятгу в качестве учебного пособия Киров 2014


    Скачать 3.7 Mb.
    НазваниеУчебник рекомендовано Ученым советом Вятгу в качестве учебного пособия Киров 2014
    АнкорУчебник ИИ
    Дата13.02.2023
    Размер3.7 Mb.
    Формат файлаpdf
    Имя файла_Учебник ИНС_2014_Э4743.pdf
    ТипУчебник
    #934553
    страница8 из 13
    1   ...   5   6   7   8   9   10   11   12   13
    7.3. Нейронная сеть Хопфилда
    В 1982 году американский биофизик Д. Хопфилд представил математический анализ релаксационных сетей с обратными связями.
    Поэтому такие НС получили название сетей Хопфилда. НС Хопфилда реализует существенное свойство авто ассоциативной памяти – восстановление по искаженному (зашумленному) образцу ближайшего к нему эталонного. В этом случае входной вектор используется как

    107 начальное состояние сети, и далее сеть эволюционирует согласно своей динамике. Причем любой пример, находящийся в области притяжения хранимого образца, может быть использован как указатель для его восстановления. Выходной восстановленный образец формируется, когда сеть достигает равновесия.
    Как видно на рисунке 1 структура сети Хопфилда представляется в виде системы с непосредственной обратной связью выхода со входом.
    Выходные сигналы нейронов являются одновременно входными сигналами сети:
    )
    1
    (
    )
    (


    k
    y
    k
    x
    i
    i
    . В классической сети Хопфилда отсутствует связь выхода нейрона с его собственным входом, что соответствует, а матрица весов является симметричной:
    T
    W
    W

    . Отсутствие авто связи и симметричность матрицы весов являются достаточными, но не необходимыми условиями сходимости переходных (итерационных) процессов в сети Хопфилда.
    Наиболее часто используется в качестве функции активации используется биполярная ступенчатая функция активации со значениями, то есть выходной сигнал i-го нейрона определяется функцией:
    )
    sgn(
    0
    i
    j
    n
    j
    ij
    i
    b
    x
    w
    y




    ,
    (7.2) где sgn – функция определения знака.
    Если порог срабатывания функции (7.2) является компонентой вектора X. Тогда основную зависимость, определяющую сеть Хопфилда, можно представить в виде:
    ))
    1
    (
    sgn(
    )
    (
    0




    k
    y
    w
    k
    y
    j
    n
    j
    ij
    i
    (7.3)

    108
    Рис.7.1. Структура нейронной сети Хопфилда
    В процессе функционирования сети Хопфилда можно выделить два режима: обучения и классификации. В режиме обучения на основе известных векторов подбираются весовые коэффициенты сети. В режиме классификации при фиксированных значениях весов и вводе конкретного начального состояния нейронов возникает переходный процесс вида (7.3), завершающийся в одном из локальных минимумов, для которого.
    Важным параметром ассоциативной памяти является ее емкость. Под емкостью понимается максимальное число запомненных образов, которые классифицируются с допустимой погрешностью. Показано, что при использовании для обучения правила Хебба и при max
    e
    =0,01 (1% компонентов образа отличается от нормального состояния) максимальная емкость памяти составит всего лишь около 13,8% от количества нейронов, образующих ассоциативную память. Столь малая емкость обусловлена

    109 тем, что сеть Хебба хорошо запоминает только взаимно ортогональные векторы или близкие к ним.
    Три наиболее часто используемых метода обучения сети Хопфилда: правило Хебба, метод проекций, метод дельта проекций.
    Для одного обучающего вектора значения весов могут быть вычислены по правилу Хебба: так как вследствие биполярных значений элементов вектора X, то есть всегда. При вводе большего количества обучающих векторов веса подбираются согласно обобщенному правилу
    Хебба:



    p
    k
    k
    j
    k
    i
    ij
    x
    x
    n
    w
    0
    )
    (
    )
    (
    1
    (7.4)
    Лучшие результаты, чем при использовании правила Хебба, можно получить, если для обучения использовать псевдо инверсию. В основе этого подхода лежит предположение, что при правильно подобранных весах каждый поданный на вход сети вектор вызывает генерацию самого себя на выходе сети. В матричной форме это можно представить в виде, где W матрица весов сети размерностью, а X – прямоугольная матрица размерностью
    p
    n

    , составленная из p обучающих векторов
    p
    k
    k
    X
    ,
    1
    ),
    (

    Решение такой линейной системы уравнений имеет вид, где знак + обозначает псевдо инверсию. Если обучающие векторы линейно независимы, последнее выражение можно упростить и представить в виде:
    T
    T
    X
    X
    X
    X
    W
    1
    )
    (


    (7.5)
    В выражении (7.4) псевдо инверсия заменена обычной инверсией квадратной матрицы
    X
    X
    T
    размерностью. Выражение (7.4) можно записать в итерационной форме, не требующей расчета обратной матрицы. В этом случае
    (7.4) принимает вид итерационной зависимости от последовательности обучающих векторов
    p
    k
    k
    X
    ,
    1
    ),
    (

    :

    110
    )
    (
    )
    1
    (
    )
    (
    )
    (
    k
    k
    k
    x
    E
    W
    y



    ,
    (7.6) при начальных условиях
    0
    )
    0
    (

    W
    . В результате предъявления p векторов матрица весов сети принимает значение. Такое обучение увеличивает максимальную емкость сети Хопфилда до. Увеличение емкости обусловлено тем, что в методе проекций требование ортогональности векторов заменено гораздо менее жестким требованием их линейной независимости.
    Модифицированный вариант метода проекций – метод

    -проекций представляет из себя градиентную форму алгоритма минимизации. В соответствии с этим методом веса подбираются с помощью процедуры, многократно повторяемой на всем множестве обучающих векторов:
    T
    k
    k
    k
    x
    Wx
    x
    n
    h
    W
    W
    )
    )(
    (
    )
    (
    )
    (
    )
    (



    (7.7)
    Процесс (7.7) повторяется многократно по всем векторам вплоть до стабилизации значений весов.
    После обучения сети Хопфилда по одному из алгоритмов (7.5), (7.6) или (7.7), сеть способна распознавать вектора, подаваемые на её вход.
    Алгоритм функционирования обученной сети состоит из трех следующих этапов.
    На входы сети подается неизвестный сигнал. Фактически его ввод осуществляется непосредственной установкой значений аксонов: (в данном случае индекс в скобках указывает номер итерации), поэтому обозначение на схеме сети входных синапсов в явном виде носит чисто условный характер.
    Второй этап работы заключается в смене состояния сети: рассчитывается новое состояние нейронов





    n
    i
    m
    i
    ij
    m
    j
    n
    j
    y
    w
    s
    1
    )
    (
    )
    1
    (
    ,
    1
    и новые значения аксонов.

    111
    На третьем этапе выполняется проверка, изменились ли выходные значения аксонов за последнюю итерацию. Если да – переход к пункту 2, иначе (если выходы стабилизировались) – конец. При этом выходной вектор представляет собой образец, наилучшим образом (в смысле сети
    Хопфилда) сочетающийся с входными данными.
    Недостатком классического варианта сети Хопфилда является тенденция к стабилизации в точках локального, а не глобального минимума энергии сети Е. Одним из вариантов устранения этого недостатка является применение стохастических методов задания состояний нейронов.
    7.4. Машина Больцмана
    При решении технических и экономических задач неизвестна даже приблизительная оценка глобального экстремума. Это обуславливает применение методов глобальной оптимизации. НС Хопфилда находит локальный минимум задачи оптимизации. Для устранения этого недостатка можно использовать машину Больцмана, которая является расширением сети Хопфилда. В основе сети Больцмана лежит метод имитационного отжига (управляемого охлаждения), который является разновидностью процедуры случайного поиска. В своей базовой форме машина Больцмана является сетью Хопфилда и их структуры полностью совпадают. Метод имитации отжига представляет собой алгоритмический аналог физического процесса управляемого охлаждения. Он был предложен Метрополисом в 1953 году. Данный метод позволяет находить глобальный минимум функции нескольких переменных.
    При отвердевании расплавленного металла его температура должна уменьшаться постепенно до момента полной кристаллизации. Если процесс остывания протекает слишком быстро, то образуются

    112 нерегулярности структуры металла, которые вызывают внутренние напряжения. В результате общее энергетическое состояние тела, зависящее от внутренней напряженности, остается более высоким, чем при медленном охлаждении. Быстрая фиксация энергетического состояния тела на уровне выше нормального соответствует сходимости оптимизационного алгоритма к точке локального минимума. Энергия состояния тела соответствует целевой функции, а абсолютный минимум – точке глобального минимума. Метод имитации отжига представляет собой алгоритмический аналог физического процесса управляемого охлаждения.
    Это метод позволяет находить глобальный минимум функции нескольких переменных.
    Алгоритм обучения Больцмана:
    1. Определить переменную T, представляющую искусственную температуру. Придать T большое начальное значение.
    2. Предъявить сети множество входов и вычислить выходы и целевую функцию.
    3. Придать случайное изменение весу и пересчитать выход сети и изменение целевой функции в соответствии со сделанным изменением веса.
    4. Если целевая функция уменьшилась (улучшилась), то сохранить изменение веса. Если изменение веса приводит к увеличению целевой функции, то вероятность сохранения этого изменения вычисляется с помощью распределения Больцмана:
    kT
    c
    e
    c
    P


    )
    (
    (8) где P(c) — вероятность изменения с в целевой функции; k — константа, аналогичная константе Больцмана, выбираемая в зависимости от задачи; T — искусственная температура.
    Выбирается случайное число r из равномерного распределения от нуля до единицы. Если, то изменение сохраняется, в противном случае

    113 величина веса возвращается к предыдущему значению. Это позволяет системе делать случайный шаг в направлении, увеличивающем целевую функцию, и дает ей тем самым возможность вырываться из локальных минимумов, где любой малый шаг увеличивает целевую функцию.
    Для завершения обучения машины Больцмана повторяются шаги 3 и
    4 для каждого из весов сети, с постепенным уменьшением температуры T, пока не будет достигнуто допустимо низкое значение целевой функции. В этот момент предъявляется другой входной вектор, и процесс обучения повторяется. Сеть обучается на всех векторах обучающего множества, с возможным повторением, пока целевая функция не станет допустимой для всех обучающих векторов.
    Величина случайного изменения веса на шаге 3 может определяться различными способами. Например, подобно тепловой системе, весовое изменение может выбираться в соответствии с гауссовским распределением:
    2 2
    )
    '
    (
    )
    '
    (
    T
    w
    e
    w
    P


    где

    вероятность изменения веса на величину.
    Машина Больцмана, учась на высокой температуре, ведет себя как случайная модель, а на низких температурах проявляет себя как детерминированная. Из-за случайной компоненты в процессе обучения, нейрон может принять новое значение состояния, которое увеличивается быстрее, чем уменьшается общее пространство состояний. Имитация физического отжига позволяет продвигаться к глобальному минимуму, избегая локальный. Для достижения сходимости к глобальному минимуму энергии скорость уменьшения температуры должна быть обратно пропорциональна логарифму времени.
    Как и в сети Хопфилда, сети может быть представлен частичный образ для восстановления отсутствующей информации. Ограничение на

    114 число распознаваемых образов оценивается, как и в сети Хопфилда классов – менее 15 % от общего количества элементов в слое.
    7.5. Нейронная сеть Хемминга
    Когда нет необходимости, чтобы сеть в явном виде выдавала образец, то есть достаточно, скажем, получать номер образца, ассоциативную память успешно реализует сеть Хэмминга. Данная сеть характеризуется, по сравнению с сетью Хопфилда, меньшими затратами на память и объемом вычислений.
    Достоинством сети Хемминга считается небольшое количество взвешенных связей между нейронами. Многочисленные эксперименты доказали, что сеть Хемминга дает лучшие результаты, чем сеть Хопфилда.
    Единственная проблема, связанная с сетью Хемминга, проявляется в случае, когда зашумленные образы находятся на одинаковом (в смысле
    Хемминга) расстоянии от двух или более эталонов. В этом случае выбор сетью Хемминга одного из эталонов становится случайным.
    Как видно на рисунке 2 сеть Хемминга включает в себя два слоя.
    Первый слой имеет однонаправленное распространение сигналов от входа к выходу и фиксированные значения весов. Второй слой состоит из нейронов, связанных обратными связями по принципу "каждый с каждым", при этом в каждом нейроне слоя существует авто связь (связь входа нейрона со своим собственным выходом). Количество нейронов в каждом слое сети равно количеству запоминаемых векторов.
    Разные нейроны во втором слое связаны отрицательной
    (тормозящей) обратной связью с весом, при этом величина обычно обратно пропорциональна количеству образов. С собственным входом нейрон связан положительной (возбуждающей) обратной связью с весом, равным

    115
    +1. Пороговые веса нейронов приняты равными нулю. Нейроны этого слоя функционируют в режиме WTA (англ.: Winner Takes All - "победитель получает все"), при котором в каждой фиксированной ситуации активизируется только один нейрон, а остальные пребывают в состоянии покоя [1,3,4].
    Рис.7.2. Структура нейронной сети Хемминга
    Обучение сети Хемминга заключается в предварительном расчете значений весовых коэффициентов и порогов активации нейронов по следующим правилам. Весам первого слоя присваиваются значения, рассчитываемые по выражению:
    p
    k
    n
    i
    x
    w
    k
    i
    ik
    ,
    1
    ,
    ,
    1
    ,
    2 1



    ,
    (7.9) при этом пороги активационных функций равны:

    116
    p
    k
    n
    T
    k
    ,
    1
    ,
    2


    (7.10)
    Как отмечалось ранее, веса связи i-го и j-го нейронов второго слоя равны:
    p
    j
    i
    j
    i
    w
    ij
    1 0
    ,
    1
    ,
    2











    (7.11)
    После обучения сети по формулам (7.9-7.11), сеть способна распознавать вектора, подаваемые на её вход. На входы сети подается неизвестный вектор X, исходя из которого, рассчитываются состояния нейронов первого слоя. Значения выходных сигналов нейронов определяются по формуле:





    n
    i
    j
    i
    ji
    j
    m
    j
    T
    x
    w
    y
    1 1
    ,
    1
    ,
    (7.12)
    Эти сигналы становятся начальными состояниями нейронов второго слоя. Этот слой определяет "победителя", то есть нейрон, выходной сигнал которого близок к 1. Такой нейрон указывает на вектор образа с минимальным расстоянием Хемминга до входного вектора X. Нейрон- победитель определяется итерационным процессом расчета состояний нейронов второго слоя за счет ослабления весами входных сигналов слоя:
    p
    j
    j
    k
    z
    y
    z
    y
    f
    z
    y
    p
    k
    k
    j
    j
    ,
    1
    ,
    ),
    )
    (
    )
    (
    (
    )
    1
    (
    1 2
    2 2








    (7.13)
    Итерационный процесс (13) во втором слое завершается, когда активным остается только один нейрон (его выход имеет значение близкое к 1), тогда как остальные нейроны пребывают в близком к нулю состоянии.

    117
    7.6. Двунаправленная ассоциативная память
    Память человека часто является ассоциативной; один предмет напоминает нам о другом, а этот другой о третьем. Если позволить нашим мыслям, они будут перемещаться от предмета к предмету по цепочке умственных ассоциаций. Кроме того, возможно использование способности к ассоциациям для восстановления забытых образов. Рене рассмотренные модели ассоциативной памяти являются строго говоря, авто ассоциативными, это означает, что образ может быть завершен или исправлен, но не может быть ассоциирован с другим образом. Данный факт является результатом одноуровневой структуры ассоциативной памяти, в которой вектор появляется на выходе тех же нейронов, на которые поступает входной вектор.
    Обобщением сети Хопфилда на случай двухслойной рекуррентной структуры, позволяющей кодировать множества пар взаимосвязанных векторов
    (X
    k
    ,
    Yk), считается двунаправленное ассоциативное запоминающее устройство, называемое Двунаправленной Ассоциативной
    Памятью (ДАП, англ.: Bidirectional Associative Memory (BAM)). В общем случае размерности n и m соответственно векторов X и Y не совпадают. В публикациях
    [8,9] представлено несколько форм реализации двунаправленной ассоциативной памяти: дискретная, непрерывная, адаптивная, и конкурирующая ДАП. Структура простейшей ДАП изображена на рис.7.3. Сигналы в такой сети распространяются в двух направлениях. В первом цикле сигналы вначале проходят в одну сторону для задания состояний нейронов-получателей, то в следующем цикле эти нейроны сами становятся источниками, высылающими сигналы в обратную сторону. При этом выбор начального направления распространения сигналов не регламентирован и может произвольно

    118 выбираться пользователем. Процесс повторяется до достижения состояния равновесия.
    Функция активации нейронов имеет пороговый характер. Для обеспечения лучших характеристик сети на этапе обучения используются только биполярные сигналы, в таком случае компоненты векторов (X
    k
    , Yk) могут принимать только значения,
    Рис. 7.3. Структура нейронной сети ДАП
    Обучение ДАП заключается в предварительном расчете матрица весов W. Входные обучающие данные представляют собой множество пар биполярных векторов:


    p
    k
    y
    y
    y
    Y
    x
    x
    x
    X
    k
    m
    k
    k
    k
    k
    n
    k
    k
    k
    ,
    1
    )),
    ,...,
    ,
    (
    ),
    ,...
    ,
    (
    (
    2 1
    2 1



    На основе этого множества формируется матрица:



    p
    k
    k
    T
    k
    Y
    X
    W
    1
    *
    )
    (
    (7.14)
    Рассчитанная по формуле (7.14) матрица весов W, связывающая обе части сети, является действительной и в общем случае несимметричной.

    119
    При прямом распространении сигналов веса описываются матрицей W, а при обратном — матрицей W
    T
    Если принять за основное направление распространения сигнала направление X

    Y, то процесс функционирования сети выглядит следующим образом. На вход сети подают вектор X(0). Он обрабатывается матрицей весов W сети, в результате чего вырабатывается вектор выходных сигналов нейронов Y(1). Вектор Y(1) затем обрабатывается транспонированной матрицей W
    T
    весов, которая вырабатывает новые выходные сигналы, представляющие собой новый входной вектор X(1).
    Процесс повторяется до тех пор, пока сеть не достигнет стабильного состояния, в котором ни вектор X(f), ни вектор Y(f) не изменяются.
    Заметим, что нейроны в слоях 1 и 2 функционируют, как и в других парадигмах, вычисляя сумму взвешенных входов и вычисляя по ней значение функции активации F. Этот процесс в векторной форме может быть выражен следующим образом:
    )
    )
    1
    (
    (
    )
    1
    (
    )
    )
    (
    (
    )
    1
    (
    0
    T
    W
    i
    Y
    F
    i
    X
    W
    i
    X
    F
    i
    Y
    i






    ,
    (7.15) где i – номер итерации.
    В результате процесса (7.15) двунаправленной обработки сигналов формируются два стабильных вектора X(f) и Y(f), удовлетворяющих уравнениям: и.
    В режиме распознавания при начальных значениях векторов, совпадающих с использованными векторами при обучении, сеть распознает их безошибочно. При искажении векторов и сеть BAM не всегда способна откорректировать эти векторы и распознает их с определенными погрешностями.
    Как и сети Хопфилда, ДАП имеет ограничения на максимальное количество ассоциаций, которые она может точно воспроизвести. Если этот лимит превышен, сеть может выработать неверный выходной сигнал,

    120 воспроизводя ассоциации, которым не обучена. В работе [8] приведены оценки, в соответствии с которыми количество запомненных ассоциаций не может превышать количества нейронов в меньшем слое. При этом предполагается, что емкость памяти максимизирована посредством специального кодирования, при котором количество компонент со значениями +1 равно количеству компонент со значениями –1 в каждом биполярном векторе. На практике не редко используют ещё более осторожную оценку емкости памяти: если размерности векторов X и Y обозначить соответственно n и, m то удовлетворительное качество распознавания можно получить при выполнении зависимости, где – число запоминаемых в сети пар векторов.
    Ограничение количества единиц во входных векторах представляет серьезную проблему, тем более, что теория, которая позволяет перекодировать произвольный набор векторов в такой “разреженный” набор, отсутствует. Возможно, однако, что еще более серьезной является проблема некорректной сходимости. Суть этой проблемы заключается в том, что сеть может не производить точных ассоциаций вследствие природы поля притяжения; об ее форме известно очень немногое. Это означает, что ДАП не является ассоциатором по отношению к ближайшему соседнему образу. В действительности она может производить ассоциации, имеющие слабое отношение ко входному вектору. Как и в случае гомогенных ДАП, могут встречаться ложные стабильные состояния и немногое известно об их количестве и природе.
    Несмотря на эти проблемы, ДАП остается объектом интенсивных исследований. Основная привлекательность ДАП заключается в ее простоте.

    121
    1   ...   5   6   7   8   9   10   11   12   13


    написать администратору сайта