Учебник ИИ. _Учебник ИНС_2014_Э4743. Учебник рекомендовано Ученым советом Вятгу в качестве учебного пособия Киров 2014
Скачать 3.7 Mb.
|
t t Итерации µ 1 r r0 а) изменение скорости обучения б) изменение радиуса окрестности Рис.5.1. Графики изменения параметров обучения сети Кохонена 5.3. Сети на встречного распространения Одной из наиболее популярных комбинированных сетей является двухслойная сеть встречного распространения CPN (Counterpropagation Network), первым слоем которой является сеть Кохонена, а второй – выходная звезда (нейронная сеть) Гроссберга [1,3,4]. Нейрон в форме входной звезды имеет n входов, которым соответствуют весовые коэффициенты W= (w1, w2,…,wn), один выход Y, являющийся взвешенной суммой этих входов. Таким образом, звезда μ 92 является детектором состояния входов и реагирует только на свой входной вектор. Подстройка весов производится по формуле Wi(t+1)=Wi(t)+ μ*({Xi- Wi(t)), (5.5) где Wi(t) –весовой вектор i-ой входной звезды на t-м такте обучения; μ- параметр скорости обучения (выбирается в начале 0,1-0,2 и затем постепенно уменьшается); Xi- входной вектор. Выходная звезда Гроссберга выполняет противоположную функцию- при поступлении сигнала на вход выдается определенный вектор. Нейрон этого типа имеет один вход и m выходов с весами W= (w1, w2,…,wn), которые подстраиваются по формуле Wi(t+1)=Wi(t)+α*({ Yi- Wi(t)), (5.6) где Wi(t) – весовой вектор i-ой выходной звезды на t-м такте обучения; Yi –выходной вектор; α - скорость обучения. Рекомендуется начать обучение с α =1 и постепенно уменьшается до 0. Особенностью нейронов в форме звезд Гроссберга является избирательность памяти. Каждый нейрон помнит свой входной образ и игнорирует остальные. Каждой выходной звезде соответствует конкретная командная функция. Образ памяти связывается с определенным нейроном и а не возникает вследствие взаимодействия нейронов. Сеть со встречным распространением CPN представляет собой соединение самоорганизующейся сети Кохонена и выходной звезды Гроссберга. Топология сети представлена на рис. 5.2. Все компоненты входного вектора Х соединены со всеми нейронами сети Кохонена, а все его выходы соединены с нейронами слоя Гроссберга. Для упрощения на рис. 5.2 показаны не все связи. 93 Здесь выходы сети Кохонена не являются выходами сети, а служат лишь входами для выходного слоя – выходной звезды Гроссберга. Создатель этой сети З. Хехт-Нильсен рекомендует использовать эти архитектуры для решения задач аппроксимации функций и заполнения пробелов в таблице данных. Обучение сети встречного распространения состоит из двух шагов: 1. На первом шаге весовые векторы слоя Кохонена настраиваются таким образом, чтобы провести распределение входных векторов по классам, каждый из которых соответствует одному нейрону победителю. Обучение проводится без учителя. Точность кластеризации гарантируется только при условии представительной выборки. X1 X2 … Xm Выходной вектор Y1,Y2,…,Yn Слой Кохонена Слой Гроссберга Рис.5.2. Топология нейронной сети встречного распространения 2. На втором шаге осуществляется обучение с учителем. Проводится подстройка весовых коэффициентов выходного слоя Гроссберга на примерах с заданным выходом по формуле (5.5). 94 При этом настраиваются только веса, соответствующие связям с теми элементами слоя Кохонена, которые являются победителями в текущем такте обучения (выигравшие элементы посылают выходной сигнал равный 1). Темпы обучения нейронов слоя Кохонена и Гроссберга должны быть согласованы. Кроме того, в слое Кохонена подстраиваются также веса всех нейронов в окрестности победителя, которая постепенно сужаться до одного нейрона. При функционировании сети в режиме распознавания нейроны слоя Гроссберга по сигналу «нейрона-победителя» в слое Кохонена воспроизводят на выходах сети образ в соответствии со значениями его весовых коэффициентов. В случае, когда слой Гроссберга состоит из одного элемента, полученный скалярный выход равен одному из весов, соответствующих связям этого элемента (с выигравшим нейроном). Одной из особенностей сети встречного распространения является возможность восстановления пары векторов (X, Y) по одной известной компоненте. При предъявлении сети на этапе распознавания только входного вектора (с нулевым значением Y) восстанавливается Y, и наоборот, при предъявлении сети на этапе распознавания только выходного вектора Y, может быть восстановлен Х. Обученная НС может функционировать в режиме интерполяции, когда в слое Кохонена может быть несколько победителей. В этом случае уровни их нейронной активности нормируются таким образом, чтобы в сумме получалась единица; тогда выходной вектор определяется по сумме выходных векторов каждой из активных звезд Гроссберга. Тогда нейронная сеть встречного распространения осуществляет линейную интерполяцию между значениями выходных векторов, отвечающих нескольким кластерам [1,3,4]. 95 Разработанная для учебного процесса программная модель нейронной сети встречного распространения [15] позволяет исследовать функционирование нейронной сети при различных параметрах и демонстрирует эффективность для создания нейросетевых экспертных систем. 96 6. НЕЙРОННЫЕ СЕТИ АДАПТИВНОЙ РЕЗОНАНСНОЙ ТЕОРИИ 6.1. Сети на основе теории адаптивного резонанса Восприятие внешнего мира связано с решением дилеммы «стабильности – пластичности». Является ли воспринимаемый образ новой информацией или представляет вариант старой и ее не требуется запоминать. Таким образом, память человека должна оставаться пластичной, способной к восприятию новых образов, и в то же время сохранять стабильность, гарантирующую не разрушение старых образов [1]. Ранее рассмотренные нейронные сети не приспособлены к решению этой задачи. Например, в многослойном персептроне, после предъявления нового входного вектора изменяются весовые коэффициенты, и нет гарантии, что старые образы не разрушаться. Аналогичная ситуация имеет место в сетях Кохонена, обучающихся на основе самоорганизации. Данные сети всегда выдают положительный результат при классификации и не способны отделить новые образы от искаженных образов. Семейство сетей на основе теории адаптивного резонанса, разработанное Гроссбергом, применительно к биологическим структурам, обладает свойством «стабильности – пластичности». Adaptive Resonance Theory Network (ART). Такие нейронные сети называются сетями адаптивной резонансной теории (АРТ). 97 6.2. Нейронная сеть ART-1 Сеть ART-1 ориентирована на обработку образов, содержащих двоичную информацию. Сети ART-2 и ART-3 могут работать с непрерывной информацией [1,4]. Сеть ART -1 является классификатором входных двоичных образов, сформированным сетью по нескольким классам прототипов. В данной сети используется алгоритм обучения без учителя на основе конкуренции. Сеть ART -1 состоит из 5 блоков (рис.6.1): слоя сравнения F1; слоя распознавания F2; трёх управляющих блоков: блока управления G1, блока управления G2, блока сброса G3. G2 G1 G3 Слой распознавания F2 Слой сравнения F1 С Входной вектор Х R Рис.6.1. Структурная схема нейронной сети АРТ-1 Начальное значение нейрона управления G1 равно 1. Входной вектор Х поступает на слой сравнения, который по правилу 2 из 3 пропускает его на слой распознавания и С=Х. Каждый из нейронов слоя сравнения имеет 3 входа: входной сигнал Х, сигнал соответствующего нейрона управления G1, сигнал обратной связи из слоя распознавания R в начальный момент равен нулю. 98 Каждый нейрон слоя распознавания имеет вектор весов Bj. При этом возбуждается только один нейрон слоя распознавания, вектор весов которого наиболее близок к вектору С. Это обеспечивается латеральным торможением остальных нейронов слоя. Сигнал обратной связи нейрона- победителя поступает обратно в слой сравнения через весовые коэффициенты Тj. По существу этот вектор является носителем критических черт образа. Важным понятием в теории резонанса является шаблон критических черт. Не все черты (признаки), представленные в образе, являются существенными для восприятия. Результат распознавания определяется присутствием критических черт в представленном образе. Выход нейрона управления G1=1, когда образ Х имеет ненулевые компоненты. Он выполняет функции детектора новизны поступающего входного образа. Однако, когда возникает ненулевой отклик R из слоя распознавания, значение нейрона G1становится равным нулю. Сигнал нейрона G2 устанавливается в единицу при ненулевом векторе Х. Задачей оттого нейрона является погашение активности в слое распознавания, если в сеть не поступило никакой информации. При генерации отклика R из слоя распознавания выход G1=0 и нейроны слоя сравнения активизируются сигналами Х и R. Правило 2 из 3 приводит к активизации тех нейронов слоя сравнения, для которых и Х и R являются единичными. В результате выход С теперь уже не равен вектору Х, а содержит только те компоненты, которые определяют критические черты входного образа. Этот механизм в теории ART -1 получил название адаптивной фильтрации образа Х. Теперь задачей является установить, достаточен ли набор критических черт для окончательного отнесения образа Х к классу нейрона-победителя. Эту функцию выполняет нейрон сброса, который измеряет сходство между векторами Х и С. Выход нейрона сброса 99 определяется отношением числа единичных компонент в векторе С к числу единичных компонент в векторе Х. Если это отношение ниже определенного уровня сходства, нейрон вырабатывает сигнал сброса в слой распознавания, т. е. уровень резонанса недостаточен. Параметр ρ <1 определяет уровень сходства. ρ= (Q ∩ H) /H, где ∩ – знак пересечения; Н –количество единиц в векторе Х; Q- количество единиц в векторе С. Пример Х=110011100; Н=4; С=11001000; Q=3. Тогда ρ = (Q ∩ H) /H = ¾=0,75 Данный параметр изменяется от 1 (полное соответствие) до 0 (наихудшее соответствие). 6.3. Процесс функционирования сетей ART -1 Начальное состояние сети. Нулевые значения компонент входного вектора Х устанавливают нейрон G2=0 и одновременно устанавливаются в ноль выходы нейронов слоя распознавания. При возникновении ненулевых значений в векторе Х нейроны управления G1 и G2 устанавливаются в единицу. По правилу 2 из 3 выходы С равны вектору Х. Вектор С поступает в слой распознавания, где в конкурентной борьбе выигрывает нейрон-победитель. В итоге вектор R слоя распознавания содержит ровно одну единичную компоненту, а остальные равны нулю. Ненулевой выход нейрона-победителя устанавливает в ноль нейрон управления G1. По обратной связи нейрон-победитель посылает в слой сравнения сигналы и начинается фаза сравнения. 100 Фаза сравнения.Вектор отклика сравнивается с входным вектором Х и выход С слоя сравнения теперь содержит единичные значения только в тех позициях, в которых единицы имеются и вектора Х и у вектора обратной связи Р. Если уровень сходства будет меньше заданного, то вырабатывается сигнал сброса, нейрон-победитель исключается из дальнейшей конкуренции и начинается фаза поиска. Если уровень сходства достаточный, то нейрон сброса остается неактивным. В этом случае вектор С вновь возбуждает нейрон-победитель. Фаза поиска.После сигнала сброса все нейроны слоя распознавания получают нулевые выходы и нейрон управления G1=1. Снова вектор С полностью идентичен вектору Х как в начале работы сети. Однако предыдущий нейрон-победитель исключается из конкурентной борьбы. После чего будет найден новый нейрон-победитель и повторяется фаза сравнения. Этот процесс завершается одним из двух способов: 1. Найден запомненный класс, сходство которого достаточно для успешной классификации и затем происходит обучение, в котором модифицируются веса bi и ti векторов В и Т возбужденного нейрона; 2. Все классы проверены и ни один из них не дал требуемого сходства. В этом случае образ Х объявляется новым в сети и ему из резерва назначается новый нейрон. Весовые векторы этого нейрона В и Т устанавливаются равными вектору Х. Фаза поиска нужна затем, что обучение и функционирование сети выполняется одновременно. Нейрон-победитель определяет в пространстве входных векторов ближайший к заданному входному образу вектор памяти, и если все черты исходного вектора были критическими, это и была бы верная классификация. После относительной стабилизации процесса обучения классификация выполняется без фазы поиска. 101 6.4. Обучение сети ART -1 В начале функционирования все веса В и Т и параметр сходства принимают начальные значения bij < L / (L-1+m); ti=1 для всех i,j, где bij –вес связи, соединяющий i-ый нейрон в слое сравнения с j-ым нейроном в слое распознавания; m – число компонент входного вектора Х; L – константа (например равна 2 при L>1,). Такой выбор весов приводит к устойчивому обучению. Начальная установка весов bij в малые величины гарантирует, что несвязанные нейроны не будут получать больше возбуждения, чем обученные нейроны в слое распознавания. Параметр сходства выбирается на основе требований решаемой задачи. При высоких значениях ρ формируется большое число классов, к каждому из которых относятся только очень похожие векторы. При низком уровне ρ сетьформирует небольшое число классов с высокой степенью обобщения («грубая» классификация). Для повышения гибкости сети необходима динамическое изменение параметра ρ во время процедуры обучения. Обучение происходит без учителя и проводится для весов нейрона- победителя в случае успешной, так и неуспешной классификации. При этом веса вектора В стремятся к нормализованной величине компонент вектора С. L*сi bij = ----------------- , L – 1 + ∑ ck k 102 bij – вес связи, соединяющий i-ый нейрон в слое сравнения с j-ым нейроном в слое распознавания; сi – i-ая компонента выходного вектора С слоя сравнения; j – номер выигравшего нейрона в слое распознавания; L – константа. При этом роль нормализации компонент очень важна. Вектора с большим количеством единиц приводят к небольшим значениям b, и наоборот. Таким образом, произведение (b*с) =∑bi*сi оказывается масштабированным и сеть может правильно различать вектора, даже если один из них является подмножеством другого. Пусть вектор Х1=100000, а вектор Х2=111100. Эти образы различные. При обучении без нормализации (bi сi) при поступлении в сеть первого образа он даст одинаковые скалярные произведения, равные единице, как с весами вектора Х1, так и весами вектора Х2. Вектор Х2 при наличии шума может выиграть конкуренцию. При этом веса его вектора Т установятся равными (100000), и образ (111100) будет «забыт». В случае применения нормализации исходные скалярные произведения будут равны 1 для вектора Х и 2/5 для вектора Х2 (при L=2). Здесь вектор Х1 выиграет конкуренцию. Компоненты вектора Т устанавливаются равными компонентам вектора С. tij=cij, где tij – вес связи между выигравшем нейроном j в слое распознавания и нейроном i в слое сравнения. Если какая-то tj равна 0, то при дальнейшем обучении на фазах сравнения соответствующая компонента сj никогда не получит подкрепление по правилу 2 из 3. Таким образом, нейронные сети АРТ решают дилемму «стабильности-пластичности» и могут быть весьма эффективными при реализации практических задач. 103 Разработанная для учебного процесса программная модель АРТ-сети [16] позволяет исследовать функционирование нейронной сети при различных показателях схожести и зашумлённости образов. 104 7. РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ 7.1. Основные типы рекуррентных нейронных сетей Отдельную группу нейронных сетей составляют сети с обратной связью между различными слоями нейронов. Это так называемые рекуррентные сети [1-9]. Их общая черта состоит в передаче сигналов с выходного либо скрытого слоя во входной слой, то есть рекуррентные сети характеризуются прямым и обратным распространением информации между слоями нейронной сети. Главная особенность, выделяющая эти сети среди других нейронных сетей, – динамические зависимости на каждом этапе функционирования. Изменение состояния одного нейрона отражается на всей сети вследствие обратной связи типа "один ко многим". В сети возникает некоторый переходный процесс, который завершается формированием нового устойчивого состояния, отличающегося в общем случае от предыдущего. Рекуррентные НС характеризуются прямым и обратным распространением информации между слоями нейронной сети. Обратная связь может присутствовать в нейронных сетях в виде локальной обратной связи (то есть на уровне одного нейрона) или глобальной ОС на уровне всей НС. На практике в основном используются два класса рекуррентных сетей: – ассоциативная память[1-5]; – сети отображения вход-выход (RMLP, RTRN, НС Элмана)[3]. Подклассом рекуррентных НС являются релаксационные НС (РНС). В основе функционирования таких сетей лежит итеративный принцип работы. На каждой итерации процесса происходит обработка данных, 105 полученных на предыдущем шаге. Такая циркуляция информации продолжается до тех пор, пока не установится состояние равновесия (релаксация). 7.2. Модели релаксационных нейронных сетей Благодаря обратной связи при подаче сигнала на входы сети, в ней возникает переходный процесс, который завершается формированием нового устойчивого состояния. В основе функционирования таких сетей лежит итеративный принцип работы. На каждой итерации процесса происходит обработка данных, полученных на предыдущем шаге. Такая циркуляция информации продолжается до тех пор, пока не установится состояние равновесия. При этом состояния нейронной сети перестают изменяться и характеризуются стационарными значениями. Если функцию активации нейрона обозначить, где u – взвешенная сумма его возбуждений, то состояние нейрона можно определить выходным сигналом, где n – размерность входного вектора и количество нейронов в первом слое. Изменение состояния i-го нейрона можно описать системой дифференциальных уравнений для n i , 1 , где i b – пороговое значение. Рекуррентной сети можно поставить в соответствие энергетическую функцию Ляпунова: n i i i x i i i n i i j j i j i ij y b dy y f R y y w E 1 0 1 1 ) ( 1 2 1 (7.1) Изменение состояния какого-либо нейрона инициализирует изменение энергетического состояния (7.1) сети в направлении минимума ее энергии вплоть до его достижения. В пространстве состояний локальные энергетические минимумы E представлены точками 106 стабильности, называемыми аттракторами из-за тяготения к ним ближайшего окружения. Благодаря наличию аттракторов, рекуррентные сети могут быть использованы как устройства ассоциативной памяти. Классическими примерами РНС являются нейронные сетиХопфилда [1-5], Хемминга [1-4], двунаправленная ассоциативная память (ДАП) [3,4,8,9] и машина Больцмана (МБ) [1,3-5]. Среди различных конфигураций искусственных нейронных сетей (НС) встречаются такие, при классификации которых по принципу обучения, строго говоря, не подходят ни обучение с учителем [1], ни обучение без учителя [1]. В таких сетях весовые коэффициенты синапсов рассчитываются только однажды перед началом функционирования сети на основе информации об обрабатываемых данных, и все обучение сети сводится именно к этому расчету. С одной стороны, предъявление априорной информации можно расценивать, как помощь учителя, но с другой – сеть фактически просто запоминает образцы до того, как на ее вход поступают реальные данные, и не может изменять свое поведение, поэтому говорить о звене обратной связи с "миром" (учителем) не приходится. Подобная логика обучения характерна для релаксационных НС – сетей Хопфилда, Хемминга и двунаправленной ассоциативной памяти [1,3,4]. 1> |