Главная страница
Навигация по странице:

  • Сети с обратными связями

  • 5. ТЕРМИНОЛОГИЯ, ОБОЗНАЧЕНИЯ И СХЕМАТИЧЕСКОЕ ИЗОБРАЖЕ- НИЕ ИНС

  • 6. ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

  • ПРИЛОЖЕНИЕ ИНС СЕГОДНЯ

  • ИНС и экспертные системы

  • Интеллектуальный анализ данных


    Скачать 7.76 Mb.
    НазваниеИнтеллектуальный анализ данных
    Дата11.10.2022
    Размер7.76 Mb.
    Формат файлаpdf
    Имя файлаiad_iadl.pdf
    ТипУчебное пособие
    #726651
    страница20 из 23
    1   ...   15   16   17   18   19   20   21   22   23
    Нелинейная активационная функция
    Многослойные сети не могут привести к увеличению вычислительной мощ- ности по сравнению с однослойной сетью. Это возможно лишь в том случае, если активационная функция между слоями будет нелинейной.
    Вычисление выхода слоя заключается в умножении входного вектора на первую весовую матрицу с последующим умножением (если отсутствует нелиней- ная активационная функция) результирующего вектора на вторую весовую матри- цу (XW
    1
    )W
    2.
    Так как умножение матриц ассоциативно, то X(W
    1
    W
    2
    ).
    Это показывает, что двухслойная линейная сеть эквивалентна одному слою с весовой матрицей, равной произведению двух весовых матриц. Следовательно, любая многослойная линейная сеть может быть заменена эквивалентной одно- слойной сетью. Известно, что однослойные сети весьма ограниченны по своим вычислительным возможностям. Таким образом, для расширения возможностей сетей по сравнению с однослойной сетью необходима нелинейная активационная функция.
    Сети с обратными связями
    У сетей, рассмотренных до сих пор, не было обратных связей, т. е. соеди- нений, идущих от выходов некоторого слоя к входам этого же слоя или предшест- вующих слоев. Этот специальный класс сетей, называемых сетями без обрат-
    ных связей или сетями прямого распространения, представляет интерес и ши- роко используется.
    Сети более общего вида, имеющие соединения от выходов к входам, назы- ваются сетями с обратными связями.
    У сетей без обратных связей нет памяти, их выход полностью определяется текущими входами и значениями весов.
    В некоторых конфигурациях сетей с обратными связями предыдущие зна- чения выходов возвращаются на входы; выход, следовательно, определяется как текущим входом, так и предыдущими выходами. По этой причине сети с обратны- ми связями могут обладать свойствами, сходными с кратковременной человече- ской памятью, сетевые выходы частично зависят от предыдущих входов.
    5. ТЕРМИНОЛОГИЯ, ОБОЗНАЧЕНИЯ И СХЕМАТИЧЕСКОЕ ИЗОБРАЖЕ-
    НИЕ ИНС
    К сожалению, для ИНС еще нет опубликованных стандартов и устоявшихся терминов, обозначений и графических представлений. Порой идентичные сетевые парадигмы, представленные различными авторами, покажутся далекими друг от друга. Рассмотрим наиболее широко используемые термины.
    Терминология
    Многие авторы избегают термина «нейрон» для обозначения искусственно- го нейрона, считая его слишком грубой моделью своего биологического прототи- па. Здесь термины «нейрон», «клетка», «элемент» используются взаимозаменяе- мо для обозначения «искусственного нейрона» как краткие и саморазъясняющие.

    151
    Дифференциальные уравнения или разностные уравнения
    Алгоритмы обучения, как и вообще ИНС, могут быть представлены как в дифференциальной, так и в конечно-разностной форме. При использовании дифференциальных уравнений предполагают, что процессы непрерывны и осу- ществляются подобно большой аналоговой сети.
    Для биологической системы, рассматриваемой на микроскопическом уров- не, это не так. Активационный уровень биологического нейрона определяется
    средней скоростью, с которой он посылает дискретные потенциальные им-
    пульсы по своему аксону. Средняя скорость обычно рассматривается как анало- говая величина, но важно не забывать о действительном положении вещей.
    Если моделировать искусственную нейронную сеть на аналоговом компью- тере, то весьма желательно использовать представление с помощью дифферен- циальных уравнений. Однако сегодня большинство работ выполняется на цифро- вых компьютерах, что заставляет отдавать предпочтение конечно-разностной
    форме как наиболее легко программируемой. По этой причине обычно использу- ются конечно-разностное представление.
    Графическое представление
    Как видно из публикаций, нет общепринятого способа подсчета числа слоев в сети. Многослойная сеть состоит, как показано на рис. 1.6, из чередующихся множеств нейронов и весов. Ранее в связи с рис. 1.5 уже говорилось, что входной слой не выполняет суммирования. Эти нейроны служат лишь в качестве разветв- лений для первого множества весов и не влияют на вычислительные возможности сети. По этой причине первый слой не принимается во внимание при подсчете слоев, и сеть, подобная изображенной на рис. 1.6, считается двухслойной, так как только два слоя выполняют вычисления. Далее, веса слоя считаются связанными со следующими за ними нейронами. Следовательно, слой состоит из множества весов со следующими за ними нейронами, суммирующими взвешенные сигналы.
    6. ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
    Среди всех интересных свойств ИНС ни одно не захватывает так вообра- жения, как их способность к обучению. Их обучение до такой степени напоминает процесс интеллектуального развития человеческой личности, что может показать- ся, что достигнуто глубокое понимание этого процесса.
    Но возможности обучения ИНС ограниченны, и нужно решить много слож- ных задач, чтобы определить, на правильном ли пути мы находимся. Тем не ме- нее, уже получены убедительные достижения, такие как «говорящая сеть» Сей- новского, и возникает много других практических применений.
    Цель обучения
    Сеть обучается, чтобы для некоторого множества входов давать желаемое
    (или, по крайней мере, сообразное с ним) множество выходов. Каждое такое входное (или выходное) множество рассматривается как вектор. Обучение осуще- ствляется путем последовательного предъявления входных векторов с одновре- менной подстройкой весов в соответствии с определенной процедурой. В процес- се обучения веса сети постепенно становятся такими, чтобы каждый входной век- тор вырабатывал выходной вектор.
    Обучение с учителем
    Различают алгоритмы обучения с учителем и без учителя.

    152
    Обучение с учителем предполагает, что для каждого входного вектора су- ществует целевой вектор, представляющий собой требуемый выход. Вместе они называются обучающей парой. Обычно сеть обучается на некотором числе таких обучающих пар. Предъявляется выходной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором, разность (ошибка) с помо- щью обратной связи подается в сеть и веса изменяются в соответствии с алго- ритмом, стремящимся минимизировать ошибку. Векторы обучающего множества предъявляются последовательно, вычисляются ошибки и веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемо низкого уровня.
    Обучение без учителя
    Несмотря на многочисленные прикладные достижения, обучение с учите- лем критиковалось за свою биологическую неправдоподобность. Трудно вообра- зить обучающий механизм в мозге, который бы сравнивал желаемые и действи- тельные значения выходов, выполняя коррекцию с помощью обратной связи. Ес- ли допустить подобный механизм в мозге, то откуда тогда возникают желаемые выходы?
    Обучение без учителя является намного более правдоподобной моделью обучения в биологической системе. Развитая Кохоненом [3] и многими другими, она не нуждается в целевом векторе для выходов и, следовательно, не требует сравнения с предопределенными идеальными ответами.
    Обучающее множество состоит лишь из входных векторов. Обучающий ал- горитм подстраивает веса сети так, чтобы получались согласованные выходные векторы, т. е. чтобы предъявление достаточно близких входных векторов дава-
    ло одинаковые выходы.
    Процесс обучения, следовательно, выделяет статистические свойства обу- чающего множества и группирует сходные векторы в классы. Предъявление на вход вектора из данного класса даст определенный выходной вектор, но до обу- чения невозможно предсказать, какой выход будет производиться данным клас- сом входных векторов. Следовательно, выходы подобной сети должны транс- формироваться в некоторую понятную форму, обусловленную процессом обуче- ния.
    Это не является серьезной проблемой. Обычно не сложно идентифициро- вать связь между входом и выходом, установленную сетью.
    Алгоритмы обучения
    Большинство современных алгоритмов обучения выросло из концепций
    Хэбба [2]. Им предложена модель обучения без учителя, в которой синаптиче-
    ская сила (вес) возрастает, если активированы оба нейрона, источник и при-
    емник. Таким образом, часто используемые пути в сети усиливаются, чем и объ- ясняется феномен привычки и обучения через повторение.
    В ИНН, использующей обучение по Хэббу, наращивание весов определяет- ся произведением уровней возбуждения передающего и принимающего нейронов.
    Это можно записать как
    w
    ij
    (n+1) = w(n) + αOUT
    i
    OUT
    j
    , где w
    ij
    (n) – значение веса от нейрона i к нейрону j до подстройки, w
    ij
    (n+1) – значение веса от нейрона i к нейрону j после подстройки, α – коэффициент ско-
    рости обучения, OUT
    i
    – выход нейрона i и вход нейрона j, OUT
    j
    – выход нейрона j.
    Сети, использующие обучение по Хэббу, конструктивно развивались, одна- ко за последние 20 лет были развиты более эффективные алгоритмы обучения. В

    153 частности, в работах [4 – 6] и многих других были развиты алгоритмы обучения с
    учителем, приводящие к сетям с более широким диапазоном характеристик обу- чающих входных образов и большими скоростями обучения, чем использующие простое обучение по Хэббу.
    В настоящее время используется огромное разнообразие обучающих алго- ритмов. Потребовалась бы весьма значительное время для рассмотрения этого предмета полностью. Чтобы рассмотреть этот предмет систематически, если и не исчерпывающе, в каждой из последующих глав подробно описаны алгоритмы обучения для рассматриваемой в главе парадигмы.
    Заключение
    В последующих лекциях представлены и проанализированы некоторые наиболее важные сетевые конфигурации и их алгоритмы обучения.
    Приведенные парадигмы дают представление об искусстве конструирова- ния сетей в целом, его прошлом и настоящем. Многие другие парадигмы при тща- тельном рассмотрении оказываются лишь их модификациями. Сегодняшнее раз- витие нейронных сетей скорее эволюционно, чем революционно. Поэтому пони- мание представленных в данной книге парадигм позволит следить за прогрессом в этой быстро развивающейся области.
    Упор сделан на интуитивные и алгоритмические, а не математические ас- пекты. Материалы адресованы скорее пользователю ИНС, чем теоретику. Сооб- щается, следовательно, достаточно информации, чтобы дать студенту возмож- ность понимать основные идеи. Те, кто знаком с программированием, смогут реа- лизовать любую из этих сетей. Сложные математические выкладки опущены, если только они не имеют прямого отношения к реализации сети. Приводятся ссылки на более строгие и полные работы.
    Литература
    1.
    Grossberg S. 1973. Contour enhancement, short-term memory, and con- sistencies in reverberating neural networks. Studies in Applied Mathematics
    52:217,257.
    2.
    Hebb D. 0. 1961. Organization of behavior. New York: Science Edition.
    3.
    Kohonen T. 1984. Self-organization and associative memory. Series in In- formation Sciences, vol. 8. Berlin: Springer Verlag.
    4.
    Rosenblatt F. 1962. Principles of neurodynamics. New York: Spartan
    Books. (Русский перевод: Розенблатт Ф. Принципы нейродинамики. – М.: Мир.,
    1965.)
    5.
    Widrow В. 1959. Adaptive sampled-data systems, a statistical theory of adaptation. 1959 IRE WESCON Convention Record, part 4, pp. 88-91. New York: Insti- tute of Radio Engineers.
    6.
    Widrow В., Hoff М. 1960. Adaptive switching circuits. I960 IRE WESCON
    Convention Record, pp. 96-104. New York: Institute of Radio Engineers.

    154
    ПРИЛОЖЕНИЕ
    ИНС СЕГОДНЯ
    Имеется много впечатляющих демонстраций возможностей ИНС: сеть нау- чили превращать текст в фонетическое представление, которое затем с помощью уже иных методов превращалось в речь; другая сеть может распознавать руко- писные буквы; сконструирована система сжатия изображений, основанная на ней- ронной сети. Все они используют сеть обратного распространения – наиболее успешный, по-видимому, из современных алгоритмов. Обратное распростране- ние, является систематическим методом для обучения многослойных сетей, и тем самым преодолевает ограничения, указанные Минским.
    Как подчеркивается в следующих главах, обратное распространение не свободно от проблем. Прежде всего, нет гарантии, что сеть может быть обу-
    чена за конечное время. Много усилий, израсходованных на обучение, пропадает напрасно после затрат большого количества машинного времени. Когда это про- исходит, попытка обучения повторяется – без всякой уверенности, что результат окажется лучше. Нет также уверенности, что сеть обучится наилучшим возмож- ным образом. Алгоритм обучения может попасть в «ловушку» так называемого локального минимума и будет получено худшее решение.
    Разработано много других сетевых алгоритмов обучения, имеющих свои специфические преимущества. Некоторые из них обсуждаются в последующих главах. Следует подчеркнуть, что никакая из сегодняшних сетей не является па- нацеей, все они страдают от ограничений в своих возможностях обучаться и вспоминать.
    ИНН уже продемонстрировали свою работоспособность, имеют уникальные потенциальные возможности, много ограничений и множество открытых вопросов.
    Такая ситуация настраивает на умеренный оптимизм. Авторы склонны публико- вать свои успехи, но не неудачи, создавая тем самым впечатление, которое мо- жет оказаться нереалистичным.
    Те, кто ищет капитал, чтобы рискнуть и основать новые фирмы, должны представить убедительный проект последующего осуществления и прибыли. Су- ществует, следовательно, опасность, что ИНС начнут продавать раньше, чем придет их время, обещая функциональные возможности, которых пока невозмож- но достигнуть. Если это произойдет, то область в целом может пострадать от по- тери кредита доверия и вернется к застойному периоду семидесятых годов. Для улучшения существующих сетей требуется много основательной работы. Должны быть развиты новые технологии, улучшены существующие методы и расширены теоретические основы, прежде чем данная область сможет полностью реализо- вать свои потенциальные возможности.
    ПЕРСПЕКТИВЫ НА БУДУЩЕЕ
    ИНС предложены для задач, простирающихся от управления боем до при- смотра за ребенком. Потенциальными приложениями являются те, где человече- ский интеллект малоэффективен, а обычные вычисления трудоемки или неадек- ватны. Этот класс приложений во всяком случае не меньше класса, обслуживае- мого обычными вычислениями, и можно предполагать, что ИНС займут свое ме- сто наряду с обычными вычислениями в качестве дополнения такого же объема и важности.

    155
    ИНС и экспертные системы
    В последние годы над ИНН доминировали логические и символьно- операционные дисциплины. Например, широко пропагандировались экспертные
    системы, у которых имеется много заметных успехов, так же, как и неудач. Мно- гое свидетельствует о том, что ИНН будут существовать, объединяясь в системах, где каждый подход используется для решения тех задач, с которыми он лучше справляется.
    Эта точка зрения подкрепляется тем, как люди функционируют в нашем ми- ре. Распознавание образов отвечает за активность, требующую быстрой ре-
    акции. Так как действия совершаются быстро и бессознательно, то этот способ функционирования важен для выживания во враждебном окружении. Вообразите только, что было бы, если бы наши предки вынуждены были обдумывать свою ре- акцию на прыгнувшего хищника?
    Когда наша система распознавания образов не в состоянии дать адекват- ную интерпретацию, вопрос передается в высшие отделы мозга. Они могут запро- сить добавочную информацию и займут больше времени, но качество полученных в результате решений может быть выше.
    Можно представить себе искусственную систему, подражающую такому разделению труда. Искусственная нейронная сеть реагировала бы в большинстве случаев подходящим образом на внешнюю среду. Так как такие сети способны указывать доверительный уровень каждого решения, то сеть «знает, что она не знает» и передает данный случай для разрешения экспертной системе. Решения, принимаемые на этом более высоком уровне, были бы конкретными и логичными, но они могут нуждаться в сборе дополнительных фактов для получения оконча- тельного заключения. Комбинация двух систем была бы более мощной, чем каж- дая из систем в отдельности, следуя при этом высокоэффективной модели, да- ваемой биологической эволюцией.
    Соображения надежности
    Прежде чем ИНС можно будет использовать там, где поставлены на карту человеческая жизнь или ценное имущество, должны быть решены вопросы, отно- сящиеся к их надежности.
    Подобно людям, структуру мозга которых они копируют, ИНС сохраняют в определенной мере непредсказуемость. Единственный способ точно знать выход состоит в испытании всех возможных входных сигналов.
    В большой сети такая полная проверка практически неосуществима и должны использоваться статистические методы для оценки функционирования. В некоторых случаях это недопустимо. Например, что является допустимым уров- нем ошибок для сети, управляющей системой космической обороны? Большинст- во людей скажет, любая ошибка недопустима, так как ведет к огромному числу жертв и разрушений. Это отношение не меняется от того обстоятельства, что че- ловек в подобной ситуации также может допускать ошибки.
    Проблема возникает из-за допущения полной безошибочности компьюте- ров. Так как ИНС иногда будут совершать ошибки даже при правильном функцио- нировании, то, как ощущается многими, это ведет к ненадежности – качеству, ко- торое мы считаем недопустимым для наших машин.
    Сходная трудность заключается в неспособности традиционных ИНС "объ- яснить", как они решают задачу. Внутреннее представление, получающееся в ре- зультате обучения, часто настолько сложно, что его невозможно проанализиро- вать, за исключением самых простых случаев. Это напоминает нашу неспособ- ность объяснить, как мы узнаем человека, несмотря на различие в расстоянии,

    156 угле, освещении и на прошедшие годы. Экспертная система может проследить процесс своих рассуждений в обратном порядке, так что человек может проверить ее на разумность. Сообщалось о встраивании этой способности в ИНС, что может существенно повлиять на приемлемость этих систем.
    1   ...   15   16   17   18   19   20   21   22   23


    написать администратору сайта