Интеллектуальный анализ данных
Скачать 7.76 Mb.
|
Вопросы для самопроверки: 1. Что называется главной компонентой? 2. Чему равна дисперсия главной компоненты? 3. Что называется функцией Лагранжа? 4. Что означает геометрически переход от вектора Х к его первым двум главным компонентам? 5. Как определяется физический смысл главных компонент? 6. Чем отличается факторный анализ от метода главных компонент? 7. Какими оптимальными свойствами обладают линейные главные компо- ненты? 8. Какая величина используется в качестве меры искажения матрицы попарных расстояний? 9. Каким образом осуществляется проектирование с контрастированием? 143 III. СОВРЕМЕННЫЕ ТЕХНОЛОГИИ КОМПЬЮТЕРНОЙ МАТЕМАТИКИ ЛЕКЦИЯ 18 ВВЕДЕНИЕ В ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ ИНС предназначены для моделирования деятельности мозга – сознания. ИНС чрезвычайно разнообразны по своим конфигурациям. История развития это- го вопроса – от модели нейрона до развивающихся многослойных сетей приведе- ны в настоящей лекции. 1. Введение. Исторический аспект Людей всегда интересовало их собственное мышление. Эти попытки само- познания, размышления мозга о себе самом является, возможно, одной из отли- чительных особенностей человека. Имеется множество размышлений о природе мышления, простирающихся от анатомических до духовных. Обсуждение этого вопроса, протекавшее в горячих спорах философов и теологов с физиологами, анатомами и кибернетиками, при- несло мало пользы, сам предмет исследования оказался слишком труден для изучения. Те, кто опирался на самоанализ и эмпирические размышления, пришли к выводам, не отвечающим уровню строгости физических наук. Экспериментаторы же нашли, что мозг труден для наблюдения и ставит в тупик своей организацией. Короче говоря, мощные методы научного исследования, изменившие наш взгляд на физическую реальность, оказались бессильными в понимании самого челове- ка. Нейробиологи и нейроанатомы достигли значительного прогресса. Усердно изучая структуру и функции нервной системы человека, они многое поняли в «электропроводке» мозга, но мало узнали о его функционировании. В процессе накопления ими знаний выяснилось, что мозг имеет ошеломляющую сложность. Десятки миллиардов нейронов, каждый из которых соединен с сотнями или тыся- чами других, образуют систему, далеко превосходящую наши самые смелые меч- ты о суперкомпьютерах. Тем не менее, мозг постепенно выдает свои секреты в процессе одного из самых напряженных и честолюбивых исследований в истории человечества. Лучшее понимание функционирования нейрона и картины его связей по- зволило исследователям создать математические модели для проверки своих теорий. Эксперименты теперь могут проводиться на компьютерах без привлече- ния человека или животных, что решает многие практические и морально- этические проблемы. В первых же работах выяснилось, что эти модели не только повторяют функции мозга, но и способны выполнять функции, имеющие свою собственную ценность. Поэтому возникли и остаются в настоящее время две взаимно обога- щающие друг друга цели нейронного моделирования: первая – понять функцио- нирование нервной системы человека на уровне физиологии и психологии и вто- рая – создать вычислительные системы, выполняющие функции, сходные с функ- циями мозга. Параллельно с прогрессом в нейроанатомии и нейрофизиологии психоло- гами были созданы модели человеческого обучения. Одной из таких моделей, оказавшейся наиболее плодотворной, была модель Д. Хэбба, который в 1949г. предложил закон обучения, явившийся стартовой точкой для алгоритмов обуче- 144 ния искусственных нейронных сетей (ИНС). Дополненный сегодня множеством других методов он продемонстрировал ученым того времени, как сеть нейронов может обучаться. В пятидесятые и шестидесятые годы группа исследователей, объединив эти биологические и физиологические подходы, создала первые ИНС. Выполнен- ные первоначально как электронные сети, они были позднее перенесены в более гибкую среду компьютерного моделирования, сохранившуюся и в настоящее вре- мя. Первые успехи вызвали взрыв активности и оптимизма. Минский, Розенб- латт, Уидроу и другие разработали сети, состоящие из одного слоя искусственных нейронов, называемые персептронами. Такие сети были использованы для такого широкого класса задач, как предсказание погоды, анализ электрокардиограмм и искусственное зрение. В течение некоторого времени казалось, что ключ к интел- лекту найден и воспроизведение человеческого мозга является лишь вопросом конструирования достаточно большой сети. Но эта иллюзия скоро рассеялась. Сети не могли решать задачи, внешне весьма сходные с теми, которые успешно решал мозг. Минский, используя точные математические методы, строго доказал ряд теорем, относящихся к функциони- рованию сетей. Его исследования привели к написанию книги [4], в которой он вместе с Пайпертом доказал, что используемые в то время однослойные сети теоретически неспособны решить многие простые задачи, в том числе реализо- вать функцию «Исключающее ИЛИ». Минский также не был оптимистичен относи- тельно потенциально возможного здесь прогресса. Персептрон показал себя заслуживающим изучения, несмотря на жесткие ограничения (и даже благодаря им). У него много привлекательных свойств: ли- нейность, обучаемость, простота модели параллельных вычислений. Нет основа- ний полагать, что эти достоинства сохраняться при переходе к многослойным сис- темам. Возможно, будет открыта какая-то мощная теорема о сходимости или най- дена глубокая причина неудач дать интересную «теорему обучения» для много- слойных машин ([4], с.231-232). Блеск и строгость аргументации Минского, а также его престиж породили огромное доверие к его выводам. Разочарованные исследователи оставили поле исследований ради более обещающих областей, а правительства перераспреде- лили свои субсидии, и ИНС были забыты почти на два десятилетия. Тем не менее несколько наиболее настойчивых ученых, таких как Кохонен, Гроссберг, Андерсон продолжили исследования. Наряду с плохим финансированием и недостаточной оценкой ряд исследователей испытывал затруднения с публикациями. Поэтому исследования, опубликованные в семидесятые и начале восьмидесятых годов, разбросаны в массе различных журналов, некоторые из которых малоизвестны. Постепенно появился теоретический фундамент, на основе которого сегодня кон- струируются наиболее мощные многослойные сети. Оценка Минского оказалась излишне пессимистичной, многие из поставленных в его книге задач решаются сейчас сетями с помощью стандартных процедур. За последние несколько лет теория ИНН стала широко применяться в при- кладных областях, появились новые корпорации, занимающиеся коммерческим использованием этой технологии. Нарастание научной активности носило взрыв- ной характер. Урок, который можно извлечь из этой истории, выражается законом Кларка (выдвинутым писателем-фантастом Артуром Кларком). В нем утверждается, что, если крупный уважаемый ученый говорит, что нечто может быть выполнено, то он 145 (или она) почти всегда прав. Если же ученый говорит, что это не может быть вы- полнено, то он (или она) почти всегда не прав. История науки является летописью ошибок и частичных истин. То, что сего- дня не подвергается сомнениям, завтра отвергается. Некритическое восприятие «фактов» независимо от их источника может парализовать научный поиск. С од- ной стороны, блестящая научная работа Минского задержала развитие искусст- венных нейронных сетей. Нет сомнений, однако, в том, что область пострадала вследствие необоснованного оптимизма и отсутствия достаточной теоретической базы. И возможно, что шок, вызванный книгой «Персептроны», обеспечил необхо- димый для созревания этой научной области период. 2. Биологический прототип Развитие ИНС вдохновляется биологией. Рассматривая сетевые конфигу- рации и алгоритмы, исследователи мыслят их в терминах организации мозговой деятельности. Но на этом аналогия может и закончиться. Наши знания о работе мозга столь ограничены, что мало бы нашлось руководящих ориентиров для тех, кто стал бы ему подражать. Поэтому разработчикам сетей приходится выходить за пределы современных биологических знаний в поисках структур, способных выполнять полезные функции. Во многих случаях это приводит к необходимости отказа от биологического правдоподобия, мозг становится просто метафорой, и создаются сети, невозможные в живой материи или требующие неправдоподобно больших допущений об анатомии и функционировании мозга. Несмотря на то, что связь с биологией слаба и зачастую несущественна, ИНС продолжают сравниваться с мозгом. Их функционирование часто напомина- ет человеческое познание, поэтому трудно избежать этой аналогии. К сожалению, такие сравнения неплодотворны и создают неоправданные ожидания, неизбежно ведущие к разочарованию. Исследовательский энтузиазм, основанный на ложных надеждах, может испариться, столкнувшись с суровой действительностью, как это уже однажды было в шестидесятые годы, и многообещающая область снова при- дет в упадок, если не будет соблюдаться необходимая сдержанность. Несмотря на сделанные предупреждения, полезно все же знать кое-что о нервной системе млекопитающих, так как она успешно решает задачи, к выполне- нию которых лишь стремятся ИНН. Последующее обсуждение весьма кратко. Приложение А содержит более обширное (но ни в коем случае не полное) рассмотрение нервной системы млеко- питающих для тех, кто хочет узнать больше об этом предмете. Рис. 1. Биологический нейрон Нервная система человека, по- строенная из элементов, называемых нейронами, имеет ошеломляющую сложность. Около 10 11 нейронов уча- ствуют в примерно 10 15 передающих связях, имеющих длину метр и более. Каждый нейрон обладает многими ка- чествами, общими с другими элемен- тами тела, но его уникальной способностью является прием, обработка и переда- ча электрохимических сигналов по нервным путям, которые образуют коммуника- ционную систему мозга. 146 На рис. 1 показана структура пары типичных биологических нейронов. Ден- дриты идут от тела нервной клетки к другим нейронам, где они принимают сигна- лы в точках соединения, называемых синапсами. Принятые синапсом входные сигналы подводятся к телу нейрона. Здесь они суммируются, причем одни входы стремятся возбудить нейрон, другие – воспрепятствовать его возбуждению. Когда суммарное возбуждение в теле нейрона превышает некоторый порог, нейрон воз- буждается, посылая по аксону сигнал другим нейронам. У этой основной функ- циональной схемы много усложнений и исключений, тем не менее большинство ИНС моделируют лишь эти простые свойства. 2. Искусственный нейрон Искусственный нейрон имитирует в первом приближении свойства биологи- ческого нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона. На рис. 2 представлена модель, реализующая эту идею. Рис. 2. Искусственный нейрон Хотя сетевые парадигмы весьма разнообразны, в основе почти всех их ле- жит эта конфигурация. Здесь множество входных сигналов, обозначенных x 1 , x 2 ,…, x n , поступает на искусственный нейрон. Эти входные сигналы, в совокупно- сти обозначаемые вектором X, соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соответствующий вес w 1 , w 2 , …, w n , и поступает на суммирующий блок, обозначенный Σ. Каждый вес соответствует «силе» одной биологической синаптической свя- зи. (Множество весов в совокупности обозначается вектором W.) Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход, который мы будем называть NET. В век- торных обозначениях это может быть компактно записано следующим образом: NET = XW. Активационные функции. Сигнал NET далее, как правило, преобразуется активационной функцией F и дает выходной нейронный сигнал OUT. Активаци- онная функция может быть обычной линейной функцией OUT = K(NET), где К – постоянная, пороговой функции OUT = 1, если NET > T, OUT = 0 в остальных случаях, где Т – некоторая постоянная пороговая величина, или же функцией, более точ- но моделирующей нелинейную передаточную характеристику биологического нейрона и представляющей нейронной сети большие возможности. 147 Рис. 3. Искусственный нейрон с активационной функцией На рис. 3 блок, обозначенный F, принимает сигнал NET и выдает сигнал OUT. Если блок F сужает диапазон изменения величины NET так, что при любых значениях NET значения OUT принадлежат некоторому конечному интервалу, то F называется «сжимающей» функцией. В качестве «сжимающей» функции часто используется логистическая или «сигмоидальная» (S-образная) функция, показанная на рис. 4. Эта функция мате- матически выражается как F(x) = 1/(1 + е -x ). Таким образом, NET e 1 1 OUT =F(NET). Рис. 4. Сигмоидальная логистическая функция По аналогии с электронными системами активационную функцию можно считать нелинейной усилительной характеристикой искусственного нейрона. Коэффициент усиления вычисляется как отношение приращения величины OUT к вызвавшему его небольшому приращению величины NET. Он выражается наклоном кривой при определенном уровне возбуждения и изменяется от малых значений при больших отрицательных возбуждениях (кривая почти горизонталь- на) до максимального значения при нулевом возбуждении и снова уменьшается, когда возбуждение становится большим положительным. Гроссберг (1973) обнаружил, что подобная нелинейная характеристика ре- шает поставленную им дилемму шумового насыщения. Каким образом одна и та же сеть может обрабатывать как слабые, так и сильные сигналы? Слабые сигна- лы нуждаются в большом сетевом усилении, чтобы дать пригодный к использова- нию выходной сигнал. Однако усилительные каскады с большими коэффициента- ми усиления могут привести к насыщению выхода шумами усилителей (случай- ными флуктуациями), которые присутствуют в любой физически реализованной сети. Сильные входные сигналы в свою очередь также будут приводить к насы- щению усилительных каскадов, исключая возможность полезного использования выхода. Центральная область логистической функции, имеющая большой коэф- 148 фициент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим усилением на положительном и отрицательном концах под- ходят для больших возбуждений. Таким образом, нейрон функционирует с боль- шим усилением в широком диапазоне уровня входного сигнала. Другой широко используемой активационной функцией является гипербо- лический тангенс. По форме она сходна с логистической функцией и часто ис- пользуется биологами в качестве математической модели активации нервной клетки. В качестве активационной функции ИНН она записывается следующим образом: OUT = th(x). Рис. 1.5. Функция гиперболического тангенса Подобно логистической функции гиперболический тангенс является S- образной функцией, но он симметричен относительно начала координат, и в точке NET = 0 значение выходного сигнала OUT равно нулю (см. рис. 1.5). В отличие от логистической функции гиперболический тангенс принимает значения различных знаков, что оказывается выгодным для ряда сетей. Рассмотренная простая модель искусственного нейрона игнорирует многие свойства своего биологического двойника. Например, она не принимает во внима- ние задержки во времени, которые воздействуют на динамику системы. Входные сигналы сразу же порождают выходной сигнал. И, что более важно, она не учиты- вает воздействий функции частотной модуляции или синхронизирующей функции биологического нейрона, которые ряд исследователей считают решающими. Несмотря на эти ограничения, сети, построенные из этих нейронов, обна- руживают свойства, сильно напоминающие биологическую систему. Только время и исследования смогут ответить на вопрос, являются ли подобные совпадения случайными или следствием того, что в модели верно схвачены важнейшие черты биологического нейрона. 3. Однослойные искусственные нейронные сети Хотя один нейрон и способен выполнять простейшие процедуры распозна- вания, сила нейронных вычислений проистекает от соединений нейронов в сетях. Простейшая сеть состоит из группы нейронов, образующих слой, как пока- зано в правой части рис. 6. 149 Рис. 6. Однослойная нейронная сеть Отметим, что вершины-круги слева служат лишь для распределения вход- ных сигналов. Они не выполняют каких-либо вычислений, и поэтому не будут счи- таться слоем. По этой причине они обозначены кругами, чтобы отличать их от вы- числяющих нейронов, обозначенных квадратами. Каждый элемент из множества входов Х отдельным весом соединен с каждым искусственным нейроном. А каж- дый нейрон выдает взвешенную сумму входов в сеть. В искусственных и биологи- ческих сетях многие соединения могут отсутствовать, все соединения показаны в целях общности. Могут иметь место также соединения между выходами и входа- ми элементов в слое. Удобно считать веса элементами матрицы W. Матрица имеет т строк и п столбцов, где m – число входов, а n – число нейронов. Например, w 2,3 – это вес, связывающий третий вход со вторым нейроном. Таким образом, вычисление вы- ходного вектора N, компонентами которого являются выходы OUT нейронов, сводится к матричному умножению N = XW, где N и Х – векторы-строки. 4. Многослойные искусственные нейронные сети Более крупные и сложные нейронные сети обладают, как правило, и боль- шими вычислительными возможностями. Хотя созданы сети всех конфигураций, какие только можно себе представить, послойная организация нейронов копирует слоистые структуры определенных отделов мозга. Оказалось, что такие много- слойные сети обладают большими возможностями, чем однослойные, и в послед- ние годы были разработаны алгоритмы для их обучения. Рис. 7. Двухслойная нейронная сеть |