Военно-промышленный комплекс сворачивает свои программы по созданию оружия с элементами искусственного интеллекта - опытный образец "умной" бомбы так и не удалось выпихнуть из самолета. Анекдот о проблемах реализации систем искусственного интеллекта
Искусственный интеллект (artificial intelligence) - одна из областей информатики, направленная на моделирование и решение задач, связанных с обработкой символьной информации, логикой и естественным языком. [Нильсон 1985]. Искусственный интеллект ставит перед собой и более серьезную задачу построения теории интеллекта, базирующуюся на обработке информации. Отдельные ветви этой области касаются психологии, философии и лингвистики. Базы знаний и экспертные системы - два наиболее известных типа систем, связываемых с искусственным интеллектом.
К системам искусственного интеллекта можно предъявить различные требования (http://asu.pstu.ac.ru/structure/prepod/solov.htm).
Работа с неполной и неточной информацией. Системы должны поступать "как крутой детектив". На основе неполной и неточной информации они разрабатывают первый вариант алгоритма, который потом совершенствуется на основе новой информации, получаемой системой. Понимание плохоформализуемого. Системы должны быть "как кулинарная книга". Например, "добавить по вкусу", "варить до готовности" и т. п. Самообучение. Системы должны не только хранить закономерности, но и показывать - как они используются при поиске решения. Например, при конструировании электрического стула система должна найти закон Ома и использовать его в расчетах. Понимание смысла вопроса. Например, на вопрос "Вы не скажете, который час?" в некоторых случаях вполне разумным будет ответ "Меня зовут Лена". Наличие возможности обучения и объяснения. Системы должны "напоминать толмача". Они должны иметь возможность обучения и объяснения. Например, будет полезнее, если система в области медицины на вопрос о наиболее эффективном лечении подробно объяснит, "что с такой болезнью давно пора помирать", вместо того чтобы прописывать цианистый калий.
5.3.5.2. Механизмы выводов на знаниях
Жизнь - это искусство делать верные выводы из неверных посылок. С. Батлер
Под механизмом вывода в экспертных системах будем понимать ту часть экспертной системы, в которой содержатся общие знания о схеме управления решением задач. Машина вывода выполняет две основные функции [Гаврилова, Хорошевский 2001].
Просмотр существующих фактов из рабочей памяти (базы данных) и правил из базы знаний и добавление в рабочую память новых фактов. Определение порядка просмотра и применения правил.
В зависимости от проблемной области (пространства поиска), будем классифицировать выводы следующим образом:
вывод в одном пространстве; вывод в иерархических пространствах; вывод в альтернативных (параллельных) пространствах; вывод с использованием нескольких моделей; вывод в динамической проблемной области; вывод при неточных данных.
Вывод в динамической проблемной области и вывод при неточных данных характеризуются или присоединением к обычному выводу дополнительных функций, или своеобразной спецификой, уникальными (возможно нигде более не используемыми) методами.
Перечислим основные типы выводов на знаниях.
Логический вывод - рассуждение с целью установления истинности какого-либо утверждения. Это рассуждение опирается при этом на аксиомы данной теории и ряд допущений или гипотез и состоит в последовательном переходе от этих отправных точек к новым, логически связанным с предыдущими предложениями. В ходе рассуждений возникает цепочка последовательно выдвигаемых предложений, одни из которых принимаются в качестве аксиом или допущений, а каждое из остальных логически следует из некоторых ранее сформулированных в данном выводе предложений. Аксиоматические теории представляются в виде формальных систем или формальных теорий, в которых все предложения, в том числе и аксиомы, записываются как формулы некоторого формализованного языка, а все способы рассуждения сведены к небольшому числу чисто формальных правил вывода. Метод резолюций. Исчисление предикатов первого порядка - формальный язык, в котором можно выразить большое разнообразие утверждений. Рассмотрим метод резолюций в этом языке.
Исходная логическая формула исчисления предикатов должна быть приведена к стандартной форме - множеству дизъюнктов. Следующие идеи используются для достижения этой цели. Формула может быть сведена к предваренной нормальной форме, в которой матрица не содержит кванторов, а префикс есть их последовательность. Не содержащая кванторов матрица может быть сведена к конъюнктивно нормальной форме. Сохраняя противоречивость формулы, можно избавиться от квантора существования (сколемизация). Таким образом, любая формула может быть представлена множеством дизъюнктов. Основная идея метода резолюций - проверить, содержит ли s - множество дизъюнктов - пустой дизъюнкт (s). Если да, то s - невыполнимо. Если не содержит, то проверяется следующий факт: может ли быть s получен из s и т. д. Таким образом, метод резолюций можно рассматривать как специальное правило вывода для порождения из s новых дизъюнктов.
О практическом применении метода резолюций Следует заметить, что метод резолюций используется в так называемых языках логического программирования. Например, на языке Prolog запись программы будет близка к записи в стандартной форме.
Обратный вывод Маркова. В этом методе поиск вывода идет от цели к аксиомам и теоремам, истинность которых априорно известна. Чтобы определить выводимость формулы из посылок, надо найти формулы - предшественники, из которых нужная формула может быть выведена одним применением правила вывода. Затем по каждой из получившихся формул - предшественников, не являющейся аксиомой исчисления, определяется множество непосредственных формул - предшественников и т. д. Дерево вывода получается, если все листья становятся аксиомами исчисления. Продукционный вывод. Продукционные модели для представления знаний в экспертных системах отличаются от формальных продукционных систем тем, что они используют более богатые правила и содержат эвристическую информацию о специфике проблемной области, выражаемую, например, в виде семантических структур. В продукционном правиле есть элемент процедурности, т. к. предполагается, что правило будет использовано для выполнения некоторого действия. Декларативные знания не несут никакой информации о том, как они будут использованы. В общем случае продукционное правило может быть представлено в следующей форме: (i); S; С; А=>В; Q, где А=>В называют ядром продукции. Здесь:
А - совокупность посылок; В - заключение; С - условие применимости продукции; S - сфера применимости продукции; (i) - собственное имя продукции (метка); Q - постусловие (если ядро реализовано, то может появиться необходимость изменения информации в базе данных, базе знаний или в продукционной системе. Информация об этом может находиться в Q).
Вот лишь некоторые наиболее известные системы, применяющие механизм выводов [Попов 1987], [Гаврилова, Хорошевский 2001]:
MYCIN (разработка Стэнфордского университета (http://www.stanford.edu/)) - экспертная система в области медицины; PROSPECTOR (компании SRI International) - экспертная система в области геологии; Cattell (разработка компьютерного центра РАН (http://www.ccas.ru/ posp)) - экспертная система в области социальной психологии. 5.3.5.3. Неточный вывод на знаниях
Данные и знания в экспертных системах могут иметь неопределенность, причем для ее описания применяются разнообразные средства.
Рассмотрим один из типов неопределенности - неточность. Неточное высказывание - высказывание, истинность которого не может быть установлена с определенностью. Модель оперирования с неточными данными и знаниями включает две составляющие.
Язык представления неточности. Механизм вывода на неточных знаниях.
Для построения языка необходимо выбрать форму представления неточности. Это может быть скаляр, интервал, распределение, лингвистическое выражение или множество. Также надо предусмотреть возможность приписывания всем высказываниям меры неточности. Из подходов к описанию неопределенности можно выделить вероятностный и алгебраический. Механизмы оперирования с неточными высказываниями можно разделить на два типа.
Присоединенный механизм, сопровождающий процесс вывода на точных высказываниях. При этом для вывода на продукционных правилах надо определить следующие функции пересчета:
меру неточности посылки правила по мерам неточностей составляющих его высказываний; меру неточности заключения правила по мерам неточности правила и посылки правила; объединенную меру неточности высказывания, полученного из нескольких правил.
Специально-ориентированный механизм, для которого характерно наличие схем вывода, настроенных на используемый язык представления неточностей.
В качестве примеров систем, применяющих аппарат неточного вывода на знаниях, приведем:
CubiCalc (компании HyperLogic (http://www.hyperlogic.com/)) FuziCalc (компании FuziWare Inc.).
5.3.6. Электронные библиотеки и инструментарий Интернета
5.3.6.1. Парадигма усиления информации
Рассмотрим парадигму усиления информации, которая достаточно удачно описывает роль ресурсов Интернета (рис. 5.5).
Парадигма проводит параллели с принципом, положенным в основу работы транзистора: усиление сигнала при подпитке от базы.
Интернет играет роль "информационного усилителя", питая пользовательский запрос информацией и переводя его в совокупность структурированной информации (электронную библиотеку).
5.3.6.2. Профессиональный поиск информации
Результаты профессионального поиска информации играют огромную роль в методах научного познания. Этапы, соответствующие началу научного исследования, могут быть алгоритмизированы.
Формулировка проблемы, постановка цели (что хотим достичь) и конкретных задач (что необходимо сделать для достижения цели). Выбор методов исследования и построение стратегии информационно-аналитического поиска. Напомним, что общие методы научного познания обычно делят на следующие три большие группы:
методы эмпирического исследования (наблюдение, сравнение и др.); методы, используемые как на эмпирическом, так и на теоретическом уровне исследования (абстрагирование, анализ и синтез и др.); методы теоретического исследования (восхождение от абстрактного к конкретному и др.).
Как мы видим, практически все методы требуют поиска информации и использования результатов поиска в качестве входных данных.
В случае простейшей (и наиболее распространенной) стратегии поиска информации могут быть выделены два основных этапа.
Запрос информации с целью исследования некоторой предметной области. Выборка действительно необходимой информации и генерация отчета по исследуемой проблеме.
Именно на эти этапы должны быть ориентированы системы, предназначенные для обработки информации, полученной из Интернета.
В настоящее время крупнейшим информационным ресурсом является Интернет, и в первую очередь - среда World Wide Web (WWW) - глобальная интерактивная распределенная гипертекстовая информационная система. Предпринятые попытки оценить размер информации в Интернете согласуются в том, что в среде WWW содержится более миллиарда страниц. Если предположить, что размер среднестатистической страницы составляет 4-10 Кбайт, то речь идет о терабайтах информации. Кроме поверхностной (не скрытой за поисковыми формами) части Интернета, существует скрытая (hidden, deep) часть, к которой относится множество крупных баз данных. Объем скрытой части оценивают в 500 раз больше, чем поверхностной.
5.3.6.3. Проблемы работы с информационными ресурсами Интернета
Можно предположить, что в Интернете можно найти информацию практически по любой тематике. Однако сделать это достаточно сложно, т. к. наиболее распространенные и известные поисковые инструменты - справочники и поисковые серверы - не позволяют эффективно структурировать результаты поиска. Кроме того, возникает задача отсеивания данных, т. е. отсечения ненужной и несвязной информации от той ее части, которая будет полезной. Существует несколько проблем, возникающих при работе с информацией в Интернете и препятствующих быстрому и качественному поиску.
Недостаточная структурированность информации (наличие так называемых слабоструктурированных данных). Для облегчения поиска в таких документах было предложено несколько моделей представления такой информации, в том числе Stanford's Object Exchange Model (http://www.rocq.mria.fr/ simeon/semistructure/art.html), в рамках которой данные представляются в виде направленного графа с поименованными вершинами и дугами. Избыточность информации. Около трети информации в Интернете является точными или приблизительными копиями других документов. Наличие противоречивых и недостоверных сведений. Типичным примером является включение некорректных ключевых слов в группу инструкций МЕТА, специально предназначенных для описания и индексирования документов поисковыми машинами. Некоторые поисковые машины сделали попытку решить эту проблему с помощью полнотекстовой индексации документов. Однако сетевые мастера Интернета предложили сразу несколько способов обмануть поисковый робот, например, писать белым шрифтом по белому фону все то, что ранее включалось в инструкцию МЕТА. Большое количество ошибок (например, опечаток, грамматических ошибок, ошибок оцифровки). Эти ошибки являются следствием неконтролируемого качества, включая отсутствие редакторского контроля над публикуемой информацией. Укажем на ряд особенностей поиска в Интернете, связанных с понятием человеческий фактор [Jansen, Sprink, Saracevic 2000].
Поведение пользователя. Пользователь не готов долго ждать результата и не готов даже искать его в предоставленной поисковой системой выборке. Практически половина пользователей не идет далее первого экрана, предложенного информационно-поисковой системой. Неумение делать запросы. Большинство пользователей не использует расширенные возможности поиска, такие как логические выражения. Кроме того, типичные поисковые запросы очень коротки - более 60% запросов состоят всего из 1-2 слов.
Существует необходимость в совершенствовании программного обеспечения, которое поможет пользователю в интеллектуальном поиске и отборе нужной информации.
5.3.6.4. Коллекции информационных ресурсов в Интернете
Электронная библиотека - система, обеспечивающая сообществу пользователей доступ (понятным для них образом) к большим репозиториям мультимедийной информации и знаний. Причем эти репозитории организованы при отсутствии каких-либо сведений о способах их применения [Когаловский 1999].
Коллекция информационных ресурсов - систематизированная совокупность информационных ресурсов, объединенных по какому-либо критерию принадлежности, например, по общности содержания, источников, назначения, по кругу пользователей, способу доступа и т. д. Коллекции являются наиболее распространенной формой организации информационных ресурсов в электронных библиотеках.
С функциональной точки зрения информационные ресурсы коллекции подразделяются на данные (информацию) и метаданные (метаинформацию). Ресурсы первого вида представляют интересующие пользователей сведения о предметной области этой коллекции. В свою очередь, метаданные коллекции характеризуют свойства самой коллекции и принадлежащих ей ресурсов в целом как сущностей реального мира.
Систематизация коллекций - задание структуры коллекции, осуществляемое на основе свойств ее предметной области и (или) свойств составляющих ее информационных ресурсов.
Систематизированный характер информационных ресурсов коллекции является принципиально важным ее свойством, отличающим коллекцию от других наборов таких ресурсов. Осмысленная систематизация информационных ресурсов не только облегчает доступ пользователей к ним, но и дает возможность целенаправленно и рациональным образом исследовать с их помощью предметную область коллекции.
Наряду с систематизированностью, к числу важных свойств любой коллекции относятся ее назначение, характеристики происхождения, способ задания состава принадлежащих ей ресурсов и правила их именования, виды используемых информационных технологий, характеристики представления информационных ресурсов и т.д.
Возможны различные подходы к заданию состава коллекций:
явным образом - непосредственно как совокупность принадлежащих ей информационных ресурсов или как список ссылок на них (например, URL в WWW); неявным образом - путем спецификации в какой-либо форме критерия принадлежности информационного ресурса данной коллекции. Примером может служить задание коллекции на основе полнотекстовой документальной системы путем спецификации поискового запроса.
Систематизация коллекции с использованием свойств ее предметной области должна основываться на концептуализации предметной области. Концептуальная модель предметной области может иметь различные формы представления. Если коллекция реализуется на основе технологии баз данных, то модель представляется в виде концептуальной схемы, которая отображается в среду СУБД и описывается схемой базы данных.
Для многих коллекций концептуальная модель предметной области представляется в форме классификатора, определяющего одномерное или многомерное пространство классификационных признаков. В таком случае отдельные точки или гиперплоскости этого пространства представляют классы сущностей предметной области, соответствующие ресурсам коллекции. В качестве классификационных признаков обычно используют наиболее существенные свойства этих сущностей. Для классификационных признаков может быть предопределено множество их возможных значений. При этом множество значений отдельного признака может иметь линейную или иерархическую структуру.
5.3.6.5. Базы данных в Интернете
Среди информационных ресурсов Интернета особый интерес вызывают базы данных, которые подразделяются на [Краснослободцев, Смирнов, Лиходедов 1998]:
текстовые (полнотекстовые, реферативные, библиографические); содержащие изображения и использующие средства мультимедиа; числовые и табличные; содержащие программное обеспечение.
Базы данных в Интернете рассчитаны как на массового, так и на профессионального потребителя. Баз данных первого типа - большинство. Ко второй группе относятся профессиональные информационные системы, представляющие собой специализированные базы данных и поисковые программы. Например, крупнейший мировой продавец информации - компания Questel-Orbit, разместила в Интернете базу данных патентов (http://www.qpat.com/). Специализированные базы данных, как правило, имеют свой узкоспециальный интерфейс и собственную уникальную структуру. В последние годы появилась тенденция к интеграции и стандартизации профессиональных баз данных.
5.3.6.6. Краткая история поисковых средств Интернета
Активное внедрение средств компьютерных телекоммуникаций, глобальных компьютерных сетей и сетевых баз данных сделало сеть Интернет доступной и необходимой для многих. Интернет предоставляет своим пользователям информационные ресурсы и средства работы с ними.
Необходимость создания поисковых средств Интернета была осознана практически с момента создания сети. Исторически известны такие приложения, как Apachie (для ftp), Veronica (для Gopher) и WAIS (поиск в индексированных базах данных). На сегодняшний день наиболее развитый и удобный в использовании инструмент - поисковые системы. Поисковая система состоит из компонентов, таких как:
сетевой робот, занимающийся сбором информации о доступных в Интернете ресурсах. Собранная информация складывается в хранилище. Его содержимое определяет набор документов, по которым идет поиск; модуль индексирования, создающий индексные структуры, по которым для достижения приемлемой эффективности и производится поиск; поисковая машина, получающая и выполняющая запросы пользователей.
Серверы, на которых расположены поисковые системы, называют поисковыми серверами.
В число наиболее посещаемых англоязычных поисковых систем (и, соответственно, серверов) входят:
Google (http://www.google.com/); Yahoo (http://www.yahoo.com/); AltaVista (http://www.altavista.com/).
В русскоязычной части Интернета популярны:
Яndex (http://www.yandex.ru/); Rambler (http://www.rambler.ru/).
Однако эти поисковые инструменты не позволяют эффективно структурировать результаты поиска. Кроме того, возникает задача отсеивания полуценных данных, т.е. отсечения ненужной и несвязной информации от той ее части, которая будет полезной (см. разд. 5.3.6.3).
Одним из наиболее перспективных методов работы с информацией в Интернете является ее структурирование в тематические электронные библиотеки. Активное использование персональных электронных библиотек должно служить созданию эффективной инфраструктуры для поддержки научных исследований и других сфер деятельности.
5.3.6.7. Искусственный интеллект и задача поиска в Интернете
Тематики исследований в двух крупных направлениях информатики - области искусственного интеллекта и Интернете - сближаются. Методы искусственного интеллекта все в большей степени ориентируются на задачи практического применения, а Интернет стремится к более сложным приложениям, требующим интеллектуального поведения.
Многие методы и приемы искусственного интеллекта нашли применение в конкретных проблемных областях. Перечислим лишь некоторые направления, которые могут с успехом применяться для разработки Интернет-приложений.
Обработка естественного языка. Извлечение информации из баз данных. Экспертные консультирующие системы.
Понятие онтология было введено в искусственный интеллект Томом Грубером [Gruber 1993], как спецификация концептуализации. Подобно формальным спецификациям программных продуктов, онтология - это описание концептов и связей между ними. Предполагалось, что онтологии будут использованы исключительно для облегчения взаимодействия интеллектуальных агентов. Затем понятие онтологии было расширено. В частности, иерархическая структура классов в объектно-ориентированном программировании представляет собой онтологию.
Большую роль в сборе информации о существующих ресурсах Интернета играют сетевые роботы, являющиеся интеллектуальными агентами. Они, начиная с некоторого множества ссылок на страницы в сети Интернет, рекурсивно обходят ресурсы, извлекая ссылки на новые ресурсы из полученных документов, до тех пор, пока не будет выполнено некоторое условие остановки. Уточним понятия агента и интеллектуального агента.
Агент - сущность, находящаяся в некоторой среде, от которой она получает данные, отражающие происходящие в этой среде события. Агент интерпретирует данные и исполняет команды, которые воздействуют на среду. Интеллектуальный агент - программно или аппаратно реализованная система, обладающая следующими свойствами:
автономность - способность функционировать без вмешательства человека; общественное поведение - способность функционировать в сообществе с другими агентами; реактивность - способность своевременно отвечать на изменения окружающей среды; проактивность - способность агента брать на себя инициативу.
В настоящее время исследование применимости идей искусственного интеллекта к среде Интернет ведется в различных направлениях [Mahalingam, Huhns 1997].
Обработка поисковыми машинами запросов на естественном языке. Система получает запрос на естественном языке, с помощью грамматических и лингвистических правил сопоставляет запрос с информацией в Интернете. Удачным примером такой системы является Япс1ех (http://www.yandex.ru/). В ней независимо от того, в какой форме употреблено в запросе слово, поиск учитывает все его формы по правилам русского языка. Продукционно-эвристическое распознавание естественного языка. Системы, развивающиеся в этом направлении, как правило, являются узкопрофильными и предназначены для выполнения очень узко сформированных целей или обработки ограниченных областей данных. Пример системы - FAQFinder (http://www.infolab.nwu.edu/faqfinder/). Автоматическое наполнение базы знаний. Это и следующее направления используют агентную технологию. Данное направление реализовано в интеллектуальном браузере WebWatcher (http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-6/web-agent/www/project-home.html). Использование эвристических правил для установки приоритета. Это направление реализовано в другом интеллектуальном браузере - Letizia (http://lcs.www.media.mit.edu/people/lieber/Lieberary/Letizia/Letizia-Intro.html). Направление нейронных сетей. Основой здесь являются сети искусственных нейронов и других аналогичных конструкций, присущих нервной системе человека, в которых протекают психические процессы, опирающиеся на физиологический и биохимический уровни. Пример реализации этого направления - система работы со знаниями - Autonomy (http://www.autonomy.com/). Принцип разделяемых знаний. Реализуется в виртуальных группах, т. е. организациях и рабочих коллективах людей, которые работают и общаются между собой в интерактивном режиме. Знакомство с такого рода системами можно начать с AJMS (http://aims.parl.com/About-AIMS.html).
Экспериментальные системы интеллектуального поиска используют одновременно мощь существующих поисковых систем и элементы искусственного интеллекта для отбора и анализа извлеченной из Интернета информации [Холчева 1999]. Поисковая система по запросу пользователя обращается на крупнейшие поисковые серверы. Полученные ссылки сортируются. Анализируются html-файлы, расположенные по этим адресам. Пользователю предлагаются выдержки из текста документов, отражающие результаты поиска.
Каждый пользовательский запрос, прежде всего, преобразуется в дизъюнктивную форму со строго определенным порядком следования логических операций. Приоритеты операций расставлены следующим образом (табл. 5.1).
|