Лекционный материал по ИИС для самостоятельного изучения. 2 Модели представления знаний 2 Логическая модель представления знаний
Скачать 2.32 Mb.
|
Глава 5. ИНЖЕНЕРИЯ ЗНАНИЙ 5.1. Основы инженерии знаний Инженерия знания — достаточно молодое направление искусственного интеллекта, появившееся тогда, когда практические разработчики столкнулись с весьма нетривиальными проблемами трудности «добычи» и формализации знаний. В первых работах по искусственному интеллекту эти факты обычно только постулировались, в дальнейшем начались серьезные исследования по выявлению оптимальных стратегий выявления знаний. Инженерия знаний - раздел искусственного интеллекта, в рамках которого решаются проблемы, связанные с извлечением знаний, приобретением знаний, представлением знаний и манипулированием знаниями. И.З. 175 служит основой для создания экспертных систем и других интеллектуальных систем. Центральным понятием на стадиях получения и структурирования знаний является так называемое поле знаний. Поле знаний формируется на третьем этапе разработки ЭС — этапе структурирования. Поле знаний — это условное неформальное описание основных понятий и взаимосвязей между понятиями предметной области, выявленных из системы знаний эксперта, в виде графа, диаграммы, таблицы или текста. Стратегии получения знаний. Существует несколько стратегий получения знаний. Наиболее распространенные (рис.5.1): извлечение знаний приобретение знаний формирование знаний Рис.5.1. Три стратегии получения знаний. На современном этапе разработки экспертных систем стратегия извлечения знаний, по-видимому, является 176 наиболее актуальной, поскольку промышленных системприобретения и формированиязнаний наотечественном рынке программных средств практически нет. Извлечение знаний - это процедура взаимодействия инженера по знаниям с источником знаний (как правило, это эксперт), в результате которой становятся явными процесс рассуждений экспертовпри принятии решения и структура их представлений о предметной области. С точки зрения разработки ЭС извлечение знаний – это получение информации о предметной области от специалистов и выражение ее на языке представления знаний. Термин извлечение знаний касается непосредственногоживого контакта инженера познаниям и источниказнаний. Этот термин как болееемкий и более точно выражающий смысл процедуры переноса компетентности экспертачерез инженера по знаниям в базузнаний экспертной системы. В настоящее время большинство разработчиков экспертных систем отмечают, что процесс извлечениязнаний остается самым"узким" местом при построении промышленных систем. Проблемы и особенности извлечения знаний. Процесс извлечениязнаний - этодлительная и трудоемкая процедура, в которой инженеру по знаниям,вооруженному специальнымизнаниями по когнитивной психологии, системному анализу, математической логике и пр., необходимо воссоздать модель предметной области, которой пользуются эксперты для 177 принятия решения. Часто начинающие разработчики экспертных систем, желая избежать этой мучительной процедуры, задают вопрос: может ли эксперт сам извлечь из себя знания? Помногим причинамэтонежелательно. Большая частьзнаний эксперта - эторезультат многочисленных наслоений, ступеней опыта. И часто зная, чтоизА следует В, экспертне дает себе отчета, что цепочка его рассуждении была гораздо длиннее. Как было известно еще древним (вспомним "Диалоги" Платона), мышление диалогично. И поэтому диалог инженера по знаниям и эксперта - наиболее естественная форма "раскручивания" лабиринтовпамяти эксперта, в которых хранятся знания, частью носящие невербальный характер, т.е. выраженныене в форме слов, в форме наглядных образов,например. Именно в процессе объяснения инженеру по знаниям эксперт на эти размытые ассоциативные образы надевает четкие словесные ярлыки,т.е. вербализует знания. Эксперту гораздо труднее создать модель предметной области вследствие той глубины и необозримости информации, которой он обладает. Многочисленные причинно-следственные связи реальной предметной области образуют сложную систему,из которой выделить "скелет", или главнуюструктуру, иногда доступнее инженеру по знаниям (аналитику), владеющему к тому же системной методологией. Любая модель - это упрощение, а упрощать легче с меньшим знанием деталей. Приобретением знаний - процесс (способ) автоматизированного построения базы знаний посредством диалога эксперта и специальной программы (при этом структура знаний заранее закладывается в программу). 178 Эта стратегия требует существенной предварительной проработки предметной области. Системы приобретения знаний действительноприобретают готовые фрагментызнаний в соответствии со структурами, заложенными разработчиками систем. Большинство этих инструментальных средств специально ориентировано на конкретные экспертные системы с жестко обозначенной предметной областьюи моделью представления знаний, т.е.не являютсяуниверсальными. Например, система TEIRESIAS, ставшая прародительницей всех инструментариев для приобретения знаний, предназначена для пополнения базы знаний системы MYCIN или ее дочерних ветвей,построенных на "оболочке" EMYCIN в областимедицинской диагностики с использованием продукционной модели представления знаний. Формирование знаний – процесс анализа данных и выявление скрытых закономерностей с использованием специального математического аппарата и программных средств. Термин формирование знаний традиционно закрепился за чрезвычайно перспективнойи активно развивающейся областью инженериизнаний – интеллектуальным анализом данных. Данное направление (см. Главу 4) занимаетсяразработкой моделей, методов и алгоритмов анализа для получения знаний из накопленных данных. Теоретические аспекты получения знаний. Чтобы разобраться в природе извлечениязнаний, выделим три основных аспектаэтойпроцедуры (рис.5.2): психологический, лингвистический, гносеологический. 179 А = {Al, A2, A3} = {психологический, лингвистический, гносеологический}. Рис.5.2. Теоретические аспекты инженерии знаний Психологический аспект. Из трех аспектов извлечения знаний психологический является ведущим, поскольку он определяет успешность и эффективность взаимодействия инженера по знаниям (аналитика) с основным источником знаний — экспертом-профессионалом. Психологический аспект выделяется еще и потому, что извлечение знаний происходит чаще всего в процессе непосредственного общения разработчиков системы. А в общении психология является доминантной. Общение, или коммуникация (от лат. communicatio — связь), — это междисциплинарное понятие, обозначающее все формы непосредственных контактов между людьми — отдружеских до деловых. Оно широко исследуется в психологии, философии, социологии, этологии, лингвистике, семиотике и других науках. Существует несколько десятков теорий общения, и единственное, в чем сходятся все авторы, — это сложность, многоплановость процедуры общения. Подчеркивается, что общение — не просто однонаправленный 180 процесс передачи сообщений и не двухтактный обмен порциями сведений, а нерасчлененный процесс циркуляции информации, то есть совместный поиск истины. Таким образом, общение есть процесс выработки новой информации, общей для общающихся людей и рождающей их общность. И хотя общение — первый вид деятельности, которым овладевает человек в онтогенезе, по-настоящему владеют культурой и наукой общения единицы. Можно выделить четыре основных уровня общения. Уровень манипулирования, когда один субъект рассматривает другого как средство или помеху по отношению к проекту своей деятельности. Уровень «рефлексивной игры», когда в процессе своей деятельности человек учитывает «контрпроект» другого субъекта, но не признает за ним самоценность и стремится к «выигрышу», к реализации своего проекта. Уровень правового общения, когда субъекты признают право на существование проектов деятельности друг друга и пытаются согласовать их хотя бы внешне. Уровень нравственного общения, когда субъекты внутренне принимают общий проект взаимной деятельности. Стремление и умение общаться на высшем, четвертом, уровне может характеризовать степень профессионализма инженера по знаниям. Извлечение знаний — это особый вид общения, который можно отнести к духовно- информационному типу. Известно, что общение делится на материально-практическое; духовно-информационное; практически-духовное. При этом информационный аспект 181 общения для инженера по знаниям с прагматической точки зрения важнейший. Известно, что потери информации при разговорном общении велики. В связи с этим рассмотрим проблему увеличения информативности общения аналитика и эксперта за счет использования психологических знаний. Можно выделить такие структурные компоненты модели общения при извлечении знаний: участники общения (партнеры); средства общения (процедура); предмет общения (знания). В соответствии с этой структурой выделяют три «слоя» психологических проблем, возникающих при извлечении знаний (рис.5.3): А1 ={S11, S12, S13 } = {контактный, процедурный, когнитивный}. Рис. 5.3. Психологический аспект извлечения знаний Контактный слой. Он связан с атмосферой и уровнем общения в коллективе разработчиков ЭС. Практически все психологи отмечают, что на любой коллективный процесс 182 влияет атмосфера, возникающая в группе участников. Существуют эксперименты, результаты которых неоспоримо говорят, что дружеская атмосфера в коллективе больше влияет на результат, чем индивидуальные способности отдельных членов группы. Особенно важно, чтобы в коллективе разработчиков складывались кооперативные, а не конкурентные отношения. Для кооперации характерна атмосфера сотрудничества, взаимопомощи, заинтересованности в успехах друг друга, т.е. уровень нравственного общения, а для отношений конкурентного типа - атмосфера индивидуализма и межличностного соперничества(более низкий уровень общения). К сожалению, прогнозировать совместимость в общении со 100%-ной гарантией невозможно. Однако можно выделить ряд черт личности, характера и других особенностей участников общения, несомненно, оказывающих влияние на эффективность процедуры. Знание этих психологических закономерностей составляет часть багажа психологической культуры, которым должен обладать инженер по знаниям для успешного проведения стадии извлечения знаний: доброжелательность и дружелюбие; чувство юмора; хорошая память и внимание; наблюдательность; воображение и впечатлительность; большая собранность и настойчивость; общительность и находчивость; аналитичность; располагающая внешность и манера одеваться; уверенность в себе. 183 Процедурный слойкасается проведения самой процедуры извлечения знаний. Инженер по знаниям, успешно овладевший наукой доверия и взаимопонимания с экспертом (контактныйслой), должен еще уметь воспользоватьсяблагоприятным воздействием этой атмосферы. Здесь мало проницательности и обаяния, полезного для решения проблемы контакта, тут необходимы профессиональные знания. Остановимся на общих закономерностях проведения процедуры. Беседу с экспертом лучше всего проводить в небольшом помещении tete-a-tete. Освещение, тепло, уют влияют непосредственно на настроение. Чай или кофе создадут дружескую атмосферу. Американский психолог И.Атватер считает, что для делового общения наиболее благоприятная дистанция от 1,2 до 3 м. Минимальным "комфортным" расстоянием можно считать 0,7 - 0,8 м. Реконструкция собственных рассуждений - нелегкий труд, и поэтому длительность одного сеанса обычно не превышает 1,5 - 2ч. Эти два часа лучше выбрать в первой половине дня (например, с 10 до 12 ч). Известно, что взаимная утомляемость партнеров при беседе наступает обычно через 20 - 25 мин, поэтому в сеансе нужны паузы. Любой инженер по знаниям имеет свою уникальную манеру разговора. Одни говорят быстро, другие медленно; одни громко, другие тихо и т.д. Стиль разговора изменить практически невозможно - он закладывается в человеке в раннем детстве. Однако извлечение знаний - это профессиональный разговор, и на его успешность влияет также длина фраз, которые произносит инженер по знаниям. 184 Этот факт был установлен американскими учеными - лингвистом Ингве и психологом Миллером. Оказалось, что человек лучше всего воспринимает предложения глубиной (или длиной) 7 плюс-минус 2 слова. Это число (7¦2) получило название число Ингве-Миллера. Можно считать его мерой "разговорности" речи. Необходимость фиксации процедуры извлечения знаний ни у кого не вызывает сомнений. Встает вопрос: в какой форме это делать? Можно предложить три способа протоколирования результатов: • запись, на бумагу непосредственно по ходу беседы (недостатки - это часто мешает беседе, кроме того, трудно успеть записать все, даже при наличии навыков стенографии); • магнитофонная запись, помогающая аналитику проанализировать весь ход сеанса и свои ошибки (недостаток - может сковывать эксперта); • запоминание с последующей записью после беседы (недостаток - годится только для аналитиков с блестящей памятью). Когнитивный слой(англ. cognition - познание)связан со знанием механизмов, при помощи которых человек познает окружающий мир. С позиций когнитивной психологии при извлечении знаний желательно: • не навязывать эксперту ту модель представления, которая ему (аналитику) более понятна и естественна; 185 • использовать различные методы работы с экспертом исходя из условия, что метод должен подходить к эксперту, как "ключ к замку"; • четко осознавать цель процедуры извлечения или ее главную стратегию, которая может быть определена как выявление основных понятий предметной области и связывающих их отношений; • чаще рисовать схемы, отображающие рассуждения эксперта. Это связано с образной репрезентацией информации в памяти человека. Материал, изложенный выше, тесно связан с азами психологической культуры, которая включает понимание и знание себя и других людей; адекватную самооценку и оценку других людей; саморегулирование психического состояния. Овладеть этой культурой легче с помощью специалистов - психологов, психотерапевтов, но можно самостоятельно с помощьюкниг. Кроме этого успешному преодолению психологических неудач способствует овладение основами актерского мастерства и участие в специальных занятиях по социально-психологическому видеотренингу. Проблемы и трудности инженера по знаниям при извлечении знаний: отсутствие контакта между экспертом и инженером по знаниям (из-за психологических особенностей того или другого; ошибок в процедуре; возникновения эффекта "фасада", т.е. желания эксперта "показать себя"); отсутствие понимания (из-за эффекта "проекции",т.е. переноса взгляда аналитика на взгляды эксперта; или эффекта "порядка", т.е. концентрации внимания в 186 первую очередь на том, что высказывается вначале, и др.); низкая эффективность бесед (слабая мотивация эксперта, т.е. отсутствие у него интереса; или неудачныйтемп беседы; или неподходящая форма вопросов;или неудовлетворительные ответы эксперта). Лингвистический аспект. Лингвистический (А2) аспект касается исследований языковых проблем, так как язык — это основное средство общения в процессе извлечения знаний. Сразу же следует оговорить, что поскольку тема данной книги ограничена изложением теории и технологии инженерии знаний, то область разработки естественно-языковых интерфейсов и весь спектр проблем, связанных с ней — лексических, синтаксических, семантических, прагматических и т. д. — не рассматривается. В инженерии знаний можно выделить три слоя лингвистических проблем (рис.5.4): А2 = {S21, $22, S23} = {«общий код», понятийная структура, словарь пользователя}. Рис. 5.4. Лингвистический аспект извлечения знаний. 187 Проблема «Общего кода». Большинство психологов и лингвистов считают, что язык - это основное средство мышления наряду с другими знаковыми системами "внутреннего пользования". Языки, на которых говорят и размышляют аналитик и эксперт, могут существенно отличаться. Различие языков и обусловливает «языковый барьер» или «языковые ножницы» в общении инженера по знаниям и эксперта. Язык инженера по знаниям (аналитика)состоит из трех компонентов: общенаучной терминологии из его «теоретического багажа»; терминов предметной области, которые он почерпнул из специальной литературы в период подготовки; бытового разговорного языка, которым пользуется аналитик. Язык эксперта включает: общенаучную терминологию; специальную терминологию, принятую в предметной области; бытовой язык; неологизмы, созданные экспертом за время работы, то есть его профессиональный жаргон. Если считать, что бытовой и общенаучный языки у двух участников общения примерно совпадают, то некоторый общий язык, или код, который необходимо выработать партнерам для успешного взаимодействия, будет включать еще специальные терминологии инженера по знаниям и эксперта. В дальнейшем этот общий код преобразуется в 188 некоторую понятийную (семантическую) сеть, которая является прообразом поля знаний предметной области. Выработка общего кода начинается с выписывания аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следуют группировка терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, т.е. по понятийной близости (это уже первый шаг структурирования знаний). Важной является проблема неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация связывает "знак" и "означаемый предмет". Только в интерпретации знак получает смысл. Так, например, термин "прибор X" для эксперта означают некоторую конкретную схему, которая соответствует схеме оригинала прибора, а в голове начинающего аналитика слова "прибор X" вызывают пустой образ или некоторый "черный ящик" с ручками. Понятийная структура.Большинство специалистов по искусственному интеллекту и когнитивной психологии считают, что основная особенность естественного интеллекта и памяти в частности - это связанность всех понятий в некоторую сеть. Поэтому для разработки базы знаний нужен не словарь, а энциклопедия, в которой все термины объяснены в словарных статьях со ссылками на другие термины. Таким образом, лингвистическая работа инженера по знаниям на данном слое проблем заключается в построении 189 таких связанных фрагментов с помощью "сшивания" терминов. При тщательной работе аналитика и эксперта в понятийных структурах начинает проглядывать иерархия понятий, что в общем согласуется с результатами когнитивной психологии. Иерархия понятий - это глобальная схема, которая может быть в основе концептуального анализа структуры знаний любой предметной области. Следует подчеркнуть, что работа по составлению словаря и понятийной структуры требует лингвистического "чутья", легкости манипулирования терминами и богатого словарного запаса инженера по знаниям, так как зачастую аналитик вынужден самостоятельно разрабатывать словарь признаков Чем богаче и выразительнее общий код, тем полнее база знаний. Аналитик вынужден все время помнить о трудности передачи образов и представлений в вербальной форме. Часто инженеру по знаниям приходится подсказывать слова и выражения эксперту. Словарь пользователя.Лингвистические результаты, соотнесенные со слоями общего кода и понятийной структуры, направлены на создание адекватной базы знаний. Однако не следует забывать, что профессиональный уровень конечного пользователя может не позволить ему применить специальный язык предметной области в полном объеме. Для разработки пользовательского интерфейса необходима дополнительная доработка словаря общего кода с поправкой на доступность и "прозрачность" системы. 190 В заключение перечислим характерные лингвистические неудачи, подстерегающие начинающего инженера по знаниям: разговор на разных языках (из-за слабой подготовки инженера по знаниям); несоотнесение с контекстом и неадекватная интерпретация терминов (из-за отсутствия обратной связи, т.е. слишком независимой работы инженера по знаниям); отсутствие отличий между общим кодом и языком пользователя (не учтены различия в уровне знаний эксперта и пользователя). Гносеологический аспект связан с теорией познания, или теорией отражения действительности в сознании человека. Инженерия знаний как наука, если можно так выразиться, дважды гносеологична - действительность сначала отражается в сознании эксперта, а затем деятельность и опыт эксперта интерпретируются сознанием инженера по знаниям, что служит уже основой для построения третьей интерпретации - поля знаний экспертной системы. Процесс познания в сущности направлен на создание внутреннего представления окружающего мира в сознании человека. В процессе извлечения знаний аналитика в основном интересует компонент знания, связанный с неканоническими индивидуальными знаниями экспертов, поскольку предметные области именно с таким типом знаний считаются наиболее восприимчивыми к внедрению экспертных систем. Эти области обычно называют эмпирическими, так как в них накоплен большой объем отдельных эмпирических фактов и наблюдений, в то время как их теоретическое обобщение - вопрос будущего. 191 Познание всегда связано с созданием новых понятий и теории. Интересно, что часто эксперт как бы "на ходу" порождает новые знания, прямо в контексте беседы с аналитиком. Такая генерация знаний может быть полезна и самому эксперту, который до того момента мог не осознавать ряд соотношений и закономерностей предметной области. Аналитику, который является "повитухой" при рождении нового знания, может помочь тут и инструментарий системной методологии, позволяющий использовать известные принципы логики научных исследований, понятийной иерархии науки. Эта методология заставляет его за частным увидеть общее, т.е. строить гносеологические цепочки: ФАКТ=> ОБОБЩЕННЫЙ ФАКТ=> ЭМПИРИЧЕСКИЙ ЗАКОН=> ТЕОРЕТИЧЕСКИЙ ЗАКОН. Не всегда инженер по знаниям дойдет до последнего звена этой цепочки, но уже само стремление к движению бывает чрезвычайно плодотворным. Такой подход полностью согласуется со структурой самого знания, которое имеет два уровня: эмпирический (наблюдения, явления); теоретический (законы, абстракции, обобщения). Методологическая структура познания может быть представлена как последовательность этапов (рис.5.5), которые рассмотрим с позиций инженера по знаниям. |