Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
Скачать 1.67 Mb.
|
Семантическая неоднозначность. Сообщения, записанные на естественном языке, имеют семантическую неоднозначность, которая возникает в основном из-за синонимии и многозначно- сти слов естественного языка. Контрольные вопросы 1. На каком языке записаны документы, поступающие на вход ДИПС? 2. Что имеют сообщения, записанные на естественном язы- ке в ДИПС? 3. Какие средства применяют для хранения документов в ДИПС? 4. Где сохраняется поисковый образ документа (ПОД) в ДИПС? 5. Что логически представляет собой индекс в ДИПС? 6.2.5 Информационно - поисковые языки ( ИПЯ ) Невозможность использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необ- ходимости применения искусственных языковых средств. Информационно-поисковым языком(ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности после- дующего их поиска. ИПЯ создается на базе ЕЯ, однако отлича- 156 ется от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности. ИПЯ принято разбивать на два основных типа: 1) классификационные языки; 2) дескрипторные языки. Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В классификационных языках в лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором со- ответствующего сложного понятия (в виде словосочетания или фразы) из готового набора (рис. 6.1). Уровень 1 (темы) Уровень 2 Уровень Y–1 Уровень Y (рубрики) Рис. 6.1 — Рубрикатор предметной области Z Таким образом, с помощью таких языков производится классификация сообщений, т.е. отнесение их к классам, обозна- ченным лексическими единицами (ЛЕ) ИПЯ. 157 Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются назва- ния тематических рубрик. В целом, под рубрикатором некото- рой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками-объектами, инкапсулирующими знания. Другой тип языков составляют дескрипторные ИПЯ, в ко- торых ЛЕ заранее не связаны никакими текстуальными отноше- ниями. Сложные синтаксические конструкции — предложения или фразы — создаются в этих языках путем объединения (ко- ординации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого чис- ла ЛЕ данные языки позволяют строить предложения, выра- жающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи. Различают дескрипторные ИПЯ с грамматикой и без грам- матики. Первые характеризуются наличием ряда жестких пра- вил формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной граммати- кой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: «Иванов владеет автомобилем» может выглядеть так: «владеть Иванов автомобиль». В дескрип- торных ИПЯ без грамматики такие правила отсутствуют, и по- рядок следования ЛЕ в ПОД или ПП не играет роли. Приведен- ный выше пример может быть одинаково представлен последо- вательностями «владеть Иванов автомобиль», «Иванов владеть автомобиль» и т.п. Кроме того, различают дескрипторные ИПЯ с контроли- руемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограниче- ний, и он может постоянно пополняться за счет включения но- вых ЛЕ. 158 Контрольные вопросы 1. Дайте понятие информационно-поискового языка. 2. Два основных типа ИПЯ. 3. Что является частным случаем классификационного ИПЯ? 4. Особенность дескрипторных ИПЯ? 5. Что характеризуют дескрипторные ИПЯ с грамматикой? 6.2.6 Обработка входящей текстовой информации . Лингвистический анализ текста Так как документы, поступающие на вход ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перево- да текстов входных документов с ЕЯ на ИПЯ. Тип используемо- го ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется ин- дексированием, при использовании рубрикатора — рубрици- рованием. На сегодняшний день среди дескрипторных ИПЯ наиболь- шее распространение в автоматизированных ДИПС получили языки без грамматики и контроля по словарю. При их использо- вании говорят о полнотекстовом индексировании. В операции перевода можно выделить два этапа: 1) анализ смыслового содержания текста с целью выделе- ния из него сведений об известных системе объектах, их свойст- вах, а также отношениях между ними; 2) выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений на ИПЯ в ПОД). Этап анализа смыслового содержания текста связан с необ- ходимостью использования лингвистических и экстралингвис- тических знаний. Лингвистические знания являются общими для одного языка и на сегодняшний день являются достаточно хорошо формализованными, в то время как экстралингвистиче- ские — сильно зависят от конкретной предметной области, а задача их формализации является одной из самых сложных. В 159 этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, проводимому с целью нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существительных — именительному падежу, единственно- му числу и т.п.), под нормализацией словосочетаний — норма- лизация составляющих и запись их в определенной последова- тельности (например, сначала записывается основное слово, а затем — зависимые слова). Нормализованные слова и словосо- четания часто называют терминами. Лингвистический анализ текста может состоять из двух этапов: 1) морфологического анализа; 2) синтаксического анализа. Цель морфологического анализасостоит в получении ос- нов (под основой понимается словоформа с отсеченным оконча- нием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ. Различают точные и приближенные методы морфологиче- ского анализа. Точные методы базируются на использовании словаря основ слов или словоформ, приближенные — на экспе- риментально установленной связи между конечными буквосо- четаниями словоформ и их грамматической информацией. Использование словаря словоформ в точных методах по- зволяет легко преодолеть трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей ин- формации (собственно, морфологический анализ требуется лишь в том случае, если словоформа не найдена в словаре). При достаточно полном словаре скорость обработки материала дос- таточно высока, но объем необходимой памяти в 2—3 раза боль- ше, чем при использовании словаря основ. Морфологический анализ с использованием словаря ос- нов базируется на флективном анализе, цель которого — пра- вильное выделение основы слова. Основная трудность при ис- пользовании данного подхода связана с явлением омонимии ос- 160 нов слов. Для ее устранения проверяется совместимость выде- ленной основы слова и его окончания. В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практи- чески однозначно определить грамматический класс слова. Ос- нова слова выделяется следующим образом — от конца слова последовательно отсоединяется по одной букве и полученные буквосочетания сравниваются со списком окончаний, соответ- ствующих данному грамматическому классу. Как только поя- вится совпадение, делается вывод о том, что оставшаяся часть слова — его основа. Для анализа обычно хватает биграмм, три- граммы и четырехграммы используются редко. В результате проведения морфологического анализа может возникнуть неоднозначность при определении грамматической информации, которая снимается после проведения синтаксиче- ского анализа. Задачей синтаксического анализаявляется осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяются подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей. Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и, собственно, алго- ритма синтаксического анализа, т.е. набора стандартных опера- торов, обрабатывающих текст на основе этих знаний. Источни- ком знаний (грамматических) являются данные, полученные в результате морфологического анализа, а также различные таб- лицы, которые априорно заполнены стандартным образом и представляют собой эмпирическую обработку текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического анализа. Основу этих таблиц составляют совокупности конфигураций или набо- ры валентностей (синтаксических и семантико-синтаксических), представляющих собой списки лексических единиц с указанием для каждой из них всех возможных вариантов связей с другими единицами выражения на ЕЯ (т.е. потенциальных связей). При практической реализации синтаксического анализа стараются добиваться полной независимости правил переработки данных 161 таблиц от их содержимого, чтобы изменение в случае необхо- димости этого содержимого не влекло за собой перестройку са- мого алгоритма. Контрольные вопросы 1. Что называется индексированием? 2. Что называется рубрицированием? 3. Из каких двух этапов может состоять лингвистический анализ текста? 4. В чем состоит цель морфологического анализа? 5. Что является задачей синтаксического анализа? 6.2.7 Автоматическое индексирование Автоматическое индексирование документов может осно- вываться на простых, однословных или многословных состав- ных терминах (фразах). Простые, однословные термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы бо- лее осмысленны, обладают большей дискриминирующей мо- щью. Для генерации фраз может использоваться как синтакси- ческий анализ, так и ряд эвристических алгоритмов. Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы при- меняются методы группирования или кластеризации терминов. Если представить матрицу терминов-документов в виде двух- мерного массива, то вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит ли та или иная группа терминов в несколько документов совокуп- ности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс. Простые и составные термины, выполняющие чисто граммати- ческую функцию, заносятся в так называемые списки исключе- ния и удаляются. Основу современных методов автоматическо- го индексирования составляет присваивание весовых коэффици- ентов терминам на основе статистических характеристик. 162 Статистический метод индексирования основывается на дискриминации по термину. Каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов (иными словами, повышается плотность точек в пространстве докумен- тов), и наоборот. В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие из- менения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминато- ром, если его введение увеличивает среднее расстояние между документами. Другими словами, термин с хорошими дискрими- нирующими качествами снижает плотность в пространстве до- кументов. Дискриминирующая характеристика термина Т,обо- значаемая dv f , вычисляется как разность между плотностями пространства документов до и после введения термина Т. Ока- залось, что часто встречающиеся термины имеют отрицатель- ные значения дискриминирующих характеристик, термины со средней частотой — положительные, а для редко встречающих- ся терминов эти значения близки к нулю. Для совместного учета частоты термина и его дискриминирующей характеристики применяют схему взвешивания. Полученные значения весов терминов могут использовать- ся в процессе принятия решения о включении каждого из тер- минов в ПОД. Однако чаще решение не принимается, а в ПОД заносятся все термины, встретившиеся в документе, и их веса. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобра- зования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каж- дому документу некоторого индекса — координаты в поиско- вом пространстве. Ранее было сказано, что формализованное 163 представление индекса документа называется поисковым обра- зом документа. Пользователь выражает свои информационные потребности посредством специального языка, формируя поис- ковый образ запроса (ПОЗ) к базе документов [14]. На основе определенных критериев ДИС осуществляет по- иск и выдачу документов, поисковые образы которых соответ- ствуют поисковым образам запроса пользователя. Схема устройства и функционирования ДИС на основе ин- дексирования приведена на рис. 4.2. Информационно-поисковый язык (ИПЯ)представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа ипо- искового запроса [10]. Основными элементами ИПЯ являются алфавит, лексика и грамматика. Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ. Лексика, или словарный состав, ИПЯ — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. Грамматика ИПЯ — совокупность средств и способов по- строения, изменения и сочетания лексических единиц. Грамма- тика включает морфологию и синтаксис. Можно указать следующие требования, которым должен удовлетворять ИПЯ [14]: – располагать лексико-грамматическими средствами для точного отображения темы документа и запроса; – не содержать полисемии, синонимии и омонимии; – отображать только объективные характеристики предме- тов и отношений между ними; – быть удобным для алгоритмического сопоставления ПОД и ПОЗ. Построение выражений ИПЯ требует решения по крайней мере двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выра- жений. 164 Выбор словопределяется их смыслом, обусловленным па- радигматическими отношениями между предметами и явления- ми, которые они определяют. Парадигматические отношения— это отношения, обу- словленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Перечислим не- которые парадигматические отношения [14]: 1) «вид—род», например «шкаф—мебель». В данном слу- чае понятие «шкаф» является видовым по отношению кпоня- тию «мебель». Родовое понятие всегда включает в себя видовое; 2) «часть—целое», например «лезвие—нож»; 3) «причина—следствие», например «лампа—свет»; 4) «функциональное сходство», например «лопата— экскаватор». Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естествен- ного языка, используемых в ИПЯ. Омонимия — это совпадение слов по написанию или зву- чанию и несовпадение по смыслу. Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути. Синонимия — это совпадение слов по значению инесов- падение по написанию. Вторая проблема построения фраз ИПЯ связана с определе- нием последовательности выбранных слов. Синтагматические отношения — отношения слов при со- единении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необхо- димо указывать, в каких синтагматических отношениях эти сло- ва находятся. Так, фраза «защита окружающей среды от челове- ка» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов [15]. |