Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)

Название	Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
Анкор	Информатика
Дата	07.05.2023
Размер	1.67 Mb.
Формат файла
Имя файла	Инфор-ные системы_УП.pdf
Тип	Учебное пособие #1113709
страница	15 из 19

1 ... 11 12 13 14 15 16 17 18 19

Семантическая неоднозначность. Сообщения, записанные на естественном языке, имеют семантическую неоднозначность, которая возникает в основном из-за синонимии и многозначно- сти слов естественного языка.
Контрольные вопросы
1.
На каком языке записаны документы, поступающие на вход ДИПС?
2.
Что имеют сообщения, записанные на естественном язы- ке в ДИПС?
3.
Какие средства применяют для хранения документов в
ДИПС?
4.
Где сохраняется поисковый образ документа (ПОД) в
ДИПС?
5.
Что логически представляет собой индекс в ДИПС?
6.2.5
Информационно
-
поисковые
языки
(
ИПЯ
)
Невозможность использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необ- ходимости применения искусственных языковых средств.
Информационно-поисковым языком(ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности после- дующего их поиска. ИПЯ создается на базе ЕЯ, однако отлича-

156
ется от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ принято разбивать на два основных типа:
1)
классификационные языки;
2)
дескрипторные языки.
Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В классификационных языках в лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия.
Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором со- ответствующего сложного понятия (в виде словосочетания или фразы) из готового набора (рис. 6.1).
Уровень 1
(темы)
Уровень 2
Уровень Y–1
Уровень Y
(рубрики)
Рис. 6.1 — Рубрикатор предметной области Z
Таким образом, с помощью таких языков производится классификация сообщений, т.е. отнесение их к классам, обозна- ченным лексическими единицами (ЛЕ) ИПЯ.

157
Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются назва- ния тематических рубрик. В целом, под рубрикатором некото- рой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками-объектами, инкапсулирующими знания.
Другой тип языков составляют дескрипторные ИПЯ, в ко- торых ЛЕ заранее не связаны никакими текстуальными отноше- ниями. Сложные синтаксические конструкции — предложения или фразы — создаются в этих языках путем объединения (ко- ординации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого чис- ла ЛЕ данные языки позволяют строить предложения, выра- жающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи.
Различают дескрипторные ИПЯ с грамматикой и без грам-
матики. Первые характеризуются наличием ряда жестких пра- вил формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной граммати- кой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: «Иванов владеет автомобилем» может выглядеть так: «владеть Иванов автомобиль». В дескрип- торных ИПЯ без грамматики такие правила отсутствуют, и по- рядок следования ЛЕ в ПОД или ПП не играет роли. Приведен- ный выше пример может быть одинаково представлен последо- вательностями «владеть Иванов автомобиль», «Иванов владеть автомобиль» и т.п.
Кроме того, различают дескрипторные ИПЯ с контроли-
руемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограниче- ний, и он может постоянно пополняться за счет включения но- вых ЛЕ.

158
Контрольные вопросы
1.
Дайте понятие информационно-поискового языка.
2.
Два основных типа ИПЯ.
3.
Что является частным случаем классификационного
ИПЯ?
4.
Особенность дескрипторных ИПЯ?
5.
Что характеризуют дескрипторные ИПЯ с грамматикой?
6.2.6
Обработка
входящей
текстовой
информации
.
Лингвистический
анализ
текста
Так как документы, поступающие на вход ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перево- да текстов входных документов с ЕЯ на ИПЯ. Тип используемо- го ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется ин-
дексированием, при использовании рубрикатора — рубрици-
рованием.
На сегодняшний день среди дескрипторных ИПЯ наиболь- шее распространение в автоматизированных ДИПС получили языки без грамматики и контроля по словарю. При их использо- вании говорят о полнотекстовом индексировании.
В операции перевода можно выделить два этапа:
1) анализ смыслового содержания текста с целью выделе- ния из него сведений об известных системе объектах, их свойст- вах, а также отношениях между ними;
2) выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ
(о включении соответствующих выражений на ИПЯ в ПОД).
Этап анализа смыслового содержания текста связан с необ- ходимостью использования лингвистических и экстралингвис- тических знаний. Лингвистические знания являются общими для одного языка и на сегодняшний день являются достаточно хорошо формализованными, в то время как экстралингвистиче- ские — сильно зависят от конкретной предметной области, а задача их формализации является одной из самых сложных. В

159
этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, проводимому с целью
нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существительных — именительному падежу, единственно- му числу и т.п.), под нормализацией словосочетаний — норма- лизация составляющих и запись их в определенной последова- тельности (например, сначала записывается основное слово, а затем — зависимые слова). Нормализованные слова и словосо- четания часто называют терминами.
Лингвистический анализ текста может состоять из двух этапов:
1) морфологического анализа;
2) синтаксического анализа.
Цель морфологического анализасостоит в получении ос- нов (под основой понимается словоформа с отсеченным оконча- нием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ.
Различают точные и приближенные методы морфологиче- ского анализа. Точные методы базируются на использовании словаря основ слов или словоформ, приближенные — на экспе- риментально установленной связи между конечными буквосо- четаниями словоформ и их грамматической информацией.
Использование словаря словоформ в точных методах по- зволяет легко преодолеть трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей ин- формации (собственно, морфологический анализ требуется лишь в том случае, если словоформа не найдена в словаре). При достаточно полном словаре скорость обработки материала дос- таточно высока, но объем необходимой памяти в 2—3 раза боль- ше, чем при использовании словаря основ.
Морфологический анализ с использованием словаря ос- нов базируется на флективном анализе, цель которого — пра- вильное выделение основы слова. Основная трудность при ис- пользовании данного подхода связана с явлением омонимии ос-

160
нов слов. Для ее устранения проверяется совместимость выде- ленной основы слова и его окончания. В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практи- чески однозначно определить грамматический класс слова. Ос- нова слова выделяется следующим образом — от конца слова последовательно отсоединяется по одной букве и полученные буквосочетания сравниваются со списком окончаний, соответ- ствующих данному грамматическому классу. Как только поя- вится совпадение, делается вывод о том, что оставшаяся часть слова — его основа. Для анализа обычно хватает биграмм, три- граммы и четырехграммы используются редко.
В результате проведения морфологического анализа может возникнуть неоднозначность при определении грамматической информации, которая снимается после проведения синтаксиче- ского анализа.
Задачей синтаксического анализаявляется осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяются подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей.
Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и, собственно, алго- ритма синтаксического анализа, т.е. набора стандартных опера- торов, обрабатывающих текст на основе этих знаний. Источни- ком знаний (грамматических) являются данные, полученные в результате морфологического анализа, а также различные таб- лицы, которые априорно заполнены стандартным образом и представляют собой эмпирическую обработку текстов на ЕЯ человеком с целью выделения определенных закономерностей, необходимых для проведения синтаксического анализа. Основу этих таблиц составляют совокупности конфигураций или набо- ры валентностей (синтаксических и семантико-синтаксических), представляющих собой списки лексических единиц с указанием для каждой из них всех возможных вариантов связей с другими единицами выражения на ЕЯ (т.е. потенциальных связей). При практической реализации синтаксического анализа стараются добиваться полной независимости правил переработки данных

161
таблиц от их содержимого, чтобы изменение в случае необхо- димости этого содержимого не влекло за собой перестройку са- мого алгоритма.
Контрольные вопросы
1.
Что называется индексированием?
2.
Что называется рубрицированием?
3.
Из каких двух этапов может состоять лингвистический анализ текста?
4.
В чем состоит цель морфологического анализа?
5.
Что является задачей синтаксического анализа?
6.2.7
Автоматическое
индексирование
Автоматическое индексирование документов может осно- вываться на простых, однословных или многословных состав- ных терминах (фразах). Простые, однословные термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы бо- лее осмысленны, обладают большей дискриминирующей мо- щью. Для генерации фраз может использоваться как синтакси- ческий анализ, так и ряд эвристических алгоритмов.
Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы при- меняются методы группирования или кластеризации терминов.
Если представить матрицу терминов-документов в виде двух- мерного массива, то вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит ли та или иная группа терминов в несколько документов совокуп- ности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс.
Простые и составные термины, выполняющие чисто граммати- ческую функцию, заносятся в так называемые списки исключе- ния и удаляются. Основу современных методов автоматическо- го индексирования составляет присваивание весовых коэффици- ентов терминам на основе статистических характеристик.

162
Статистический метод индексирования основывается на дискриминации по термину. Каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов (иными словами, повышается плотность точек в пространстве докумен- тов), и наоборот.
В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие из- менения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминато- ром, если его введение увеличивает среднее расстояние между документами. Другими словами, термин с хорошими дискрими- нирующими качествами снижает плотность в пространстве до- кументов. Дискриминирующая характеристика термина Т,обо- значаемая dv
f
, вычисляется как разность между плотностями пространства документов до и после введения термина Т. Ока- залось, что часто встречающиеся термины имеют отрицатель- ные значения дискриминирующих характеристик, термины со средней частотой — положительные, а для редко встречающих- ся терминов эти значения близки к нулю. Для совместного учета частоты термина и его дискриминирующей характеристики применяют схему взвешивания.
Полученные значения весов терминов могут использовать- ся в процессе принятия решения о включении каждого из тер- минов в ПОД. Однако чаще решение не принимается, а в ПОД заносятся все термины, встретившиеся в документе, и их веса.
В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобра- зования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство.
Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каж- дому документу некоторого индекса — координаты в поиско- вом пространстве. Ранее было сказано, что формализованное

163
представление индекса документа называется поисковым обра-
зом документа. Пользователь выражает свои информационные потребности посредством специального языка, формируя поис- ковый образ запроса (ПОЗ) к базе документов [14].
На основе определенных критериев ДИС осуществляет по- иск и выдачу документов, поисковые образы которых соответ- ствуют поисковым образам запроса пользователя.
Схема устройства и функционирования ДИС на основе ин- дексирования приведена на рис. 4.2.
Информационно-поисковый язык (ИПЯ)представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа ипо- искового запроса [10].
Основными элементами ИПЯ являются алфавит, лексика и грамматика.
Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ.
Лексика, или словарный состав, ИПЯ — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.
Грамматика ИПЯ — совокупность средств и способов по- строения, изменения и сочетания лексических единиц. Грамма- тика включает морфологию и синтаксис.
Можно указать следующие требования, которым должен удовлетворять ИПЯ [14]:
–
располагать лексико-грамматическими средствами для точного отображения темы документа и запроса;
–
не содержать полисемии, синонимии и омонимии;
–
отображать только объективные характеристики предме- тов и отношений между ними;
–
быть удобным для алгоритмического сопоставления
ПОД и ПОЗ. Построение выражений ИПЯ требует решения по крайней мере двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выра- жений.

164
Выбор словопределяется их смыслом, обусловленным па- радигматическими отношениями между предметами и явления- ми, которые они определяют.
Парадигматические отношения— это отношения, обу- словленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Перечислим не- которые парадигматические отношения [14]:
1)
«вид—род», например «шкаф—мебель». В данном слу- чае понятие «шкаф» является видовым по отношению кпоня- тию «мебель». Родовое понятие всегда включает в себя видовое;
2)
«часть—целое», например «лезвие—нож»;
3)
«причина—следствие», например «лампа—свет»;
4)
«функциональное сходство», например «лопата—
экскаватор».
Естественный язык обладает высокой многозначностью. В
ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естествен- ного языка, используемых в ИПЯ.
Омонимия — это совпадение слов по написанию или зву- чанию и несовпадение по смыслу.
Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути.
Синонимия — это совпадение слов по значению инесов- падение по написанию.
Вторая проблема построения фраз ИПЯ связана с определе- нием последовательности выбранных слов.
Синтагматические отношения — отношения слов при со- единении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необхо- димо указывать, в каких синтагматических отношениях эти сло- ва находятся. Так, фраза «защита окружающей среды от челове- ка» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов [15].

165
Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу
ИПЯ.
По способу организации понятий различают следующие ИПЯ:
–
предкоординируемые (классификационные) ИПЯ;
–
посткоординируемые (дескрипторные) ИПЯ.

1 ... 11 12 13 14 15 16 17 18 19