Учебное_пособие_ТИПиС и Глоссарий. Учебное пособие для студентов очной и заочной форм обучения представляет собой подборку материала по курсу Теория информационных систем и процессов
Скачать 5.1 Mb.
|
4.2. Тезаурус информационно-поисковой системыТезаурус –специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются дескрипторы. Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области. Например, в качестве дескриптора может быть выбрано любое (предпочтительно наиболее часто используемое или короткое) ключевое слово или словосочетание или же цифровой код. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям – один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации. Синонимы – слова (словосочетания), разные по написанию, но одинаковые (в рассматриваемой предметной области) по значению: ведьма = злая волшебница. Антонимы – слова с противоположным значением: добрый – злой. Гипоним – термин, являющийся частным случаем другого, более общего понятия. Гипероним – термин, наоборот, являющийся общим для ряда других, частных понятий. Солдат = гипоним (военный); человек = гипероним (военный). Гипероним (вкусно готовит) = гипероним (содержит дом в чистоте) = гипероним (умеет шить) = хорошая хозяйка. В Государственном стандарте на «Тезаурус информационно-поисковый одноязычный» определены следующие типы связей: Род-вид (средства передвижения – телега, ковер-самолет, сапоги-скороходы, печка); Часть-целое (стена, дверь, курья ножка – части избушки); Причина-следствие (опустил меч – голова с плеч); Сырье-продукт: (сталь – меч); Административная иерархия (султан – визирь – стражник); Процесс-субъект (казнить – палач); Процесс-объект (казнить – жертва); Функциональное сходство (печка Емели – джип Cherokee); Свойство – носитель свойства (огнедышащий – дракон); Антонимия; Синонимия. Ассоциативное отношение является объединением других отношений, не входящих в иерархические отношения или в отношения синонимии (то есть любые виды связей между словами, возможно весьма специфичные, существующие только в определенной предметной области). Словарная статья (на неформальном уровне) могла бы выглядеть так: ПРЕМУДРАЯ = умная. АНТОНИМ – глупая. ГИПОНИМЫ: знающая, образованная, догадливая, начитанная. ВИД – показатель интеллекта (высокий). Тезаурус и грамматика составляют информационно-поисковый язык. Грамматика содержит правила образования производных единиц языка (семантических кодов, синтагм, предложений) и регламентирует использование средств обозначения синтаксических отношений (например, указателей связи). В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные качества и характеристики, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус должны быть составлены таким образом, чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это может определяться по ключевому слову – единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания «хотел бы познакомиться», «должен соответствовать»). На основании тезауруса и правил грамматики формируются поисковые образы документа и запроса (поисковое предписание). Поисковое предписание – текст на информационно-поисковом языке, содержащий признаки документов, затребованных пользователем в запросе. Поисковый образ документа – текст на информационно-поисковом языке, поставленный в однозначное соответствие документу и отражающий его признаки, необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающих содержание документа или, как минимум, определяющих его тему, поисковый образ документа обычно содержит также идентифицирующие и некоторые дополнительные сведения (выходные данные, тип документа, его язык и т.д.). Поисковые предписания формируются при поступлении запросов, а поисковые образы документов могут создаваться как при пополнении системы новыми документами, так и при поиске ответа на запрос. В системах, где потоки информации велики и часто обновляемы, нет необходимости тратить ресурсы на индексирование, и за поисковый образ документа часто принимается сам документ или же его название. |