Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
Скачать 1.67 Mb.
|
Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логи- ческого умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосоче- таний и фраз. Посткоординируемые(дескрипторные) языки основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. Ключевые слова— это наиболее существенные для ото- бражения содержания документа слова и словосочетания, обла- дающие назывной функцией. К классификационным языкам относят [14]: 1) информационно-поисковый язык иерархического типа; 2) информационно-поисковый язык фасетного типа; 3) алфавитно-предметную классификацию. Основными показателями эффективности функционирова- ния ДИС являются полнота и точность информационного поиска. Контрольные вопросы 1. Что такое парадигматические отношения в ДЯ? 2. Что такое грамматика ИПЯ? 3. На чем основывается статистический метод индексиро- вания? 4. Что называется индексированием? 5. Что такое омонимия, полисемия, синонимия в ИПЯ? 6. Что такое ключевые слова в ИПЯ? 166 6.2.8 Классификационные ИПЯ Информационно-поисковые каталоги, основанные на клас- сификации сведений по определенной предметной области, бы- ли первыми системами информационного поиска документов. Классификация — это группировка объектов по призна- кам. Основные направления развития систем классификацион- ного индексирования документов представлены на рис. 6.3. Иерархическая классификация Фасетная классификация Логические операции над классами (понятиями) Грамматические отношения классов (понятий) С предкоорди- нацией классов (понятий) С посткоордина- цией классов (понятий) По принципу организации По операциям над классами (понятиями) Перечисли- тельная клас- сификация Систематизи- рованная клас- сификация С операциями над классами (понятиями) Без операции над классами (понятиями) Классификационное индексирование документов Рис. 6.3 — Системы классификационного индексирования документов Первоначальные подходы к классификации тематики доку- ментов основывались на формировании списка предметных за- головков, располагаемых в алфавитном порядке. Каждая пред- метная рубрика получала определенный цифровой или буквен- но-цифровой код. Содержание документа индексировалось пе- речислением кодов тех рубрик, которые отражали темы доку- мента. Это перечислительная классификация. 167 Особенностью систем перечислительной классификации является возможность индексирования документов любым ко- личеством рубрик, отражающих содержание документа. Для осуществления поиска необходимых документов по классифи- катору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые про- индексированы соответствующими кодами [14]. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации. При систематизированной классификациисписок пред- метных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учи- тываются уже некоторые семантические основы предметной области, выражаемые в родовидовых отношениях основных ка- тегорий, понятий и классов (рис. 6.4). Предметная область сведений 1 1.1 1.2 1.1.2.1 1.1.2.2 1.1.1 1.1.2 1.1.3 2 2.1 2.2 2.3.1.1 2.3.1.2 2.3.1 2.3.2 2.3 2.3.1.2 Рис. 6.4 — Древовидная форма представления иерархической классификации Содержание документа индексируется кодами соответст- вующих рубрик, однако при этом отпадает необходимость в яв- ном указании более общих рубрик, к которым относятся выде- ленные подрубрики. В результате индексирование и поиск до- кументов на основе иерархической классификации позволяют 168 более адекватно отражать содержание документов и обеспечи- вают большую точность поиска. Перечислительный и иерархический подходы к классифи- кации используются в алфавитно-предметных каталогах биб- лиотек. Недостатком как перечислительной, так и иерархиче- ской классификации является принципиальная невозможность заранее перечислить все возможные темы документов. Фасетная классификацияне связана подобными ограни- чениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет— по семантиче- скому принципу, отражающему специфику предметной области. Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую пред- метную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу [13]. Основное достоинство фасетной классификации заключает- ся в возможности небольшим перечнем фасетных рубрик отра- зить большое количество специализированных рубрик и тем са- мым наиболее точно и полно проиндексировать содержание до- кументов. Контрольные вопросы 1. Как строится список предметных рубрик при системати- зированной классификации? 2. Что такое классификация? 3. Что является особенностью систем перечислительной классификации? 4. Каково основное достоинство фасетной классификации? 5. С чем не связана фасетная классификация? 6.2.9 Дескрипторные ИПЯ . Системы индексирования В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что ос- новное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так на- зываемые полнозначные слова — существительные, прилага- 169 тельные, глаголы, наречия, числительные, местоимения. Ключе- выми словами не могут быть предлоги, союзы, связки, частицы. Основными элементами ДИПЯ являются [14]: – словарь лексических единиц; – правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естествен- ного языка на ИПЯ; – правила построения ИПЯ. Словари лексических единиц делятся на две группы: 1) основные лексические словари, составляющие лексику ИПЯ; 2) морфологические словари, обеспечивающие морфологи- ческий анализ и нормализацию слов. В качестве лексических единиц основных словарей исполь- зуются ключевые слова, словосочетания и дескрипторы. Дескриптор — понятие, обозначающее группу эквивалент- ных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть ис- пользованы код, слово или словосочетание [14]. Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ). Тезаурус(от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы опреде- ленной предметной области, указаны их синонимы, установле- ны способы устранения синонимии, омонимии, полисемии, оп- ределены родо-видовые и ассоциативные связи дескрипторов. Наиболее важными парадигматическими отношениями ИПТ являются: – соподчинение; – род-вид; – часть — целое; – причина — следствие; – функциональное сходство. Обобщенная структура ИПТ включает как минимум три со- ставляющих: словарную часть, семантическую карту, руково- дство по использованию. Приведем ряд определений [15]. 170 Словарная часть — алфавитный список дескрипторов с их словарными статьями. Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ. Отличием информационно-поисковых тезаурусов от ин- формационно-поисковых каталогов на основе предметной ие- рархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствует только лишь обозначения (на- звания) классов. Главная идея информационно-поисковых тезаурусов за- ключается в повышении эффективности индексирования доку- ментов в рамках дескрипторного подхода. Иначе говоря, в сис- темах на основе ИПТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конеч- ном счете, обеспечивает более адекватный содержанию доку- мента ПОД и повышает эффективность поиска документов. Форма представления тезауруса включает алфавитное пере- числение статей по каждому дескриптору (термину) в следую- щем виде: реферат: с: резюме; в: свертывание информации; н: реферат авторский: реферат графический; реферат информативный; реферат «телеграфного стиля»; реферат указательный; реферирование; а: аннотация … 171 В качестве буквенных обозначений здесь выступают сле- дующие: с — термины-синонимы; в — термины, подчиняющие заглавный термин; н — термины, подчиненные заглавному; а — термины, ассоциированные с заглавным термином. Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами. Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соот- ветствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ. Рассмотрим классификацию систем индексирования [15]. 1) По степени автоматизации процесса индексирования вы- деляют системы: – ручного индексирования; – автоматического индексирования; – автоматизированного индексирования. 2) По степени контролируемости различают системы: – без словаря; – с жестким словарем; – со свободным словарем. 3) По характеру алгоритма отбора слов текста выделяют системы: – с последовательным просмотром текста (отбираются все полнозначные слова); – с эвристическими процедурами выбора слов текста (сло- ва отбираются интуитивно или по заданной процедуре); – со статистическими процедурами выбора слов (отбира- ются только информативные слова в соответствии с распределе- нием частот их употребления). 4) По характеру лексикографического контроля различают системы: – без лексикографического контроля; – с полным контролем; – с промежуточным контролем. 172 Лексикографический контроль предусматривает [15]: – устранение синонимии, полисемии и омонимии на осно- ве нормативных словарей лексических единиц с парадигматиче- скими отношениями между ними; – нормализацию слов на основе морфологических норма- тивных словарей. 5) По характеру морфологического анализа слов различают системы: – с использованием морфологических словарей; – с использованием основных лексических словарей; – с использованием морфологического анализа с усечени- ем слов. Возможны системы индексирования без морфологического анализа. Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, от- сутствующие в тексте, но важные, с его точки зрения, для выраже- ния смысла текста Отобранный список слов является поисковым образом документа. Эти СИ с ручным индексированием. Процесс полусвободного индексирования аналогичен вы- шеописанному, но слова для ПОД берутся только из словаря. При жестком индексировании слова берутся только из текста. Поначалу индексирование осуществлялось специально под- готовленными специалистами-экспертами в предметной облас- ти, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Кроме того, процесс индексирования был субъективным. Поэтому возникла задача автоматизации индексирования документов. Существуют два подхода к автоматическому индексирова- нию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного авто- матического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство до- кументов. Возможны два типа такого индекса — прямой и ин- вертированный (рис. 6.5) [17]. 173 Прямой индекс Номер документа Термины t 1 t 2 t 3 t 4 t 5 d 1 + + d 2 + + + d 3 + + d 4 + + + Инвертированный индекс Номера документов Термины d 1 d 2 d 3 d 4 t 1 + + t 2 + + t 3 + + t 4 + + t 5 + + Рис. 6.5 — Пример прямого и инвертированного индексов Прямой тип индекса строится по схеме «документ— термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью n ×m. Строки этой матрицы пред- ставляют поисковые образы документов. Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонирован- ной форме. Поисковыми образами документов в этом случае являются столбцы матрицы. Второй подход к автоматическому индексированию приме- няется в полнотекстовых системах. В процессе индексирова- ния в индекс заносится информация обо всех словах текста до- кумента (отсюда и название «полнотекстовые»). Контрольные вопросы 1. Как строится прямой тип индекса? 2. Откуда берутся при жестком индексировании слова? 174 3. Что такое система индексирования (СИ)? 4. Что лежит в основе построения дескрипторных ИПЯ? 5. Что является основными элементами дескрипторного ИПЯ? 6.2.10 Полнотекстовые информационно - поисковые системы Процессы компьютеризации деятельности предприятий при- вели к накоплению большого объема неструктурированной тек- стовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации. Информационно-поисковые каталоги, фасетные и тезаурус- ные системы не могли быть в полной мере использованы в мас- совой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструмента- рий [10]. В результате на рынке программных продуктов появи- лись полнотекстовые ИС. Полнотекстовые ИС строятся на основе информационно- поисковых языков дескрипторного типа. Информационно- технологическая Структура полнотекстовых ИС включает: – хранилище документов; – глобальный словарь системы; – инвертированный индекс документов; – интерфейс ввода документов в систему; – механизм индексирования; – интерфейс запросов пользователя; – механизм поиска документов; – механизм извлечения найденных документов. Хранилище документов может быть организовано как еди- ная локально сосредоточенная информационная структура в ви- де специального файла с текстами документов. Глобальный сло- варь системы может быть статическим и динамическим. 175 Статические словариопределяются заранее и не зависят от содержания документов, вошедших в хранилище. Динамические словариопределяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы. Элементы глобального словарявыступают в качестве де- скрипторов ИПЯ-системы. Поступающие через интерфейс вво- да-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полно- текстовых ИС полностью автоматизирован и заключается в соз- дании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря [17]. Существенное влияние на эффективность полнотекстовых ИС оказывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет вы- делять общую для однокоренных слов словоформу, а также вы- делять лексемы, т.е. слова, отличающиеся окончаниями, при- ставками и суффиксами. В результате индексирования поисковый образ каждого но- вого документа представляется набором словоформ из глобаль- ного словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов [17]. При удалении документа из системы соответственно удаля- ется и поисковый образ документа. Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается |