Главная страница
Навигация по странице:

  • Координатное индексирование

  • 6.2.8

  • 6.2.9

  • Словарная часть

  • Руководство по использованию ИПТ

  • Система индексирования (СИ)

  • 6.2.10

  • Статические словари

  • Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)


    Скачать 1.67 Mb.
    НазваниеУчебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
    АнкорИнформатика
    Дата07.05.2023
    Размер1.67 Mb.
    Формат файлаpdf
    Имя файлаИнфор-ные системы_УП.pdf
    ТипУчебное пособие
    #1113709
    страница16 из 19
    1   ...   11   12   13   14   15   16   17   18   19
    Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логи- ческого умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосоче- таний и фраз.
    Посткоординируемые(дескрипторные) языки основаны на методе координатного индексирования. В посткоординируемых
    ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа.
    Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.
    Ключевые слова— это наиболее существенные для ото- бражения содержания документа слова и словосочетания, обла- дающие назывной функцией.
    К классификационным языкам относят [14]:
    1)
    информационно-поисковый язык иерархического типа;
    2)
    информационно-поисковый язык фасетного типа;
    3)
    алфавитно-предметную классификацию.
    Основными показателями эффективности функционирова- ния ДИС являются полнота и точность информационного поиска.
    Контрольные вопросы
    1.
    Что такое парадигматические отношения в ДЯ?
    2.
    Что такое грамматика ИПЯ?
    3.
    На чем основывается статистический метод индексиро- вания?
    4.
    Что называется индексированием?
    5.
    Что такое омонимия, полисемия, синонимия в ИПЯ?
    6.
    Что такое ключевые слова в ИПЯ?

    166
    6.2.8
    Классификационные
    ИПЯ
    Информационно-поисковые каталоги, основанные на клас- сификации сведений по определенной предметной области, бы- ли первыми системами информационного поиска документов.
    Классификация — это группировка объектов по призна- кам. Основные направления развития систем классификацион- ного индексирования документов представлены на рис. 6.3.
    Иерархическая классификация
    Фасетная классификация
    Логические операции над классами
    (понятиями)
    Грамматические отношения классов
    (понятий)
    С предкоорди- нацией классов
    (понятий)
    С посткоордина- цией классов
    (понятий)
    По принципу организации
    По операциям над классами (понятиями)
    Перечисли- тельная клас- сификация
    Систематизи- рованная клас- сификация
    С операциями над классами
    (понятиями)
    Без операции над классами
    (понятиями)
    Классификационное индексирование документов
    Рис. 6.3 — Системы классификационного индексирования документов
    Первоначальные подходы к классификации тематики доку- ментов основывались на формировании списка предметных за- головков, располагаемых в алфавитном порядке. Каждая пред- метная рубрика получала определенный цифровой или буквен- но-цифровой код. Содержание документа индексировалось пе- речислением кодов тех рубрик, которые отражали темы доку- мента. Это перечислительная классификация.

    167
    Особенностью систем перечислительной классификации является возможность индексирования документов любым ко- личеством рубрик, отражающих содержание документа. Для осуществления поиска необходимых документов по классифи- катору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые про- индексированы соответствующими кодами [14]. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.
    При систематизированной классификациисписок пред- метных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик.
    Таким образом, при систематизированной классификации учи- тываются уже некоторые семантические основы предметной области, выражаемые в родовидовых отношениях основных ка- тегорий, понятий и классов (рис. 6.4).
    Предметная область сведений
    1 1.1 1.2 1.1.2.1 1.1.2.2 1.1.1 1.1.2 1.1.3 2
    2.1 2.2 2.3.1.1 2.3.1.2 2.3.1 2.3.2 2.3 2.3.1.2
    Рис. 6.4 — Древовидная форма представления иерархической классификации
    Содержание документа индексируется кодами соответст- вующих рубрик, однако при этом отпадает необходимость в яв- ном указании более общих рубрик, к которым относятся выде- ленные подрубрики. В
    результате индексирование и поиск до- кументов на основе иерархической классификации позволяют

    168
    более адекватно отражать содержание документов и обеспечи- вают большую точность поиска.
    Перечислительный и иерархический подходы к классифи- кации используются в алфавитно-предметных каталогах биб- лиотек. Недостатком как перечислительной, так и иерархиче- ской классификации является принципиальная невозможность заранее перечислить все возможные темы документов.
    Фасетная классификацияне связана подобными ограни- чениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет— по семантиче- скому принципу, отражающему специфику предметной области.
    Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую пред- метную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу [13].
    Основное достоинство фасетной классификации заключает- ся в возможности небольшим перечнем фасетных рубрик отра- зить большое количество специализированных рубрик и тем са- мым наиболее точно и полно проиндексировать содержание до- кументов.
    Контрольные вопросы
    1.
    Как строится список предметных рубрик при системати- зированной классификации?
    2.
    Что такое классификация?
    3.
    Что является особенностью систем перечислительной классификации?
    4.
    Каково основное достоинство фасетной классификации?
    5.
    С чем не связана фасетная классификация?
    6.2.9
    Дескрипторные
    ИПЯ
    .
    Системы
    индексирования
    В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что ос- новное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так на- зываемые полнозначные слова — существительные, прилага-

    169
    тельные, глаголы, наречия, числительные, местоимения. Ключе- выми словами не могут быть предлоги, союзы, связки, частицы.
    Основными элементами ДИПЯ являются [14]:

    словарь лексических единиц;

    правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естествен- ного языка на ИПЯ;

    правила построения ИПЯ.
    Словари лексических единиц делятся на две группы:
    1)
    основные лексические словари, составляющие лексику
    ИПЯ;
    2)
    морфологические словари, обеспечивающие морфологи- ческий анализ и нормализацию слов.
    В качестве лексических единиц основных словарей исполь- зуются ключевые слова, словосочетания и дескрипторы.
    Дескриптор понятие, обозначающее группу эквивалент- ных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть ис- пользованы код, слово или словосочетание [14].
    Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
    Тезаурус(от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы опреде- ленной предметной области, указаны их синонимы, установле- ны способы устранения синонимии, омонимии, полисемии, оп- ределены родо-видовые и ассоциативные связи дескрипторов.
    Наиболее важными парадигматическими отношениями
    ИПТ являются:

    соподчинение;

    род-вид;

    часть — целое;

    причина — следствие;

    функциональное сходство.
    Обобщенная структура ИПТ включает как минимум три со- ставляющих: словарную часть, семантическую карту, руково- дство по использованию.
    Приведем ряд определений [15].

    170
    Словарная часть — алфавитный список дескрипторов с их словарными статьями.
    Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.
    Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.
    Отличием информационно-поисковых тезаурусов от ин- формационно-поисковых каталогов на основе предметной ие- рархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствует только лишь обозначения (на- звания) классов.
    Главная идея информационно-поисковых тезаурусов за- ключается в повышении эффективности индексирования доку- ментов в рамках дескрипторного подхода. Иначе говоря, в сис- темах на основе ИПТ ПОД представлен набором дескрипторов.
    Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конеч- ном счете, обеспечивает более адекватный содержанию доку- мента ПОД и повышает эффективность поиска документов.
    Форма представления тезауруса включает алфавитное пере- числение статей по каждому дескриптору (термину) в следую- щем виде: реферат: с: резюме; в: свертывание информации; н: реферат авторский: реферат графический; реферат информативный; реферат «телеграфного стиля»; реферат указательный; реферирование; а: аннотация


    171
    В качестве буквенных обозначений здесь выступают сле- дующие: с — термины-синонимы; в — термины, подчиняющие заглавный термин; н — термины, подчиненные заглавному; а — термины, ассоциированные с заглавным термином.
    Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами.
    Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соот- ветствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.
    Рассмотрим классификацию систем индексирования [15].
    1) По степени автоматизации процесса индексирования вы- деляют системы:

    ручного индексирования;

    автоматического индексирования;

    автоматизированного индексирования.
    2) По степени контролируемости различают системы:

    без словаря;

    с жестким словарем;

    со свободным словарем.
    3) По характеру алгоритма отбора слов текста выделяют системы:

    с последовательным просмотром текста (отбираются все полнозначные слова);

    с эвристическими процедурами выбора слов текста (сло- ва отбираются интуитивно или по заданной процедуре);

    со статистическими процедурами выбора слов (отбира- ются только информативные слова в соответствии с распределе- нием частот их употребления).
    4) По характеру лексикографического контроля различают системы:

    без лексикографического контроля;

    с полным контролем;

    с промежуточным контролем.

    172
    Лексикографический контроль предусматривает [15]:

    устранение синонимии, полисемии и омонимии на осно- ве нормативных словарей лексических единиц с парадигматиче- скими отношениями между ними;

    нормализацию слов на основе морфологических норма- тивных словарей.
    5) По характеру морфологического анализа слов различают системы:

    с использованием морфологических словарей;

    с использованием основных лексических словарей;

    с использованием морфологического анализа с усечени- ем слов.
    Возможны системы индексирования без морфологического анализа.
    Процесс свободного индексирования состоит в следующем.
    Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, от- сутствующие в тексте, но важные, с его точки зрения, для выраже- ния смысла текста Отобранный список слов является поисковым образом документа. Эти СИ с ручным индексированием.
    Процесс полусвободного индексирования аналогичен вы- шеописанному, но слова для ПОД берутся только из словаря.
    При жестком индексировании слова берутся только из текста.
    Поначалу индексирование осуществлялось специально под- готовленными специалистами-экспертами в предметной облас- ти, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Кроме того, процесс индексирования был субъективным. Поэтому возникла задача автоматизации индексирования документов.
    Существуют два подхода к автоматическому индексирова- нию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного авто- матического поиска в тексте документа ключевых терминов.
    Строится индекс, представляющий поисковое пространство до- кументов. Возможны два типа такого индекса — прямой и ин- вертированный (рис. 6.5) [17].

    173
    Прямой индекс
    Номер документа
    Термины
    t
    1
    t
    2
    t
    3
    t
    4
    t
    5
    d
    1
    +
    +
    d
    2
    +
    +
    +
    d
    3
    +
    +
    d
    4
    +
    +
    +
    Инвертированный индекс
    Номера документов
    Термины
    d
    1
    d
    2
    d
    3
    d
    4
    t
    1
    +
    +
    t
    2
    +
    +
    t
    3
    +
    +
    t
    4
    +
    +
    t
    5
    +
    +
    Рис. 6.5 — Пример прямого и инвертированного индексов
    Прямой тип индекса строится по схеме «документ—
    термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью n
    ×m. Строки этой матрицы пред- ставляют поисковые образы документов.
    Инвертированный тип индекса строится по обратной схеме —
    «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонирован- ной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.
    Второй подход к автоматическому индексированию приме- няется в полнотекстовых системах. В процессе индексирова- ния в индекс заносится информация обо всех словах текста до- кумента (отсюда и название «полнотекстовые»).
    Контрольные вопросы
    1.
    Как строится прямой тип индекса?
    2.
    Откуда берутся при жестком индексировании слова?

    174 3.
    Что такое система индексирования (СИ)?
    4.
    Что лежит в основе построения дескрипторных ИПЯ?
    5.
    Что является основными элементами дескрипторного
    ИПЯ?
    6.2.10
    Полнотекстовые
    информационно
    -
    поисковые
    системы
    Процессы компьютеризации деятельности предприятий при- вели к накоплению большого объема неструктурированной тек- стовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.
    Информационно-поисковые каталоги, фасетные и тезаурус- ные системы не могли быть в полной мере использованы в мас- совой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструмента- рий [10]. В результате на рынке программных продуктов появи- лись полнотекстовые ИС.
    Полнотекстовые ИС строятся на основе информационно- поисковых языков дескрипторного типа. Информационно- технологическая Структура полнотекстовых ИС включает:

    хранилище документов;

    глобальный словарь системы;

    инвертированный индекс документов;

    интерфейс ввода документов в систему;

    механизм индексирования;

    интерфейс запросов пользователя;

    механизм поиска документов;

    механизм извлечения найденных документов.
    Хранилище документов может быть организовано как еди- ная локально сосредоточенная информационная структура в ви- де специального файла с текстами документов. Глобальный сло- варь системы может быть статическим и динамическим.

    175
    Статические словариопределяются заранее и не зависят от содержания документов, вошедших в хранилище.
    Динамические словариопределяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.
    Элементы глобального словарявыступают в качестве де- скрипторов ИПЯ-системы. Поступающие через интерфейс вво- да-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полно- текстовых ИС полностью автоматизирован и заключается в соз- дании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря [17].
    Существенное влияние на эффективность полнотекстовых
    ИС оказывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет вы- делять общую для однокоренных слов словоформу, а также вы- делять лексемы, т.е. слова, отличающиеся окончаниями, при- ставками и суффиксами.
    В результате индексирования поисковый образ каждого но- вого документа представляется набором словоформ из глобаль- ного словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов [17].
    При удалении документа из системы соответственно удаля- ется и поисковый образ документа.
    Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается
    1   ...   11   12   13   14   15   16   17   18   19


    написать администратору сайта