Главная страница
Навигация по странице:

  • Лексический анализ

  • Морфологический анализ

  • Синтаксический анализ

  • Семантический анализ

  • Таблица 4.2.

  • Характеристики систем Поисковая система Яndex

  • Учебное_пособие_ТИПиС и Глоссарий. Учебное пособие для студентов очной и заочной форм обучения представляет собой подборку материала по курсу Теория информационных систем и процессов


    Скачать 5.1 Mb.
    НазваниеУчебное пособие для студентов очной и заочной форм обучения представляет собой подборку материала по курсу Теория информационных систем и процессов
    Дата29.12.2022
    Размер5.1 Mb.
    Формат файлаdoc
    Имя файлаУчебное_пособие_ТИПиС и Глоссарий.doc
    ТипУчебное пособие
    #869193
    страница20 из 44
    1   ...   16   17   18   19   20   21   22   23   ...   44

    4.4. Языковой компонент ИПС



    Увеличению эффективности ИПС в большой степени помогает более детальная обработка текста документа. Так, существуют системы, которые для простоты в качестве поискового образа документа принимают его название, однако оно в силу разных обстоятельств не всегда формально отражает содержание текста. Например, при подготовке данного материала была использована статья «А глаз как у орла», не имеющая никакого отношения ни к орнитологии, ни к окулистам. Также большое значение имеет применение программ, производящих лингвистически содержательную обработку текстов на естественном языке (учитывающую морфологию, синтаксис). Только с их помощью можно установить, являются ли похожие слова (почти все буквы одинаковые) формами одного слова или же это совершенно разные слова, в соответствие которым поставлены разные семантические единицы.

    Более примитивные, лежащие на поверхности приемы могут подвести разработчика ИПС. Так, если система не учитывает никакие правила русского языка и работает с шаблонами (типа var*, text*.exe), то при поиске для Золушки кавалера, интересующегося бальными танцами, в качестве ключевого слова-шаблона придется выбрать «бал*» (чтобы не было потери информации, иначе можно пропустить эту характеристику, высказанную словами «люблю танцевать на балах»). Тогда в результате поиска ей может быть предложено познакомиться со всеми любителями балета, балыка, Бальмонта, Бальзака, со всеми, живущими около Балтийского моря, в домах с балконом, а также со всевозможными баловниками и баловнями судьбы.

    Все эти претенденты будут отсеяны, если в качестве ключевого слова будет задано прилагательное «бальный» и система сможет распознавать его во всех его формах (применение морфологического анализа слов также дает возможность уменьшить объем тезауруса, избавив его от избыточной информации – иначе все формы одного слова приходится определять как синонимы). Еще один способ уменьшения шума и повышения точности – введение в информационно-поисковый язык аппарата работы с однокоренными словами. В нашем примере при задании ключа-корня «бал» выданными оказались бы только документы, содержащие разные формы слов «бал» и «бальный». Однако и в этом случае письмо желанного принца затеряется между сообщениями о салонах бального платья, владельцах бальных залов, музыкантах и официантах, обслуживающих балы. С помощью синтаксического анализа можно более точно определять словосочетания (например, распознавать их не только когда слова стоят друг за другом, но и когда они разделены рядом других слов). В приведенном примере в системе с синтаксическим компонентом можно было бы вести поиск документов со словосочетаниями «бальный танец» и «танцевать на балу». Конечно, и это не обеспечивает 100% точности (например, ничто не запрещает выдачу сообщений об учителях бальных танцев), однако понятно, что количество выданных документов значительно сократится, и Золушка уже не превратится в старую деву, просматривая предложенную ей системой информацию.

    Развитые информационно-поисковые языки допускают использование логических связок: дурак=NOT(умный), добрый молодец=(мужчина) AND (молодой). В перспективе – возможность описания на информационно-поисковом языке смысла целой фразы (который не всегда складывается из смыслов входящих в нее слов) и возможность формулировки соответствующих семантически сложных запросов.

    4.5. Интеллектуальная информационно-поисковая система



    Процесс интеллектуального поиска текстовой информации включает в себя следующие этапы:

    1. Формализация пользователем поискового запроса.

    2. Предварительный отбор тестовых документов, содержащих формальные признаки наличия интересующей информации.

    3. Анализ отобранных документов (лексический, морфологический, синтаксический, семантический).

    4. Оценка соответствия смыслового содержания найденной информации требованиям поискового запроса.

    Данные этапы выполняются в полном объеме человеком при неавтоматизированном поиске, а эффективность их реализации определяется интеллектуальными способностями человека. Все вышеперечисленные этапы могут быть автоматизированы на основе использования систем искусственного интеллекта и экспертных систем.

    Реализация полного лингвистического анализа текстовой информации предполагает решение следующих задач.

    Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.

    Морфологический анализ сводится к автоматическому распознаванию частей речи каждого слова текста (каждому слову ставится в соответствие лексико-грамматический класс). Данная задача может быть выполнена для русского языка практически со стопроцентной точностью благодаря его развитой морфологии. В английском языке алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (синтаксическую часть речи), работает с точностью около 90 %, что обусловлено лексической многозначностью английского языка.

    Синтаксический анализ заключатся в автоматическом выделении семантических элементов предложения – именных групп, терминологических целых, предикативных основ. Это позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

    Семантический анализ заключатся в определении информативности текстовой информации и выделении информационно-логической основы текста. Проведение автоматизированного семантического анализа текста предполагает решение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости создания совершенного аппарата экспертной оценки качества информации.
    Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления смыслового содержания информации. В настоящее время отсутствуют сложившиеся подходы к реализации задачи семантического анализа текстовой информации, что во многом обусловлено исключительной сложностью проблемы и недостаточно полной проработкой научного направления создания систем искусственного интеллекта. Поэтому существующиеинформационные технологии не обеспечивают эффективной реализации поисковых систем.

    Это обусловливает низкую адекватность найденной по запросу пользователя информации, то есть возврат системой большого объема малоинформативных документов. Проблема усугубляется низкой скоростью получения документов из Интернета, необходимостью просмотра пользователем всех найденных документов и оценки их информационного содержания в неавтоматизированном режиме, а также наличием специально создаваемых (вредоносных) информационных технологий, препятствующих эффективной реализации в поисковых системах автоматической оценки содержания найденных документов.

    Существуют два основных класса информационно-поисковых систем:

    1. Поисковые системы;

    2. Поисковые каталоги.

    Также существует несколько категорий поиска:

    • По ключевым словам;

    • С булевой логикой объединения слов;

    • По словосочетаниям;

    • С учетом расстояния между словами;

    • С учетом регистра;

    • По семантике (концептуальный);

    • По шаблону (подобию);

    • По полям документа.

    Поисковые системы обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность – степень адекватности результатов поиска запросу пользователя).

    Поисковые каталоги обеспечивают большую релевантность ответа за счет предварительной обработки документов редакторами в ручном режиме. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

    Методический аппарат «интеллектуального поиска» текстовой информации позволяет реализовать автоматизацию всех этапов лингвистического анализа (лексического, морфологического, синтаксического и семантического). Данная технология соединяет преимущества автоматического индексирования документов в поисковых системах с экспертной обработкой их содержания в системах искусственного интеллекта.

    Реализация указанных функциональных возможностей достигается за счет:

    1. Углубленного лексического анализа текстовой информации, обеспечивающего подготовительную нормализацию обрабатываемого теста.

    2. Уникальной структуры морфологического словаря, включающего все морфологические и семантические характеристики слов, а также слова – синонимы и тематически связанные слова.

    3. Детального морфологического анализа, обеспечивающего определение частей речи с учетом семантики запроса пользователя и обрабатываемой текстовой информации.

    4. Поиска текстовой информации по синонимам и тематически связанным словам.

    5. Автоматизированного синтаксического анализа членов предложения и связей между ними.

    6. Отбора текстовой информации на основе семантического анализа ее соответствия запросу пользователя.

    7. Автоматической оценки релевантности предложений текстов запросу пользователя с обеспечением синтеза семантически полного ответа поисковой системы.

    Новые качества интеллектуальной информационно-поисковой системы:

    1. Обработка запроса пользователя, представленного на естественном языке.

    2. Реализация диалога интеллектуальной поисковой системы с пользователем в ходе уточнения введенного им запроса и формирования ответа системы.

    3. Возможность автоматического перевода запроса пользователя с естественного языка на формализованные языки запросов существующих поисковых систем.

    4. Обеспечение поиска с учетом смыслового содержания многозначных слов.

    5. Реализация поиска с учетом синонимов и тематически связанных слов.

    6. Повышение релевантности результатов поиска запросу пользователя на основе учета семантики запроса и синтеза семантически полного ответа поисковой системы.

    7. Обеспечение автоматической интегральной оценки семантического смысла проиндексированной текстовой информации.

    Рассмотренные выше особенности построения технологии «интеллектуального поиска» и достигаемые за счет них новые качества поисковой системы обеспечивают существенное снижение «информационного шума» и значительное повышение оперативности формирования ответа системы, адекватного запросу пользователя.

    Сравнительный анализ основных параметров технологии показаны в таблице 4.2.
    Таблица 4.2. Сравнительный анализ основных параметров технологии

    Характеристики систем

    Поисковая система Яndex

    Интеллектуальная информационно-поисковая система

    Реализуемые этапы лингвистического анализа

    • лексический,

    • морфологический,

    • синтаксический (частично)

    • лексический,

    • морфологический,

    • синтаксический,

    • семантический

    Основные разделы морфологического словаря

    • основы слов,

    • морфологические формы слов

    • основы слов,

    • морфологические формы слов,

    • синонимы слов,

    • тематические слова,

    • семантика слов

    Типы запроса пользователя

    • ключевые слова,

    • формализованный язык запросов (иногда)

    • запрос на естественном языке,

    • ключевые слова

    Обработка текстов на национальных языках

    • русский, английский

    • русский,

    • любой иностранный (в перспективе)

    Диалог системы с пользователем при вводе запроса

    • отсутствует

    • уточнение сформированного перечня ключевых слов;

    • уточнение семантики многозначных слов,

    • уточнение семантики ответа системы

    Формы ответа системы

    • упорядоченный перечень ссылок на тексты, содержащие ключевые слова;

    • абзацы текста, содержащие ключевые слова;

    • восстановленный проиндексированный текст;

    • семантически синтезированный ответ интеллектуальной информационно-поисковой системы


    Разработанная модель интеллектуальной информационно-поисковой машины полностью подтвердила правильность идеологических подходов и реализуемость разработанных системных алгоритмов функционирования интеллектуальной информационно-поисковой системы.

    1   ...   16   17   18   19   20   21   22   23   ...   44


    написать администратору сайта