[7 семестр] Расписанные вопросы к экзамену. Закономерностей. 4 Понятия информационный объект, информационное взаимодействие
Скачать 0.84 Mb.
|
48. Сравнительная характеристика иерархических и фасетных классификаций.
49. Кодирование объектов. Системы кодирования. Примеры.Кодирование - это процесс присвоения условных обозначений (кодов) объектам и классификационным группам в соответствии с определенной системой кодирования. Код (условное обозначение объекта) - это символ, посредством которого объекты предметной области могут быть представлены с целью хранения в памяти ЭВМ и вывода информации на любой носитель. Совокупность методов и правил кодирования объектов классификации называется системой кодирования. Кодирование предназначено для представления информации в виде, удобном при обработке на ЭВМ, в целях экономии места записи, для однозначного описания объектов. При разработке кодов должны учитываться следующие требования:
Код в системе кодирования задается тройкой: с=(A, L, S), где А — алфавит (множество символов, используемых при записи кода), L — длина (число позиций в коде); S— структура кода (порядок расположения в коде символов, используемых для обозначения классификационного атрибута). Различают следующие типы алфавитов: цифровой, буквенный и смешанный. Структура кода представляет собой, как правило, графическое изображение последовательности расположения символов. Код характеризуется следующими параметрами:
Наиболее широкое применение в практике кодирования информации находят цифровые коды.
В кодах фиксированной длины каждый разряд идентифицирует конкретный атрибут классификационной схемы. Коды переменной длины ориентированы на идентификацию значений только тех характеристических атрибутов, которые определяют классификационную группу.
ПРОЧИТАТЬ ПЕРЕД ОТВЕТОМ, НО МОЖНО НЕ ПЕРЕПИСЫВАТЬ: Классификационное кодирование применяется при кодировании объектов на основании предварительной их классификации Различают последовательное и параллельное классификационное кодирование. Последовательное используется для иерархической классификационной структуры: сначала записывается код класса 1-го уровня, затем код класса 2-го уровня, затем код класса 3-го уровня и т. д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о значении определенного характеристического атрибута объекта. Объекты с одинаковыми кодами составляют класс иерархической классификации. Параллельное кодирование используется для фасетной системы классификации: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации. основано на предварительной фасетной классификации. Регистрационное кодирование поддерживающие методы логического упорядочения объектов с дальнейшим присваиванием отдельному объекту некоторого кода, определяющего место объекта в принятом логическом порядке и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую системы. Порядковая предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Каждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера. Серийно-порядковая предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия при этом также будет иметь порядковую нумерацию. удобна, когда количество групп невелико. кодами служат числа натурального ряда с закреплением отдельных серий этих чисел за объектами классификации с одинаковыми признаками. 50. Назначение, структура и использование информационно-поисковых тезаурусовДля уменьшения количества терминов в ПО вводят ИПТ (тезаурус - синоним), в котором отражаются устойчивые связи между понятиями данной предметной области. Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями: иерархическими (например целое-часть, имеет место нарушение правильной структуры дерева), ассоциативными, эквивалентности. Тезаурус является лексическим инструментом ИПС для осуществления поиска. Информационно-поисковые тезаурусы.(ИПТ) позволяют решить проблему соотнесения: • авторской терминологии (понятий и слов естественного языка, которые автор использует для обозначения этих понятий); • терминологии системы (понятий и терминов, которые используются для выражения этих понятий при вводе документов в ИПС); • терминологии потребителя (понятий и терминов, которые потребитель использует для представления этих понятии при формировании запросов). Тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи, представляет собой перечень лексических единиц, упорядоченных по систематическому и алфавитному принципам. Лексические единицы обычно делятся на дескрипторы и аскрипторы. Дескриптор— лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор— лексическая единица, которая в поисковых образах документов (запросов) при поиске или обработке информации подлежит замене на дескриптор. ИПТ подразделяют на два типа:
Лексические единицы тезауруса поделены на дескрипторы (выделены прописными буквами) и ключевые слова— не дескрипторы (строчными буквами) и нормализованы следующим образом: • имена существительные, обозначающие исчисляемые объекты, представлены в форме именительного падежа множественного числа; • существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственного числа; • для всех словосочетаний-дескрипторов, включая словосочетания с именем собственным, используется естественный (прямой) порядок слов. Лексические единицы в тезаурусе организованы в виде словарных статей. Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрипторов и ключевых слов, связанных с заглавным дескриптором по смыслу. Общеупотребительные аббревиатуры входят в тезаурус в качестве дескрипторов. Каждая из них снабжена расшифровкой, которая приводится в косых скобках строчными буквами. В дескрипторной статье лексические единицы располагаются в следующем порядке:
51.Обобщенная технологическая схема и компоненты информационного поиска.В задачах информационного поиска различают 2 составляющие: концептуальную и технологическую. К технологической составляющей относятся средства пользовательского интерфейса, алгоритмы индексирования, поиска, языки запросов. Методы поиска – это совокупность моделей и алгоритмов реализации отдельных технологических этапов, таких, как построение поискового образа запроса, отбор документов, оптимизация запроса, оценка выдачи. Механизмы поиска – реализованные в системе модели и алгоритмы процесса формирования выдачи документов в ответ на поисковый запрос. Средства поиска – взаимозависимый комплекс ИПЯ и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, результатов поиска), - объекты пользовательского интерфейса как технологические решения, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС. Поисковые технологии – оптимизированные в рамках конкретной АИПС последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователи с системой для устойчивого получения конечного и промежуточных результатов. Стратегия поиска – общий план поведения [последовательность операций] пользователя для выражения и удовлетворения информационной потребности, обусловленный характером цели, типом поиска, архитектурой БД, методами и средствами поиска конкретной АИПС. Выбор стратегии является оптимизационной задачей. Существует две «чистых» стратегии: «вербальная» - аналог функционального задания, «кластерная» - отражает особенности перечислительного способа. Навигация (процесс поиска по запросу в выбранной БД) – целенаправленная последовательность использования методов, средств и технологий конкретной АИПС, определяемая стратегией, для получения и оценки результата. Средства навигации позволяют пользователю управлять процессом поиска и представляются в виде интерфейса. Интерфейс характеризуется понятностью, вариантностью выбора операционных объектов. Основные объекты – документы и запросы. Технологические объекты – вспомогательные объекты, обеспечивающие эффективность доступа.Обобщенная технологическая схема поиска имеет интерфейсные средства: - интерфейс формирования запроса («вербальные» и «кластерные»);- интерфейс поискового модуля (обеспечивает выбор и управление механизмом отбора документов по сформированному условию поиска); - интерфейс обработки результата и развития поиска (использует 2 типа операционных объектов – отдельные документы и коллекции документов). 52. Типовые реализации интерфейсов подготовки поисковых выражений, их особенности.Поисковые интерфейсные средства можно разделить на два класса. 1)сценарии типа «укажи и выбери» — это конструкторы запросов, позволяющие построить выражение любой сложности при помощи терминов поисковых словарей или др. поисковых структур (тезаурусов, словников), которое на след. шаге выполнения поиска даст результат. 2)сценарии типа «укажи и получи». Пользователь сам выделяет в отображаемом объекте (документе или множестве документов) значимые элементы (термины в документе или словаре; документы в выборке или протоколе) и, используя механизмы поиска по сходству (поиск аналогов, эвристический поиск, поиск с использованием обратной связи), получает результат. (т.е. здесь нет этапасоставления поискового выражения) В основу технологии «укажи и выбери» положено три подхода к построению выражений запросов (разной степени сложности): • конструктор запроса «по образцу» Имеет фиксированную модель поискового условия, в которой обязательно выполняются частные условия, кот. относятся к полям, выбираемым из ранее определенных списков. Отдельное условие – список терминов (из словаря), обозначающих одно и то же понятие конструктор формирования запроса «по шагам» Поисковые термины (из словаря) могут связываться любыми отношениями, лексические выражения (построенные таким образом) могут связываться операторами (выбираются из списка). Сложные предложения запросы формируются последовательным наращиванием выражения условия (добавление очередного термина) или всего предложения (добавление нового условия поиска). конструктор формирования логического выражения запроса - непосредственный набор выражения запроса с возможностью обращения в произвольном порядке к словарям, спискам имен полей и т. д. |