Главная страница
Навигация по странице:

  • 6.2.2

  • Цель документальной системы

  • Принципиальной особенностью

  • 6.2.3

  • Информационно-поисковый язык

  • 6.2.4

  • Многообразие средств передачи смысла

  • Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)


    Скачать 1.67 Mb.
    НазваниеУчебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
    АнкорИнформатика
    Дата07.05.2023
    Размер1.67 Mb.
    Формат файлаpdf
    Имя файлаИнфор-ные системы_УП.pdf
    ТипУчебное пособие
    #1113709
    страница14 из 19
    1   ...   11   12   13   14   15   16   17   18   19
    Защита информации. У этой проблемы несколько сто- рон:

    146
    а) защита от помех (особенно при передаче по линиям свя- зи) и сбоев аппаратуры. Для ее организации используются мето- ды теории кодирования; б) защита от неправильных действий некомпетентного
    пользователя. В настоящее время эта задача, в особенности при поиске в удаленных базах данных, в основном решена; в) защита от несанкционированного доступа, т.е. от поль- зователей, желающих получить информацию, к которой у них нет права доступа, либо исказить имеющуюся в системе инфор- мацию.
    2) Обращение к БД, сайтам, поисковым системам с про- стыми, «лобовыми» запросами не представляет никаких про- блем. Несколько более сложен запрос, в котором зафиксирован набор признаков. Значение части из них указывается пользова- телем, значение остальных признаков должна указать система.
    Гораздо сложнее ситуация, когда пользователю нужен стандартный набор различных данных, удовлетворяющих опре- деленным условиям. Например: «выдать в отделе кадров доку- менты по личному составу на ФИО сотрудников, родившихся в
    1970—1975 гг., которые либо женаты, либо проживают вблизи учреждения», «выдать сопроводительные документы по ж.-д. маршруту с минимальным количеством остановок и затрат вре- мени». Документальная система, способная отвечать на такие запросы, кроме того, должна располагать специальным языком запросов, на котором пользователь описывает то, что ему нуж- но, должна обладать определенными интеллектуальными спо- собностями. Она на языке запросов должна «уметь работать» с нечеткой информацией, обладающей, естественно, значительной неопределенностью. Язык запросов может содержать различные операции над признаками: логические, арифметические, опера- ции сравнения. Транслятор превращает такой запрос в алгоритм поиска нужной информации.
    Усложнение организационных систем различных уровней и процессов их функционирования и развития приводит к необхо- димости организационного обособления основной и информаци- онной деятельности. Этот процесс столь же закономерен, как и процесс иерархизации, т.е. иерархического построения самих ор- ганизационных систем, и, по сути дела, является его следствием.

    147
    Естественная декомпозиция системы на управляемую и управляющую части соответствует разделению деятельности на информационную и основную. Наиболее отчетливо это разделе- ние наблюдается в чисто технических системах, где четко выде- ляются объект и устройство управления.
    В организационных системах провести грань между основ- ной и информационной деятельностью значительно труднее.
    Контрольные вопросы
    1.
    Дайте понятие ДПИС.
    2.
    Что является элементом данных в документальных
    ИПС?
    3.
    Что является основной задачей документальных инфор- мационных систем?
    4.
    Является ли личная библиотека, в которой может ориен- тироваться только ее владелец, документальной ИС?
    5.
    На какие исследования опираются работы в области до- кументальных ИС?
    6.2.2
    Цель
    и
    особенности
    документальных
    ИС
    Сущность документального обслуживания заключается в том, что информационные потребности членов общества удов- летворяются путем предоставления им первичных документов, необходимые сведения из которых потребители извлекают сами.
    Вся обработка информации в документальных ИПС осуществ- ляется пользователем. В документальной системе объект хране- ния — документ, который содержит информацию, относящуюся к определённой предметной области. Это могут быть графиче- ские изображения (например, географические карты); информа- ция на естественном языке (монографии, тексты законодатель- ных актов, научные отчёты и т.п.); звуковая информация (на- пример, мелодии для системы, хранящей фонотеку) и т.д. Для обработки информации не важно, какие сведения хранятся в до- кументах. Обычно документальные АИС реализуются в виде информационно-поисковых систем [8].

    148
    Грамотное документальное обслуживание осуществляется в два этапа: сначала потребителю предоставляется некоторая со- вокупность релевантных (релевантность — смысловое соответ- ствие содержания документа информационному запросу, смы- словое соответствие между двумя текстами) его запросу вто- ричных документов (этот этап называется библиографическим), а затем, после отбора потребителем из этой совокупности опре- деленного числа уже пертинентных (пертинентность — соответ- ствие содержания документа информационной потребности конкретного специалиста) документов, ему предоставляют сами документы (этот этап называется библиотечным обслуживани- ем). Таким образом, потребность в информации при докумен- тальном обслуживании удовлетворяется опосредованно, через первичный документ.
    Документальные информационные системы обслуживают принципиально иной класс задач, которые не предполагают од- нозначного ответа на поставленный вопрос. Базу данных таких систем образует совокупность неструктурированных текстовых документов (статьи, книги, рефераты, тексты законов) и графи-
    ческих объектов, снабженная тем или иным формализованным аппаратом поиска [13].
    Цель документальной системы, как правило, — выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запро- се условиям. Например: выдать список всех статей, в которых встречается слово «энтропия».
    Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где «энтропия» употребле- на в ином смысле, чем предполагалось), а с другой — не выда- вать нужные (например, если автор употребил какой-то синоним или ошибся в написании). Документальная система должна уметь по контексту определять смысл того или иного термина
    (например, различать «Рак» (животное), «Рак» (созвездие) и
    «Рак» (болезнь)).
    В зависимости от того, по каким хранимым документам или по их описаниям (вторичным документам) осуществляется по-

    149
    иск, документальные ИПС делят на системы с библиотечным
    или с библиографическим поиском.
    В документальных системах библиотечный поиск ведется в информационном фонде, содержащем первичные документы
    (в информационном фонде осуществляется нахождение требуе- мого документа с последующей его (или копии) выдачей поль- зователю).
    В документальных системах библиографический поиск
    осуществляется в информационном фонде вторичных докумен-
    тов (определение основных характеристик первичного доку- мента и предоставление пользователю возможности оценить, может ли данный документ удовлетворить его информационные потребности).
    Контрольные вопросы
    1.
    Какова основная цель документальной системы?
    2.
    Что является принципиальной особенностью докумен- тальной системы?
    3.
    Где ведутся библиотечный и библиографический поиски в документальных системах?
    4.
    В чем заключается сущность документального обслужи- вания?
    5.
    Что является объектом хранения в документальной по- исковой системе?
    6.
    Какие типы информации могут хранить документы ДИПС?
    6.2.3
    Компоненты
    и
    информационный
    язык
    ДИПС
    Основные компоненты документальной ИПС — это про- граммные средства, поисковый массив документов, средства под- держки информационного языка системы. Программные средства документальных ИПС служат для организации управления дан- ными (ввода, хранения, защиты, поиска и выдачи). Поисковый массив документов в ИПС обычно называется базой данных. Он представляет собой набор ссылок на документы (или их описа- ний), хранящий основную информацию о документах и органи- зованный так, чтобы обеспечить быстрый поиск документов [14].

    150
    Описание документа зависит от предметной области и со- стоит из значений атрибутов, характеризующих содержание до- кумента. Например, для БД географических карт это могут быть координаты и масштаб, а для БД законодательных актов — тип документа (закон, постановление и т.д.), дата его принятия, об- ласть действия и т.п.
    Информационно-поисковый язык — формализованный искусственный язык, предназначенный для индексирования до- кументов, информационных запросов и описания фактов с це- лью последующего хранения и поиска. В информационном по- иске документов используется индексирование — процесс опи- сания документов и запросов в терминах информационно- поискового языка. По результатам индексирования каждому до- кументу назначается набор ключевых слов, отражающих его смысловое содержание.
    Документальный поиск — информационный поиск, при котором объектом поиска являются документы.
    Информационный язык документальной системы предна- значен для того, чтобы пользователь мог сформулировать за- прос к системе. Системными средствами запрос преобразуется в формализованное поисковое предписание — поисковый образ запроса, которое далее сопоставляется с поисковыми образами документов, хранимыми в системе, по критерию смыслового соответствия. Информационный язык системы может быть ос- нован на подмножестве естественного языка, которое относится к обслуживаемой ПО. Но чаще поиск документа осуществляется с помощью шаблонов — экранных форм, включающих поля описания документа.
    Информационный поиск — в широком смысле — после- довательность операций, направленных на предоставление ин- формации заинтересованным лицам. В общем случае информа- ционный поиск состоит из четырех этапов: а)
    уточнение информационной потребности и формулиров- ка запроса; б)
    определение совокупности держателей информационных массивов; в)
    извлечение информации из информационных массивов;

    151
    г)
    ознакомление пользователя с полученной информацией и оценка результатов поиска.
    Основной функцией любой ДИПС является информацион- ное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется главной операцией ДИПС — информационным по- иском. Информационный поискявляется процедурой отыска- ния документов, содержащих ответ на заданные потребителем вопросы.
    Заметим, что в отличие от ФИПС, который в ответ на за- прос потребителя осуществляет выдачу конкретных сведений
    (фактов), ДИПС в результате проведения информационного по- иска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует его запросу.
    В отличие от традиционных БД, ориентированных на пол- ное и точное представление данных достаточно простой смы- словой структуры, в которых при поиске выдаются точные зна- чения, документальные БД ориентированы на частичное, при- ближенное представление данных, имеющих значительно более сложную смысловую структуру, поэтому результатом поиска служат тексты, которые в какой-то мере соответствуют запро- сам, представленным на входе в форме текста.
    Информационный поиск в системе проводится на основе по- ступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной инфор- мации в процессе его практической деятельности носит название
    информационной потребности. Под действием получаемой ин- формации информационная потребность людей постоянно изме- няется и трансформируется. Вследствие этого ее невозможно од- нозначно выразить и описать. Однако информационная потреб- ность может быть представлена в виде некоторой последователь- ности ее частных значений в фиксированные моменты времени.
    Такое частное значение информационной потребности потреби- теля в определенные моменты времени, выраженное на естест- венном языке (ЕЯ), и представляет собой информационный за-
    прос, скоторым пользователь обращается к системе.
    Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной по-

    152
    требности в момент обращения к системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выда- ются те или иные документы ИС. Следовательно, реакцию ИС необходимо рассматривать не только по отношению к информа- ционной потребности, но и к его информационному запросу.
    Автоматизация процесса информационного поиска потре- бовала формализации представления основного смыслового со- держания информационного запроса и документов в виде соот- ветственно поискового предписания(ПП) и поисковых обра-
    зов документов(ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми
    (или просто информационными).
    В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. На осно- ве такого сопоставления принимается решение о выдаче доку- мента (он признается релевантным) или его невыдаче (он счита- ется нерелевантным).
    Решение о выдаче или невыдаче документа в ответ на за- прос принимается на основе некоторого набора правил, по кото- рому данной ДИПС определяется степень смысловой близости между ПОД и ПП.
    Контрольные вопросы
    1.
    Дайте понятие информационно-поискового языка.
    2.
    Что такое документальный поиск в ДИПС?
    3.
    Что такое информационный поиск в широком смысле?
    4.
    Что является основной функцией любой ДИПС?
    5.
    На основе чего в ДИПС проводится информационный поиск?
    6.
    Что определяется в процессе проведения информацион- ного поиска в ДИПС?

    153
    6.2.4
    Общая
    функциональная
    структура
    ДИПС
    Недостатки естественного языка
    В состав типичной ДИПС входят три основные подсистемы:
    1)
    подсистема ввода и регистрации;
    2)
    подсистема обработки, подсистема хранения;
    3)
    подсистема поиска.
    Подсистема поиска. Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). По- этому подсистема ввода и регистрации решает следующие основ- ные задачи: создание электронных копий бумажных документов
    (например, сканирование с последующим распознаванием текста или ввод с клавиатуры); обеспечение подключения к каналам дос- тавки электронных документов; распознавание, а при необходимо- сти и преобразование формата электронных документов; присвое- ние электронным документам уникальных идентификаторов (реги- страция), а также ведение таблицы синхронизации имен (при необ- ходимости сохранения прежних имен).
    Все поступающие документы без внесения в них каких- либо изменений направляются в подсистему хранения для со- хранения в базе документов. База документов может представ- лять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления ба- зы документов характеризуется двумя недостатками:

    неэффективным использованием дискового пространства;

    низкой скоростью доступа при большом количестве файлов.
    Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсис- тема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обес- печивающих возможность доступа к данным по предъявляемо- му идентификатору.
    Далее документы поступают на вход подсистемы обработ- ки, задачей которой является формирование для каждого доку- мента его ПОД, в который заносится информация, необходимая для последующего поиска этого документа.

    154
    ПОД сохраняются в индексе. Логически индекс представ- ляет собой таблицу, строки которой соответствуют документам, а столбцы — информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо
    0 — в зависимости от наличия или отсутствия данного признака в рассматриваемом документе. Например, в качестве набора при- знаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответствующих словам, встречающимся в этом тексте.
    Очевидно, что такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам. Вместо строки или столбца из единиц и нулей хранятся номера столб- цов, содержащих 1, или номера строк, в которых рассматривае- мый столбец имеет значение 1. Такую форму хранения называ- ют прямой или инверсной соответственно. Поскольку при свертке таблицы структура индекса усложняется, для его под- держания могут использоваться средства СУБД.
    При поступлении на вход системы запроса пользователя за- прос преобразуется в ПП и передается в подсистему поиска, за- дачей которой является отыскание в индексе поисковых обра-
    зов документов, удовлетворяющих ПП, с точки зрения крите- рия смыслового соответствия. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход под- системы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
    Как известно, естественный язык (ЕЯ) является универ- сальной знаковой системой, служащей для обмена информацией между людьми. Поскольку документы, поступающие на вход
    ДИПС, записаны на ЕЯ, справедливо было бы задаться вопро- сом: а нельзя ли использовать ЕЯ в качестве основного средства представления информации во время всего цикла функциониро- вания ДИПС? Ответ будет положительным, если речь идет о тех
    ИПС, в которых соответствие между запросом и документом устанавливает человек. Однако в современных ДИПС эта опе- рация выполняется компьютером, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ

    155
    с точки зрения машинной технологии обработки информации, основные из которых рассмотрены ниже.
    Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию пе- редачи смысла выполняет и ряд других элементов:
    1)
    контекст;
    2)
    парадигматические отношения между словами; тексту- альные отношения между словами;
    3)
    ссылки на слова (словосочетания, фразы и т.д.), ранее упоминавшиеся в тексте сообщения.
    1   ...   11   12   13   14   15   16   17   18   19


    написать администратору сайта