Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
Скачать 1.67 Mb.
|
Защита информации. У этой проблемы несколько сто- рон: 146 а) защита от помех (особенно при передаче по линиям свя- зи) и сбоев аппаратуры. Для ее организации используются мето- ды теории кодирования; б) защита от неправильных действий некомпетентного пользователя. В настоящее время эта задача, в особенности при поиске в удаленных базах данных, в основном решена; в) защита от несанкционированного доступа, т.е. от поль- зователей, желающих получить информацию, к которой у них нет права доступа, либо исказить имеющуюся в системе инфор- мацию. 2) Обращение к БД, сайтам, поисковым системам с про- стыми, «лобовыми» запросами не представляет никаких про- блем. Несколько более сложен запрос, в котором зафиксирован набор признаков. Значение части из них указывается пользова- телем, значение остальных признаков должна указать система. Гораздо сложнее ситуация, когда пользователю нужен стандартный набор различных данных, удовлетворяющих опре- деленным условиям. Например: «выдать в отделе кадров доку- менты по личному составу на ФИО сотрудников, родившихся в 1970—1975 гг., которые либо женаты, либо проживают вблизи учреждения», «выдать сопроводительные документы по ж.-д. маршруту с минимальным количеством остановок и затрат вре- мени». Документальная система, способная отвечать на такие запросы, кроме того, должна располагать специальным языком запросов, на котором пользователь описывает то, что ему нуж- но, должна обладать определенными интеллектуальными спо- собностями. Она на языке запросов должна «уметь работать» с нечеткой информацией, обладающей, естественно, значительной неопределенностью. Язык запросов может содержать различные операции над признаками: логические, арифметические, опера- ции сравнения. Транслятор превращает такой запрос в алгоритм поиска нужной информации. Усложнение организационных систем различных уровней и процессов их функционирования и развития приводит к необхо- димости организационного обособления основной и информаци- онной деятельности. Этот процесс столь же закономерен, как и процесс иерархизации, т.е. иерархического построения самих ор- ганизационных систем, и, по сути дела, является его следствием. 147 Естественная декомпозиция системы на управляемую и управляющую части соответствует разделению деятельности на информационную и основную. Наиболее отчетливо это разделе- ние наблюдается в чисто технических системах, где четко выде- ляются объект и устройство управления. В организационных системах провести грань между основ- ной и информационной деятельностью значительно труднее. Контрольные вопросы 1. Дайте понятие ДПИС. 2. Что является элементом данных в документальных ИПС? 3. Что является основной задачей документальных инфор- мационных систем? 4. Является ли личная библиотека, в которой может ориен- тироваться только ее владелец, документальной ИС? 5. На какие исследования опираются работы в области до- кументальных ИС? 6.2.2 Цель и особенности документальных ИС Сущность документального обслуживания заключается в том, что информационные потребности членов общества удов- летворяются путем предоставления им первичных документов, необходимые сведения из которых потребители извлекают сами. Вся обработка информации в документальных ИПС осуществ- ляется пользователем. В документальной системе объект хране- ния — документ, который содержит информацию, относящуюся к определённой предметной области. Это могут быть графиче- ские изображения (например, географические карты); информа- ция на естественном языке (монографии, тексты законодатель- ных актов, научные отчёты и т.п.); звуковая информация (на- пример, мелодии для системы, хранящей фонотеку) и т.д. Для обработки информации не важно, какие сведения хранятся в до- кументах. Обычно документальные АИС реализуются в виде информационно-поисковых систем [8]. 148 Грамотное документальное обслуживание осуществляется в два этапа: сначала потребителю предоставляется некоторая со- вокупность релевантных (релевантность — смысловое соответ- ствие содержания документа информационному запросу, смы- словое соответствие между двумя текстами) его запросу вто- ричных документов (этот этап называется библиографическим), а затем, после отбора потребителем из этой совокупности опре- деленного числа уже пертинентных (пертинентность — соответ- ствие содержания документа информационной потребности конкретного специалиста) документов, ему предоставляют сами документы (этот этап называется библиотечным обслуживани- ем). Таким образом, потребность в информации при докумен- тальном обслуживании удовлетворяется опосредованно, через первичный документ. Документальные информационные системы обслуживают принципиально иной класс задач, которые не предполагают од- нозначного ответа на поставленный вопрос. Базу данных таких систем образует совокупность неструктурированных текстовых документов (статьи, книги, рефераты, тексты законов) и графи- ческих объектов, снабженная тем или иным формализованным аппаратом поиска [13]. Цель документальной системы, как правило, — выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запро- се условиям. Например: выдать список всех статей, в которых встречается слово «энтропия». Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где «энтропия» употребле- на в ином смысле, чем предполагалось), а с другой — не выда- вать нужные (например, если автор употребил какой-то синоним или ошибся в написании). Документальная система должна уметь по контексту определять смысл того или иного термина (например, различать «Рак» (животное), «Рак» (созвездие) и «Рак» (болезнь)). В зависимости от того, по каким хранимым документам или по их описаниям (вторичным документам) осуществляется по- 149 иск, документальные ИПС делят на системы с библиотечным или с библиографическим поиском. В документальных системах библиотечный поиск ведется в информационном фонде, содержащем первичные документы (в информационном фонде осуществляется нахождение требуе- мого документа с последующей его (или копии) выдачей поль- зователю). В документальных системах библиографический поиск осуществляется в информационном фонде вторичных докумен- тов (определение основных характеристик первичного доку- мента и предоставление пользователю возможности оценить, может ли данный документ удовлетворить его информационные потребности). Контрольные вопросы 1. Какова основная цель документальной системы? 2. Что является принципиальной особенностью докумен- тальной системы? 3. Где ведутся библиотечный и библиографический поиски в документальных системах? 4. В чем заключается сущность документального обслужи- вания? 5. Что является объектом хранения в документальной по- исковой системе? 6. Какие типы информации могут хранить документы ДИПС? 6.2.3 Компоненты и информационный язык ДИПС Основные компоненты документальной ИПС — это про- граммные средства, поисковый массив документов, средства под- держки информационного языка системы. Программные средства документальных ИПС служат для организации управления дан- ными (ввода, хранения, защиты, поиска и выдачи). Поисковый массив документов в ИПС обычно называется базой данных. Он представляет собой набор ссылок на документы (или их описа- ний), хранящий основную информацию о документах и органи- зованный так, чтобы обеспечить быстрый поиск документов [14]. 150 Описание документа зависит от предметной области и со- стоит из значений атрибутов, характеризующих содержание до- кумента. Например, для БД географических карт это могут быть координаты и масштаб, а для БД законодательных актов — тип документа (закон, постановление и т.д.), дата его принятия, об- ласть действия и т.п. Информационно-поисковый язык — формализованный искусственный язык, предназначенный для индексирования до- кументов, информационных запросов и описания фактов с це- лью последующего хранения и поиска. В информационном по- иске документов используется индексирование — процесс опи- сания документов и запросов в терминах информационно- поискового языка. По результатам индексирования каждому до- кументу назначается набор ключевых слов, отражающих его смысловое содержание. Документальный поиск — информационный поиск, при котором объектом поиска являются документы. Информационный язык документальной системы предна- значен для того, чтобы пользователь мог сформулировать за- прос к системе. Системными средствами запрос преобразуется в формализованное поисковое предписание — поисковый образ запроса, которое далее сопоставляется с поисковыми образами документов, хранимыми в системе, по критерию смыслового соответствия. Информационный язык системы может быть ос- нован на подмножестве естественного языка, которое относится к обслуживаемой ПО. Но чаще поиск документа осуществляется с помощью шаблонов — экранных форм, включающих поля описания документа. Информационный поиск — в широком смысле — после- довательность операций, направленных на предоставление ин- формации заинтересованным лицам. В общем случае информа- ционный поиск состоит из четырех этапов: а) уточнение информационной потребности и формулиров- ка запроса; б) определение совокупности держателей информационных массивов; в) извлечение информации из информационных массивов; 151 г) ознакомление пользователя с полученной информацией и оценка результатов поиска. Основной функцией любой ДИПС является информацион- ное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется главной операцией ДИПС — информационным по- иском. Информационный поискявляется процедурой отыска- ния документов, содержащих ответ на заданные потребителем вопросы. Заметим, что в отличие от ФИПС, который в ответ на за- прос потребителя осуществляет выдачу конкретных сведений (фактов), ДИПС в результате проведения информационного по- иска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует его запросу. В отличие от традиционных БД, ориентированных на пол- ное и точное представление данных достаточно простой смы- словой структуры, в которых при поиске выдаются точные зна- чения, документальные БД ориентированы на частичное, при- ближенное представление данных, имеющих значительно более сложную смысловую структуру, поэтому результатом поиска служат тексты, которые в какой-то мере соответствуют запро- сам, представленным на входе в форме текста. Информационный поиск в системе проводится на основе по- ступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной инфор- мации в процессе его практической деятельности носит название информационной потребности. Под действием получаемой ин- формации информационная потребность людей постоянно изме- няется и трансформируется. Вследствие этого ее невозможно од- нозначно выразить и описать. Однако информационная потреб- ность может быть представлена в виде некоторой последователь- ности ее частных значений в фиксированные моменты времени. Такое частное значение информационной потребности потреби- теля в определенные моменты времени, выраженное на естест- венном языке (ЕЯ), и представляет собой информационный за- прос, скоторым пользователь обращается к системе. Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной по- 152 требности в момент обращения к системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выда- ются те или иные документы ИС. Следовательно, реакцию ИС необходимо рассматривать не только по отношению к информа- ционной потребности, но и к его информационному запросу. Автоматизация процесса информационного поиска потре- бовала формализации представления основного смыслового со- держания информационного запроса и документов в виде соот- ветственно поискового предписания(ПП) и поисковых обра- зов документов(ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми (или просто информационными). В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. На осно- ве такого сопоставления принимается решение о выдаче доку- мента (он признается релевантным) или его невыдаче (он счита- ется нерелевантным). Решение о выдаче или невыдаче документа в ответ на за- прос принимается на основе некоторого набора правил, по кото- рому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Контрольные вопросы 1. Дайте понятие информационно-поискового языка. 2. Что такое документальный поиск в ДИПС? 3. Что такое информационный поиск в широком смысле? 4. Что является основной функцией любой ДИПС? 5. На основе чего в ДИПС проводится информационный поиск? 6. Что определяется в процессе проведения информацион- ного поиска в ДИПС? 153 6.2.4 Общая функциональная структура ДИПС Недостатки естественного языка В состав типичной ДИПС входят три основные подсистемы: 1) подсистема ввода и регистрации; 2) подсистема обработки, подсистема хранения; 3) подсистема поиска. Подсистема поиска. Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). По- этому подсистема ввода и регистрации решает следующие основ- ные задачи: создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры); обеспечение подключения к каналам дос- тавки электронных документов; распознавание, а при необходимо- сти и преобразование формата электронных документов; присвое- ние электронным документам уникальных идентификаторов (реги- страция), а также ведение таблицы синхронизации имен (при необ- ходимости сохранения прежних имен). Все поступающие документы без внесения в них каких- либо изменений направляются в подсистему хранения для со- хранения в базе документов. База документов может представ- лять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления ба- зы документов характеризуется двумя недостатками: – неэффективным использованием дискового пространства; – низкой скоростью доступа при большом количестве файлов. Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсис- тема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обес- печивающих возможность доступа к данным по предъявляемо- му идентификатору. Далее документы поступают на вход подсистемы обработ- ки, задачей которой является формирование для каждого доку- мента его ПОД, в который заносится информация, необходимая для последующего поиска этого документа. 154 ПОД сохраняются в индексе. Логически индекс представ- ляет собой таблицу, строки которой соответствуют документам, а столбцы — информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 — в зависимости от наличия или отсутствия данного признака в рассматриваемом документе. Например, в качестве набора при- знаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответствующих словам, встречающимся в этом тексте. Очевидно, что такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам. Вместо строки или столбца из единиц и нулей хранятся номера столб- цов, содержащих 1, или номера строк, в которых рассматривае- мый столбец имеет значение 1. Такую форму хранения называ- ют прямой или инверсной соответственно. Поскольку при свертке таблицы структура индекса усложняется, для его под- держания могут использоваться средства СУБД. При поступлении на вход системы запроса пользователя за- прос преобразуется в ПП и передается в подсистему поиска, за- дачей которой является отыскание в индексе поисковых обра- зов документов, удовлетворяющих ПП, с точки зрения крите- рия смыслового соответствия. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход под- системы хранения, которая осуществляет выдачу пользователю самих релевантных документов. Как известно, естественный язык (ЕЯ) является универ- сальной знаковой системой, служащей для обмена информацией между людьми. Поскольку документы, поступающие на вход ДИПС, записаны на ЕЯ, справедливо было бы задаться вопро- сом: а нельзя ли использовать ЕЯ в качестве основного средства представления информации во время всего цикла функциониро- вания ДИПС? Ответ будет положительным, если речь идет о тех ИПС, в которых соответствие между запросом и документом устанавливает человек. Однако в современных ДИПС эта опе- рация выполняется компьютером, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ 155 с точки зрения машинной технологии обработки информации, основные из которых рассмотрены ниже. Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию пе- редачи смысла выполняет и ряд других элементов: 1) контекст; 2) парадигматические отношения между словами; тексту- альные отношения между словами; 3) ссылки на слова (словосочетания, фразы и т.д.), ранее упоминавшиеся в тексте сообщения. |