Проектирование ЭСУД. Проектирование электронных систем управления документооборотом
Скачать 1.24 Mb.
|
выбора носителей информации. Системы автоматизации делопроизводства, особенно если в них реализован ком- плекс обработки образов документов, характеризуются большим объемом хранимой ин- формации (создаются архивы на сотни мегабайт и даже терабайт). Кроме того, к архиву должен быть обеспечен одновременный доступ значительного количества пользователей, причем достаточно быстрый. Именно эти требования, наряду со стоимостью, являются основными при выборе носителей и устройств хранения данных, функционирующих в со- ставе систем документооборота. Рассмотрение и выбор носителей необходимо производить с точки зрения жизнен- ного цикла документа, который подразумевает период от создания или поступления доку- мента на предприятие до его уничтожения или передачи на хранение. В течение этого времени к документу следует обеспечить своевременный доступ, удобное распростране- ние, надежное хранение и оптимальный уровень затрат в стоимостном отношении. Жиз- ненный цикл принято, в зависимости от частоты обращения к документу, подразделять на активную и неактивную стадии: • на первой стадии документ используется в деловых процессах организации, поэтому здесь наиболее важный аспектом является быстрый и простой доступ к информации и носитель должен обеспечивать удобное предоставление доку- мента пользователю для чтения, редактирования или маршрутизации другим сотрудникам; • на второй стадии основным является хранение данных, следовательно, перво- очередные предъявляемые к носителям требования – это надежное и выгодное в ценовом отношении обеспечение этого длительного процесса. Продолжительность этих стадий и всего жизненного цикла документа зависит от его типа и метода использования. Например, значительная часть сообщений, пришедших по электронной почте, уничтожается сразу после прочтения; офисная корреспонденция обычно накапливается и хранится около года; финансовые документы («Платежные пору- чения» или «Накладные»), несмотря на то, что оперативный доступ к ним необходим в течение всего нескольких недель со дня создания (получения по юридическим соображе- ниям не уничтожаются более 10 лет. Многие документы помещаются в архив и на более длительный срок. Рассмотрим особенности использования отдельных видов носителей. ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 70 Бумага. Довольно большой процент документов поступает в организации на бума- ге. Даже если документ создан в электронном виде, для ознакомления с ним многие поль- зователи предпочитают распечатку; то же выполняется для простановки резолюций и хра- нения в архиве, кроме того, бумага (наряду с микрографикой) остается тем носителем, ко- торый обладает юридической силой. Именно на ней ставят подпись и печать, бумажный документ предъявляют налоговой инспекции и принимают как доказательство в суде. Микрографика.Эта технология базируется на фотографическом процессе. В 60-х годах микрофильмы стали использоваться повсеместно для архивирования личных дел сотрудников и студентов, страховых полюсов и периодических изданий; для инженерных чертежей, географических карт и других документов большого формата применялись апертурные карты. Их широкое распространение обусловлено, наряду с юридической за- конностью, высокой эффективностью на обеих стадиях жизненного цикла. Электронные носители. Появление компьютеров, а вместе с ними магнитных дисков и лент вывело работу с информацией на новый уровень. Запись / считывание, по- иск данных на дискете, жестком диске, ленте гораздо удобнее и быстрее, чем на микро- фильме. Ряд преимуществ дает также возможность повторного использования и редакти- рования информации. Основные плюсы электронных носителей проявляются на активной стадии жиз- ненного цикла документа. 1. Электронные документы – обладают высокой степенью удобства и скорости поиска. Для этого используется специальное программное обеспечение: СУД позволяют ин- дексировать как определенные параметры, так и весь текст документов; разграничи- вать и контролировать доступ. К электронному документу возможен одновременный доступ нескольких пользователей, от частого использования документ не теряет сво- его «товарного» вида, а редактирование можно выполнять с сохранением исходного варианта. Маршрутизация электронных документов осуществляется быстро по локальным и глобальным сетям, а также с помощью специального программного обеспечения (систем workflow) может быть полностью автоматизирована и контролируема. 2. Архив электронных документов, подобно микрофишам, значительно компактнее бу- мажного (например, 1 Гб данных на магнитном или оптическом носителе соответст- вует 1 млн. печатных страниц в текстовом виде или 30 тыс. оцифрованным изображе- ниям этих страниц, таким образом в коробке размером в чемодан помещается инфор- мация сотен и даже тысяч шкафов). Наибольшую скорость доступа к данным, как известно, гарантируют магнитные дисководы. Применение их было ограничено в основном высокой ценой и недостаточной надежностью. В последнее время, цены на жесткие диски сильно упали и продолжают снижаться, а для решения проблемы надежности хранения существует способ, состоящий в объединении отдельных дисководов в массивы, получившие название RAID. На сегодняшний день применение избыточных дисковых массивов для работы с данными в системах делопроизводства, управления документами, обработки образов и др. становится все более перспективным, поскольку RAID могут обеспечить ту же емкость для хранения данных, что и магнитооптические накопители, но, в отличие от последних, они гарантируют доступ к данным за миллисекунды, а не за десятки секунд. К тому же, благодаря использованию технологии четности, надежность дисковых массивов превос- ходит этот показатель магнитооптических систем. Однако, магнитные накопители имеют один существенный недостаток – малый срок службы. Так, в правительственных учреждениях США допустимое время работы дисковода ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 71 ограничено десятилетием, кроме того, всем известна низкая надежность подобных уст- ройств, в силу чего приходится прибегать к резервному копированию информации. По данным некоторых аналитиков, сегодня любая средняя компания ежедневно имеет дело с терабайтом данных. В следующем тысячелетии размер хранимых в органи- зациях данных, возрастая, по их мнению ежегодно на 57%, достигнет 1 млрд мегабайтов. Объем информации на диске рядового Unix-сервера в год увеличивается на 40 Гб, а PC – на 90 Гб. В тех случаях, когда необходимо хранить не только новые, но и старые данные, одних магнитных накопителей недостаточно. Кроме того, современные компьютерные системы управляют большим количеством данных различного типа, включая изображения документов, графику, фотографии или видео, поэтому приходится применять информаци- онные архивы с устройствами хранения информации, обладающими высокой емкостью. Выходом из сложившейся ситуации служит ввод в эксплуатацию магнитооптиче- ских накопителей. Оптическая технология начала применяться в 1982 г. и сегодня повсе- местно признана тенденцией будущего. Их преимущество заключается в возможности на- дежного хранения очень больших объемов данных, этот носитель дешевле, чем предыду- щий, и кроме того, используемые в магнитооптических устройствах лазерные и оптические технологии позволили достичь производительности более дорогих магнитных накопителей. Различают два типа оптических носителей. Диски WORM (write once and read many), обеспечивающие возможность только один раз записывать информацию в выде- ленный сектор и многократно ее считывать. Существуют также диски, данные на которые можно переписать. И те и другие выпускаются различного размера, хотя наиболее часто используются 5.25І. Разработаны устройства типа jukebox – это механические роботы, управляющие десятками или сотнями расположенных внутри них оптических дисков. Накопители типа jukebox могут содержать один или больше оптических дисководов, достигая емкости 600 Гб и более. Эти устройства рассчитаны в основном на корпоративные системы управле- ния документами, поскольку на одном-двух jukebox может свободно расположиться весь архив предприятия, будь то финансовая компания, правительственное учреждение, юри- дическая или медицинская фирма, проектная организация, рекламное агентство. Магнитооптические технологии экономят не только время, но и деньги. По данным ассоциации SIA (Securities Industry Association), перенос данных с микрофильмов на опти- ческие накопители экономит в год около 250 тыс. долл. средней фирме и более 1,6 млн. долл. большой корпорации. Однако следует отметить, что у них есть и свои недостатки: • при интерактивном режиме время ожидания пользователем предоставления за- прашиваемого файла для образов документов может составлять десятки и бо- лее секунд; • обеспечение единовременного доступа не ко всем дискам jukebox, а лишь к оп- ределенному их числу, лимитируемому количеством дисководов в магнитооп- тической библиотеке; • длительному хранению информации на данных носителях препятствует их не- достаточная стабильность и зависимость данных от конкретного программного и аппаратного обеспечения. Подводя итог, можно отметить, что ни один из носителей не является лучшим на всех стадиях жизненного цикла документов. Микрографические и электронные выступают в качестве альтернативы бумаги, однако, полностью заменить ее не в состоянии. Бумажные документы наиболее удобны для чтения, но требуют больших затрат на организацию хра- нения и больших архивных площадей. Электронные документы – лидер на активной стадии ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 72 жизненного цикла, т.к. обеспечивают очень быстрый доступ, удобны в редактировании, к тому же их маршрутизацию и исполнение легко контролировать. Для очень длительного хранения документы этого формата не годятся из-за недостаточной стабильности носителя и зависимости от быстро меняющегося аппаратного и программного обеспечения. Микро- графика лишена этих недостатков, и при требовании архивировать документы на срок 100 лет и более – самый разумный выбор; хотя при необходимости обеспечивать в системе пе- редачу данных по сети этот носитель существенно уступает электронному. 3. Исходя из этого, в ряде случаев признается целесообразным построение решений, объединяющих несколько разнородных носителей, которые таким образом не конку- рируют, а дополняют друг друга. Если внедрена электронная система управления до- кументами, то после завершения активной стадии целесообразно уничтожать доку- менты с электронного перезаписываемого носителя и помещать их для длительного хранения на микрофиши, вместо того чтобы каждые пять-десять лет переписывать на новые магнитные или оптические диски и конвертировать в форматы нового про- граммного и аппаратного обеспечения. Для большого класса информации, особенно это касается газет, журналов, книг и т.д., микрофильмы (несмотря на то что их невозможно читать без вспомогательного элек- тронного устройства – микроскопа) обеспечивают компактное хранение очень больших объемов данных в течение длительного (до 500 лет) периода времени. Оптические техно- логии остаются незаменимы лишь в двух областях: когда необходим неизменяемый архив информации (на дисках WORM) и когда архив приходится транспортировать – поскольку перевезти кейс с оптическими дисками гораздо легче, чем контейнер с RAID-массивом. 6.3. Классификация и характеристика методов поиска Одной из проблем организации СУД являются выбор метода поиска и разработка или выбор программного обеспечения, что в значительной степени зависит от применяемых методов индексирования. Как было сказано выше, индексирование загружаемой на хране- ние информации может осуществляться по ключевым словам, по атрибутам документа либо путем создания полнотекстового индекса. Суть последнего подхода заключается в том, что при создании индексного файла (индексированной матрицы) в него вносятся все значимые слова (без союзов, предлогов и т.п.) из всех документов в алфавитном порядке, которые за- тем объединяются в пары с указателями на документы, содержащие эти слова. Задача поиска нужного документа формулируется так: зная примерные характери- стики документа, нужно найти его, где бы он ни хранился. Характеристики документа мо- гут быть как внешние (атрибуты документа): название, время создания, автор, размер до- кумента, местонахождение и др., так и внутренние (содержание документа): заголовок, текст документа. Как правило, осуществляют поиск документов по совокупности внешних и внутренних характеристик, но если документов много, и если необходимо осуществлять поиск документов, согласно ситуации, то нужный документ отыскивают по его содержа- нию (тексту), а не по реквизитам (атрибутам). Существует несколько методов поиска документов по содержанию. Традиционные подходы к организации поиска информации можно разделить на три группы: методыин- дексного (или двоичного) поиска, статистические методы и семантические методы,осно- ванные на базах знаний. Рассмотрим некоторые из них. Индексный, или двоичный, поиск применятся главным образом со структурирован- ными базами данных. В таких методах слова интерпретируются как последовательности закодированных символов. Используя формальный синтаксис, или язык запросов, система двоичного поиска выбирает точное соответствие для отдельного словаили цепочки слов. ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 73 Это самый простой вид поиска документа по содержанию, но и самый слабый вид поиска, что выражается в малой полноте (это означает, что редко удается найти нужный документ). Недостатки. Системы двоичного поиска имеют ограничения по точности, влияю- щие на возможность нахождения всей относящейся к запросу информации. В методах двоичного поиска не учитываются различные формы значения слов; пользователю непро- сто угадать точные слова и фразы, которые были использованы авторами в документах. Системы двоичного поиска не могут также ранжироватьдокументыпо степени соответст- вия запросу, поэтому пользователь вынужден читать каждый документ, чтобы опреде- лить, на сколько он соответствует запросу. Повышению полноты поиска по строке служат такие стандартные средства, как отождествление заглавных и малых букв и использование метасимволов, наподобие * (что означает любое количество каких-либо символов). Другим способом повышения полноты поиска служитпоиск слов в разных грам- матических формах. Почти любое русское слово – это набор из нескольких словоформ. Для среднего русского существительного таких форм двенадцать – одна основная и 11 косвенных (6 падежей единственного и 6 – множественного числа). У русского глагола косвенных форм – порядка 100 (а если считать причастия, то и все 180). В процессе сло- воизменения общий смысл слова остается тем же, изменяется только форма и роль слова в предложении. Нужен так называемый морфологический поиск, то есть поиск, опираю- щийся на знание морфологии языка, поскольку в языке есть еще и процессы словообразо- вания, в ходе которых образуются «родственники» слова – другие части речи, например, от слова «акция» получаются «акционерный» и «акционировать». Существует два способа осуществления морфологического поиска Бессловарный метод.Программа, основанная на этом методе выявляет основу ка- ждого слова и отсекает окончания слов при обработке запроса, а затем «приклеивать» их при поиске. Кроме того, у программы есть возможность соотнести окончание, отсеченное у искомого слова, с окончаниями найденных слов. Поиск «со словарем». Чтобы искать формы заданного слова более точно, поисковая сис- тема должна иметь словарь основ. Такой словарь состоит из списка основ слов, ссылки от кото- рых указывают на соответствующие наборы окончаний. Некоторое снижение скорости поиска при использовании словаря обычно компенсируется существенно возросшей точностью. Качество поиска повышается, если применять поиск по логической комбинации слов, поскольку шум резко снижается при поиске не по одному, а по двум и более словам. Это происходит потому, что отдельное слово может встретиться где угодно в тексте, а ве- роятность совместного вхождения двух или трех искомых слов в ненужный документ го- раздо ниже. При этом методе слова в запросе соединяются логическими операторами «И», «ИЛИ», «НЕ». В некоторых поисковых системах имеется возможность использовать в за- просе скобки. Таким образом, пользователь может ввести для поиска целое логическое выражение, состоящее из слов, а также иногда и других внешних характеристик – даты, размера и т.п., например, «(приложение И договор) ИЛИ (соглашение И договор)». Такое логическое выражение называется булевой формой, а сам поиск – булевым. Более простым в технической реализации является метод поиска по близости (proximity search). Пользователь может задать, на каком расстоянии друг от друга долж- ны находиться искомые слова, например «не далее 5 слов» или «не далее 3 строк». Альтернативой логическому запросу служит поиск по запросу на естественном языке. Промежуточным шагом к облегчению формулирования запроса является возмож- ность в некоторых системах логического поиска задать так называемый нечеткий запрос ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 74 (quorum search). Это означает, что пользователь задает запрос в виде множества из не- скольких слов, а система находит все документы, в которые входят только некоторые сло- ва из заданного множества (например, любые пять из семи заданных). Подбирать множе- ство слов и задавать «процент явки» пользователю приходится самому. Поиск по запросу на естественном языке. Существуют системы, позволяющие искать текст по запросу, сделанному в виде обычного предложения (часто поиск по запро- су на естественном языке также называют нечетким поиском). Модуль обработки естест- венно-языкового запроса независим от самой поисковой системы и «на выходе» может работать с логическим поиском. Ранжирование результатов поиска. Когда документы, содержащие слова запро- са, обнаружены, поисковая система должна предъявить их пользователю в некотором по- рядке. Обычно найденные документы тем или иным способом «взвешиваются» на пред- мет близости к запросу (ранжируются) и показываются в порядке уменьшения этой близо- сти. Как правило, для вычисления веса – ранга используются разные алгоритмы: учиты- ваются общее количество слов запроса в документе, близость их друг к другу в тексте до- кумента, наличие компактных групп, соответствие грамматических форм и т. д. Группа статистических методов основываются на расчете различных частотных характеристик: частоты вхождения слова в документ, взвешенной частоты вхождения и частоты совместного вхождения нескольких слов. Семантический поиск. Следующий шаг в развитии поисковых систем – это так называемый семантический(т.е. смысловой) поиск, основанный на построении и исполь- зовании базы знаний, с помощью которой осуществляется поиск информации на основе использования концептуальных отношений, которые не применяются при статистическом поиске. Существует несколько способов представления знаний. Применение файла синонимов, что позволяет при ответе на запрос учитывать не только термины, которые непосредственно указаны в запросе, но и все другие слова, близкие к ним по значениям. Другой известен как подход на основе использования лингвистических правил, при этом, разработчик создает систему лингвистических правил, которые используются для анализа или грамматического разбора текстовой базы данных. Этот метод анализа оп- ределяет ключевые слова и понятия, объединяющиеся в базу знаний, которая отражает содержание конкретной базы данных. Наиболее часто используется подход основанный на использовании ссылочных до- кументов, и в том числе обычных словарей и словарей терминов. Этот подход основан на смысловых значениях слов и называется семантической сетью. Как и словарь, семанти- ческая сеть содержит множество определений для каждого хранимого слова. Однако оп- ределение родственных слов и понятий связываются между собой. Значения слов, наибо- лее подходящие для данного поиска, могут быть выбраны самим пользователем с целью повышения точности этого поиска. Подход, основанный на построении семантических сетей, доступен для расширения и не слишком громоздок при эксплуатации. 6.4. Классификация систем DMS. Характеристика систем, используемых для организации архивов В настоящее время на рынке систем DMS предлагается около 500 программных продуктов. Все существующие системы управления документами можно разбить на три категории, отражающие и эволюцию таких систем по технологии ввода, индексирования и поиска документов: ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 75 1. Системы, основанные на технологии использования ключевых слов для индексации и поиска документов. 2. Системы, опирающиеся на автоматизированном вводе и загрузке документов в архив и включающие поиск по полнотекстовому индексу. 3. Системы, основанные на применении метода «адаптивного распознавания текста». Системы, относящиеся к первому поколению, появились в середине 80-х годов. Технология работы с ними опирается на использование ключевых слов для индексации и поиска документов. Другими словами, после того как документ введен или отсканирован и получен его графический образ, необходимо приписать образу каждого документа набор ключевых слов, которые затем индексируются, и используются для поиска информации. Серьезные ограничения при использовании систем первой категории связаны со следующими обстоятельствами: • определение ключевых слов – достаточно субъективный процесс; даже при участии самого независимого эксперта трудно избежать односторонности при выборе ключевых слов; • определение ключевых слов – достаточно дорогостоящая процедура из-за не- возможности автоматической индексации и низкой производительности при определении ключевых слов вручную; • предполагается, что пользователи будут осуществлять поиск информации предсказуемым способом, используя предопределенные ключевые слова; • поиск по ключевым словам – это четкий поиск, – пользователь точно должен знать, что он ищет. Если сделана ошибка при написании ключевого слова в за- просе для поиска, система никогда не найдет нужную информацию; • ключевые слова могут со временем меняться (понятия, которые были «ключе- выми» вчера, вовсе не обязательно будут столь же важны через год). В силу вышеперечисленных причин данный класс систем имеет ограниченное при- менение для хранения и поиска документов в специализированных архивах конкретных ор- ганизаций или используется для хранения и поиска книг в библиотеках различного типа. Простейшие средства поиска документов по содержанию входят в состав текстово- го процессора Microsoft Word. Как и большинство других стандартных средств, эта функция ищет заданный текст только буквально, т.е. требует полного соответствия текста запросу и при этом ничего не знает о большом разнообразии форм русских слов. Если, на- пример, проводится поиск по фразе из пяти слов, то будут найдены только тексты, содер- жащие каждое из них, причем именно в заданной форме. Поэтому в случае, когда пользо- ватель помнит содержание нужного документа только в общем (а так чаще всего и бы- вает), подобные средства поиска малоэффективны. Аналогичные проблемы возникают при поиске текстовой информации в Internet, которая располагает большим количеством поисковых систем (например, AltaVista, HotBot, InfoSeekи др.), обеспечивающих доступ к десяткам миллионов документов. Воз- можности поиска здесь, конечно, намного более развитые, чем в Microsoft Word, однако говорить о высокой эффективности также не приходится. Можно отметить следующие основные недостатки стандартных поисковых средств и поисковых систем Internet: 1. отсутствие поиска на частичное совпадение – так называемого нечеткого поиска (на- ходятся только документы, содержащие все слова запроса, поэтому достаточно одно слова запроса заменить на синоним, и нужный документ не будет обнаружен); 2. отсутствие так называемого морфологического анализа (например, слова bond и bonds при поиске считаются разными); ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 76 3. низкое качество ранжирования (упорядочивания) документов по убыванию степени соответствия запросу – в начале списка часто оказываются документы, не отвечающие запросу, а нужные документы выдаются после них; 4. высокий уровень шума: случается, пользователю предлагаются документы, не содер- жащие ни одного слова запроса; 5. при выдаче документов никак не выделяются вхождения слов запроса в просматри- ваемый документ, что в совокупности с низким качеством ранжирования приводит к большим затратам времени при анализе найденных документов. В настоящее время получили массовое применение системы второй категории, опирающиеся на автоматизированный полнотекстовый ввод, загрузку документов в архив и осуществляющие поиск по полнотекстовому индексу. Технология работы этих систем основана на автоматизированном вводе документов и чтении их с помощью сканера, пре- образовании графических образов в текстовые файлы. Поиск информации в таких систе- мах происходит с использованием семантических, статистических методов и с примене- нием механизмов полнотекстового поиска (Full Text Retrieval.). Системы данного класса делятся между собой по мощности на системы, предна- значенные к эксплуатации на малых и средних предприятиях и используемые для корпо- ративных распределенных систем. Примером систем первой группы может служить «1С:Архив документов» – про- граммный продукт, который является системой управления документами масштаба пред- приятия и предназначен для повышения эффективности работы сотрудников с архивами документов. Она предназначена для организаций, чья деятельность связана с обработкой большого количества бумажных и электронных документов, ведением архивов и перера- боткой накопленной информации. «1С:Архив документов» реализован в трехуровневой архитектуре клиент-сервер. Система «1С:Архив документов» решает следующие задачи: • Ведение архива документов, структурированного по папкам-рубрикаторам. • Хранение всех версий документов. • Поддержка прав доступа к архиву. • Взаимодействие с внешними приложениями. К основным отличиям «1С:Архива документов» от обычного файлового сервера от- носится: организация хранения версий документов, в том числе дерева версий, и возмож- ность возврата к любой версии; однозначное решение конфликтных ситуаций при коллек- тивной (кооперативной) работе с документами; более широкая поддержка прав доступа к архивам, чем это предусмотрено операционной системой; поиск текстовой информации, с поддержкой различных типов документов – MS WORD, RTF, HTML; большим количеством дополнительных возможностей: поддержка составных документов; встроенные технологии публикации архива в Интернет; поддержка связей между документами. Одной из наиболее известных систем управления документами, отличающаяся своей функциональной полнотой, мощью и простотой эксплуатации, – это система «DOCS Open» американской фирмы PC DOCS, Inc. «DOCS Open» – это корпоративная система управления документами, обеспечи- вающая создание, просмотр, систематизацию, хранение, сопровождение и надежную за- щиту корпоративных информационных архивов произвольного уровня сложности и раз- меров. «DOCS Open» позволяет организовать единое виртуальное хранилище данных лю- бых типов, сочетая легкость и эффективность оперирования документами с надежностью и конфиденциальностью их хранения. Рассмотрим основные характеристики системы. «DOCS Open» версии 3.0. ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 77 1. Архитектура «DOCS Open». Система «DOCS Open» применяет хранение докумен- тов, базирующееся как на архитектуре «файл-сервер», так и на клиент-серверных тех- нологиях. Документы, представляющие собой один или несколько файлов, хранятся на файл-сервере (сервере документов), функционирующем под управлением одной из сетевых операционных систем Microsoft Windows NT, Novell NetWare, UNIX (SCO Unix, Solaris, HP-UX, IBM AIX, Digital Unix), LAN Manager версий 2.1 и выше, Banyan Vines или DEC PathWorks. На каждый документ заводится учетная электронная карточка с обязательными (необходимыми для нормального функционирования самой системы «DOCS Open») и до- полнительными атрибутами документа, которые определяет пользователь с соответст- вующими полномочиями. Совокупность всех карточек хранится в базе данных так назы- ваемого сервера библиотеки и обрабатывается с использованием современной идеологии клиент-сервер. В качестве сервера библиотек может использоваться практически любая промыш- ленная реляционная СУБД – Microsoft SQL Server, SYBASE SQL Server, Sybase SQL Anywhere и Oracle. 2. Масштабируемость СУД на базе «DOCS Open».Минимальная конфигурация пред- полагает наличие как минимум одного сервера документов и одного сервера библио- теки, которые могут функционировать на одном и том же компьютере. Максимальное количество используемых серверов и топология их взаимосвязей зависит только от потребностей и финансовых возможностей организации, так как все применяемые продукты хорошо масштабируемы, переносимы и поддерживают принципы распреде- ленной обработки информации. В принципе, объем носителей ничем не ограничен, но в то же время можно ввести ограничение на объем хранимой информации на определенном сервере документов. В со- ответствии с частотой обращения к документам может осуществляться автоматическая миграция документов с одного файл-сервера на другой для оптимизации стоимости хра- нения документов и времени доступа к ним. Кроме того предусмотрена возможность по- луавтоматического удаления или переноса на более медленные и дешевые носители давно не используемых документов. Крупные архивы «DOCS Open», объемами в несколько терабайт, могут быть орга- низованы на CD-ROM, стримерах, съемных магнитооптических носителях с низкой удельной стоимостью хранения единицы информации. 3. Классификация документов. Классификаторы документов разрабатываются для все- го архива целиком, что позволяет построить единообразную систему классификации и облегчить поиск в больших объемах информации. Карточки документов могут представляться на экране компьютера через различные экранные формы. Отображаемая экранная форма определяется типом документа. При соз- дании новых документов, в зависимости от прав доступа, пользователю предлагается спи- сок доступных типов документов. При разработке карточек документов «DOCS Open» да- ет возможность создавать практически произвольные экранные формы и заводить класси- фикаторы любого уровня вложенности. Для эффективного поиска документов по их содержанию они индексируются с по- мощью сервиса полнотекстового индекса, который способен работать под управлением любой сетевой версии Windows. 4. Поиск. Поиск документов строится по запросу на основе принципа QBE (Query By Example), т.е. посредством полного или частичного заполнения экранной формы с ре- квизитами документа. Полнотекстовой поиск осуществляется с точки зрения пользо- ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 78 вателя аналогичным образом, то есть через заполнение одного из полей экранной формы. Особенно интересна и полезна возможность нечеткого поиска по смыслу за- данного фрагмента. В ответ на запрос система выдает список документов, соответствующих введенным данным и отвечающих правам доступа пользователя. Полученный список можно затем уточнить или расширить. 5. Распределенная обработка данных. Для организации подобной распределенной об- работки администратор системы записывает в главную библиотеку пользователя ад- реса других библиотек, которые ему доступны. Запрос передается ко всем библиоте- кам и обрабатывается мощностями того компьютера, на котором расположен кон- кретный сервер библиотеки. Документы из полученного в ответ на запрос списка можно редактировать в при- кладных программах (при наличии соответствующих прав доступа) или просматривать с помощью встроенных средств «DOCS Open», если формат документа известен системе. 6. Полная интеграция «DOCS Open» с прикладными программами. «DOCS Open» ра- ботает в режиме полной интеграции с приложениями, обрабатывающими данные. Вся работа с документами идет только в архиве. Такой подход обеспечивает уменьшение числа ошибок при помещении документов в архив, поскольку пользователь просто не может не поместить разрабатываемый документ в архив. Правда, для отдель- ных, привилегированных пользователей можно оставить возможность выбора способа со- хранения данных – в архиве или в файловой системе. Важно отметить, что система позволяет манипулировать с карточками документов и с самими документами, в том числе осуществлять их поиск, непосредственно из при- кладной программы. В то же время, из «DOCS Open» можно вызвать любой процессор обработки информации, зарегистрированный в системе. При выборе документа из списка с результатами запроса запуск необходимой программы осуществляется автоматически. 7. Поддержка версий документов. Для каждого документа может храниться 99 его вер- сий, а для каждой версии, в свою очередь, – 26 подверсий, что обеспечивает возмож- ность коллективной разработки и согласования документов. 8. Обеспечение безопасности. Безопасность хранения и конфиденциальность данных гарантируются целым комплексом мер, включающих как встроенные средства защи- ты операционных систем, так и специализированные подсистемы «DOCS Open». «DOCS Open» может определять права доступа к карточке или телу документа, к пап- кам и сохраненным запросам на поиск информации. Система защиты «DOCS Open» позволяет взаимодействовать со средствами защи- ты СУБД и операционных систем (например, требовать наличия пользователей с извест- ными паролями в операционной системе и в СУБД). 9. Модульная структура «DOCS Open». В состав «DOCS Open» входит несколько мо- дулей, которые значительно расширяют функциональность системы по сравнению с обычной СУД и превращают ее в поистине универсальный инструмент. К недостаткам систем второго поколения, основанного на использовании метода полнотекстового поиска и индексирования можно также отнести: • значительные накладные расходы на единицу хранимой информации (опреде- ление ключевых слов, «очистки» текста, хранение индекса...); • недостаточно четкий поиск (чувствительность к ошибкам, порядку слов, нали- чию пробелов и т.п.); • изменение исходной информации при удалении «стоп-слов»; ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 79 • индекс, создаваемый такими системами, обычно составляет от 200 до 400% от объема исходного текста, что означает увеличение времени поиска и ресурсов компьютера; • из-за необходимости «очистки» текста стоимость обработки документов доста- точно велика – от 2 до 10 долларов на страницу; • механизм четкого поиска не позволит найти информацию, если были допуще- ны ошибки при распознавании текста или при написании запроса. Новое поколение архивных систем лишено этих недостатков – это продукты, осно- ванные на новой технологии адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing). В начале 90-х годов появились технологические разработ- ки, связанные с индексацией и поиском документов и использующие результаты, полу- ченные в области нейронных сетей и искусственного интеллекта. Они позволили сформу- лировать принципиально новые концепции построения систем управления неструктури- рованной информацией в электронном виде. Компания Excalibur Technologies разработала технологию адаптивного распознава- ния образов APRP (Adaptive Pattern Recognition Processing), которая была положена в ос- нову программного продукта – систему управления документами «Excalibur EFS». Сущность метода APRP основана на двух положениях: 1. составление бинарных представлений хранящейся информации и запросов на поиск; 2. использовании метода поиска, основанного на идеях построения нейронных сетей. Информация любой природы представляется в компьютере одинаково – с помо- щью нулей и единиц. Это означает, что технология APRP может быть применена таким же образом для индексации и нечеткого поиска изображений, видео – и звукозаписей, сигналов, речи и всего разнообразия мультимедийной информации. Нейронные сети – лишь один из компонентов общей методологии APRP, вклю- чающей также набор правил и описание принципов, в соответствии с которыми происхо- дит нечеткий поиск и адаптивное распознавание. Технология применения метода APRP основана на сравнении бинарных представлений (образов) запроса и информации, храня- щейся в архиве. «Excalibur EFS» сравнивает цепочку нулей и единиц, соответствующую запросу, с тем массивом, что уже занесен в архив. Задавая степень похожести между за- просом и искомой информацией, можно отсечь ненужный «шум» и так настроить поиск, что при наличии в архиве нескольких версий документа и несколько документов на за- данную тему будет осуществлен полный поиск с высокой точностью. Основные особенностями технологии APRP для контекстного поиска текста яв- ляются: • нечеткий поиск; • автоматическая индексация; • достоверность при сложной индексации; • использование меньшего объема ресурсов; • высокая скорость поиска информации. Нечеткий поиск. Нечеткая логика и нечеткий поиск стали одними из самых ак- туальных терминов. В технологии APRP под нечетким поиском понимается возможность найти достаточно близкое приближение к запрошенному термину или фразе. Нечеткий поиск устраняет для пользователя необходимость знать правильное написание каждого термина, с которым он работает. Поскольку APRP работает не с ключевыми словами, а с образами и две-три ошибочные буквы в слове или фразе не могут существенно изменить базовую картину текста. ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 80 Нечеткий поиск особенно полезен в ситуациях, когда ввод данных осуществляется с помощью оптического распознавания символов, так как процесс распознавания по мето- ду – OCR не является на 100% точным даже при очень высоком качестве печати. Напри- мер, если на данной странице с помощью OCR не удалось абсолютно правильно считать ни одного слова, практически никакая система четкого поиска не имеет возможности до- биться успеха при поиске этой страницы. Автоматическая индексация. При использовании APRP можно проиндексировать все данные, не указывая ключевых слов или полей базы данных, не привлекая админист- ратора базы данных и не прибегая к экспертам для определения значимости того или ино- го слова или фразы по сравнению с другими словами или фразами. Точность поиска. Гибкость методологии поиска APRP позволяет улучшить пара- метры процесса поиска данных, позволяя пользователю самому определять степень сов- падения найденной информации с запросом. Вы можете сформулировать эффективный запрос без знания правильного написания слов или фраз. Получив запрос найти какой- либо документ, система просматривает образы и составляет список «ближайших прибли- жений» к тому, что было описано в запросе. Затем система упорядочивает содержимое этой области по степени вероятности того, что тот или иной найденный на этом этапе до- кумент является истинной целью поиска. Скорость поиска и ресурсы. Программные системы, базирующиеся на методоло- гии APRP, имеют возможность динамически использовать ресурсы и архитектуру компь- ютера для получения более быстрого и точного доступа к информации. Поскольку индекс занимает минимальный объем, его можно мгновенно загрузить в память любого компью- тера в сети и работать с ним со скоростью двоичных логических операций. Такое свойство самооптимизации предполагает использование всех доступных ре- сурсов системы – память, диски и т. д. На большинстве рабочих станций APRP позволяет осуществлять поиск в объеме 200 000 страниц информации не более чем за десять секунд. Главным преимуществом использования логической нейронной сети является вы- сокая скорость индексации и поиска информации. Использование основных принципов технологии APRP позволило иметь следующие показатели затрат времени на индексацию и поиск данных при реализации системы APRP на компьютере DEC Station 5000 для раз- личных документов: • время индексации 26 томов энциклопедии – 29 минут 38 секунд; • время поиска – 13 секунд. Компания Excalibur Technologies разработала библиотеки, реализующие нечеткий поиск информации различной природы: • Библиотека TRS – Text Recognition Software – предназначена для индексации и нечеткого поиска текстовой информации. • Библиотека SRC – Signal / Sound Recognition Software – предназначена для рас- познавания (индексации и нечеткого поиска) голосовой, звуковой и сигнальной информации. • Библиотека VRS – Visual Recognition Software – предназначена для индексации и нечеткого поиска изображений (например, поиск по фотографиям, отпечат- кам пальцев и т.д.). Технология адаптивного распознавания образов легла в основу программного про- дукта «Excalibur EFS» – системы управления электронными документами третьего поко- ления. Она была реализована с помощью библиотеки TRS. Технология работы с системой «Excalibur EFS» включает те же этапы, что и работа с системами DMS второго поколения. ПРОЕКТИРОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ ДОКУМЕНТАМИ 81 Однако, отсутствует самый дорогостоящий и трудоемкий этап – исправление ошибок в тексте документа после распознавания. Несмотря на высокую сложность как самой технологии APRP, так и алгоритмов, ее реализующих, работа с системой «Excalibur EFS» не вызывает трудностей, которые часто возникают при переходе персонала от обычных бумажных картотек к передовым элек- тронным архивным системам. Графический интерфейс пользователя EFS обеспечивает метафору знакомой среды архива с пиктограммами, обозначающими комнаты архива, ящики и папки с документами, а также мусорной корзины для уже ненужных документов. Пакет «Excalibur EFS» имеет архитектуру клиент / сервер и предоставляет мощный набор традиционных методов поиска, таких как логический поиск, поиск с использова- нием синонимов и ключевых слов, поиск по запросам в стиле баз данных. Контрольные вопросы итоговой проверки знаний: 1. Что такое ИПС, каково ее назначение и какие типы ИПС Вы знаете? 2. Какова структура ИПС? 3. Что такое «тезаурус» и каково его назначение? 4. Какие этапы можно выделить в технологии работы ИПС? 5. Какое назначение имеет СУД, в чем отличие ее от ИПС? 6. Какие основные показатели работы ИПС и СУД Вы знаете? 7. Какие типы носителей используются в СУД? 8. Какие методы поиска документов относятся к классу «индексных»? 9. Какие методы относятся к статистическим методам поиска и их основное назначение? 10. Что такое семантические методы поиска и их отличие от индексных? 11. Какие классы СУД Вы знаете, приведите примеры? 12. Какие методы поиска используются в поисковых машинах Internet? Их недостатки. 13. Какие особенности структуры и эксплуатации СУД «DOCS Open» Вы можете на- звать? 14. Что такое «адаптивный метод распознавания образов» (APRP) и какие особенности работы системы «Excalibur» Вы можете назвать? |