Проектирование ЭСУД. Проектирование электронных систем управления документооборотом
Скачать 1.24 Mb.
|
ТЕМА 5. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 5.1. Назначение и технология работы системы массового ввода бумажных документов Одной из основных задач, связанных с технологиями документооборота, является массовый ввод бумажных документов в архивную систему или систему управления доку- ментами и организация последующего к ним доступа. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое коли- чество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платеж- ных поручений» в банке, систему ввода «Налоговых деклараций», систему ввода и про- верки бухгалтерских документов в Пенсионном фонде. Для организации обработки большого количества бумажных документов и перево- да их в электронную форму необходимо разработать систему массового ввода докумен- тов (СМВ), которая будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. При реализации технологии массового ввода документов можно рассматривать два основных класса задач: • извлечение данных из бумажных документов, когда пользователей интересуют только извлеченные структурированные данные, а собственно сами изображе- ния документов их не интересуют, т.к. не используются для последующего хра- нения и доступа; • извлечение данных из бумажных документов с сохранением изображения до- кумента (например, «Платежное поручение» клиента), когда имеет смысл после извлечения данных сохранить изображение документа для того случая, при ко- тором потребуется анализ исходного документа. При этом извлеченные данные можно использовать двояко: во-первых, эти данные имеет смысл напрямую за- гружать в банковскую систему, а во-вторых, их можно использовать для орга- низации хранения и быстрого поиска изображений. При проектировании системы ввода бумажных документов решается следующая совокупность проблем: • определение состава операций, которая должна выполнять система; • выбор технических средств реализации выполнения этих операций; • выбор и настройка программного обеспечения; • разработка технологической документации. Рассмотрим содержание основных операций автоматизированного ввода бумажных документов. Автоматизированное чтение и ввод документов на бумажном носителе включают в себя операции, которые можно объединить в два этапа: 1. подготовительный; 2. основной. Подготовительный этап– очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в сис- теме, и включает в себя две операции: • подготовку документов для сканирования; • выполнение описания настроек системы на конкретную форму документа. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 55 Подготовка документов для сканирования предполагает выполнение следующих действий: • определение состава документов, подлежащих сканированию; • выбор конкретных областей в каждом документе для сканирования; • определение технологической цепочки движения документа по рабочим местам; • открытие конвертов, удаление скрепок или других предметов, мешающих ска- нированию; • подготовка пакетов документов для сканирования; • выписка ярлыков на каждый пакет документов с указанием кода документа и количества документов каждого типа в пакете. Выполнение описания настроек системы на конкретную форму документа пред- полагает выполнение трех операций: • составление настройки на форму документа; • разработка настройки на модель ввода; • составление настройки соответствия полей формы документа и полей индекса- ции для ввода в информационную базу или архив. В основе выполнения настройки на форму документа лежит понятие формати- рованного (структурированного) документа (ФД). Типичными примерами форматируемых документов являются «Платежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является по- ле, поэтому каждый форматируемый документ можно представить как сумму полей. Каждое поле описывается в двух аспектах: визуально или геометрически, и содер- жательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уров- нем фона, цветом и т.д. Содержательная часть характеризуется назначением поля, словарным и алфавит- ным составом, а также некоторыми законами построения текста, например, в поле почто- вого адреса должны быть сведения о городе, улице, доме и проч. Геометрические и содержательные характеристики полей могут быть как абсолют- но независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с поля- ми «количество» и «цена» находится поле «сумма». Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный тексты. Так, например, «Избира- тельные бюллетени» используют меточный способ, в то время как «Прайс-листы» – пе- чатный, а первичные бухгалтерские документы – в основном рукописный. Выполнение описания настроек системы на конкретную форму документа предпола- гает также выполнение разработки настройки на модель ввода документа в информацион- ную базу или в электронный архив и составление настройки соответствия полей формы документа и полей индексации для ввода в информационную базу или архив. Построение этих настроек опирается на существование трех подходов к вводу данных в базу: • Ввод ключевых слов. В этом случае одно или несколько ключевых слов будет использоваться в качестве индексов для конкретного изображения. В дальней- шем возможен быстрый доступ к изображению документа с применением вве- денных ключевых слов – индексов. • Ввод всего текста документа. Производится ввод всех слов документа и после этого возможно осуществление полнотекстового поиска изображения докумен- ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 56 та с помощью полнотекстового индекса, составляемого для этого документа. Этот метод может применяться при необходимости получения текстового ва- рианта документа. • Формоориентированный ввод данных. Данный метод используется для полной замены ручного ввода данных в компьютерные системы и в основном приме- няется для ввода данных из форм (стандартных, однотипных документов). В этом случае атрибуты документа будут использованы для составления индекса документа для его поиска и хранения в базе или архиве. Основной этапавтоматизированного ввода бумажных документов включает в себя выполнение таких операций как: • сканирование; • контроль качества отсканированных изображений и повторное сканирование; • предварительная обработка текста; • основная обработка текста документа; • контроль качества распознавания и редактирование; • индексирование документа и загрузка. Сканирование – это очень ответственная операция, и, следовательно, к выбору кон- кретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходи- мое разрешение изображения, надежность получаемых изображений и другие. В настоящее время на рынке технических средств предлагается достаточно боль- шое количество различных моделей сканеров, которые можно классифицировать по про- изводительности на следующие виды: • персональные; • настольные; • высокопроизводительные потоковые. По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы (табл. 2): • с низкой разрешающей способностью (200-400 точек на дюйм); • со средней разрешающей способностью (600-800 точек / дюйм); • с высокой разрешающей способностью (1600-2800 точек / дюйм); • специально го назначения. Ввод документов предъявляет достаточно низкие требования к качеству сканиро- вания, обычно бывает достаточно разрешения 200-300 точек / дюйм. Профессиональные издательские сканеры имеют разрешение порядка 1600-2800 точек / дюйм и даже персо- нальные сканеры имеют разрешение порядка 600-800 точек / дюйм. Единственная отличи- тельная особенность – автоматическая подача страниц документов и высокая скорость сканирования (от 10 до 200 листов формата А4 в минуту). Данные высокоскоростные ска- неры предназначены для ввода разброшюрованных документов. Для ввода ветхих документов применяют сканеры с вакуумным прижимом доку- ментов, которые предъявляют весьма низкие требования к документу и обрабатывают его в щадящем режиме. В совсем редких случаях, когда документ настолько стар, что его нельзя помещать даже в планшетный сканер, применяют сканеры специального назначе- ния. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких устройств – 0,25-3 страницы в минуту. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 57 Обработка данных, содержащихся в документе, предполагает выполнение сле- дующих основных операций: • предварительная обработка изображений; • основная обработка изображений документа. Предварительная обработка изображения документов используется для улучше- ния полученных изображений и необходима по следующим причинам: • Улучшение читаемости изображения. Обработанные изображения более по- нятны при визуальном просмотре. • Повышение точности распознавания. Применение специальных методов улуч- шения изображения может значительно повысить точность оптического распо- знавания символов. • Уменьшение размера изображения. Размер файлов обработанных изображений может быть меньше первоначального размера на 80%. Под уменьшением раз- мера понимается как простое сжатие файла, так и удаление ненужной инфор- мации. Предварительная обработка изображения документов предусматривает использо- вание следующих методов: очищение изображения применяется для снятия с изображе- ний отдельных элементов (например, точки, пятна); снятие фона и выделений (например, с ценных бумаг); восстановление букв и символов – если они оказываются пересеченными элементами формы, например, линией, (для последующего распознавания символа необ- ходимо удалить линию, таким образом, чтобы буква не пострадала); вращение изображе- ния на произвольный угол; масштабирование изображения; регулирование уровня серого; компрессия и декомпрессия изображения. Процесс основной обработки документов предусматривают выполнение операций: • нахождения полей (сегментация документа); • распознавание текста документов. Они могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для ма- шиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков. Распознавание документа, анализ содержания документа и извлечение данных может осуществляются с помощью следующих систем распознавания текстов, отличаю- щихся по стоимости, качеству и скорости работы: • OCR (Optical Character Recognition) – технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных сим- волов в их текстовое представление; • ICR (Intelligent Character Recognition) – распознавание раздельных печатных символов, написанных от руки; • OMR (Optical Mark Recognition) – распознавание отметок (обычно перечеркну- тые крест-накрест либо галочками квадраты или круги); • Стилизованные цифры – распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах; Существует несколько подходов к реализации технологий ввода рукописных символов: • Распознавание on-line осуществляется в тот момент, когда человек пишет спе- циальным пером на сенсорном экране, воспринимающем дополнительную ин- формацию о траектории движения руки, наклоне пера, силе нажима и т.д. При- ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 58 меняется в основном в персональных электронных записных книжках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных. • Распознавание off-line – распознавание произвольного рукописного текста, введенного в компьютер через сканер. Распознавание рукопечатных символов является подмножеством технологии рас- познавания off-line. Этот метод применяется, как правило, для ввода стандартных форм. Распознавание рукописного текста значительно сложнее, чем печатного, поскольку если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шриф- тов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше. Для OCR-систем в основном используются три технологии распознавания напеча- танного текста: • матричная (Matrix-based); • описательная (основана на описании правил построения символов); • нейронная (основана на использовании нейронных сетей). Строгое соблюдение стандарта внешнего вида формы существенно повышает точ- ность распознавания полей документа. Контроль распознанных данных является следующей операцией, реализуемой сис- темой ввода. Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распо- знавания применяются определенные пользователем автоматизированные методы провер- ки данных (например, можно проверить, имеется ли распознанная информация в базе дан- ных, и если нет, то пометить поле как некорректное). Для повышения надежности данных используются дополнительные механизмы, такие как применение словарей и таблиц, оп- ределяемых пользователем. Помимо этого, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа. Если данные после распознавания помечены как не корректные, то они автомати- чески направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка дан- ных в соответствии с правилами, определенными пользователем. Индексирование и загрузка данных.Заключительная операция процесса – это экспорт изображений документов и сопутствующих данных в конкретную систему доку- ментооборота или базу данных и индексирование. Основными требованиями к экспорту являются поддержка различных форматов данных и его скорость. После того, как документ распознан, он поступает в базу данных или в систему управления документами, где проводится его индексирование. В отличие от обычной сис- темы распознавания система ввода стандартных форм использует формальное описание исходной формы документа, описание модели ввода и модели соответствия полей ввода и индексирования. Это позволяет автоматически производить индексирование документов и загружать информацию в поля базы данных или архив без участия оператора. В зависимости от конкретной задачи и типа документа, он может быть загружен в полнотекстовый модуль или информация из него извлеченная должна будет попасть в систему атрибутивной индексации (например, значения из полей формы попадают в кар- точку документа). При этом, может быть сохранено изображение документа. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 59 5.2. Требования, предъявляемые к СМВ. Характеристика систем Основной фактор при оценке эффективности систем распознавания заключается в стоимости исправления ошибок при распознавании, а не в точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным. При разработке и использовании СМВ проектировщику требуется выполнить так- же большой объем работ по интеграции этой системы ввода в действующую или разраба- тываемую информационную систему. На производительность системы очень большое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже существующими системами. Существует множество компаний, которые предлагают решения или компоненты систем обработки форм. Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учетом в первую очередь следую- щих факторов: • тип обрабатываемых документов и вид содержащихся в них данных; • точность распознавания; • наличие эффективной системы редактирования; • настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования; • наличие поддержки сканеров различных типов, а также разного рода плат об- работки изображений документов; • наличие редактора форм, настраивающего систему на новые формы или изме- нения старой формы, на которую система была предварительно ориентирована; • наличие редактора схем обработки документов, открытого интерфейса под- ключения различных модулей распознавания(в зависимости от типа формы можно для повышения качества распознавания подключать тот или иной мо- дуль, который наиболее подходит для данного типа формы); • наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки). Помимо этого к выбору ПО для СМВ можно предъявить совокупность общих тре- бований: • Открытость. Система должна позволять включать в себя различные технологии и программные продукты в зависимости от конкретного приложения, даже если эти продукты поставляются другими фирмами. Необходима возможность инте- грации с различными workflow-системами и с системами документооборота. • Возможность настройки. Пользовательский интерфейс должен быть настраи- ваемым для достижения максимальной эффективности работы операторов. • Масштабируемость. Необходимо иметь возможность добавлять и уменьшать системные ресурсы при различных уровнях загрузки системы. • Возможность администрирования. Пользователь должен иметь возможность гибкого управления системой. Необходимо иметь возможность контролировать используемые ресурсы и инструментарий для получения различных видов от- четов. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 60 Рассмотрим в качестве примера две системы класса СМВ – «Cognitive Forms» ком- пании Cognitive Technologies и FineReader. «Cognitive Forms» – российская система промышленного (иногда говорят поточ- ного) ввода стандартных форм документов, которая работает под управлением операци- онных систем Windows 95 / NT и MacOS. Система принадлежит к классу OCR / ICR / OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением и отметками (checkbox). «Cognitive Forms» предназначена для автоматизированного ввода в информацион- ные системы и базы данных произвольных, одно – и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и подготов- ленных на лазерных, струйных и матричных принтерах или на стандартных бланках с ис- пользованием пишущих машинок. Эта система позволяет осуществлять распределенную поточную обработку (скани- рование, распознавание, редактирование и контроль) в сети с производительностью рас- познавания до 14 000 страниц А4 в смену на одном компьютере и осуществлением авто- матического контроля результатов распознавания. Экспорт данных может осуществляться в базы данных, банковские системы типа «Операционный день» и системы создания элек- тронных архивов и автоматизации документооборота. Внедрение системы позволяет обеспечить ускорение ввода стандартных форм до- кументов в 5-10 раз по сравнению с ручным вводом. Сканированные образы могут быть сохранены в электронном архиве банка для ве- дения истории делопроизводства организации. «Cognitive Forms» состоит из трех основных модулей: • Cognitive FormDesigner отвечает за проектирование описания формы доку- мента для программ распознавания и редактирования. • Cognitive FormReader обеспечивает автоматическое распознавание потока стандартных форм, поступающих со сканера. В автоматическом режиме осу- ществляет поточное распознавание форм по заданному описанию и контекст- ную проверку результатов. • Cognitive FormEditor предназначен для операторского контроля распознанных форм и сохранения информации из введенных форм в записи базы данных и позволяет оператору визуально контролировать и редактировать распознанные поля форм. «Cognitive Forms» дает возможность осуществлять распределенную, в рамках ло- кальной сети, обработку вводимых форм и добиться эффективного доступа к данным в режиме реального времени. Например, на Pentium II-233 время распознавания системой «Cognitive Forms» одного бланка составляет около 2 сек. Для промышленного ввода при- меняются высокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и др., а также сетевые устройства (Hewlett-Packard). Производительность некоторых моделей дос- тигает сотен страниц в минуту. Эффективность применения системы ввода бумажных документов в ЭИС основа- на, в первую очередь, на значительном сокращении участия человека во вводе данных. Как следствие, можно наблюдать уменьшение времени ввода документов и количества ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налого- вые и почтовые ведомства, статистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позволит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 61 В основу системы «FineReader» разработанной компанией ABBYY, положены три принципа, распознавания сформулированные при наблюдении за поведением животных и человека: Целостность, Целенаправленность и Адаптивность позволившие получить ре- шение, использующее в своей основе принципы распознавания, характерные для живых систем, – технология Целостностного Целенаправленного Адаптивного распознавания (IPA-технология). Целостность. Объект описывается как целое с помощью значимых элементов и отношений между ними. Объект признается объектом данного класса только при наличии всех элементов описания и нужных отношений между ними. Целенаправленность. Распознавание строится как процесс выдвижения и целена- правленной проверки гипотез. Традиционный подход, состоящий в интерпретации того, что наблюдается на изображении, заменятся подходом, состоящем в целенаправленном поиске того, что ожидается на изображении. Адаптивность. Способность системы к самообучению, т.е. сначала система «Fine Reader» выдвигает гипотезу об объекте распознавания (символе, части символа или не- скольким склеенным символам), а затем подтверждает или опровергает ее, пытаясь после- довательно обнаружить все структурные элементы в нужных отношениях. В качестве структурных используются элементы, значимые для восприятия объекта с точки зрения человека, – отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается» на но- вый шрифт (или на новый почерк), используя положительный опыт, полученный на пер- вых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к дефектам печати. Эти принципы используются как при распознавании отдельных символов, так и при анализе раскладки страницы (выделении участков текста, картинок, таблиц). Благода- ря использованию IPA-технологии «Fine Reader» демонстрирует высокое качество распо- знавания при малой чувствительности к дефектам печати, а безупречный анализ расклад- ки страницы отмечен в большинстве сравнительных тестов. Система FineReader имеет следующие входные форматы файлов: BMP: черно- белые, серые, цветные; PCX, DCX: черно-белые, серые, цветные; JPEG: серые, цветные; PNG: черно-белые, серые, цветные; TIFF: черно-белые, серые, цветные, многостраничные. Система «Fine Reader» сохраняет результат распознавания в следующих форматах: Microsoft Word 95, Microsoft Excel 95, Microsoft Word 97, Microsoft Excel 97, Microsoft Word 2000, Microsoft Excel 2000, Text, Rich Text Format, Unicode Text, DBF, HTML, Uni- code HTML, PDF. Требования к системе : операционная система Microsoft Windows 2000, Windows NT Workstation 4.0 или Windows 95 / 98. Система поддерживает работу 19 типов сканеров, включая Acer, Samsung, Mitsubishi, Scanpaq, Canon, Syscan, E-Lux, Nikon, Silitek, Epson, Storm, Fujitsu, Packard Bell, HP, IBM, Xerox, Kodak и др. и более 100 моделей 100% TWAIN-совместимых сканеров других фирм. ПРОЕКТИРОВАНИЕ СИСТЕМ ВВОДА ПОТОКОВ ВХОДЯЩИХ ДОКУМЕНТОВ 62 Контрольные вопросы итоговой проверки знаний: 1. Каково назначение системы массового ввода бумажных документов? 2. Каков состав этапов и операций технологии массового ввода документов? 3. Назначение операции предварительной подготовки документов? 4. Какие методы составления моделей документов? 5. Какие методы ввода документов в электронный архив? 6. Какие методы составления индексов документов Вы знаете? 7. Что такое сканирование и какие требования предъявляются к сканерам? 8. Что такое распознавание образов и какие методы распознавания Вы знаете? 9. Что такое «интеллектуальный контроль» правильности распознавания документов? 10. Какие требования предъявляются к программному обеспечению СМВ? 11. Какие классы СМВ Вы знаете и дайте их характеристику. |