Системы оптического распознавания символов. Практическое применение

Название	Системы оптического распознавания символов. Практическое применение
Дата	02.04.2018
Размер	0.64 Mb.
Формат файла
Имя файла	OCR.pdf
Тип	Документы #40096

Системы оптического
распознавания символов.
Практическое применение.
На примере программы FineReader
Выполнила студентка 111гр
Асмаловская И.П.
Апрель 2014

Необходимость в системах распознавания символов
•
С помощью сканера достаточно просто получить изображение страницы текста в графическом файле.
Однако работать с таким текстом невозможно: как любое сканированное изображение,
страница с
текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в
последовательности текстовых символов.

Программы распознавания текста
• Основным методом перевода бумажных документов в электронную форму является сканирование. В результате сканирования получается графическое изображение, состоящее из точек, т.е. растровое изображение. Количество точек определяется как размером изображения, так и разрешением сканера.

• Графический образ,
получаемый после сканирования документа,
иногда необходимо перевести в
текст.
Для этого используются специальные программные средства, называемые средствами распознавания образов. Из программ,
способных распознавать текст на русском языке наиболее известной является ABBYY Fine Reader.

Преобразование документа в электронный вид
• происходит в три основных этапа. Каждый из этих этапов может выполняться программами как автоматически, так и
под контролем пользователя.
1.
Сканирование.
Запускается сканирующий модуль,
настраиваются параметры сканирования (разрешение, размер, тип сканирования) и происходит собственно сканирование. 2.
Сегментация и распознавание текста. Прежде чем получить готовый текст, необходимо разбить фрагменты документа на блоки (текст, рисунок, таблица и т.д.), для того, чтобы правильно их распознать (преобразовать в текстовый документ).
3.
Проверка
орфографии
и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.

Методы распознавания символов
•Если исходный документ имеет типографское качество то задача распознавания решается методом сравнения с растровым шаблоном. При распознавании документов с
низким качеством печати используется метод распознавания символов по наличию в них определенных структурных элементов
(отрезков, колец, дуг и др.).

Сканер
•Сканер (англ. scanner) — устройство,
которое создаёт цифровое изображение сканируемого объекта.
Полученное изображение может быть сохранено как графический файл, или, если оригинал содержал текст, распознано посредством программы распознавания текста и
сохранено как текстовый файл.

В зависимости от способа сканирования объекта и самих объектов сканирования существуют следующие виды сканеров:
• Планшетные
—
наиболее распространённые,
поскольку обеспечивают максимальное удобство для пользователя —
высокое качество и приемлемую скорость сканирования.
Представляет собой планшет,
внутри которого под прозрачным стеклом расположен механизм сканирования.
• Барабанные — применяются в полиграфии,
имеют большое разрешение (около 10 тысяч точек на дюйм).
Оригинал располагается на внутренней или внешней стенке прозрачного цилиндра (барабана).

• следовательно,
объект приходится сканировать вручную,
единственным его плюсом является дешевизна и
мобильность, при этом он имеет массу недостатков
—
низкое разрешение,
малую скорость работы,
узкая полоса сканирования,
возможны перекосы изображения,
поскольку пользователю будет трудно перемещать сканер с
постоянной скоростью.
• Сканеры
штрих-кода
—
небольшие, компактные модели для сканирования штрих-кодов товара в магазинах.

Оптимальное разрешение при сканировании
• Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов,
набранных мелким шрифтом (9 и менее пунктов).
Сканирование в
сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите,
чтобы содержащиеся в документе цветные элементы
(картинки, цвет букв и фона) были переданы в электронный документ с
сохранением цвета,
необходимо выбрать цветной тип изображения. В
других случаях используйте серый тип изображения.

ABBYY Fine
Reader
• Fine
Reader
–
система оптического распознавания текстов.
Она позволяет распознавать тексты,
набранные практически любыми шрифтами,
без предварительного обучения.
Особенностью программы
Fine Reader является высокая точность распознавания и малая чувствительность к дефектам печати.
• Fine Reader имеет массу дополнительных функций и удобный интерфейс.

Автоматический перевод текста
• Идея автоматического перевода текстов с одного языка на другой зародилась с появлением первых компьютеров. Если бы полноценный перевод был возможен, то значительно упростилось бы общение между народами. Но это очень сложная задача, о полном решении которой пока говорить рано.
Программы автоматического перевода позволяют переводить отдельные слова и строить смысловые связи в предложениях, не всегда учитывая те или иные особенности языка.

• Поэтому они предназначены лишь для общего ознакомления с
содержанием документа.
Программные средства автоматического перевода можно условно разделить на две основные категории:
• 1. Компьютерные словари. Назначение их - предоставить значения неизвестных слов быстро и удобно для пользователя.
• 2. Системы автоматического перевода - позволяют выполнять автоматический перевод связного текста. В ходе работы программа использует словари и
наборы грамматических правил,
обеспечивающих наилучшее качество перевода.

Распознавание документов в
программе FineReader

• После установки программы FineReader в меню
Программ Главного меню появляются пункты,
обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows вид и содержит строку меню, ряд панелей инструментов и рабочую область.
• В левой части рабочей области располагается панель Пакет, содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа.
Результаты их обрабатываются и в дальнейшем объединяются в единый текстовый файл.
Форма значка,
отмечающего исходные файлы, указывает, было ли произведено распознавание.

• Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при
«обучении» программы в ходе распознавания.
• Остальную часть рабочей области занимают окна документа. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа,
полученного после распознавания.
• В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей,
которые могут быть использованы в программе
FineReader.

• Панель инструментов
Стандартная
содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения рабочей зоны.
• Панель
Scan&Read
содержит кнопки,
соответствующие этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции.
Остальные кнопки соответствуют отдельным этапам работы и
содержат раскрывающиеся меню, служащие для управления соответствующей операцией.

• Панель Изображение используют при работе с исходным изображением.
В
частности,
она позволяет управлять сегментацией документа. С
помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.
• Элементы управления панели Форматирование
используют для изменения представления готового текста или при его редактировании.

Как ввести документ за минуту
• Включите сканер (если он имеет отдельный от компьютера источник питания).
• Внимание! Многие модели сканера необходимо включать до включения компьютера.
• Вставьте в сканер страницу, которую Вы хотите распознать.
• Нажмите на стрелку справа от кнопки Scan&Read, в открывшемся локальном меню выберите пункт Мастер
Scan&Read.
• Мастер Scan&Read вызывает специальный режим, при котором Вы можете отсканировать и распознать страницу или открыть и распознать графическое изображение
(пример графического файла Вы можете найти в папке
Dio. Она находится в папке, в которую Вы установили
FineReader). При этом каждый шаг сопровождается подсказками системы.
Далее следуйте указаниям Мастера Scan&Read.

Этапы процесса ввода документов
в компьютер
• Процесс ввода документов в компьютер состоит из четырех этапов: сканирования, распознавания, проверки и сохранения результатов распознавания.
В результате сканирования появится окно Изображение, содержащее "фотографию" страницы. Затем программа попросит
Вас установить параметры распознавания и приступит к распознаванию изображения, одновременно анализируя его.
Обработанные участки изображения закрашиваются голубым цветом.
Результат распознавания Вы увидите в окне Текст. В этом же окне
Вы можете проверить и отредактировать распознанный текст.
Следуя далее указаниям Мастера Scan&Read, Вы можете либо передать распознанный текст в выбранное Вами приложение или сохранить его на диске, либо продолжить обработку следующих изображений.

Параметры сканирования
• Используйте разрешение 300 dpi для стандартных текстов (размер шрифта 10pts. и больше) и разрешение 400-600 dpi для текстов с меньшим шрифтом (9pts. и меньше). Сканирование в сером режиме рекомендуется для повышения качества распознавания. При сканировании в сером режиме яркость регулируется автоматически. Если Вы хотите, чтобы диалог Настройки сканера
открывался каждый раз перед сканированием при работе в режиме - Использовать интерфейс
FineReader, Меню Сервис — Опции - на закладке
Сканирование / отметьте опцию - Запрашивать
опции перед началом сканирования.

Анализ оформления страницы
• Анализ оформления страницы может проходить как вручную, так и автоматически. В большинстве случаев программа FineReader сама выполняет сложную задачу анализа страницы. Нажмите кнопку Распознать
для запуска автоматического анализа оформления страницы.
Распознавание и
анализ страницы выполняются одновременно.
Если программа выделила некоторые блоки неправильно,
проще и
быстрее редактировать неправильно размеченные блоки,
используя инструмент для редактирования блоков, чем удалять блоки и
выделять их заново вручную.
В некоторых случаях качество автоматического анализа страницы может быть улучшено с помощью изменения опций анализа оформления страницы. Для просмотра текущих опций страницы меню Сервис — Опции /
закладка Распознавание

Улучшение качества распознавания
изображений сдвоенных страниц
• Чтобы увеличить качество распознавания, разбейте сканируемые изображения так, чтобы каждой из пары сдвоенных страниц на изображении соответствовала отдельная страница пакета. Изображения могут быть разбиты как автоматически,
так и
вручную.
Чтобы разбивать изображения автоматически перед добавлением в
пакет на стрелке возле кнопки
Сканирование /Открыть в диалоге Опции, отметьте опцию - Делить разворот книги. Чтобы разбивать изображения вручную, отметьте опцию - Разбить
изображение
в меню Изображение. Устранение искажений,
анализ оформления страницы и
распознавание будут проходить отдельно для каждой страницы.

Неправильно отображаемые
символы
• Если в окне Текст программы FineReader символы отображаются неправильно (например, "?" или "?"
на месте некоторых букв), это означает, что текущий шрифт не поддерживает полностью алфавит выбранного Вами языка распознавания. Выберите шрифт, который поддерживает все символы текста распознаваемой страницы (например, Arial Unicode или Bitstream Cyberbit) на закладке Форматирование
(меню Свойства — Опции) в группе Шрифты, и распознайте документ заново.

Редактирование распознанного
текста в Microsoft Word
• Если
Вы предпочитаете редактировать распознанный текст в Microsoft Word, а не в текстовом окне программы FineReader, Вы можете сделать так, чтобы неуверенно распознанные символы остались подсвеченными. В меню Сервис
выберите пункт
Форматы
- на закладке
RTF/DOC/Word XML отметьте опцию Цветом фона
и/или Цветом символа в группе - Выделять
неуверенно
распознанные
символы.
В
сохраненном файле все неуверенно распознанные символы будут подсвечены выбранными Вами на этой закладке цветами.

Основные панели
• Главная
панель
программы
Scan&Read
Мастер Scan&Read - запускает специальный режим сканирования и распознавания, во время которого система контролирует действия пользователя и подсказывает ему, что надо делать, чтобы получить тот или иной результат. Сканировать и распознать - запускает сканирование и распознавание документа.
Сканировать и распознать несколько страниц - сканирует и распознает несколько страниц в цикле.

Открыть и распознать - позволяет открыть и распознать изображения, выбранные в диалоге
Открыть (Open).

• Открыть изображение - добавляет изображение в пакет, при этом копия изображения сохраняется в папке пакета.
Сканировать изображение - сканирует изображение. Сканировать несколько страниц - сканирует изображения в цикле. Чтобы остановить сканирование, в меню Файл выберите пункт
Остановить сканирование. Опции - открывает закладку Сканирование/Открытие диалога

Опции,
на которой
Вы может установить опции сканирования и
предварительной обработки документа.
Распознать
- распознает открытую страницу
(или выделенные страницы) пакета.
Распознать все - распознает все нераспознанные страницы пакета.
Опции - открывает закладку
Распознавание диалога
Опции, на которой Вы может установить опции распознавания документа.

Проверить - позволяет найти в тексте слова,
содержащие неуверенно распознанные символы,
и неправильно написанные слова.
Опции
- открывает закладку
Проверка диалога
Опции,
на которой
Вы можете установить опции проверки документа.

Мастер сохранения результатов -
• открывает диалог Мастер сохранения результатов, в котором Вы можете выбрать приложение для сохранения и установить опции сохранения.
Сохранить текст в файл - сохраняет распознанный текст в файл на диск.
Передать страницы в - напрямую передает распознанный текст в выбранное приложение без сохранения его на диск.
При передаче распознанного текста с нескольких страниц пакета сначала выделите их в окне Пакет.
Передать все страницы в - передает все распознанные страницы в выбранное приложение без сохранения их на диск.
Опции - открывает закладку Форматирование диалога
Опции, на которой Вы можете установить опции сохранения документа.