учебная логика. учебник СПО. Практикум по программному обеспечению содержит большое количество примеров и заданий

Название	Практикум по программному обеспечению содержит большое количество примеров и заданий
Анкор	учебная логика
Дата	12.09.2022
Размер	5.66 Mb.
Формат файла
Имя файла	учебник СПО.docx
Тип	Практикум #672419
страница	20 из 50

1 ... 16 17 18 19 20 21 22 23 ... 50

Системы оптического распознавания текста (OCR)

Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов печатной информации в компьютер, используя сканер и распознавание текстов.

Сначала печатная страница сканируется, в результате получается растровое изображение (картинка). Растровое изображение страницы может быть получено и через факс-модем, сканер, цифровую фотокамеру или другое устройство. Работать с изображением как с текстом, то есть редактировать, форматировать и т. д., естественно, нельзя. Поэтому необходимо использовать программу оптического распознавания текста (OCR – Optical Character Recognition) для получения полноценного текстового документа.

На первом этапе OCR разбивает страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки. Потом строки разбиваются на непрерывные области изображения (отдельные буквы). Алгоритм распознавания каждую область изображения соотносит с наиболее близким по начертанию символом. В результате растровое изображение текстовой страницы восстанавливается в символах текста.

OCR-системы могут достигать наилучшей точности распознавания – свыше 99,9% для чистых изображений, составленных из обычных шрифтов. Но полностью избежать ошибок не удается. Процент ошибок распознавания для «нечистых» текстов намного выше.

Основное назначение OCR-систем состоит в анализе растровой информации (отсканированного символа) и присвоении фрагменту изображения соответствующего символа. После завершения процесса распознавания OCR-системы должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику и т. д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF.

При распознавании текстов, в которых использовано несколько языков, эффективность распознавания зависит от умения OCR-системы формировать группы языков. В то же время в некоторых системах уже имеются комбинации для наиболее часто используемых языков, например русский + английский.

На данный момент существует огромное количество программ, поддерживающих распознавание текста как одну из возможностей.

Лидер в этой области — FineReader. Это программный продукт фирмы ABBYY Software. FineReader поддерживает большое количество форматов для сохранения, включая PDF, имеет возможность прямого распознавания из PDF-файлов. FineReader точно воспроизводит документы сложной верстки, поддерживает большое количество языков.

OCR CuneiForm (свободное ПО) – один из главных конкурентов FineReader. Производителем является российский разработчик программного обеспечения Cognitive Technologies. OCR CuneiForm имеет высокий уровень распознавания, в том числе текстов низкого качества. Отличается удобным интерфейсом. Распознает любые полиграфические и машинописные гарнитуры всех начертаний и шрифтов, получаемые с принтеров, за исключением декоративных и рукописных.

Вопросы для самоконтроля

Как можно классифицировать программы для обработки текстовой информации?
Что происходит в процессе редактирования текста?
В чем заключается форматирование текста?
Как происходит процесс создания документа в TeXориентированных издательских системах?
Перечислите универсальные текстовые форматы.
Для чего предназначены системы оптического распознавания текста?

3.2. Текстовый процессор OpenOffice.Org Writer

Мы будем знакомиться с пакетом OpenOffice.org¹. Это свободное ПО, дистрибутив пакета можно скачать с сайта http://ru.openoffice.org.

Поскольку это кроссплатформенное приложение, его можно установить и под Windows, и под Linux.

3.2.1. Интерфейс

Запуск приложения осуществляется из группы OpenOffice. Org, которая обычно находится в меню «Пуск».

Открывается окно приложения, в котором сразу создается новый документ. Каждый документ открывается в отдельном окне. Строка меню обеспечивает доступ ко всем функциям Writer.

Если справа от названия пункта имеется стрелка, то при выборе этого пункта будет выведено подменю.

Если название пункта меню заканчивается многоточием, то будет выведено дополнительное диалоговое окно.

Обычно по умолчанию открываются две панели инструментов: «Стандартная» и «Форматирование». Набор панелей, выведенных на экран, можно изменять (Вид – Панели инструментов).

Рис. 3.1. OpenOffice.org Writer. Панели инструментов

Набор кнопок на панелях тоже можно настроить под свои потребности (Вид – Панели инструментов – Настройка).

3.2.2. Ввод и редактирование текста

Текст вводят с помощью алфавитно-цифровых клавиш. Для ввода прописных букв используют одновременное нажатие клавиши с буквой и клавиши Shift или включают режим прописных букв нажатием на клавишу Caps Lock.

Когда текст доходит до конца строки, то он автоматически переходит на новую строку.

Ч

тобы начать новый абзац необходимо нажать Enter, это приводит к тому, что в текст вставляется непечатаемый символ конца абзаца . Увидеть текст со всеми непечатаемыми символами можно, нажав на кнопку на панели инструментов «Стандартная» или выполнив команду Вид – Непечатаемые символы.

Абзац – любая часть документа, содержащая текст, графику, объекты, (например формулы) за которой следует маркер конца абзаца (маркер конца абзаца содержит информацию о форматировании, которое применяется к этому абзацу).

Переход на новую страницу осуществляется автоматически при заполнении очередной страницы, принудительно перейти на новую страницу можно нажав Ctrl+Enter или вставив разрыв страницы (Вставка – Разрыв – Разрыв страницы).

Место, куда вводится текст в данный момент, отмечается вертикальной чертой, которая называется курсором. Щелчок мышью в нужном месте текста перемещает туда курсор.

1 ... 16 17 18 19 20 21 22 23 ... 50