Главная страница

лабораторная работа 20. лаб20. С помошью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно


Скачать 18.08 Kb.
НазваниеС помошью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно
Анкорлабораторная работа 20
Дата18.10.2022
Размер18.08 Kb.
Формат файлаdocx
Имя файлалаб20.docx
ТипДокументы
#738898

С помошью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно; как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет сго редактировать и форматировать, Для получения документа в формате текстового файла необходимо провести распознавание текста, то сеть
преобразовать элементы графического изображения и последовательности текстовых символов. Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное - корректно распознавать не только четко набранные тексты, но и такие,
качество которых, очень плохое, Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Так же не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата - скажем, формата Microsoft Word.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любогопечатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных
операций.
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст,
Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на
шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек. При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу. Какие вы знаете системы оптического распознавания текста? Наиболее распространенные системы оптического распознавания символов: FineReader, CuneiForm, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают
соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

With the help of a scanner, it is quite easy to get an image of a page of text in a graphic file. However, it is impossible to work with such text; like any scanned image, a page with text is a graphic file - an ordinary picture. The text can be read and printed, but it will not be possible to edit and format it. To obtain a document in text file format, it is necessary to perform text recognition, then the convert elements of a graphic image and sequences of text characters. The conversion of a graphic image into text is carried out by special text recognition programs (Optical Character Recognition - OCR).

Modern OCR should be able to do a lot: recognize texts typed not only in certain fonts, but also in the most exotic ones, up to handwritten ones. Be ableto work correctly with texts containing words in several languages, correctly recognize tables. And most importantly - correctly recognize not only clearly typed texts, but also suchthe quality of which is very poor, for example, text from a yellowed newspaper clipping or a third typewritten copy. It is equally important to provide the ability to save the result in a file of a popular text (or spreadsheet) format - say, the Microsoft Word format.
As you can see, in order to get an electronic, ready-to-edit copy of any printed text, the OCR program needs to perform a “chain” of many individual operations. First you need to recognize the structure of the text on the page: select columns, tables, images, and so on. Next, the selected text fragments of the graphic image of the page must be converted into text.

If the source document has typographical quality (a fairly large font, no poorly printed characters or corrections), then the recognition problem is solved by comparing with a raster template. First, the bitmap of the page is split into individual character images. Then each of them is sequentially superimposed on symbol templates available in the system memory, and the template with the least number of points different from the input image is selected. When recognizing by the structural method, characteristic details are distinguished in a distorted symbolic image and compared with the structural patterns of symbols. As a result, the symbol is selected for which the totality of all structural elements and their arrangement most of all corresponds to the recognized symbol. What kind of OCR systems do you know? The most common optical character recognition systems are:FineReader, CuneiForm, use both raster and structure recognition methods. In addition, these systems are "self-learning" (for each specific document, they create the corresponding set of character patterns) and therefore the speed and quality of recognition of a multi-page document gradually increase


написать администратору сайта