Магистерская диссертация тема работы Разработка мобильного приложения детектирования и распознавания текстов на изображениях для платформы ios
Скачать 1.55 Mb.
|
• смещением символов или частей символов относительно их ожидаемого положения в строке; • эффектами освещения (тени, блики и т.п.) при съемке видеокамерой; • искажением формы символа за счет оцифровки изображения. Система оптического распознавания текста (OCR), должна определять на цифровом изображении текстовые области, выделять в них отдельные строки, далее символы и после этого распознавать эти символы. При этом важно, чтобы система не была чувствительна к верстке, расстоянию между строками, а также к другим параметрам. Структура систем оптического распознавания текста OCR системы имеют следующие основные блоки, предполагающие аппаратную или программную реализацию [15]: • блок предобработки изображения; • блок выделения признаков; • блок сегментации (локализации и выделения) элементов текста; • блок распознавания символов; • блок постобработки результатов распознавания. Данные блоки должны соответствовать последовательным шагам обработки и анализа изображений, которые выполняются. В первую очередь выполняется выделение текстовых областей, строк данных текстовых областей, а также разбиение связных текстовых строк на отдельные знакоместа, каждое из которых должно соответствовать одному текстовому символу [16]. Далее, разбив символы, он подвергаются сглаживанию и фильтрации с целью устранения шумов, нормализации размера, а также преобразованиям с целью выделения образующих элементов или численных признаков, используемых для распознавания в дальнейшем. Распознавание символов заключается в сравнении выделенных характерных признаков с эталонными данными и структурами признаков, которые формируются и запоминаются в процессе обучения системы на эталонных выборках [17]. В последнюю очередь разрешаются неопределённости, возникающие при распознавании отдельных символов, обладающих идентичными размерами, так и для корректировки ошибочно считанных слов и даже фраз в целом. Для этого этапа используется смысловая или контекстная информация. 1.4 Методы предобработки и сегментации изображений текстовых символов. Важный этап в распознавании – это предобработка. Этот этап позволяет производить сглаживание, нормализацию, сегментацию и аппроксимацию отрезков линий. [18] Сглаживание в данном случае – это большая группа процедур обработки изображений. Часто используются морфологические операторы заполнения и утончения. Заполнение выполняется для устранения небольших разрывов и пробелов. Утончение – это процесс уменьшения толщины линии, в которой на каждом шаге области размером в несколько пикселов ставится в соответствие только один пиксел "утонченной линии". Геометрическая нормализация Данный тип нормализации изображений подразумевает под собой использование алгоритмов, которые устраняют наклоны и перекосы отдельных символов, слов или строк, а также включает в себя процедуры, осуществляющие нормализацию символов по ширине и высоте. Процедуры сегментации применяются для разбиения изображения на отдельные области. В первую очередь необходимо отделить печатный текст от графики и рукописных пометок. Далее большая часть алгоритмов распознавания разделяют текст на символы и распознают их по отдельности. Данное решение действительно является более эффективным, однако только в том случае если символы текста не перекрывают друг друга. Символы могут перекрывать друг друга из-за типа шрифта, плохого разрешения печатающего устройства или высокого уровня яркости. Разбиение текстовых областей и строк на слова может применяться только в том случае, если слово является состоятельным объектом. Данный подход, при котором единицей распознавания является не отдельный символ, а целое слово, достаточно сложно реализовывать из-за большого числа элементов, которые подлежат запоминанию и распознаванию. Однако данный подход может быть полезен и весьма эффективен в частных случаях, когда набор слов в словаре существенно ограничен по условию задачи. Аппроксимация отрезков линий – составление графа описания символа в виде набора вершин и прямых ребер, которые непосредственно аппроксимируют цепочки пикселей исходного изображения. Такой тип аппроксимация применяется для уменьшения объема данных и может использоваться при распознавании, который основывается на выделении признаков, описывающих геометрию и топологию изображения. Для автоматического распознавания используются признаки символов. Выделение признаков является одной из наиболее трудоемких и важных задач в распознавании. Для распознавания символов могут использоваться большие количества различных систем признаков. Основная проблема – это выделение именно тех признаков, которые позволят эффективно отличать один класс символов от всех остальных в конкретной задаче. Алгоритмы предобработки Для того, чтобы использовать алгоритмы обнаружения необходимо обработать исходное видео или изображение[19]. Во всех системах оптического распознавания символов вначале выполняются то или иное улучшение качества и анализ изображения, |