Магистерская диссертация тема работы Разработка мобильного приложения детектирования и распознавания текстов на изображениях для платформы ios
Скачать 1.55 Mb.
|
поданного на обработку. В том числе применяются специальные фильтры восстановления поврежденных изображений, например, с помощью гипоэллиптической диффузии, фильтры, устраняющие смазы, и пр. В ходе этого этапа определяются области, рекомендуемые для распознавания, делаются оценки ориентации текста, выделяются отдельные символы и строки. На втором этапе выполняется работа по непосредственному распознаванию текста. Обобщающее сравнение методов распознавания, применяемых в исследуемой области, дано в работе. В частности, выделены следующие методы: признаковые, эталонные (растровые), структурные и искусственные нейронные сети (ИНС); методы сравниваются по способу описания изображения, вычислительным затратам, инвариантности к искажениям и универсальности (по мнению автора, лишь эталонные (растровые) и структурные методы пригодны для анализа сложных классов изображений и сцен). На первом этапе обработки изображения осуществляется выбор цветовой модели, предпочтение отдается тем, в которых под яркость выделяется отдельный цветовой канал, например, моделям YСbCr, HSV, HSV, YUV, LAB и др. За счет игнорирования яркости получается устойчивость к разным условиям освещения и снижается вычислительная сложность. Однако, во многих исследованиях авторы до сих пор работают с RGB-моделью. Получив необходимые данные, следует осуществить сегментацию изображения. Выделяют пороговые методы с фиксированным и адаптивным порогом; методы с наращиванием областей: центроидное связывание, слияние/расщепление и метод водоразделов; методы на основе использования контурной информации: градиентные методы, методы с вычислением вторых производных и др.; текстурные методы: статистические и структурные. Далее обычно осуществляется непосредственно распознавание текста в виде отдельных символов. 1.5 Обзор программных продуктов осуществляющих распознавание текста для платформы iOS Перед тем как разрабатывать программный продукт необходимо рассмотреть существующие разработки. Для платформы iOS в основном все приложения, которые реализуют оптическое распознавание символов являются приложения переводчики. В практически всех приложениях для перевода есть как функция перевода в реальном времени, так и с загружаемой фотографии. Переводчик Google Одно из самых популярных приложений в Google Play. Переводчик Google умеет не только распознавать текст на фото (что делает довольно неплохо), но и позволяет пользователю работать с обычным переводчиком. Приложение можно использовать без подключения к интернету, при скачивании дополнительных языковых пакетов. Кроме того, есть функция перевода SMS, рукописного текста (можно рисовать иероглифы) и распознавания речи. В фото-переводчике заложена возможность воспринимать не только базовые языки, но и такие, как греческий, венгерский и индонезийский. Грамотный перевод последних языков занимает значительно больше времени, поэтому лучше использовать его в случае, если в послании содержится часто используемая информация, встречающаяся в местах паломничества туристов и в бытовом окружении. Кроме самого перевода, программа также выводит пользователю воспринятый текст и его транскрипцию. Из пока недоработанных моментов можно отметить небольшое смещение некоторых слов текста при сканировании примерно на строку. Также если заблокировать экран после выведенного перевода, а затем снова вернуть телефон в рабочее состояние, то результат перевода будет утерян и придется проходить процесс заново. Lingvo Dictionaries Мобильный переводчик от компании ABBYY на сегодняшний момент взаимодействует не просто с текстом самых популярных 30 языков, но и обладает возможностью фото-перевода. Помимо этого, в программе есть упражнения для запоминания слов, профессиональная озвучка от носителей языка и функция добавления своего слова в словарь. Фото-переводчик при переводе фотографий работает практически идеально – при хорошем освещении и не боковой съемке текста. В противном случае не пытается распознать даже и части изображения, выдает сообщение о невозможности это сделать. В последней версии также был исправлен ряд недостатков. Lingvo Dictionaries также оптимизировано для удобной работы с общим списком слов, объединенной словарной карточкой. ABBYY TextGrabber + Translator Переводчик компании ABBYY, специализирующийся на распознавании текста с фотографий. Отличительной особенностью является то, что перевод можно осуществлять с 60 встроенных языков, не скачивая дополнительные пакеты. Распознавание текста происходит без использования интернета, но для его перевода соединение потребуется. Поддерживается возможность править переработанный текст и сохранять его на телефоне, дополнительно они сохраняются во внутренней истории приложения, где с ними также можно проводить базовые операции. Из-за большого количества встроенных языков приложению сложно распознать язык самому в процессе сканирования, это занимает довольно много времени. Рекомендуется заранее выбирать соответствующий оригинальному тексту язык распознавания для более быстрой работы приложения. К несущественным недостаткам программы относится тот факт, что встроенная функция загрузки изображения из галереи поддерживает только стандартные форматы изображений. ABBYY TextGrabber + Translator также не форматирует текст при выводе отсканированного изображения. То есть текст |