Главная страница
Навигация по странице:

  • Подвыборочный слой Слой подвыборки имеет карты, число которых совпадает с предыдущем слоем. Цель данного слоя – уменьшить размерность карт.

  • Полносвязный слой

  • Выходной слой Данный слой связан со всеми нейронами предыдущего слоя. Количество нейронов равно количеству распознаваемых классов.

  • 1.3 Алгоритмы распознавания текста

  • Оптическое распознавание символов (OCR)

  • Проблемы распознавания текста

  • Магистерская диссертация тема работы Разработка мобильного приложения детектирования и распознавания текстов на изображениях для платформы ios


    Скачать 1.55 Mb.
    НазваниеМагистерская диссертация тема работы Разработка мобильного приложения детектирования и распознавания текстов на изображениях для платформы ios
    Дата27.01.2019
    Размер1.55 Mb.
    Формат файлаpdf
    Имя файлаTPU552789.pdf
    ТипДиссертация
    #65474
    страница10 из 23
    1   ...   6   7   8   9   10   11   12   13   ...   23

    Рисунок 4. – Организация связей между картами сверточного слоя и предыдущего.
    Размер карт сверточного слоя должен вычисляться ао следующей формуле:
    (??????, ℎ) = (???????????? − ???????????? + 1, ???????????? − ???????????? + 1), где (
    ??????, ℎ) – размер сверточной карты,
    ????????????– ширина предыдущей карты,
    ????????????– высота предыдущей карты,
    ????????????– ширина ядра,
    ????????????– высота ядра.
    В сверточной нейронной сети ядро – система разделяемых весов или синапсов. Это является основным отличием данной сети.
    Подвыборочный слой
    Слой подвыборки имеет карты, число которых совпадает с предыдущем слоем. Цель данного слоя – уменьшить размерность карт.

    Рисунок 5. – Формирование новой карты подвыборочного слоя.
    Формула для формирования слоя:
    ??????
    <
    = ??????(??????
    <
    ∗ ??????????????????????????????????????????????????????(??????
    <.C
    ) + ??????
    <
    ), где
    ??????
    <
    – выход слоя l,
    ??????()– функция активации,
    ??????
    <
    , ??????
    <
    –коэффициенты сдвига слоя,
    ??????????????????????????????????????????????????????() – операция по выборке локальных максимальных значений,
    Полносвязный слой
    Последним слоем является слой, который представляет собой обычный слой многослойного персептрона. Цель данного слоя – смоделировать сложную нелинейную функцию, при оптимизации которой существенно улучшается качество распознавания. [11]

    Рисунок 6. – Полносвязный слой
    Обучение нейросети, настройка ее параметров, осуществляется на большом количестве обучающих примеров, причем таким образом, чтобы получить предполагаемый результат на выходе.
    Вычисление значений нейронов осуществляется по следующей формуле:
    ??????
    D
    <
    = ??????(E ??????
    0
    <.C
    0
    ∗ ??????
    0,D
    <.C
    + ??????
    D
    <.C
    ) где
    ??????
    D
    <
    – карта признаков j (выход слоя l),
    ??????()– функция активации,
    ??????
    D
    <.C
    –коэффициенты сдвига l,
    ??????
    0,D
    <
    – матрица весовых коэффициентов.
    Выходной слой
    Данный слой связан со всеми нейронами предыдущего слоя.
    Количество нейронов равно количеству распознаваемых классов.

    Также очень важно выбрать функцию активации нейронов.
    Существуют следующие виды функций активаций:
    функция активации сигмоиды;
    • функция активации гиперболический тангенс;
    • функция активации ReLU;
    Особенность сверточной нейронной сети в том, что нейроны первых уровней упорядочены в особую структуру, а именно: на первых слоях нейроны разбиты на изображения определенного размера (карты), и разные карты внутри одного слоя соответствуют нейронам разного типа, которые, в свою очередь, реагируют на разные особенности изображений. Вычисления активаций последующих слоев бывают двух различных типов. Первый тип заключается в том, что активация нейронов следующего слоя должна вычисляться как линейное сочетание активаций нейронов предыдущего уровня, причем веса этих активаций зависят только от взаимного положения нейронов, типов нейрона, но не зависят от положения данного нейрона внутри карты [12].
    Второй тип вычислений заключается в том, что активации нейронов на следующем уровне повторяет активацию нейронов на предыдущем уровне, но изображение уменьшается в размере из-за того, что активация рядом расположенных нейронов заменяется на максимальное или среднее значение.
    Данная структура очень подходит для работы с изображениями.
    Такая структура может гарантировать, что схожие изображения, отличающиеся лишь небольшим сдвигом, получат схожий результат на выходе. Также в данной нейронной сети количество параметров значительно меньше количества нейронов, что упрощает подбор обучающей выборки.
    1.3 Алгоритмы распознавания текста
    На данный момент существует различное число методов для распознавания текстовой информации на изображениях. Далее более подробно опишем каждый из подходов по распознаванию текстов [13].

    Оптическое распознавание символов (OCR)
    Задача по распознаванию текстовой информации на изображениях и видео является очень актуальной. Однако эта задача является одной из наиболее сложных и наукоемких задач.
    В последнее время были созданы различные методы и компьютерные технологии в обработке изображений и распознавания образов, это привело к созданию таких систем как FineReader, которые позволяют распознавать текстовую информацию. Тем не менее, создание каждого нового приложения в данной области по-прежнему остается достаточно сложной задачей и требует дополнительных исследований в связи с определенными требованиями по разрешению, скорости, надежности распознавания, а также объему памяти, которыми характеризуется каждая конкретная задача.
    Проблемы распознавания текста
    На данный момент существуют следующие проблемы, связанные с распознаванием текста: [14]
    • разнообразие форм начертания символов;
    • искажение изображений символов;
    • вариации размеров и масштаба символов.
    Каждый символ может быть написан различными стандартными шрифтами, например (Gothic, Times, Courier, Elite, Orator), кроме того существует огромное множество нестандартных шрифтов, используемых в различных предметных областях. При этом различные символы могут иметь схожие очертаниями. Например, "S" и "5", "U" и "V", "G" и "6", "Z" и "2".
    Также могут быть искажения в цифровых изображениях, которые вызваны:
    • шумами в изображениях;
    • изменением наклона символов;
    1   ...   6   7   8   9   10   11   12   13   ...   23


    написать администратору сайта