Главная страница
Навигация по странице:

  • 4.1.2 Описание тестирования

  • 4.1.3 Результаты тестирования

  • Процессор Алгоритм Точность, % Время 1 обучения тестирования

  • Алгоритм Минимальная ошибка, % Максимальная ошибка, %

  • 4.2.2 Описание тестирования

  • 4.2.3 Результаты тестирования

  • по распознаванию фрагментов печатных текстов.

  • 4.3.2 Результаты тестирования

  • Начертание Размер шрифта ABBY FineReader 11 (%) Tesseract OCR (%) Разработанный алгоритм

  • Фан_Ногк_Хоанг_Диссертация. Алгоритмы обработки и анализа символов вейвлетпреобразованием, методом главных компонент и нейронными сетями


    Скачать 3.2 Mb.
    НазваниеАлгоритмы обработки и анализа символов вейвлетпреобразованием, методом главных компонент и нейронными сетями
    Дата13.10.2022
    Размер3.2 Mb.
    Формат файлаpdf
    Имя файлаФан_Ногк_Хоанг_Диссертация.pdf
    ТипДиссертация
    #732105
    страница5 из 7
    1   2   3   4   5   6   7
    Глава 4.
    Численные эксперименты и анализ
    результатов распознавания разработанными
    алгоритмами
    В данной главе описываются результаты тестирования разработанных алгоритмов на задачах распознавания рукописных цифр, печатных символов и фрагментов печатных текстов. Представлены данные для обучения и тестирования, приведены таблицы и диаграммы с результатами распознавания. Проводится сопоставление разработанных программных алгоритмов с другими современными алгоритмами распознавания.
    Все численные эксперименты проводились на ноутбуке с процессом
    Intel Core Duo P7350 2.0 ГГц с 2.0 ГБ оперативной памяти. Для оценки эффективности разработанного алгоритма используются как результаты распознавания без учета второго предположения, так и результаты с его учетом. Вторым предположением является символ обучающей выборки, нейронная сеть которого возвращает второе наибольшее значение. При использовании результата с учетом второго предположения правильным распознаванием является случай, в котором либо первое, либо второе предположение дает правильный ответ.
    4.1
    Тестирование на задаче распознавания
    рукописных цифр
    4.1.1
    Обучающая выборка
    Первым экспериментом является тестирование разработанного алгоритма на задаче распознавания рукописных цифр. Для проведения этого тестирования использовалась известная база рукописных цифр MNIST
    [70]. Данная база состоит из 60000 изображений для обучения и 10000 изображений для тестирования. Все изображения имеют одинаковый размер
    28×28 пикселей и все цифры центрированы внутри изображения. На рис. 4.1. представлены примеры изображений рукописных цифр обучающей выборки

    104 из базы MNIST.
    Рисунок 4.1.
    Примеры изображений рукописных цифр обучающей
    выборки
    4.1.2
    Описание тестирования
    Для тестирования, кроме исходной тестовой выборки базы MNIST, созданы дополнительные тестовые выборки путем добавления к изображениям этой базы шума «соли и перца» с уровнем 5, 10, 15, 20, 25 и
    30%. На рис. 4.2 приведены примеры изображений использованных тестовых выборок. На рис. 4.2(а) представлены изображения исходной тестовой выборки базы MNIST, а на рис. 4.2(б–в) представлены изображения с уровнем шума 15 и 30%.
    Рисунок 4.2. Примеры использованных рукописных цифр тестовых
    выборок

    105
    4.1.3
    Результаты тестирования
    Результаты распознавания разработанным алгоритмом рукописных цифр из базы MNIST в зависимости от размерности вектора признаков символов представлены на рис. 4.3. По вертикальной оси отсчитывается точность распознавания в процентах (δ, %), а по горизонтальной оси – количество использованных признаков (K).
    Рисунок 4.3.
    Результаты распознавания разработанным алгоритмом
    рукописных цифр
    Показано, что точность распознавания разработанным алгоритмом зависит от размерности вектора признаков символов. При использовании вектора из 5 признаков точность распознавания составляет только 70,3%.
    При увеличении количества использованных признаков точность распознавания увеличивается. Когда количество использованных признаков равно 37, точность распознавания составляет 97%. Результаты проведенных экспериментов показывают более устойчивую работу алгоритма при увеличении количества использованных признаков. При количестве
    70 80 90 100 5
    20 35 50 65 80 95
    δ,
    %
    K
    Результаты без учета второго предположения
    Результаты с учетом второго предположения

    106 признаков больше 37 точность распознавания находится в пределах от 97% до 97,5%. При использовании вектора из 49 признаков точность распознавания достигает 97,5%.
    В случае использования результатов распознавания с учетом второго предположения, точность распознавания разработанным алгоритмом существенно увеличивается. При использовании вектора из 5 признаков точность распознавания уже составляет 84,7%. Для количества использованных признаков равного 37 получен результат распознавания
    98,8%. При использовании количества признаков больше 37 точность распознавания устойчиво находится в пределах от 98,8% до 99%. При размере вектора признаков равном 49 также как и в предыдущем случае получен наилучший результат распознавания – 99%.
    Таким образом, для проведения дальнейших численных экспериментов по распознаванию рукописных цифр на зашумленных выборках выбран вектор, состоящий из 49 признаков.
    В работе Ю.А. Болотовой [4] предложена сеть иерархической временной памяти (ИВП), также протестированная на задаче распознавания рукописных цифр из базы MNIST. При этом обучение сети ИВП проводилось различными алгоритмами, такими как Жадный алгоритм кластеризации
    (Greedy), Аglomerative Нierarchical Сlustering (АНС) и Maximum Temporal
    Connection (МТС). Результаты сопоставления предложенного алгоритма и сети ИВП по распознаванию рукописных цифр из базы MNIST приведены в табл. 4.1.
    В результате сопоставления показано, что разработанный алгоритм обучается в 13 раз быстрее и распознает цифры в 15 раз быстрее, чем сеть
    ИВП. Результат распознавания цифр разработанным алгоритмом составляет
    97,5% и он сопоставим с результатом их распознавания сетью ИВП, обученной алгоритмами Greedy и AHC. Точность распознавания разработанным алгоритмом с учетом второго предположения является наилучшей и составляет 99%.

    107
    Таблица 4.1.
    Результаты распознавания выборки MNIST разработанным алгоритмом и сетью ИВП
    Процессор
    Алгоритм
    Точность,
    %
    Время
    1
    обучения тестирования
    Intel Core
    TM
    3.47ГГц
    Сеть ИВП (Greedy)
    97,3 05:34:12 01:38:43
    Сеть ИВП (AHC)
    97,6 05:15:17 01:30:56
    Сеть ИВП (МТС)
    98,5 05:21:47 01:32:35
    Intel Core
    Duo P7350 2.0 ГГц
    Разработанный алгоритм
    97,5 00:24:36 00:06:08
    Разработанный алгоритм
    (с учетом второго предположения)
    99,0 00:24:36 00:06:08
    Полученные результаты также были сопоставлены с другими алгоритмами, протестированными на базе рукописных цифр MNIST [4, 69].
    Результаты сопоставления различных алгоритмов приведены в табл. 4.2.
    Точность распознавания разработанным алгоритмом сравнима с лучшими алгоритмами распознавания.
    Таблица 4.2.
    Сравнение различных алгоритмов распознавания на базе
    MNIST
    Алгоритм
    Минимальная
    ошибка, %
    Максимальная
    ошибка, %
    Линейный классификатор
    7,6 12
    Нелинейный классификатор
    3,3 3,6
    Сети ИВП
    1,5 1,5
    Boosted stumps
    0,87 7,7
    K-Nearest Neighbors
    0,63 5
    SVM
    0,56 1,4
    Нейронные сети
    0,35 4,7
    Сверточные сети
    0,23 1,7
    Разработанный алгоритм
    2,5 3
    Разработанный алгоритм (с учетом второго предположения)
    1 1,2 1
    Время обучения и тестирования разработанного алгоритма включает время на создание пространства собственных символов, выделение признаков, уменьшение размерности вектора признаков, обучение нейронных сетей и распознавание нейронными сетями

    108
    В этом эксперименте также проводилось тестирование разработанного алгоритма на созданных зашумленных выборках рукописных цифр базы
    MNIST. При тестировании использовался вектор из 49 признаков. Результаты распознавания рукописных цифр разработанным алгоритмом на зашумленных выборках представлены на рис. 4.4. Следует отметить, что разработанный алгоритм обеспечивает возможность распознавания рукописных цифр в присутствии шума на изображениях. При этом точность распознавания существенно уменьшается, когда уровень шума превышает
    20%.
    Рисунок 4.4.
    Результаты распознавания рукописных цифр зашумленных
    выборок
    4.2
    Тестирование на задаче распознавания печатных
    символов
    4.2.1
    Обучающая выборка
    При оформлении документов широко используются два типа шрифтов: шрифт с засечками и шрифт без засечек. Шрифты с засечками, например,
    Times New Roman, Garamond, Courier New и Bookman Old Style, имеют маленькие черточки по краям. Эти шрифты обычно используются для
    50 60 70 80 90 100 0
    5 10 15 20 25 30
    Т
    очн
    ост
    ь,
    %
    Уровень шума, %
    Результаты без учета второго предположения
    Результаты с учетом второго предположения

    109 оформления основного текста документа, потому что они наиболее читаемы.
    Шрифты без засечек, например, Arial, Lucida Sans, Tahoma и Verdana, состоят из линий без маленьких черточек по краям. Эти шрифты без засечек обычно используются для оформления заголовков документа.
    Для обучения алгоритма создана обучающая выборка, состоящая из
    1488 изображений 10 цифр (0–9) и 52 английских букв (a–z, A–Z). Каждый символ представлен двумя распространенными шрифтами Times New Roman и Arial в обычном и полужирном начертаниях (рис. 4.5) с размерами шрифта:
    16, 18, 20, 22, 24 и 26 (рис. 4.6). Каждый символ обучающей выборки представлен 24 изображениями.
    Рисунок 4.5. Примеры использованных символов для создания
    обучающей выборки
    Рисунок 4.6. Пример использованных размеров шрифта для символа «a»

    110
    4.2.2
    Описание тестирования
    Для тестирования использовались изображения символов 8 популярных шрифтов: 4 шрифта с засечками – Times New Roman; Garamond;
    Courier New; Bookman Old Style; и 4 шрифта без засечек– Arial; Lucida Sans;
    Tahoma; Verdana. Для каждого шрифта подготовлена тестовая выборка, содержащая 2480 изображений 10 цифр (0–9) и 52 английских букв (a–z, A–
    Z). Каждый символ представлен в разных размерах шрифта: 12, 14, 16, 18, 20,
    22, 24, 26, 28 и 36 в обычном и полужирном начертаниях. Примеры изображений символа «A» разных размеров представлены на рис. 4.7.
    Рисунок 4.7. Пример использованных размеров шрифта для символа «A»
    Для каждого шрифта созданы дополнительные тестовые выборки путем добавления 5, 10, 15, 20, 25 и 30% шума типа «соли и перца» к изображениям существующей тестовой выборки. Примеры зашумленных изображений печатных символов приведены на рис. 4.8. Слева-направо на рис. 4.8 представлены изображения печатных символов с уровнем шума 15 и
    30%.
    Рисунок 4.8. Примеры изображений печатных символов тестовой
    выборки с уровнем шума 15 и 30%

    111
    4.2.3
    Результаты тестирования
    На рис. 4.9 приведены результаты распознавания печатных символов разных шрифтов в зависимости от размерности вектора признаков символа.
    По вертикальной оси отсчитывается точность распознавания в процентах (δ,
    %), а по горизонтальной оси – количество использованных признаков (K).
    Экспериментальные результаты показывают, что разработанный алгоритм, обученный только символами двух шрифтов, может распознавать символы других шрифтов. Показано, что кроме шрифта Bookman Old Style, для всех остальных шрифтов, когда количество использованных признаков символа находится в пределах от 20 до 60, точность распознавания разработанным алгоритмом становится приемлемой.
    Результаты распознавания символов, представленных шрифтами без засечек, лучше и устойчивее, чем результаты распознавания шрифтов с засечками.
    Рисунок 4.9.
    Результаты распознавания печатных символов разных
    шрифтов
    Times New Roman Garamond Courier New Bookman Old Style
    Arial Lucida Sans Tahoma Verdana
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    20 40 60 80 100 5
    30 55 80
    δ,
    %
    K
    Результаты без учета второго предположения
    Результаты с учетом второго предположения

    112
    Результаты распознавания с учетом второго предположения всегда превосходят результаты распознавания без его учета. Наилучший результат распознавания для большинства шрифтов получен при использовании вектора из 27 признаков. Таким образом, вектор, состоящий из 27 признаков, выбран для дальнейшего тестирования печатных символов на зашумленных выборках.
    Результаты тестирования разработанного алгоритма на зашумленных выборках представлены на рис. 4.10. По вертикальной оси отсчитывается точность распознавания в процентах, а по горизонтальной оси – уровень шума на изображениях в процентах. На рис. 4.10(а) представлены результаты распознавания без учета второго предположения, а на рис. 4.10(б) – результаты распознавания с его учетом.
    Рисунок 4.10.
    Результаты распознавания печатных символов
    зашумленных выборок
    Показано, что разработанный алгоритм способен эффективно распознавать печатные символы разных шрифтов в присутствии шума на изображениях. Точность распознавания зависит от уровня шума на изображениях. Чем больше уровень шума на изображениях, тем меньше точность распознавания. В присутствии 5% шума на изображениях, точность распознавания разработанным алгоритмом больше 75% для 7 шрифтов, а в присутствии 30% – только для 3 шрифтов. При использовании результатов
    а б
    50 60 70 80 90 100 0 5 10 15 20 25 30
    Т
    оч
    н
    ос
    ть,
    %
    Уровень шума, %
    50 60 70 80 90 100 0
    5 10 15 20 25 30
    Т
    оч
    н
    ос
    ть,
    %
    Уровень шума, %
    Times New Roman
    Garamond
    Courier
    Bookman Old Style
    Arial
    Lucida Sans
    Tahoma
    Verdana

    113 распознавания с учетом второго предположения точность распознавания существенно увеличивается.
    Результаты сопоставления разработанного алгоритма и систем распознавания текста ABBY FineReader 11 и Tesseract OCR по распознаванию символов двух шрифтов Times New Roman и Arial на зашумленных выборках представлены на рис. 4.11.
    Показано, что при увеличении уровня шума на изображениях точность распознавания системами ABBY FineReader 11 и Tesseract OCR существенно уменьшается, а точность распознавания разработанным алгоритмом падает медленнее. Разработанный алгоритм распознает печатные символы в присутствии шума на изображениях эффективнее, чем системы ABBY
    FineReader 11 и Tesseract OCR. При уровне шума больше 15% разница между их результатами распознавания становится более заметной.
    Рисунок 4.11.
    Сравнение результатов распознавания зашумленных
    печатных символов
    4.3
    Тестирование на задаче распознавания
    фрагментов печатных текстов
    4.3.1
    Описание тестирования
    В данной главе также проведены эксперименты по распознаванию
    фрагментов печатных текстов. Для тестирования разработанного алгоритма распознавания фрагментов текста использовались
    Times New Roman Arial
    40 50 60 70 80 90 100 0 5 10 15 20 25 30
    Т
    оч
    н
    ос
    ть,
    %
    Уровень шума, %
    40 50 60 70 80 90 100 0 5 10 15 20 25 30
    Т
    оч
    н
    ос
    ть,
    %
    Уровень шума, %
    FineReader
    Tesseract
    Разработанный алгоритм
    Разработанный алгоритм (с учетом второго предположения)

    114 отсканированные документы. Фрагменты текстов имеют одинаковое содержание. Каждый фрагмент включает 1581 символ, набранный в текстовом редакторе Microsoft Office Word 2007. При наборе текста фрагментов использовались два популярных шрифта: Times New Roman и
    Arial с размерами шрифта: 14, 16, 18, 20, 22, 24, 26, 28 и 36 в обычном и полужирном начертаниях. Эти фрагменты текстов распечатывались, затем полученные документы сканировались с разрешением 300dpi и сохранялись в файлах в формате «bmp». Таким образом, тестовая выборка имеет всего 36 фрагментов печатных текстов. Пример использованного фрагмента печатного текста представлен на рис. 4.12.
    Рисунок 4.12.
    Пример использованного фрагмента печатного текста

    115
    4.3.2
    Результаты тестирования
    Тестирование разработанного алгоритма распознавания фрагмента печатного текста и систем распознавания текста ABBY FineReader 11 и
    Tesseract осуществлялось на подготовленных 36 фрагментах текстов.
    Результаты сопоставления распознавания фрагментов печатных текстов, набранных шрифтом Arial, приведены в табл. 4.3. На основе сопоставления результатов распознавания показано, что точность распознавания, достигнутая системой FineReader 11, является наилучшей и составляет 99,94–
    100%, точность распознавания системой Tesseract составляет 99,87–100%, а точность распознавания разработанным алгоритмом составляет 97,66–
    99,62%.
    Таблица 4.3.
    Результаты распознавания фрагментов печатных текстов шрифта Arial
    Начертание
    Размер
    шрифта
    ABBY
    FineReader 11
    (%)
    Tesseract
    OCR
    (%)
    Разработанный
    алгоритм
    (%)
    Обычное
    14 100 99,87 97,66 16 100 99,94 98,48 18 100 100 98,99 20 100 99,94 98,99 22 100 99,94 98,36 24 100 100 99,11 26 100 99,94 99,37 28 100 100 99,49 36 100 100 99,56
    Полужирное
    14 100 100 98,99 16 100 100 98,92 18 100 100 99,24 20 100 100 99,30 22 100 100 99,62 24 100 100 99,05 26 100 100 98,86 28 99,94 100 99,49 36 99,94 100 99,43

    116
    Наибольшее количество ошибок, возникающих при распознавании разработанным алгоритмом фрагментов печатных текстов шрифта Arial, наблюдается для таких пар символов, как i и j, i и l, e и o, I и l и неразделенных букв rt, rf, ff и ry.
    В табл. 4.4 приведены результаты сопоставления распознавания фрагментов печатных текстов, набранных шрифтом Times New Roman. На основе сопоставления результатов распознавания показано, что точность распознавания, достигнутая системой FineReader 11, также является наилучшей и составляет 99,87–100%, точность распознавания системой
    Tesseract составляет 99,43–99,62%, а точность распознавания разработанным алгоритмом составляет 90,89–98,17%.
    Таблица 4.4.
    Результаты распознавания фрагментов печатных текстов шрифта Times New Roman
    1   2   3   4   5   6   7


    написать администратору сайта