Фан_Ногк_Хоанг_Диссертация. Алгоритмы обработки и анализа символов вейвлетпреобразованием, методом главных компонент и нейронными сетями
Скачать 3.2 Mb.
|
Начертание Размер шрифта ABBY FineReader 11 (%) Tesseract OCR (%) Предложенный алгоритм (%) Обычное 14 99,87 99,62 90,89 16 100 99,62 93,36 18 100 99,43 92,98 20 99,94 99,43 91,78 22 100 99,49 92,60 24 100 99,56 92,54 26 100 99,56 96,02 28 99,87 99,43 96,71 36 99,87 99,43 96,02 Полужирное 14 100 99,43 96,71 16 100 99,49 95,57 18 100 99,49 96,46 20 100 99,62 96,77 22 100 99,49 97,52 24 100 99,49 97,79 26 100 99,49 97,72 28 100 99,49 97,41 36 100 99,62 98,17 117 Наибольшее количество ошибок, возникающих при распознавании разработанным алгоритмом фрагментов печатных текстов шрифта Times New Roman, наблюдается для таких пар символов, как 1 и l, t и f, r и f, h и b, n и H и неразделенных букв rn, rm, rt, ry, fi, fo, fa, fu и ffi. На рис. 4.13 представлены усредненные результаты распознавания фрагментов печатных текстов. Результаты распознавания фрагментов текста шрифта Times New Roman в обычном и полужирном начертаниях представлены на рис. 4.13 столбцами 1 и 2. Результаты распознавания фрагментов текста шрифта Arial в обычном и полужирном начертаниях представлены на рис. 4.13 столбцами 3 и 4. Рисунок 4.13. Сравнение результатов распознавания фрагментов печатных текстов Следует отметить, что для шрифта Arial результаты распознавания разработанным алгоритмом лучше, чем для шрифта Times New Roman. Это объясняется тем, что шрифт Times New Roman является шрифтом с засечками, из-за которых количество неразделенных букв (rn, rm, rt, ry, fi, fo, fa, fu и ffi) для шрифта Times New Roman больше, чем количество неразделенных букв (rt, rf, ff и ry) для шрифта Arial. Показано, что средняя точность распознавания, достигнутая системой ABBY FineReader 11, составляет 99,95–100%, точность распознавания системой Tesseract OCR составляет 99,51–99,99%, а точность распознавания разработанным алгоритмом составляет 93,65–99,21%. 90 95 100 Т очн ост ь, % 1 2 3 4 FineReader Tesseract Разработанный алгоритм 118 4.4 Основные результаты и выводы по главе 4 В данной главе проведено тестирование разработанного алгоритма при распознавании рукописных цифр базы MNIST. Численные эксперименты показали, что при использовании вектора из 49 признаков получен наилучший результат распознавания – 97,5% без учета второго предположения и 99% – с учетом второго предположения. Результаты экспериментов также показали, что разработанный алгоритм позволяет распознавать рукописные цифры в присутствии шума на изображениях. Следует отметить, что точность распознавания существенно уменьшается, когда уровень шума на изображениях превышает 20%. В данной главе проведено тестирование разработанного алгоритма на задаче распознавания печатных символов, набранных 8 разными шрифтами. Экспериментальные результаты показывают, что разработанный алгоритм, обученный только символами двух шрифтов, может распознавать символы других шрифтов. Результаты распознавания символов, представленных шрифтами без засечек, лучше и устойчивее, чем результаты распознавания шрифтов с засечками. Результаты распознавания с учетом второго предположения всегда превосходят результаты распознавания без его учета. Наилучший результат распознавания для большинства шрифтов получен при использовании вектора из 27 признаков. Показано, что разработанный алгоритм также способен эффективно распознавать печатные символы разных шрифтов в присутствии шума на изображениях. Также проведено тестирование разработанного алгоритма при распознавании фрагментов печатных текстов. Результаты численных экспериментов показывают, что средняя точность распознавания фрагментов печатных текстов, достигнутая разработанным алгоритмом, составляет 93,65–99,21%. 119 ЗАКЛЮЧЕНИЕ В результате выполнения диссертационной работы были получены следующие основные научные и практические результаты и сделаны следующие выводы: 1. Разработан новый способ построения классификатора для распознавания символов на основе нейронных сетей, отличающийся от других тем, что каждая нейронная сеть соответствует только одному символу обучающей выборки. 2. Разработан оригинальный алгоритм распознавания символов, основанный на вейвлет-преобразовании, методе главных компонент и нейронных сетях. 3. Создан новый алгоритм распознавания фрагментов печатных текстов, основанный на разработанном алгоритме распознавания символов и способе выделения символов из фрагмента текста. 4. Создано программное обеспечение, которое используется для распознавания рукописных цифр, печатных символов и фрагментов печатных текстов. 120 ОБОЗНАЧЕНИЯ n I n-ое изображение. n I Вектор, который представляет n-ое изображение. ср I Вектор, который представляет «среднее» изображение. n Ф Вектор, который представляет вычитание векторов n-ого изображения и «среднего» изображения. k u Собственные векторы ковариационной матрицы. k Собственные значения ковариационной матрицы. C Ковариационная матрица. вх I Входное изображение. вх I Одномерный вектор, который представляет входное изображение. i w Коэффициенты разложения по собственным символам. T Вектор, описывающий вклад каждого собственного известного символа в представление входного изображения символа. 121 СПИСОК СОКРАЩЕНИЙ ИВП Иерархическая временная память. МГК Метод главных компонент. ПО Программное обеспечение. AHC Аglomerative Нierarchical Сlustering. CAMShift Continuously Adaptive Mean Shift. CCA Connected Component Analysis. CFNN Cascaded Forward Neural Network. FFNN Feed Forward Neural Network. Greedy Жадный алгоритм кластеризации. KAM Kernel Associative Memory. kNN K-Nearest Neighbor. LDA Linear Discriminant Analysis. LDP Locally Discriminating Projection. LPP Locality Preserving Projection. MTC Мaximum temporal connection. OCR Optical Character Recognition. PA Projection Analysis. SVM Support Vector Machines. WKLDP Wavelet based Kernel Locally Discriminating Projection. WSP White Space and Pitch. 122 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 1. CuneiForm [Электронный ресурс]. – Режим доступа: http://cognitiveforms.ru/products/cuneiform/. Дата обращения: 30.11.2013. 2. FineReader 11 [Электронный ресурс]. – Режим доступа: http://www.abbyy.ru/finereader-professional/. Дата обращения: 30.11.2013 3. Афонасенко, А.В. Обзор методов распознавания структурированных символов / А.В. Афонасенко, А.И. Елизаров // Доклады ТУСУРа, – июнь 2008. – Vol. 18. – № 2. – часть 1. – C. 83–88. 4. Болотова, Ю.А. Алгоритмы обработки и анализа изображений иерархической временной сетью: диссертация на соискание ученой степени кандидата наук 05.13.01 / Ю.А. Болотова. – Томск, 2013. – 162 с. 5. Буй, Т.Т.Ч. Алгоритмическое и программное обеспечение для классификации цифровых изображений с помощью вейвлет-пребразования Хаара и нейронных сетей. / Т.Т.Ч. Буй, Н.Х. Фан, В.Г. Спицын // Известия Томского политехнического университета. – Томск: ТПУ, 2011. – T. 319. – № 5. – С. 103–106. 6. Буй, Т.Т.Ч. Разложение цифровых изображений с помощью двумерного дискретного вейвлет-преобразования и быстрого преобразования Хаара. / Т.Т.Ч. Буй, В.Г. Спицын // Известия Томского политехнического университета. – Томск: ТПУ, 2011. – T. 318. – № 5. – С. 73–76. 7. Буй, Т.Т.Ч. Распознавание лиц и жестов на основе применения вейвлет-преобразования и метода главных компонент. / Т.Т.Ч. Буй, Н.Х. Фан, В.Г. Спицын // Нелинейный мир. – Москва: Радиотехника, 2012. – Т. 10 – № 6. – С. 371–379. 8. Буй, Т.Т.Ч. Распознавание лиц на основе применения метода Виолы–Джонса, вейвлет-преобразования и метода главных компонент. / Т.Т.Ч. Буй, Н.Х. Фан, В.Г. Спицын // Известия Томского политехнического университета. – Томск: ТПУ, 2012. – T. 320. – № 5. – С. 54–59. 9. Гайдуков, Н.П. Обзор методов распознавания рукописного 123 текста / Н.П. Гайдуков, Е.О. Савкова // Международная научно-техническая конференция студентов, аспирантов и молодых учѐных «Информационно- управляющие системы и компьютерный мониторинг» – 2012. [Электронные ресурсы] / Н.П. Гайдуков, Е.О. Савкова. – Режим доступа: http://masters.donntu.edu.ua/2012/fknt/gaydukov/library/5_gaydukov.pdf. Дата обращения: 01.09.2012. 10. Гонсалес, Р. Цифровая обработка изображений. / Р. Гонсалес, Р. Вудс. – М.: Техносфера, 2005. – 1072 c. 11. Лукьяница, А.А. Цифровая обработка видеоизображений. / А.А. Лукьяница, А.Г. Шишкин. – М.: Ай-Эс-Эс Пресс, 2009. – 518 c. 12. Переберин, А.В. Многомасштабные методы синтеза и анализа изображений: диссертация на соискание ученой степени кандидата физико- математических наук 05.13.11 / А.В. Переберин. – Москва: Институт прикладной математики им. М.В. Келдыша. – 2002. 138 с. 13. Столниц Э., ДеРоуз Т., Салезин Д. Вейвлеты в компьютерной графике: Пер. с англ.– Ижевск: НИЦ «Регулярная и хаотическая динамика», 2002. – 272 с. 14. Фан, Н.Х. Алгоритмы для классификации отпечатков пальцев на основе применения фильтра Габора, вейвлет-преобразования и многослойной нейронной сети / Н.Х. Фан, В.Г. Спицын // Известия Томского политехнического университета. – Томск: ТПУ, 2012. – T. 320. – № 5. – С. 60–64. 15. Фан, Н.Х. Распознавание жестов на видеопоследовательности в режиме реального времени на основе применения метода Виолы-Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент. / Н.Х. Фан, Т.Т.Ч. Буй, В.Г. Спицын // Вестник Томского государственного университета. – Томск: ТГУ, 2013. – Т. 23. – № 2. – С. 102–111. 16. Фан, Н.Х. Распознавание печатных текстов на основе применения вейвлет-преобразования и метода главных компонент. / Н.Х. Фан, Т.Т.Ч. Буй, В.Г. Спицын // Известия Томского политехнического 124 университета. – Томск: ТПУ, 2012. – T. 321. – № 5. – С. 154–158. 17. Филитович, А.Ю. Распознавание текста: OCR системы [Электронные ресурсы] / А.Ю. Филитович. – Режим доступа: http://it- claim.ru/Education/Course/Lingvistika/Lecture/Lecture11.pdf. Дата обращения: 01.09.2012. 18. Шокуров, А.В. Оптимальное использование вейвлет-компонент. / А.В. Шокуров, А.В. Михалев // Успехи математических наук. – 2007. – Т. 62. – № 4. – С. 171–172. 19. Accord.NET Framework [Электронный ресурс]. – Режим доступа: http://code.google.com/p/accord/downloads/list. Дата обращения: 01.03.2012. 20. AForge.NET Framework [Электронный ресурс]. – Режим доступа: http://code.google.com/p/aforge/. Дата обращения: 01.03.2012. 21. OpenCV Library [Электронный ресурс]. – Режим доступа: http://opencv.org/downloads.html. Дата обращения: 01.03.2012. 22. AT&T (Olivetti) Research Laboratories, Cambridge. ORL face databases [Электронный ресурс]. – Режим доступа: http://www.uk.research.att.com/pub/data/orl_faces.zip. Дата обращения: 07.09.2012. 23. Tesseract OCR [Электронный ресурс]. – Режим доступа: https://code.google.com/p/tesseract-ocr/. Дата обращения: 01.03.2012 24. Yale University, Yale face database: [Электронный ресурс]. – Режим доступа: http://cvc.yale.edu/projects/yalefaces/yalefaces.html. Дата обращения: 07.09.2012. 25. Annadurai, S. Wavelet Based Enhanced Color Image Compression Relying on Sub-Band Vector Quantization / S. Annadurai, Sundaresan M. // ICGST-GVIP Journal, – 2009. – Vol. 1. – P. 9–16. 26. Arfan Jaffar, M. Wavelet-Based Color Image Segmentation using Self-Organizing Map Neural Network / M.Arfan Jaffar, M. Ishtiaq, A. Hussain, A.M. Mirza // 2009 International Conference on Computer Engineering and Applications IPCSIT – IACSIT Press, Singapore, – 2011 – Vol. 2. – P. 403– 434. 125 27. Arivazhagan, S. Texture classification using wavelet transform. / Arivazhagan, S., Ganesan, L. // Pattern Recognition Letter, – 2003. – Vol. 24. – P. 1513–1521. 28. Aujol, J.-F. Wavelet-Based Level Set Evolution for Classification of Textured Images / J.-F. Aujol, G. Aubert, L. Blanc-Feraud // IEEE Transactions on Image Processing, – 2003. – Vol. 12. – № 12. – P. 1634–1641. 29. Baek, K. PCA vs. ICA: A Comparison on the FERET Data Set. / K. Baek, B.A. Draper, J.R. Beveridge, K. She // Proceedings of the 6th Joint Conference on Information Science (JCIS), – 2002, – P. 824–827. 30. Banham, M.R. Spatially adaptive wavelet-based multiscale image restoration. / M.R. Banham, A.K. Katsaggelos // IEEE Trans. ImageProc. – 1996, – Vol. 5 – P. 619–634. 31. Belhumeur, P. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection. / P. Belhumeur, J. Hespanha, D. Kriegman // IEEE Transactions on Pattern Analysis and Machine Intelligence, – 1997 – Vol.19 – № 7 – P. 771–720. 32. Buccigrossi, R.W. Image compression via joint statistical characterization in the wavelet domain. / R.W. Buccigrossi, E.P. Simoncelli // IEEE Transaction on Image Processing, – 1999. – Vol. 8. – No. 12. 33. Bunke, H. Handbook of Character Recognition and Document Image Analysis / H. Bunke, P.S.P. Wang – World Scientific, USA, 1992. – 883 p. 34. Chang, S.G. Spatially adaptive wavelet thresholding with context modeling for image denoising. / S. G. Chang, B. Yu, M. Vetterli // IEEE Transaction on Image Processing, – Sep 20009. – Vol. 9. – P. 1522–1531. 35. Chang, T. Texture analysis and classification with tree-structured wavelet transform. / T. Chang, K. Jay // IEEE Trans. Image Process. – 1993. Vol. 2 – № 4. – P. 429–440. 36. Chen, C.H. Image Segmentation Using Multiresolution Wavelet Analysis and Expectation-Maximization (EM) / C.H. Chen, G.G. Lee // Algorithm for Digital Mammography, Wiley, – 1997. 126 37. Chen, Y.-L. Color Image Segmentation Using Wavelet Transform Techniques. / Y.-L. Chen// 16th IPPR Conference on Computer Vision, Graphics and Image Processing, – 2003. – P.669–675. 38. Cheriet, M. Character Recognition Systems A Guide for Students and Practioners / M. Cheriet, N. Kharma, C.-L. Liu, C.Y. Suen – Wiley, Canada, 2007. – 327 p. 39. Choudhary, D. Performance Analysis of Texture Image Classification Using Wavelet Feature / D. Choudhary, A.K. Singh, S. Tiwari, V.P. Shukla // International Journal of Image, Graphics and Signal Processing. – 2013. – Vol. 1. – P. 58–63. 40. Christensen, O. Approximation Theory, From Taylor Polynomials to Wavelets. / O. Christensen, – Birkhäuser, Boston, – 2004. 41. Chuang, G. Wavelet descriptor of planar curves: Theory and applications. / G. Chuang, C.-H. Kuo // IEEE Transaction on Image Processing, – 1996. – Vol. 5. – P. 56–70. 42. Cope, G. Optical Character Recognition using PCA [Электронные ресурсы] / G. Cope – Режим доступа: http://www.algosome.com/articles/optical- character-recognition-java.html. Дата обращения: 01.12.2013. 43. Daniel, M.R.S. ANN and SVM Based War Scene Classification using Wavelet Features: A Comparative Study / M.R.S. Daniel, A. Shanmugam // Journal of Computational Information Systems. – 2011. – P. 1402–1411. 44. Daubechies, I. Orthonormal bases of compactly supported wavelets, / I. Daubechies // CPAM, – 1998. Vol. 41 – P. 909 – 996. 45. DeVore, R. Image Compression through Wavelet Transform Coding. / R. DeVore, B. Jawerth, B. Lucier // IEEE Transactions on Information Theory, – March 1992. – Vol. 38. – P. 719–746. 46. Duda, R.O. Use of the Hough transformation to detect lines and curves in pictures. / R.O. Duda, P.E. Hart // Communications of ACM, – 1972. – Vol. 4. – № 1. – P. 11–15. 47. Fan, G. Image denoising using local contextual hidden Markov model 127 in the wavelet domain. / G. Fan, X.-G. Xia // IEEE Signal Processing Letter May – 2001. – Vol. 8. – № 5. – P. 125–128. 48. Fujisawa, H. Directional Pattern Matching for Character Recognition revisited / H. Fujisawa, C.-L. Liu // Proceedings of the 7th International Conference on Document Analysis and Recognition. – Edinburgh, Scotland, 2003. – P. 794–798. 49. Fukunaga, K. Introduction to Statistical Pattern Recognition, 2nd edition / K. Fukunaga – Academic Press, New York, 1990. – 591 p. 50. George, L.E. Image Compression Based on Wavelet, Polynomial and Quadtree. / L.E. George, B. Sultan // Journal of Applied Computer Science and Mathematics, – 2011. Vol. 11. – № 5. – P. 15–20. 51. Gonzalez, A.C. Histograms, Wavelets and Neural Networks Applied to Image Retrieval / A.C. Gonzalez, J.H. Sossa, E.M.F. Riveron, O. Pogrebnyak // Proceedings of the 5th Mexican international conference on Artificial Intelligence: Lecture Notes in Computer Science. – 2006. – Vol. 4293. – P. 820–827. 52. Grossmann, A. Decomposition of Hardy functions into square integrable wavelets of constant shape. / A. Grossmann, J. Morlet // SIAM Journal of Analysis, – 1984. – Vol. 15 – P. 723–736. 53. Gumus, E. Evaluation of face recognition techniques using PCA, wavelets and SVM / E. Gumus, N. Kilic, A. Sertbas, O.N. Ucan // Expert Systems with Applications. – 2010. – Vol. 37. – P. 6404–6408. 54. |