Применение нейронных сетей для задач распознавания образов. Применение нейронных сетей для задач распознавания образов
Скачать 146.89 Kb.
|
РЕФЕРАТ по «Введению в профессиональную деятельность» на тему: «Применение нейронных сетей для задач распознавания образов»
Москва, 2021 г ОГЛАВЛЕНИЕВВЕДЕНИЕ 2 1 ОСНОВНЫЕ КЛАССЫ РЕШАЕМЫХ ЗАДАЧ В РАСПОЗНАВАНИИ ОБРАЗОВ 5 1.1 Поиск изображения в больших базах данных 5 1.2 Задача контроля доступа 6 1.3 Задача контроля фотографии в документах 7 2 Нейросетевые методы распознавания человека по изображению лица 8 2.1 Архитектура нейронных сетей 8 2.2. Разделение пространства признаков на области и 12 извлечение ключевых признаков 12 ЗАКЛЮЧЕНИЕ 13 СПИСОК ЛИТЕРАТУРЫ 15 ВВЕДЕНИЕВ настоящее время всё более широкое распространение получают биометрические системы идентификации человека. Традиционные системы идентификации требуют знания пароля, наличия ключа, идентификационной карточки либо иного идентифицирующего документа, который можно забыть, потерять или подделать. В отличие от них биометрические системы основываются на уникальных биологических характеристиках человека, которые трудно подделать и которые однозначно определяют конкретного человека. К таким характеристикам относятся отпечатки пальцев, форма ладони, узор радужной оболочки, изображение сетчатки глаза. Лицо, голос и запах каждого человека также индивидуальны. Распознавание человека по изображению лица выделяется среди биометрических систем тем, что, во-первых, не требует специального дорогостоящего оборудования. Для большинства приложений достаточно персонального компьютера и обычной видеокамеры. Во-вторых, отсутствует физический контакт человека с устройствами. Не надо ни к чему прикасаться или специально останавливаться и ждать срабатывания системы. В большинстве случаев достаточно просто пройти мимо или задержаться перед камерой на несколько секунд. К недостаткам распознавания человека по изображению лица следует отнести то, что сама по себе такая система не обеспечивает 100%-ной надёжности идентификации. Там, где требуется высокая надёжность, применяют комбинирование нескольких биометрических методов. На данный момент проблеме распознавания человека по изображению лица посвящено множество работ, однако в целом она ещё далека от разрешения. Основные трудности состоят в том, чтобы распознать человека по изображению лица независимо от изменения ракурса и условий освещённости при съёмке, а также при различных изменениях, связанных с возрастом, причёской и т.д. Распознавание изображений пересекается с распознаванием образов. Такие задачи не имеют точного аналитического решения. При этом требуется выделение ключевых признаков, характеризующих зрительный образ, определение относительной важности признаков путём выбора их весовых коэффициентов и учёт взаимосвязей между признаками. Изначально эти задачи выполнялись человеком-экспертом вручную, путём экспериментов, что занимало много времени и не гарантировало качества. В новых методах выделение ключевых признаков осуществляется путём автоматического анализа обучающей выборки, но тем не менее большая часть информации о признаках задаётся вручную. Для автоматического применения таких анализаторов выборка должна быть достаточно большой и охватывать все возможные ситуации (например, изменения ракурса, внешности, условий освещённости и т.п.). Нейросетевые методы предлагают иной подход к решению задачи распознавания образов. Архитектура и функционирование нейронных сетей (НС) имеют биологические прообразы. Веса в нейронной сети не вычисляются путём решения аналитических уравнений, а подстраиваются различными локальными методами (например, разновидностями градиентного спуска) при обучении. Обучаются нейронные сети на наборе обучающих примеров. В процессе обучения НС происходит автоматическое извлечение ключевых признаков, определение их важности и построение взаимосвязей между ними. Обученная НС может успешно применять опыт, полученный в процессе обучения, на неизвестные образы за счёт хороших обобщающих способностей. Таким образом, применение нейронных сетей для задачи распознавания человека по изображению лица является перспективным направлением, на что и направлено основное внимание препринта. 1 ОСНОВНЫЕ КЛАССЫ РЕШАЕМЫХ ЗАДАЧ В РАСПОЗНАВАНИИ ОБРАЗОВ1.1 Поиск изображения в больших базах данныхЗадачи распознавания человека по изображению лица делятся на три больших класса: поиск в больших базах данных, контроль доступа и контроль фотографий в документах. Они различаются как по требованиям, предоставляемым к системам распознавания, так и по способам решения, и поэтому представляют собой отдельные классы. Различны и требования, предъявляемые к ошибкам первого и второго рода для таких классов. Ошибкой первого рода называется ситуация, когда объект заданного класса не распознаётся (пропускается) системой. Ошибка второго рода происходит, когда объект заданного класса принимается за объект другого класса. Следует также отметить различие понятий верификации и распознавания (идентификации). В задаче верификации неизвестный объект заявляет, что он принадлежит к некоторому, известному системе классу. Система подтверждает или опровергает это заявление. В системах верификации ошибкой первого рода является ситуация, когда объект, принадлежащий к известным системе, классам, принимается за объект, относящийся к неизвестным системе классам, и в доступе ему отказывают. Ошибка второго рода совершается, когда объект неизвестного класса принимается за объект, относящийся к известным системе, классам, и ему разрешается доступ. При распознавании требуется отнести объект к одному из n известных классов или выдать заключение о том, что этот объект не относится к известным классам. Сравнение типа «один со многими». Высокие требования к ошибке первого рода – система распознавания должна находить изображения, соответствующие данному человеку, по возможности, не пропустив ни одного такого изображения. При этом допустимо, если в результирующей выборке будет присутствовать небольшое число других людей. Обычно в большой базе данных (104-107 изображений) требуется найти изображения, наиболее похожие на заданное. Поиск должен быть произведён за разумное время. Одно из решений состоит в хранении в базе данных небольших наборов заранее извлечённых ключевых признаков, максимально характеризующих изображение. При этом требования к точности не столь критичны, как в задачах контроля доступа и документного контроля. К данному классу прежде всего относится метод главных компонент (метод «собственных лиц»). Коэффициенты, полученные разложением входного изображения на главные компоненты, использовались для сравнения изображений путём вычисления Евклидова расстояния, а в более совершенных методах – на основе метрики Махаланобиса с использованием Гауссовского распределения. 1.2 Задача контроля доступаСравнение типа «один с несколькими». Критическими являются требования к ошибкам второго рода. Система распознавания не должна распознавать незнакомых людей как знакомых, возможно даже за счёт увеличения ошибок первого рода (отказов в доступе знакомым людям). Имеется небольшая группа лиц (5-50 человек), которых система должна распознавать по изображению лица и открывать им доступ в некоторое помещение. Людей, не входящих в эту группу, система не должна пропускать. Возможны варианты, когда требуется установить конкретную личность по изображению лица. При этом от системы требуется высокая достоверность распознавания, возможно даже за счёт увеличения числа отказов на знакомые объекты. В качестве тренировочных изображений обычно для каждого человека доступны несколько изображений лица, полученных при различных условиях. Это могут быть, например, изменения ракурса, условий освещённости, причёски, мимики, наличие или отсутствие очков и т.п. Система должна работать в реальном масштабе времени, а процесс настройки может занимать больше времени и выполняться предварительно. В процессе эксплуатации система должна дообучаться на вновь поступающих изображениях по возможности быстрее. Ограничений на применяемые методы здесь нет, но все методы сходятся в том, что имеется обучающий набор изображений лиц заданной группы людей (возможно при различных условиях съёмки). К этому набору система обращается в процессе распознавания или настраивается на него в процессе обучения. Одним из распространённых подходов к решению такой задачи является использование нейронных сетей, которые после обучения обладают хорошей обобщающей способностью, что будет подробнее описано ниже. 1.3 Задача контроля фотографии в документахСравнение типа «один с одним». Требуется сравнить изображение лица человека, полученное в данный момент, с фотографией из какого-либо документа. Системе надо ответить, принадлежат ли эти лица одному человеку или нет. Данный класс задач наиболее сложен, поскольку, во-первых, система никогда раньше не сталкивалась с изображением лица данного человека. Система сравнивает всегда отличающиеся изображения, учёт всех возможных различий в процессе обучения или настройки системы затруднителен. Во-вторых, здесь большое влияние оказывают возрастные и другие изменения лица. В-третьих, качество и контраст отсканированной фотографии, как правило, хуже, чем изображение лица, снятого камерой. Большинство методов для данного класса задач неприменимы без специальной адаптации. В обозреваемой литературе нет работ, напрямую связанных с применением нейросетевых методов для решения данного класса задач. Для этого можно предложить применение НС для извлечения ключевых признаков изображений и адаптацию НС для сравнения двух изображений. 2 Нейросетевые методы распознавания человека по изображению лица2.1 Архитектура нейронных сетейНейросетевые методы, основанные на применении различных типов искусственных нейронных сетей (ИНС, в дальнейшем просто нейронные сети, НС), в последнее время получили широкое распространение. Основные задачи, решаемые при помощи нейронных сетей: Разбиение пространства признаков на области, соответствующие Классам (классификация, распознавание, кластеризация). Извлечение ключевых характеристик, сжатие и реконструкция образов. Аппроксимация функции многих переменных с любой заданной точностью. Прогнозирование временных рядов. Ассоциативная память. Решение оптимизационно-комбинаторных задач. Топологически упорядоченное преобразование пространства. Распознавание с учётом топологии пространства. Большинство из этих задач прямо или косвенно связаны с распознаванием изображений. Основные преимущества, которыми обладают нейронные сети, следующие. Настройка нейронной сети для решения определённой задачи производится в процессе обучения на наборе тренировочных примеров. Таким образом, не требуется вручную определять параметры модели (выбирать ключевые признаки, учитывать их взаимоотношение и т.п.) – НС извлекает параметры модели автоматически наилучшим образом в процессе обучения. Остаётся только построить тренировочную выборку. В задачах классификации при этом происходит неявное выделение ключевых признаков внутри сети, определение значимости признаков и системы взаимоотношений между ними. В настоящее время разработаны мощные, гибкие и универсальные механизмы обучения различных типов НС. Кроме того, архитектура НС и процедуры обучения позволяют выполнить гибкую настройку на конкретную решаемую задачу. Для большинства НС процедура обучения является эвристическим алгоритмом, что, с одной стороны, обеспечивает приемлемость получаемых решений, а с другой стороны, не требует непомерных вычислительных ресурсов. Нейронные сети обладают хорошей обобщающей способностью. Это значит, что опыт, полученный в процессе обучения на конечном наборе образов, НС может успешно распространять на всё множество образов. Кроме интерполяционных обобщающих способностей, НС (многослойные персептроны, например) могут хорошо экстраполировать, т.е. применять свой опыт на качественно иные образы, чем те, которые встречались в обобщающей выборке. НС принимает тренировочный набор «как есть» и учится производить правдоподобное решение, не претендуя на абсолютную истину, т.е. строится наилучшая нефизическая модель, которая не является максимально точным соответствием реального процесса, но даёт приемлемую его аппроксимацию. Имеется ряд примеров, когда нейронные сети показывали себя лучше статистических методов. Кроме того, в статистике не имеется аналогов некоторых нейросетевых методов, таких, например, как карты Кохонена, машина Больцмана и, что важно для распознавания изображений, когнитрон. Естественным образом архитектура НС реализуется на параллельных вычислительных средствах: специализированных микросхемах, оптических и квантовых компьютерах. Это открывает широкие перспективы применения НС в будущем. НС характеризуется нечётким и распределённым хранением информации, т.е. нет отдельного нейрона, отвечающего за какое-либо понятие или признак, и удаление или искажение работы этого нейрона неприведёт к фатальным последствиям. Но несмотря на все достоинства, применение НС к изображениям требует специальных усилий. Это связано в первую очередь со сложным характером изображений, особенно изображений трёхмерных объектов реального мира, какими и являются лица людей. Изображение должно быть приведено к некоторым стандартным условиям. Кроме того, выбор начального представления изображения (это могут быть, например, частотные коэффициенты, главные компоненты, вейвлетные коэффициенты, моменты и т.п.) является отдельной обширной темой. Двумерный характер изображения, изменение условий освещённости, топологические искажения изображения при смене ракурса и прочих воздействиях не позволяют ограничиться простейшими архитектурами НС для достижения оптимального результата. Кроме различных способов применения нейронных сетей к распознаванию человека по изображению лица, существует множество работ, посвящённых применению нейронных сетей к распознаванию и обработке изображений других видов объектов. Большинство нейронных сетей состоят из формальных нейронов (рис. 1). Формальный нейрон моделирует некоторые свойства биологического нейрона. Набор связанных формальных нейронов представляет собой искусственную нейронную сеть. Искусственные нейронные сети способны выполнять любые логические операции и вообще любые преобразования, реализуемые дискретными устройствами с конечной памятью (другой вопрос в том, как настроить веса такой сети). Нейроны в естественных нейронных сетях намного сложнее, их функционирование является сложным процессом, протяжённым во времени. Кроме того, существует мнение, что мозг обладает квантовой структурой, а процесс мышления основан на квантовых эффектах. Рис. 1. Формальный нейрон Мозг человека состоит из 10 триллионов нейронов, связанных между собой 1014 синапсами. Такие вычислительные мощности современной вычислительной технике пока недоступны. Структура мозга определена генетически от рождения, а связи между нейронами развиваются и модифицируются на протяжении всей жизни, т.е. свой интеллектуальный опыт человек получает в процессе обучения. Это говорит о перспективности развития искусственных нейронных сетей. По характеру связей нейронные сети могут быть полносвязными, когда каждый нейрон связан со всеми остальными, и слоистыми, когда нейроны последующего слоя связаны только со всеми нейронами предыдущего слоя. Эти две архитектуры являются базовыми, но возможны и различные вариации. По характеру функционирования нейронные сети могут быть однопроходными, когда выход сети рассчитывается за один проход сети, и релаксационными, когда функционирование сети продолжается до достижения стабильного состояния, это состояние и является результатом работы. По характеру формирования связей нейронные сети могут быть следующих видов: Обучение с учителем. Связи настраиваются в процессе обучения, причём эталонные значения результатов работы известны. Самообучение (обучение без учителя). Эталонные результаты неизвестны (не нужны), сеть в процессе обучения должна организовать входные образы на основе их подобия. Фиксированные связи. Определяются характером решаемой задачи (например, в оптимизационных задачах). 2.2. Разделение пространства признаков на области иизвлечение ключевых признаковДля решения данных задач предназначены многослойные нейронные сети, нейронные сети высокого порядка и радиально-базисные нейронные сети. Поскольку такие сети оперируют в исходном пространстве изображений (признаков), то для них является критическим требование предобработки изображения. Это приведение изображения к стандартному виду (положение, масштаб, ориентация, выравнивание яркости), снижение размерности данных, выбор ключевых характеристик. Следующим следствием оперирования в исходном пространстве является невозможность учёта искажения изображения (например, при изменении ракурса, эмоций), и поэтому тренировочная выборка должна содержать репрезентативный набор примеров, представляющих собой наборы изображений объектов в том диапазоне ракурсов и условий освещения, в которых планируется применение системы распознавания. ЗАКЛЮЧЕНИЕРаспознавание - самая распространенная задача, которую человеку приходится решать практически ежесекундно от первого до последнего дня своего существования. Для этого он использует огромные ресурсы своего мозга, которые мы оцениваем таким показателем как число нейронов, равное 1010. Можно даже не утруждая себя примерами заметить, что похожие действия наблюдаются в биологии, в живой природе, а иногда даже в неживой. Кроме того, распознавание постоянно встречается в технике. А если это так, то, очевидно, следует считать механизм распознавания всеобъемлющим. С более общих позиций можно утверждать, и это вполне очевидно, что в повседневной деятельности человек постоянно сталкивается с задачами, связанными с принятием решений, обусловленных непрерывно меняющейся окружающей обстановкой. В этом процессе принимают участие: органы чувств, с помощью которых человек воспринимает информацию извне; центральная нервная система, осуществляющая отбор, переработку информации и принятие решений; двигательные органы, реализующие принятое решение. Но в основе решений этих задач лежит, в чем легко убедиться, распознавание образов. В своей практике люди решают разнообразные задачи по классификации и распознаванию объектов, явлений и ситуаций (мгновенно узнают друг друга, с большой скоростью читают печатные и рукописные тексты, безошибочно водят автомобили в сложном потоке уличного движения, осуществляют отбраковку деталей на конвейере, разгадывают коды, древнюю египетскую клинопись и т.д.). Вычисления в сетях формальных нейронов, во многом напоминают обработку информации мозгом. В последнее десятилетие нейрокомпьютинг приобрел чрезвычайную популярность на Западе, где он уже успел превратиться в инженерную дисциплину, тесно связанную с производством коммерческих продуктов. Ежегодно выходят десятки книг, посвященных практическим аспектам нейрокомпьютинга. Интенсивно ведутся работы по созданию новой – аналоговой элементной базы для нейровычислений. СПИСОК ЛИТЕРАТУРЫ1. Головко В.А. Нейроинтеллект: Теория и применения. Книга 1. Организация и обучение нейронных сетей с прямыми и обратными связями – Брест:БПИ, 1999, - 260с. 2. Головко В.А. Нейроинтеллект: Теория и применения. Книга 2. Самоорганизация, отказоустойчивость и применение нейронных сетей – Брест:БПИ, 1999, - 228с. 3. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика, 1992 – 184с. 4. Petrou M. Learning in Pattern Recognition. Lecture Notes in Artificial Intelligence – Machine Learning and Data Mining in Pattern Recognition, 1999, pp. 1-12. 5. Jacobsen X., Zscherpel U. and Perner P. A Comparison between Neural Networks and Decision Trees. Lecture Notes in Artificial Intelligence – Machine Learning and Data Mining in Pattern Recognition, 1999, pp. 144-158. 6. Valentin D., Abdi H., O'Toole A. J. and Cottrell G. W. Connectionist models of face processing: a survey. IN: Pattern Recognition 1994, Vol. 27, pp. 1209-1230. 7. Aizenberg I. N., Aizenberg N. N. and Krivosheev G.A. Multi-valued and Universal Binary Neurons: Learning Algorithms, Applications to Image Processing and Recognition. Lecture Notes in Artificial Intelligence – Machine Learning and Data Mining in Pattern Recognition, 1999, pp. 21-35. 8. Yoon K. S., Ham Y. K. and Park R.-H. Hybrid approaches to frontal view face recognition using the Hidden Markov Model and Neural Network. PatternRecognition 1998 Vol. 31, pp. 283-293. 9. Ranganath S. and Arun K. Face recognition using transform features and neural networks. Pattern Recognition 1997, Vol. 30, pp. 1615-1622. 10. Lawrence S., Giles C. L., Tsoi A. C. and Back A. D. Face Recognition: A Convolutional Neural Network Approach. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, pp. 1-24. 11. Rowley H. A., Baluja S. and Kanade T. Neural Network-Based Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, Vol. 20, pp. 23-37. 12. Foltyniewicz R. Efficient High Order Neural Network for Rotation, Translation and Distance Invariant Recognition of Gray Scale Images. Lecture Notes in Computer Science – Computer Analysis of Images and Patterns, 1995, pp. 424-431. 13. Dai Y. and Nakano Y. Recognition of facial images with low resolution using a Hopfield memory model. Pattern Recognition 1998, Vol. 31, pp. 159-167. 14. Milanova M., Almeida P. E. M., Okamoto J. and Simoes M. G. Applications of Cellular Neural Networks for Shape from Shading Problem. Lecture Notes in Artificial Intelligence – Machine Learning and Data Mining in Pattern Recognition, 1999, pp. 51-63. |