Распознавание объектов в видеопотоке. видеопоток. Метод и алгоритмы поиска объекта в видеопотоке
Скачать 3.84 Mb.
|
1.3 Вероятностные методы Вероятностные методы воспринимают объект с изменяющимися признаками в последовательности кадров. Эти методы используют подход, основанный на понятии пространства состояний. Считается, что движущийся объект имеет определенное внутреннее состояние, которое измеряется на каждом кадре. В простейшем случае под состоянием понимается положение объекта на изображении. Чтобы оценить следующее состояние объекта, требуется максимально обобщить полученные измерения, т.е. определить новое состояние при условии, что получен набор измерений для состояний на предыдущих кадрах. Типичными примерами таких методов являются методы на базе фильтра Кальмана и фильтра частиц [38]. Фильтр Калмана применяют при известном начальном состоянии объекта на изображении, иными словами применяют для решения задачи сопровождения объекта. Задачу сопровождения можно рассматривать как хорошо изученную проблему теории управления, которая состоит в том, чтобы оценить состояние системы на основании последовательности зашумленных измерений. Алгоритм состоит из двух повторяющихся фаз: предсказание и корректировка. На первом рассчитывается предсказание состояния в следующий момент времени (с учетом неточности их измерения). На втором, новая информация с датчика корректирует предсказанное значение (также с учетом неточности и зашумленности этой информации) [39]. Фильтр Калмана имеет линейную вычислительную сложность [40] и применяется для предсказания, определения признаков объекта. Из полученных результатов в [8] можно сделать вывод, что применение фильтра Калмана позволяет увеличить скорость обработки и повышает устойчивость метода 32 обнаружения объекта в видеопотоке, при этом результаты обнаружения практически не изменяются по сравнению с итерационными алгоритмами нахождения центра местоположения объекта. Для некоторых практических задач, чтобы получить более точную оценку состояния системы, необходимо уйти от предположения, что шум имеет Гауссово распределение. В этом случае вводится понятие мультимодального распределения шума, а для моделирования подобных систем используются фильтры частиц. Фильтры частиц являются более общим подходом к решению задачи сопровождения с применением вероятностных методов. Мультимодальным распределением называется распределение, имеющее несколько мод или локальных максимумов. Мультимодальное распределение зачастую представляется смесью нескольких распределений. Алгоритм воспроизведения условной плотности (CONditional DENSity propAGATION, CONDENSATION) – базовый алгоритм фильтрации частиц, на основании которого строится большинство алгоритмов данной группы, применяемых в компьютерном зрении [54]. Таким образом, вероятностные методы слежения позволяют предсказывать состояние объекта на изображении, не сохраняя все данные о предыдущих состояниях; позволяют воспринимать объект с изменяющимися признаками в видеопоследовательности; устойчивы к зашумлению изображения, к изменению ряда характеристик изображения объекта: яркость, поворот, масштабирование. Вероятностные методы применяют на практике в качестве дополнительных методов для повышения устойчивости к изменению изображения объекта. 1.4 Нейросетевые методы В нейросетевых методах объект в видеопотоке может рассматриватьтся одновременно с изменяющимися и неизменяющимися признаками. В этих методах неотъемлимой частью является этап обучения нейронной сети. Обучать сеть необходимо под каждый тип задач. 33 1.4.1 Классическая нейронная сеть Основная идея, лежащая в основе нейронных сетей – это последовательное преобразование сигнала, параллельно работающими элементарными функциональными элементами, нейронами. Основной принцип настройки нейронной сети заключается в применении оптимизационных методов к минимизации среднеквадратичной ошибки, как следствие – склонность к переобучению. Главное преимущество нейронных сетей – гибкость. Геометрически, разделяющая классы поверхность представляет собой множество гиперплоскостей. Каждая из областей, на которые гиперплоскости разбивают пространство признаков X относится к одному из классов. Существует множество методов обучения нейросетей, однако все они сводятся к минимизации среднеквадратичной ошибки. Важно отметить, что найденный минимум, будет локальным. Также следует отметить, что верно классифицированные прецеденты не вносят никаких изменений в оптимизируемый функционал. Таким образом, найденная разделяющая поверхность не будет являться ни единственным, ни оптимальным решением. Системы распознавания объектов на изображениях основанные на нейронных сетях используют иерархическую архитектуру. Вначале вектор признаков обрабатывается грубой сетью с высоким уровнем ошибок второго рода, далее, если вектор не был классифицирован как не объект, решение корректируется более точной и более медленной сетью. В целом нейронные сети склонны к переобучению, хотя и существуют некоторые методы, которые в частном случае могут решить эту проблему. Устойчивость к шуму сильно зависит от конкретной архитектуры сети. В общем случае, нейросеть чувствительна к шуму. Вычислительная сложность квадратично зависит от числа нейронов в скрытом слое. Каждый нейрон требует вычисления функции активации. Для задач распознавания объектов на изображениях скорость обработки является недостаточной для применения в решении задач в реальной скорости потока данных [41]. 34 1.4.2 SNoW – разреженная просеивающая сеть SNoW (Sparse network of Winnows) – особый вид нейронной сети [6]. Вектор признаков полагается бинарным. Сеть состоит из двух (по числу возможных классов) линейных нейронов, связанных с компонентами вектора признаков. Классификация проходит по принципу победитель забирает всё. Геометрически, SNoW представляет собой две гиперплоскости в пространстве векторов признаков. Вектор относится к тому классу, соответствующая гиперплоскость которого ближе всего. Таким образом, результирующая разделяющая поверхность является гиперплоскостью в исходном пространстве X . Одно из достоинств данный архитектуры – возможность «прореживать» вектор признаков, на основе обучающей выборки – компоненты вектора, не несущие информации, отбрасываются. SNoW считается достаточно эффективным методом для решения задачи обнаружения объектов на изображениях. За счёт просеивания компонент вектора признаков достигается высокая скорость – сложность линейна относительно количества эффективных компонент вектора признаков [6]. Таким образом, нейронные сети имеют высокий процент распознавания объекта на изображении, низкий процент ложного распознавания, но необходимо учитывать, что нейронную сеть необходимо обучать под каждый тип задач. Методы поиска объекта с применением классических нейронных сетей имеют низкую скорость, в отличие от разреженных сетей. 1.5 Комбинированные методы Особенность комбинированных методв заключается в том, что они состоят из нескольких методов, комбинируя методы по наивысшим показателям разных критерий. Такие методы более устойчивы к шуму, к различным видам изскажений объекта. Комбинированные методы могут сочетать в себе детерминированные, вероятностные, нейросетевые методы. Комбинированные методы можно разбить на две группы: методы с учителем и методы без учителя. 35 1.5.1 Метод Виолы–Джонса Метод был разработан и представлен в 2001 году Полом Виолой и Майклом Джонсом [3]. Этот метод относится к методам с учителем. Этап обучения происходит очень медленно, но зато результаты поиска очень быстры. Метод Виолы–Джонса использует признаки Хаара. Быстрое вычисление признаков достигается при помощи интегрального представления изображения. Алгоритм бустинга используется для выбора признаков. Метод Виолы–Джонса использует подход на основе сканирующего окна (scanning window): сканируется изображение окном поиска (так называемое, окно сканирования), а затем применяется классификатор к каждому положению. Система обучения и выбора наиболее значимых признаков полностью автоматизирована и не требует вмешательства человека, поэтому данный подход работает быстро. Интегральное представление изображения Интегральное представление позволяет быстро рассчитывать суммарную яркость произвольного прямоугольника на данном изображении, причем время расчета не зависит от размеров прямоугольника. Интегральное представление изображения – это матрица, совпадающая по размерам с исходным изображением. В каждом элементе ее хранится сумма интенсивностей всех пикселей, находящихся левее и выше данного элемента. Элементы матрицы рассчитываются по следующей формуле: , 0, 0 , , , i x j y i j L x y I i j где I(i, j) – яркость пикселя исходного изображения. Каждый элемент матрицы L[x,y] представляет собой сумму пикселей в прямоугольнике от (0,0) до (x,y), т.е. значение каждого пикселя (x,y) равно сумме значений всех пикселов левее и выше данного пикселя (x,y). Расчет матрицы занимает линейное время, пропорциональное числу пикселей в изображении, поэтому интегральное изображение просчитывается за один проход. 36 Расчет матрицы производится по следующей формуле: , , 1, 1 , 1 1, L x y I x y L x y L x y L x y По интегральной матрице можно очень быстро вычислить сумму пикселей произвольного прямоугольника, произвольной площади. Признаки Хаара Признак – это отображение f: X => D f , где D f – множество допустимых значений признака. Если заданы признаки f 1 ,…,f n , то вектор признаков x = (f 1 (x),…,f n (x)) называется признаковым описанием объекта x ∈ X. Признаковые описания допустимо отождествлять с самими объектами. При этом множество X = D f1 * …* D fn называют признаковым пространством [42]. Признаки делятся на следующие типы в зависимости от множества D f : бинарный признак, D f = {0,1}; номинальный признак: D f – конечное множество; порядковый признак: D f – конечное упорядоченное множество; количественный признак: D f – множество действительных чисел. Для каждого типа задач необходимо подбирать признаки индивидуально – от этого зависит качество поиска. В стандартном методе Виолы – Джонса используются прямоугольные признаки (см. рисунок 1.10). Эти признаки называются примитивами Хаара. Рисунок 1.10 – Примитивы Хаара 37 Вычисляемым значением такого признака будет F = X–Y , где X – сумма значений яркостей точек закрываемых светлой частью признака, а Y – сумма значений яркостей точек закрываемых темной частью признака. Признаки Хаара дают точечное значение перепада яркости по оси X и Y соответственно [42]. Алгоритм бустинга Алгоритм бустинга был опубликован в 1996 и послужил основой для всех последующих исследований в данной области. На данный момент наиболее распространёнными вариантами базового алгоритма являются Gentle AdaBoost и Real AdaBoost, превосходящие базовый алгоритм по своим характеристикам, но сохраняют все основные принципы. К основным достоинствам AdaBoost и его вариантов можно отнести высокую скорость работы, высокую эффективность распознавания, простоту реализации, общность. Пусть требуется построить классифицирующую функцию : F X Y , где X – пространство векторов признаков, Y – пространство меток классов. Пусть в распоряжении имеется обучающая выборка (x 1 , y 1 ), ..., (x N , y N ). Где i x X вектор признаков, а i y Y метка класса, к которому принадлежит i x X . Далее будем рассматривать задачу с двумя классами, то есть Y = {–1; +1}. Также есть семейство простых классифицирующий функций : H X Y . Будем строить финальный классификатор в следующей форме: 0 , M m m m F x sign h x где , m m R h H . Построим итеративный процесс, где на каждом шаге будем добавлять новое слагаемое , m m m f h x вычисляя его с учётом работы уже построенной части классификатора. На каждом шаге для каждого примера (x i , y i ) из обучающей выборки вычисляется его вес: положим 0 1 D i N , тогда 38 1 exp , m i m i m i D i y f x D i Z где Z i – нормализующий коэффициент, такой что 1 1 1. N m i D i Вес каждого элемента обучающей выборки на текущем шаге задает «важность» этого примера для очередного шага обучения алгоритма. Чем больше вес, тем больше алгоритм будет «стараться» на данном шаге классифицировать этот пример правильно. Варьируем веса таким образом, чтобы классификатор, включенный в комитет на текущем шаге, «концентрировался» на примерах, с которыми предыдущие шаги «не справились». Таким образом, на каждом шаге работаем с какой–то частью данных, плохо классифицируемой предыдущими шагами, а в итоге комбинируем все промежуточные результаты. Очередной простой классификатор выбирается исходя из взвешенной с распределением D m ошибки. Выбирается m h H , минимизирующий взвешенную ошибку классификации: 1 N m m m i i i e D i h x y Далее вычисляется вклад текущего слагаемого классифицирующей функции: 1 log m m m e e Процесс продолжается до некоторого шага M, номер которого определяется вручную [43]. 1.5.2 Метод TLD Метод надёжного длительного сопровождения заранее неизвестных объектов в естественной среде. Метод выдерживает разрывы между кадрами, быстрое движение камеры, полное исчезновение, а затем появление объекта. Подход, который использован в данном методе называется Сопровождение– Моделирование–Обнаружение (Tracking–Modeling–Detection (TMD)), он сочетает 39 адаптивное сопровождение объекта с обучением детектора объекта в процессе распознавания. После того как объект был захвачен при помощи какого–либо метода захвата, траектория объекта начинает наблюдаться двумя процессами (расширяющее и урезающее события). Они строят детектор объекта на лету. Оба процесса делают ошибки, стабильность системы достигается отменой событий. Метод TLD является методом без учителя, но процесс обучения всё же имеется. Обучение происходит «на лету», т. е. в процессе обнаружения объекта, и классификация производятся при помощи рандомизированного леса. Объект сопровождается при помощи краткосрочного трекера. Траектория в пространстве признаков анализируется двумя событиями, которые непрерывно пытаются расширить или уменьшить пространство, описываемое моделью. Lt расширяется измерениями, которые вероятнее всего содержат сопровождаемый объект. Эти измерения определяются при помощи расширяющего события. Из Lt удаляются измерения, которые определены как не содержащие объект при помощи обрезающих событий. События работают параллельно, стремясь достичь Lt→L ∗ (см. рисунок 1.11). Рисунок 1.11 – Модель объекта инициализируется первым кадром. Она увеличивается расширяющими событиями, уменьшается урезающими событиями. Постепенно она приближается к реальному объекту 40 Расширяющие события в одиночку приводят к высокому уровню примеси и, следовательно, к детектору низкой точности. Обрезающие события служат отрицательной обратной связью: чем выше уровень примесей, тем больше измерений в модели определяются как неверные и удаляются. Динамическое взаимодействие расширяющих и обрезающих событий является решающим в придании системы стабильности. Краткосрочный трекер основывается на методе Лукаса–Канаде (ЛК) [44]. Вначале множество ключевых точек извлекается из прямоугольной решётки внутри описанного вокруг сопровождаемого объекта прямоугольника. Затем трекер сопровождает точки от одного кадра до другого, строя разреженное поля движения. Основываясь на поле движения, смещение и изменение масштаба ограничивающего прямоугольника могут быть надёжно оценены как средние значения по распределению. В каждом новом кадре сопровождается новый набор точек, это делает трекер адаптивным. Детектор объекта основан на двухбитных бинарных шаблонах. Эти признаки измеряют ориентацию градиента внутри определённой зоны, квантуют её и выдают 4 возможных кода (см. рисунок 1.12) [7]. Рисунок 1.12 – Двухбитные бинарные шаблоны – признаки, используемые в детекторе объекта. 41 Таким образом, комбинированные методы имеют высокий уровень обнаружения, позволяют объединять достоинства разных методов поиска. В комбинированных методах сложной частью является соединение методов, т. к. необходимо минимизировать следующее: – combj i N i j C min O Method max O Method т т , где O(x) – сложность метода x, Method combj – комбинированный j метод, Method i – i–ый «элементарный» метод (составная часть комбинированного), N – количество «элементарных» методов (составных частей комбинированного), C – количество всевозможных комбинаций объединения методов по сложности. |