страница 10. Сборник тезисов докладов
Скачать 3.87 Mb.
|
ОПРЕДЕЛЕНИЕ СОБСТВЕННОГО ПОЛОЖЕНИЯ РОБОТОТЕХНИЧЕСКОЙ ПЛАТФОРМЫ В ПРОСТРАНСТВЕ С ПОМОЩЬЮ СИСТЕМЫ ТЕХНИЧЕСКОГО ЗРЕНИЯ Б.В.Вишняков, В.В.Шевердин (ФГУП «ГосНИИАС») Неотъемлемой составной частью любой робототехнической системы является алгоритм определения собственного положения в пространстве по отношению к другим объектам и препятствиям. Решение этой задачи подразумевает поиск и сопровождение ориентиров, сопоставление и обновление карты пространства, определение собственного положения на карте [1-11]. Для восстановления собственного положения любой робототехнической системы используются различные типы сенсоров: оптические, инерциальные, магнитные, электрические, электромагнитные, лазерные, системы глобального позиционирования и многие другие. К оптическим сенсорам относятся камеры машинного зрения, тепловизионные, событийные, времяпролетные камеры, камеры глубины, стереопары. Инерциальные системы используются для навигации посредством измерения сил инерции, действующих на систему. Магнитные, датчики давления, температуры, различные радары позволяют получить дополнительную информацию, необходимую для уточнения положения и коррекции ошибок. Для построения карты окружающего пространства также активно применяются лазерные дальномеры и системы глобального позиционирования (Рис.1). Рис.1. Сенсоры, применяемые для извлечения информации об окружающем пространстве 98 Комплексная обработка полученной информации позволяет с достаточной степенью точности и уверенности определить как положение самой системы, так и информацию об окружающем ее пространстве. Для обработки каждого типа данных существует ряд методов и принципов, многие из которых в текущее время активно усовершенствуются и развиваются. Применяются как методы точного математического моделирования, так и подходы машинного обучения, особенно с использованием глубоких нейронных сетей. Рис.2. Пример работы алгоритмов построения карты окружающего пространства Разработан метод определения собственного положения системы на основании показаний системы визуальных датчиков, инерциального измерительного устройства, магнитометра, системы глобального позиционирования, системы лидаров и датчиков холла. Она обладает достаточной степенью устойчивости благодаря комплексному использованию значительного объема информации. Работа выполнена при поддержке гранта РФФИ 19-07-01248-А. 99 ЛИТЕРАТУРА 1. D. Nister, O. Naroditsky, and J. Bergen, “Visual odometry,” in Proc. Int. Conf. Computer Vision and Pattern Recognition, 2004, pp. 652–659. 2. H. Moravec, “Obstacle avoidance and navigation in the real world by a seeing robot rover,” Ph.D. dissertation, Stanford University, Stanford, CA, 1980. 3. L. Matthies and S. Shafer, “Error modeling in stereo navigation,” IEEE J. Robot. Automat., vol. 3, no. 3, pp. 239–248, 1987. 4. S. Lacroix, A. Mallet, R. Chatila, and L. Gallo, “Rover self localization in planetary-like environments,” in Proc. Int. Symp. Artificial Intelligence, Robotics, and Automation for Space (i-SAIRAS), 1999, pp. 433–440. 5. M. Maimone, Y. Cheng, and L. Matthies, “Two years of visual odometry on the mars exploration rovers: Field reports,” J. Field Robot., vol. 24, no. 3, pp. 169– 186, 2007. 6. T. Lemaire and S. Lacroix, “Vision-based SLAM: Stereo and monocular approaches,” Int. J. Comput. Vis., vol. 74, no. 3, pp. 343–364, 2006. 7. T. Bailey and H. Durrant-Whyte, “Simultaneous localisation and mapping (SLAM): Part II. State of the art,” IEEE Robot. Automat. Mag., A. Mallios, P. Micha, D. A. Mindell, C. Roman, H. Singh, D. S. Switzer, and T. Theodoulou, “The 2005 chios ancient shipwreck survey: New vol. 13, no. 3, pp. 108–117, 2006. 8. D. Scaramuzza and F. Fraundorfer, “Visual odometry,” IEEE Robotics Automat. Mag., vol. 18, no. 4, pp. 80–92, Dec. 2011. 9. Song, Y., Nuske, S., Scherer, S., 2017. A Multi-Sensor Fusion MAV State Estimation from Long-Range Stereo, IMU, GPS and Barometric Sensors. Sensors, 17, 11, 2017. 10. J. Engel, J. Stueckler and D. Cremers, 2017. Large-Scale Direct SLAM with Stereo Cameras. In International Conference on Intelligent Robots and Systems (IROS), 2017. 11. J. Engel, V. Koltun, and D. Cremers, 2018. Direct Sparse Odometry. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40, 3 (2018), 611–625. СЕМАНТИЧЕСКАЯ СЕГМЕНТАЦИЯ ДЛЯ СИСТЕМЫ ТЕХНИЧЕСКОГО ЗРЕНИЯ АВТОНОМНОГО РОБОТИЗИРОВАННОГО ТРАНСПОРТНОГО СРЕДСТВА И.В.Сгибнев, Б.В.Вишняков, А.Н.Сорокин (ФГУП «ГосНИИАС») В настоящее время подходы, основанные на использовании конволюционных нейронных сетей, достигли значительных успехов в решении различных задач компьютерного зрения, таких как классификация изображений, обнаружение объектов и семантическая сегментация. Архитектура сверточных нейронных сетей продолжает развиваться в сторону увеличения сложности и производительности с точки зрения точности, но это делает их неприменимыми к семантической сегментации в реальном времени. 100 Сематическая сегментация изображения имеет решающее значение для системы автоматического управления современных автономных транспортных средств. Точное понимание окружающей сцены важно для навигации и принятия решений системой управления роботизированной платформы. Поэтому система технического зрения, основанная на алгоритмах семантической сегментации, является одним из ключевых элементов автономного роботизированного транспортного средства. Ее характеристики во многом определяют эффективность работы всего робототехнического комплекса, так как непосредственно влияют на такие задачи, как распознавание типа подстилающей поверхности, расчет карты пробега, точность обнаружения, распознавание и слежение за объектами и препятствиями. Наложение семантической сегментации на трехмерную модель или облако точек предоставляет информацию о классе каждой точки и позволяет настраивать карту проходимости роботизированного транспортного средства [1-11] . В данной работе мы предлагаем подход, позволяющий использовать легковесные архитектуры в качестве энкодера для решения проблемы семантической сегментации в реальном времени для системы технического зрения автономного роботизированного транспортного средства. Наш подход обеспечивает увеличение времени вывода и повышения точности сегментации, что позволяет запускать модули семантической сегментации в режиме реального времени. В докладе рассмотрены энкодеры на базе ResNet18, ResNet34, MobileNetV2, ShuffleNetV2, EfficientNet-B0 и декодеры на базе U-Net и DeepLabV3, а также дополнительные компоненты, позволяющие повысить точность сегментации и сократить время вывода. Инкапсулирование легких моделей в качестве опорной архитектуры в декодерах позволяет достичь значительного прироста производительности с относительно небольшими потерями в точности. Модель, использующая декодирование ResNet34 и DeepLabV3, была оптимальной с точки зрения времени и точности вывода. Кроме того, мы показываем, что использование предварительно подготовленных весов на наборе виртуальных данных позволяет достичь увеличения на 2,7% mIoU на наборе натурных данных по сравнению с предварительно подготовленными весами на наборе данных Cityscapes. Более того, мы достигаем 75,6% mIoU на проверочном наборе данных Cityscapes и 85,2% mIoU на наборе натурных данных со скоростью 37 FPS при размере входного изображения 1024×1,024 на одной карте NVIDIA GeForce RTX 2080 с помощью NVIDIA TensorRT. Результаты работы семантической сегментации представлены на рисунке 1 (входные изображения из наборов данных (а), размеченные изображения из наборов данных (b), результат семантической сегментации (c). 101 Рис. 1. Результаты работы семантической сегментации Мы использовали компилятор-оптимизатор NVIDIA TensorRT, который выполняет оптимизацию нейросети под платформы NVIDIA GPU. Реализация данной модели на NVIDIA GeForce RTX 2080 с использованием NVIDIA TensorRT требует примерно в три раза меньше времени на обработку по сравнению с версией PyTorch данной модели на NVIDIA GeForce RTX 2080 Ti. Работа выполнена при поддержке гранта РФФИ 19-07-01248-А ЛИТЕРАТУРА 1. V. Badrinarayanan, A. Kendall, R. Cipolla, 2015. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 12, pp. 24812495, 1 Dec. 2017. 2. L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, A. L. Yuille, 2016. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence. PP. 10.1109/TPAMI.2017.2699184. 3. M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, 2016. The Cityscapes Dataset for Semantic Urban Scene Understanding // In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4. L.-C. Chen, G. Papandreou, F. Schroff, H. Adam, 2017. 5. Rethinking Atrous Convolution for Semantic Image Segmentation. arXiv:1706.05587v3 [cs.CV]. 102 6. M. Gamal, M. Siam, M. Abdel-Razek, 2018. ShuffleSeg: Realtime Semantic Segmentation Network. arXiv:1803.03816v2 [cs.CV]. 7. A. Guha Roy, N. Navab, C. Wachinger, 2018. Concurrent Spatial and Channel Squeeze & Excitation in Fully Convolutional Networks. In: Frangi A., Schnabel J., Davatzikos C., AlberolaLópez C., Fichtinger G. (eds) Medical Image Computing and Computer Assisted Intervention – MICCAI 2018. MICCAI 2018. Lecture Notes in Computer Science, vol 11070. Springer, Cham. 8. K. He, X. Zhang, S. Ren, J. Sun, 2015. Deep Residual Learning for Image Recognition // IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016, pp. 770778. 9. J. Hu, L. Shen, G. Sun, 2017. Squeeze-and-Excitation Networks. // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018, pp. 7132-7141. 10. V. Iglovikov, A. Shvets, 2018. TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation. arXiv:1801.05746v1 [cs.CV]. 11. J. Long, E. Shelhamer, T. Darrell, 2014. Fully Convolutional Networks for Semantic Segmentation. ИССЛЕДОВАНИЕ ПСИХОФИЗИОЛОГИЧЕСКОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО БИОМЕТРИЧЕСКИМ ХАРАКТЕРИСТИКАМ ТЕПЛОВИЗИОННОГО ИЗОБРАЖЕНИЯ ЛИЦА А.В.Гудков, Г.М.Цибулькин, М.Л.Цибулькин (ФГУП «ГосНИИАС») В настоящее время в современных летательных аппаратах (ЛА) нагрузка на пилота достигла критических пределов, вызывая ошибки пилота в штатных и особых ситуациях, следствием которых являются катастрофы ЛА и гибель людей [1]. Статистика крупнейших авиакатастроф мира за 1974-2020 года показывает, что основная причина трагедий в воздухе — человеческий фактор (ошибка экипажа или диспетчера). Почти 70 % аварий происходят при заходе на посадку или выкате ЛА за пределы взлетно-посадочной полосы (ВПП). К другим ситуациям, в которых экипажи ведут себя неуверенно и совершают ошибки, относятся: 1 . Нечеткое взаимодействие экипажа; 2 . Частичная или полная дезориентация экипажа; 3 . Выход ЛА на режим сваливания; 4 . Нечеткое взаимодействие с диспетчерской службой; 5 . Дефицит времени на принятие решения. В настоящее время разработаны и продолжают совершенствоваться бортовые системы безопасности ЛА [2], роль которых заключается в поддержке действий пилота в сложных условиях полета. Информацию о состоянии пилота 103 бортовая система получает от закрепленных на теле пилота датчиков. Обработка полученной информации и принятие решения осуществляется в реальном времени с помощью вычислительной техники [3,4]. Особый интерес вызывают исследования, связанные с оценкой ПФС находящегося в спокойном или стрессовом состоянии оператора-пилота бесконтактно по тепловизионному изображению лица. Тепловидение позволяет осуществлять визуализацию изображения в инфракрасной (ИК) области спектра. Условием для формирования ИК изображения является наличие температурного контраста между объектом и фоном. Излучение тела широко используется при измерении температуры человека в медицине [5-7]. Тело человека имеет высокий коэффициент излучения, близкий по значению к коэффициенту излучения абсолютно черного тела. Изменение температуры приводит к изменению мощности ИК излучения. Температура лица оператора-пилота определяется физиологическим состоянием пилота и имеет неоднородное распределение. Отдельные зоны на лице человека обладают наибольшей температурной чувствительностью к внутренним и внешним раздражителям [6]. На рисунке 1 показано лицо человека с зонами наибольшей чувствительности к раздражителям. Рис. 1. Зоны наибольшей чувствительности к раздражителям Средства обработки тепловизионных изображений обычно встроены в программу визуализации. Температурные зоны на лице могут быть в форме прямоугольника, круга или овала. Проведя линию вдоль или поперек температурной зоны, можно построить температурный профиль, фиксирующий значения температуры в каждой точке проведенной линии [7]. В ходе работы проводились эксперименты по бесконтактной регистрации теплового излучения лица оператора с помощью тепловизионной камеры Thermal-Eye 2000 Flir (США) в диапазоне длин волн 8-14 мкм с пространственным разрешением 320х240 пикселей и низким уровнем шума, 104 гарантирующим четкость изображения. Общий вид экспериментальной установки показан на рисунке 2. Рис. 2. Общий вид экспериментальной установки Температура лица оператора регистрировалась в спокойном и стрессовом состоянии (громкий звук). На рисунке 3 показан пример изменения теплового потока, излучаемого кожей лица находящегося в стрессовом состоянии оператора. На основе полученных данных можно сделать вывод о том, что стрессовая реакция на громкий звук приводит к локальному повышению температуры в области зоны лица. Рис. 3. Изменение теплового потока, излучаемого кожей лица находящегося в стрессовом состоянии оператора Работа выполнена при поддержке РФФИ, проект 20-08-00915. ЛИТЕРАТУРА 1. О.С. Титков. Возможности активного мониторинга экипажа ЛА по информации от биологически активных точек. Труды ГосНИИАС. Серия «Вопросы авионики». Вып. 1(4), 1999 105 2. Бортовая активная система безопасности полетов (СБАСБП ИКСЛ-2- ОАО Корпорация «Русские системы» 3. Ioannou S., Merla A. «Thermalinfrared imaging in psychophysiology: Potentialities and limits», Psychophysiology- siology, 51, 2014, pp. 951-963 4. И.А Знаменская, Е.Ю. Коротаева, А.В. Хахалин, В.В. Шишков. Термодинамическая визуализация и дистанционный анализ динамических процессов в области лица, Научная визуализация, 8(5): 1-8, 2016 5. Е.П. Ильин Психофизиология состояния человека СПО.: Питер, 2005.412 с 6. Palvidi S., Levine J., Baukol P. Thermal imaging for anxiely detection In Proc. 2 nd IEEE Workshop Comput Vis. Beyond Vis. Spectr., Methods Appl., Jun. 2000. P. 104-109 7. А.В. Скрипаль, А.А. Сагайдачный, Д.А. Усанов Тепловизионная биомедицинская диагностика: Учеб. Пособие. Саратов. 2009. ПОЛУАВТОМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ГОРОДСКОЙ ИНФРАСТРУКТУРЫ ПО ОДНОМУ СПУТНИКОВОМУ СНИМКУ И ДЕШИФРИРОВАННОЙ ОБЛАСТИ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ В.С. Горбацевич, Б.Н. Кульгильдин, М.А. Мельниченко, А.А.Титов (ФГУП «ГосНИИАС») В данной работе предлагается метод, основанный на глубоких нейронный сетях, для моделирования городской инфраструктуры местности по одиночному спутниковому изображению и известной дешифрированной области, без наличия информации о положении спутника и угла солнца в момент получения снимка. Для использования классических нейронных сетей 3D модели местности были представлены в виде карт высот – 2D матрицы, каждый элемент которого соответствует точки 3D модели и хранит значение её высоты. Нейронная сеть обучается в виде генеративно-состязательной, в качестве генератора. В ходе работы было выявлено, что использование геодезии и масок зданий улучшает качество восстановления 3D моделей, поэтому предлагаемый алгоритм состоит из следующих этапов: Шаг 1: Формирование масок зданий из спутникового изображения; Шаг 2: Восстановление карты высот из спутникового изображения, известной центральной части и масок зданий. Архитектура нейронной сети для восстановления высот состоит из двух энкодеров и декодара. На вход одного энкодера подается информация об участке местности с известной высотой: карта высот, спутниковое изображение, карта высот ландшафта, маска зданий; на вход другого энкодера поступает информация об участке местности для которого необходимо восстановить высоту: спутниковое изображение, карта высот ландшафта и 106 маски зданий. Данный с двух энкодеров объединяться методом конкатенации. На выходе декодера требуется карта высот. При этом карта высот известной области может содержать информацию только о высотах зданий или о части зданий. Рис.1. Архитектура сети восстановления высот Информация о высотах объектов может быть получена из размера теней, масштаб которых разнообразен в зависимости от условий съемки. В связи с этим предлагается использование ResDilation блока, учитывающего разно удалённые признаки внутри одного пространственного разрешения. Рис.2. Архитектура ResDilation блока Увеличение пространственного разрешения происходит с использованием слоя PixelShuffle, использование которого позволяет избежать эффекта «шахматной доски», наблюдаемый в деконволюции, и увеличить скорость работы сети по сравнению с интерполяцией. Помимо соревновательной и реконструкционной ошибки вводится функция потерь на перепады высот, нацеленная на устранение сглаживания моделей зданий на краях, приводя их к естественным прямоугольным формам. Для этого формируются «карты перепада высот», полученные при обработке карт высот оператором Лапласа. Получение масок зданий осуществляется с использованием архитектуры HRnet. Для проведения исследования собрана база данных по городу Нью-Йорк, состоящая из карт высот и юстированных спутниковых изображений 107 разрешением 1 метр. Карты высот сформированы с использованием лидарной съёмки 2017 года из общедоступной базы National Lidar Dataset (United States), а спутниковые изображения получены из серверов google,yandex,nokian и bing с использованием QGIS. Информация о высотах ладшафта взята в общедоступной базе GEBCO19. База данных была разбита на тренеровочную и тестовую выборку. В состав тренировочной вошли 18600, а в тестовую 2500 пар спутниковых изображений и карт высот размером 256х256 пикселов. Проведена проверка работы предлагаемого алгоритма на тестовой выборке для города Нью-Йорк (восстановление фрагментов местности 1км на 1 км с центральной дешифрированной областью 256 на 256 метров) и на базе данных ISPRS для города Потсдам, средняя квадратическая ошибка которых составила 4.9 и 5.2 метра соответственно. Работа выполнена при поддержке гранта РФФИ № 19-07-01140. ЛИТЕРАТУРА 1. El-Hakim, S., "A flexible approach to 3d reconstruction from single images," ACM SIGGRAPH. Volume 1. Papers 12-17 (2001) 2. Remondino, F., Roditakis, A., "Human figure reconstruction and modeling from single image or monocular video sequence," Proc. 3DIM 2003. Papers 116– 123(2003). 3. Remondino, F., El-Hakim, S., "Image-based 3D Modelling: A Review," Proc. The Photogrammetric Record, 269–291(2006) 4. Girdhar, R., Fouhey, D.F.,"Learning a predictable and generative vector representation for objects." Proc. M.R.E.C. 2016 Springer (chapter 34) 702–722 (2016) 5. Choy, C.B., Xu, D., Gwak, J., Chen, K., Savarese, S.: "3d-r2n2: A unified approach for single and multi-view 3d object reconstruction." Proc ECCV 2016 (2016) 6. Richter, S.R., Roth, S., "Matryoshka Networks: Predicting 3D Geometry via Nested Shape Layers." Proc. arXiv.org (2018) 7. Shin, D., Fowlkes, C., Hoiem, D., "Pixels, voxels, and views: A study of shape representations for single view 3d object shape prediction," Proc. CVPR2018 (2018) 8. Long, J., Shelhamer, E., Darrell, T., "Fully convolutional networks for semantic segmentation." Proc. CVPR2015. Papers 3431–3440(2015) 9. Isola, P., Zhu, J.Y., Zhou, T., Efros, A.A., "Image-to-Image Translation with Conditional Adversarial Networks," Proc. CVPR2017. Papers 5967–5976(2017) 10. Wu, J., Wang, Y., Xue, T., Sun, X., Freeman, W.T., Tenenbaum, J.B., "MarrNet: 3D Shape Reconstruction via 2.5D Sketches," arXiv.org (2017) 11. Huang, Q., Wang, H., Koltun, V., "Single-view reconstruction via joint analysis of image and shape collections," ACM Transactions on Graphics. Papers 1– 87 (2015) 12. Zheng, B., Zhao, Y., Yu, J.C., Ikeuchi, K., Z hu, S.C., "Beyond point clouds: Scene understanding by reasoning geometry and physics," Proc. CVPR2013 (2013) 108 13. Firman, M., Mac Aodha, O., Julier, S., Brostow, G.J., "Structured prediction of unobserved voxels from a single depth image," Proc. CVPR2016 (2016) 14. Girdhar, R., Fouhey, D.F., "Learning a predictable and generative vector representation for objects," Proc M.R.E.C. 2016. Springer (chapter 34) 702–722 (2016) 15. Knyaz V.A., Kniaz V.V., Remondino F.,"Image-to-Voxel Model Translation with Conditional Adversarial Networks," Proc. ECCV 2018 Workshops (2018) 16. Zhang R., "Colorful Image Colorization," ECCV2016. Pages 649– 666(2016) 17. Gatys L., Ecker A., Bethge M., "A Neural Algorithm of Artistic Style," Proc. CoRR2015 (2015) 18. Zhu J., Park T., Isola P., Efros A., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks" Proc. ICCV2017 (2017) 19. Knyaz V., "Deep learning performance for digital terrain model generation", Proc. SPIE 10789, Image and Signal Processing for Remote Sensing XXIV, 107890X (9 October 2018) 20. Knyaz V., and Zheltov S., "Accuracy evaluation of structure from motion surface 3D reconstruction", Proc. SPIE 10332, Videometrics, Range Imaging, and Applications XIV, 103320P (2017) |