Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
Скачать 4.32 Mb.
|
4.4 Апробация экспериментальной системы Разработанный ЭО ПК обнаружения аномального поведения пользователей при работе с текстовыми данными апробирован в рамках выполнения прикладных научных исследований (проекта) по теме: «Исследование и разработка инновационной технологии построения программных средств обеспечения компьютерной безопасности, основанных на использовании методов машинного обучения и математической статистики для анализа данных поведенческой биометрии пользователей при работе в рамках стандартного человеко-машинного интерфейса, для решения задач активной аутентификации и идентификации пользователей, обнаружения внутренних вторжений и предотвращения попыток хищения конфиденциальной информации» (Работы выполнены при финансовой поддержке Минобрнауки России. Соглашение № 14.604.21.0056 о предоставлении субсидии. Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056). Разработанные программные агенты мониторинга и модуль консолидации апробированы в рамках инициативного проекта РФФИ «Разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях» (Номер проекта: 12-07- 00585). Программные модули, реализующие удаление информационного шума и тематическое моделирование апробированы в ходе выполнения: научно-исследовательской работы (в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно- технологического комплекса России на 2007-2013 годы») по теме «Разработка вычислительных методов объективной оценки качества научно-технических документов на естественных языках» (Государственный контракт № 14.514.11.4016); гранта РФФИ № 16-29-09555\16 по направлению «Безопасность и противодействие терроризму». 127 4.5 Выводы Разработан экспериментальный образец программного комплекса (ЭО ПК) обнаружения аномального поведения пользователей при работе с текстовыми данными, который реализует основные сценарии функционирования: сбор поведенческой информации, построение индивидуальных поведенческих моделей, применение индивидуальных поведенческих моделей. Построение и применение индивидуальных пользовательских поведенческих моделей основаны на предложенных методах обнаружения аномального поведения пользователей, которые используют разработанную тематическую модель поведения пользователя на основе ортонормированной неотрицательной матричной факторизации. Также было представлено описание пользовательского интерфейса и его основных функций. Архитектура ЭО ПК обладает следующими свойствами: Масштабируемость. Архитектура ЭО ПК представляет собой набор связанных агентов, каждый из которых выполняет отдельную логическую задачу. Практически все модули ЭО ПК могут находиться на разных физических машинах, что позволит обеспечивать необходимый уровень параллелизма и производительности, например: подключать к наблюдению дополнительные рабочие места пользователей за счет распространения агентов мониторинга; консолидировать поведенческую информацию, получаемую от различных агентов мониторинга, на различных серверах баз данных; выполнять распределение вычислительной нагрузки при построении и применении поведенческих моделей за счёт установки DCOM-объектов анализа поведенческой информации на разные серверы. Расширяемость. Разработанная архитектура ЭО ПК позволяет добавлять/заменять как отдельные программные модули, так и компоненты, входящие в их состав: агенты мониторинга для других ОС (отличных от MS Windows), например, различные дистрибутивы Linux; программные компоненты мониторинга работы пользователей с различными источниками текстовой информации. В качестве примера в данной работе были разработаны компоненты мониторинга поведенческой информации при работе пользователя с электронными сообщениями MS Outlook и веб-страницами MS Internet Explorer; программные модули и компоненты, реализующие: методы обнаружения аномального поведения пользователей; 128 дополнительные методы анализа текстовой информации, с которой работали пользователи, например, классификация/кластеризация данных и т.п. Безопасность. Собранные поведенческие данные защищены средствами разграничения прав доступа ОС, а передаваемые по сети данные шифруются с помощью криптографического протокола SSL. Разработанный экспериментальный образец программного комплекса и его отдельные модули прошли апробацию в рамках четырёх государственных научно-исследовательских работ. 129 5 ЗАКЛЮЧЕНИЕ Основные результаты диссертации: 1. Предложена новая модель представления потока текстовых документов в виде многомерного временного ряда, где каждая компонента ряда показывает изменение веса тематики во времени, при этом характерные тематики потока определяются с использованием методов ортонормированной неотрицательной матричной факторизации. Разработанная модель представления предназначена для решения задач анализа поведения пользователя при работе с текстовыми данными и фильтрации информационного шума из потоков текстовых документов. 2. Разработаны два новых алгоритма обнаружения аномального поведения пользователя при работе с текстовыми данными, использующих предложенное тематическое представление потока текстовых документов: алгоритм на основе анализа оценок принадлежности документов к характерным тематикам пользователя; алгоритм на основе анализа отклонений при прогнозировании тематических временных рядов пользователя. 3. Разработана архитектура и реализован экспериментальный образец мультиагентного программного комплекса, использующий предложенный комплекс алгоритмов для обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией. Разработанный экспериментальный образец программного комплекса и его отдельные модули прошли апробацию в рамках четырёх государственных научно-исследовательских работ: Инициативный проект РФФИ «Разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях» (Номер проекта: 12-07-00585), 2012-2014 гг. «Разработка вычислительных методов объективной оценки качества научно-технических документов на естественных языках» (Государственный контракт № 14.514.11.4016), 2012- 2013 гг. «Исследование и разработка инновационной технологии построения программных средств обеспечения компьютерной безопасности, основанных на использовании методов машинного обучения и математической статистики для анализа данных поведенческой биометрии пользователей при работе в рамках стандартного человеко-машинного интерфейса, для решения задач активной аутентификации и идентификации пользователей, обнаружения внутренних вторжений и предотвращения попыток хищения конфиденциальной информации» (Работы выполнены при финансовой поддержке Минобрнауки России. 130 Соглашение № 14.604.21.0056 о предоставлении субсидии. Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056), 2014-2016 гг. Грант РФФИ № 16-29-09555\16 по направлению «Безопасность и противодействие терроризму». В качестве перспективы дальнейшей разработки темы диссертационной работы можно выделить применение предложенных методов обнаружения аномального поведения пользователей для анализа структурированной или полуструктурированной информации, например: регистрируемой в журналах операционной системы и различных журналах приложений; формируемой по статистическим характеристикам передачи данных в корпоративной сети (анализ сетевого трафика). Полученные в ходе выполнения диссертационной работы результаты могут послужить основой для построения перспективных систем информационной безопасности класса UEBA, основанных на анализе компьютерной поведенческой информации, в частности, на использовании характеристик работы пользователя как с текстовыми документами, так и со стандартными устройствами ввода информации (клавиатура, мышь). 131 6 СПИСОК ЛИТЕРАТУРЫ 1. Crossler R. E. et al. Future directions for behavioral information security research // Computers & Security. — 2013. — Т. 32. — С. 90-101. 2. Аналитический Центр InfoWatch, Безопасность информации в корпоративных информационных системах. Внутренние угрозы [Электронный ресурс]. — Электрон. дан. — [Б. м.] : InfoWatch, 2013. — Режим доступа: http://www.infowatch.ru/analytics/reports/4609 . — 11.01.2017. 3. Смирнов Г. Особенности обеспечения информационной безопасности малого и среднего бизнеса [Электронный ресурс]. — Электрон. дан. — [Б. м.] : 2013. — Режим доступа: http://www.anti-malware.ru/Small_Business_Security . — 11.01.2017.. 4. Угрозы информационной безопасности: обзор и оценка [Электронный ресурс]. — Электрон. дан. — [Б. м.] — Режим доступа: http://rus.safensoft.com/security.phtml?c=791 . — 11.01.2017. 5. Preventing insider threats with UBA [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Exabeam, 2016. — Режим доступа: http://info.exabeam.com/exabeam_insider_threat . — 11.01.2017. 6. Утечка данных [Электронный ресурс]. — Электрон. дан. — [Б. м.] : SecurityLab.ru, 2016. — Режим доступа: http://www.securitylab.ru/news/tags/%F3%F2%E5%F7%EA%E0+%E4%E0%ED%ED%FB%F5/ — 11.01.2017. 7. Carl D. Willis-Ford. Non-Malicious Security Violations // 27th Annual Conference “Partners in Performance: Shaping the Future of Cybersecurity Awareness, Education, and Training.” — NIST : Gaithersburg, Maryland — 2014. 8. Reviewing a year of serious data breaches, major attacks and new vulnerabilities [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, 2016. — Режим доступа: https://www- 01.ibm.com/common/ssi/cgi-bin/ssialias?htmlfid=SEW03133USEN . — 05.03.2017. 9. Исследование IBM и Ponemon Institute: средний ущерб компаний от утечки данных вырос до 4 млн долларов [Электронный ресурс]. — Электрон. дан. — [Б. м.] : IBM, июнь 2016. — Режим доступа: http://www-03.ibm.com/press/ru/ru/pressrelease/50084.wss . — 05.03.2017. 10. 2016 Cost of Data Breach Study: Global Analysis [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Ponemon Institute, June 2016. — Режим доступа: http://www-03.ibm.com/security/data- breach/ . — 05.03.2017. 11. ObserveIT Data Loss Prevention Capabilities [Электронный ресурс]. — Электрон. дан. — [Б. м.] : ObserveIT, 2015. — Режим доступа: http://www.observeit.com/blog/observeit-data-loss- prevention-capabilities-1 . — 05.03.2017. 132 12. Gartner. Market Guide for User and Entity Behavior Analytics [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Gartner, 2015. — Режим доступа: https://www.gartner.com/doc/reprints?id=1-2NK6M1R&ct=150922&st=sb . — 05.06.2016. 13. Turning Security Inside Out to Protect The Most Valuable Data [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Gartner, 2015. — Режим доступа: http://www.gartner.com/imagesrv/media-products/pdf/varonis/Varonis-1-2ME5EK5.pdf — 05.03.2017. 14. Young W. T. et al. Use of domain knowledge to detect insider threats in computer activities // Security and Privacy Workshops (SPW). — IEEE, 2013. — С. 60-67. 15. Ted E. et al. Detecting insider threats in a real corporate database of computer usage activity // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. — ACM, 2013. — С. 1393-1401. 16. Young W. T. et al. Detecting unknown insider threat scenarios // Security and Privacy Workshops (SPW). — IEEE, 2014. — С. 277-288. 17. Symantec Data Loss Prevention Data Insight Enterprise [Электронный ресурс]. — Электрон. дан. — [Б. м.] : Symantec, 2011. — Режим доступа: http://www.symantec.com/content/en/us/enterprise/fact_sheets/b- sym_dlp_data_insight_enterprise_DS_21005381-1.en-us.pdf . — 05.03.2017. 18. EMC выпускает решение для управления жизненным циклом неструктурированного содержания [Электронный ресурс]. — Электрон. дан. — [Б. м.] : EMC, 2010. — Режим доступа: https://russia.emc.com/about/news/press/2010/20100623-01.htm . — 05.03.2017. 19. Петровский М.И., Глазкова В.В., Царёв Д.В. О выборе модели представления текстовой информации для задачи анализа и фильтрации Интернет-трафика // Математические методы распознавания образов: 13-я Всероссийская конференция. — М.: МАКС Пресс, 2007. — С. 519-522. 20. Машечкин И.В., Петровский М.И., Попов Д.С., Царёв Д.В. Латентно-семантический анализ в задаче автоматического аннотирования // Программирование. — Наука, 2011. — Т. 37. — № 6. — С. 67-77. 21. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Automatic text summarization using latent semantic analysis // Programming and Computer Software. — Springer, 2011. — Т. 37. — № 6. — С. 299-305. 22. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Text Summarization Method Based on Normalized Non-Negative Matrix Factorization // 3rd International Conference on Mechanical and Electrical Technology (ICMET-China 2011). — ASME Press, 2011. — С. 563-568. 133 23. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Using NMF-based text summarization to improve supervised and unsupervised classification // Hybrid Intelligent Systems (HIS), 2011 11th International Conference on. — IEEE, 2011. — С. 185-189. 24. Царёв Д.В. Исследование и разработка системы мониторинга потоков корпоративной электронной текстовой информации // Программные системы и инструменты. Тематический сборник №13. — М.: Изд-во факультета ВМиК МГУ, 2012. — С. 159-173. 25. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V. Supervised and Unsupervised Text Classification via Generic Summarization // International Journal of Computer Information Systems and Industrial Management Applications. — 2013. — Т. 5. — С. 509-515. 26. Машечкин И. В., Петровский М. И., Царёв Д. В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. — НИВЦ МГУ, 2013. — Т. 14. — № 1. — С. 91-102. 27. Герасимов С.В., Курынин Р.В., Петровский М.И., Попов И.С., Царёв Д.В., Шестимеров А.А. Технология оценки качества научно-технических документов // Программные системы и инструменты. Тематический сборник №14. — М.: Изд-во факультета ВМиК МГУ, 2013. — С. 158-171. 28. Герасимов С.В., Курынин Р.В., Машечкин И.В., Петровский М.И., Царёв Д.В., Шестимеров А.А. Инструментальные средства оценки качества научно-технических документов // Труды Института системного программирования РАН. — ИСП РАН, 2013. — Т. 24. — С. 359-380. 29. Tsarev D., Kurynin R., Petrovskiy M., Mashechkin I. Applying non-negative matrix factorization methods to discover user’s resource access patterns for computer security tasks // In Proceedings of the 2014 International Conference on Hybrid Intelligent Systems (HIS 2014). — New York, United States: IEEE Computer Society, 2014. — С. 43-48. 30. Машечкин И.В., Петровский М.И., Царёв Д.В. Применение методов интеллектуального анализа текстовой информации для предотвращения утечек данных // Программирование. — Наука, 2015. — № 1. — С. 32-43. 31. Tsarev D.V., Petrovskiy M.I., Mashechkin I.V., Popov D.S. Applying text mining methods for data loss prevention // Programming and Computer Software. — Springer, 2015. — Т. 41. — № 1. — С. 23-30. 32. Королев В.Ю., Корчагин А.Ю., Машечкин И.В., Петровский М.И., Царёв Д.В. Применение временных рядов в задаче фоновой идентификации пользователей на основе анализа их работы с текстовыми данными // Труды Института системного программирования РАН. — ИСП РАН, 2015. — Т. 27. — № 1. — С. 151-172. 134 33. Машечкин И.В., Петровский М.И., Царёв Д.В. Методы машинного обучения для анализа поведения пользователей при работе с текстовыми данными в задачах информационной безопасности // Вестник Московского университета. Серия 15: Вычислительная математика и кибернетика. — МГУ, 2016. — № 4. — С. 33-39. 34. Tsarev D.V., Petrovskii M.I., Mashechkin I.V. Machine Learning Methods for Analyzing User Behavior when Accessing Text Data in Information Security Problems // Moscow University Computational Mathematics and Cybernetics. — Springer, 2016. — Т. 40. — № 4. — С. 179-184. 35. Машечкин И. В., Петровский М. И., Поспелова И.И., Царёв Д. В. Методы автоматического аннотирования и выделения ключевых слов в задаче обнаружения экстремистской информации в сети Интернет // Современные информационные технологии и ИТ- образование. — 2016. — Т. 12. — № 1. — С. 188-200. 36. Mashechkin I., Petrovskiy M., Pospelova I., Tsarev D. Automatic summarization and keywords extraction methods for discovering extremist information on the internet // CEUR Workshop Proceedings (CEUR-WS.org): Selected Papers of the First International Scientific Conference Convergent Cognitive Information Technologies (Convergent 2016). — Т. 1763. — Moscow, Russia, 2016. — С. 188-198. 37. Интеллектуальная система оценки качества научно-технических документов [Текст] : пат. 132587 Рос. Федерация; дата рег. 20.09.2013. 38. Система мониторинга работы пользователей с информационными ресурсами корпоративной компьютерной сети на основе поведения пользователей [Текст] : свидетельство о гос. рег. ПО 2014616126 Рос. Федерация; дата рег. 11.06.2014. 39. Система мониторинга, теневого копирования и автоматического аннотирования текстовых данных при работе пользователя с электронными документами [Текст] : свидетельство о гос. рег. ПО 2016618914 Рос. Федерация; дата рег. 09.08.2016. 40. Feldman S., Reynolds H., Schubmehl D. Content analytics and the high-performing enterprise [Электронный ресурс]. — Электрон. дан. — Framingham, MA: IDC, 2012. — Режим доступа: ftp://ftp.software.ibm.com/software/in/events/softwareuniverse/resources/Content_Analytics_and_t he_High_Performing_Enterprise.pdf . — 05.03.2017. 41. ECM - Enterprise Content Management [Электронный ресурс]. — Электрон. дан. — [Б. м.] : TAdviser, 2014. — Режим доступа: http://www.tadviser.ru/index.php/Статья:ECM_- |