Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности

Название	Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
Дата	24.01.2022
Размер	4.32 Mb.
Формат файла
Имя файла	Tsarev_dissertation.pdf
Тип	Диссертация #340124
страница	3 из 10

1 2 3 4 5 6 7 8 9 10

Степень достоверности и апробация результатов
Результаты, представленные в работе, докладывались:
 Весной 2016 года на научном семинаре Института системного программирования РАН
«Управление данными и информационные системы» под руководством академика РАН
Виктора Петровича Иванникова.
 Осенью 2016 года на научном семинаре кафедры автоматизации систем вычислительных комплексов имени члена-корреспондента РАН, профессора Льва Николаевича Королёва.

16
Также результаты диссертационной работы докладывались автором на следующих конференциях:
 Научная конференция «Ломоносовские чтения» (Россия, Москва, 2011).
 11th International Conference on Hybrid Intelligent Systems (Малайзия, Малакка, 2011).
 Научная конференция «Тихоновские чтения» (Россия, Москва, 2012).
 Научная конференция «Ломоносовские чтения» (Россия, Москва, 2012).
 16-я Всероссийская конференция «Математические методы распознавания образов»
(Россия, Казань, 2013).
 14th International Conference on Hybrid Intelligent Systems (Кувейт, 2014).
 Научная конференция «Тихоновские чтения» (Россия, Москва, 2015).
Основные результаты по теме диссертации изложены в 21 публикации [19-39], 12 из которых изданы в журналах, рекомендованных ВАК: перечень ВАК — 6 [20, 26, 28, 30, 32, 33]; система цитирования Scopus — 6 [21, 23, 29, 31, 34, 36] (из них 2 [21, 31] также входят в систему цитирования Web of Science). Статьи [21, 31, 34] являются переводом на английский язык статей
[20, 30, 33] соответственно.
Результаты диссертационной работы использовались в следующих НИР:
 Инициативный проект РФФИ «Разработка программного комплекса мониторинга и анализа работы пользователей с документами в корпоративных сетях» (Номер проекта: 12-07-00585),
2012-2014 гг.
 «Разработка вычислительных методов объективной оценки качества научно-технических документов на естественных языках» (Государственный контракт № 14.514.11.4016), 2012-
2013 гг.
 «Исследование и разработка инновационной технологии построения программных средств обеспечения компьютерной безопасности, основанных на использовании методов машинного обучения и математической статистики для анализа данных поведенческой биометрии пользователей при работе в рамках стандартного человеко-машинного интерфейса, для решения задач активной аутентификации и идентификации пользователей, обнаружения внутренних вторжений и предотвращения попыток хищения конфиденциальной информации» (Работы выполнены при финансовой поддержке Минобрнауки России.
Соглашение № 14.604.21.0056 о предоставлении субсидии. Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056), 2014-2016 гг.
 Грант РФФИ № 16-29-09555\16 по направлению «Безопасность и противодействие терроризму».

17
Объем и структура работы
Диссертация состоит из введения, четырёх глав, заключения и списка литературы. Далее излагается краткое содержание работы.
Первая глава посвящена исследованию существующих подходов к анализу текстовой информации, применяемых в современных программных системах, функционал которых направлен на управление контентной информацией организации. К данным системам были отнесены ECM-системы, которые также включают средства электронного раскрытия информации eDiscovery, и DLP-системы. На основе проведённого аналитического обзора формулируются направления дальнейших исследований в части выбора модели представления поведенческой информации и методов обнаружения аномалий.
Во второй главе проводится исследование и разработка моделей представления поведенческой информации при работе с текстовыми данными. Предложен новый подход к представлению информации о потоке документов, с которыми работал пользователь, в виде многомерного тематического временного ряда. Временные ряды показывают изменение весов тематик (тематическую направленность) во времени, при этом рассматриваются характерные тематики анализируемого пользователя, получаемые с использованием ортонормированной неотрицательной матричной факторизации. Также проведено исследование методов вычисления релевантности фрагментов текста документа для задачи удаления информационного шума. В рамках данного исследования был предложен новый метод, использующий неотрицательную матричную факторизацию для тематического моделирования.
В третьей главе проводится исследование и разработка новых методов машинного обучения для обнаружения аномального поведения пользователя при работе с текстовыми данными, использующих разработанную в предыдущей главе тематическую модель поведения пользователя на основе ортонормированной неотрицательной матричной факторизации.
Разработаны методы, основанные на расчёте оценки принадлежности документов пользователя к характерным для него тематикам, и методы на основе прогнозирования временных рядов тематической направленности пользователя с последующей оценкой отклонения наблюдаемых значений от спрогнозированных. Проведены экспериментальные исследования разработанных методов обнаружения аномального поведения пользователя и метода удаления информационного шума на примере реальной корпоративной переписки пользователей, сформированной из набора данных Enron.
Четвёртая глава посвящена разработке и реализации ЭО ПК обнаружения аномального поведения пользователей при работе с текстовыми данными. Приводится детальное описание архитектуры и программной реализации разработанного ЭО ПК, проведены экспериментальные исследования производительности основных программных модулей ЭО ПК.

18 1
АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ
ИНДУСТРИАЛЬНЫХ РЕШЕНИЙ УПРАВЛЕНИЯ
КОНТЕНТНОЙ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИИ
Как было показано во введении, на сегодняшний день нет разработанных подходов к обнаружению аномального поведения пользователей на основе анализа содержимого обрабатываемых текстовых данных с использованием методов машинного обучения для решения задач информационной безопасности. Поэтому для проведения полного и всестороннего обзора существующих подходов к анализу текстовой информации, применяемых в организациях для анализа своего контента, были рассмотрены следующие классы систем:
 ECM-системы — программные решения для управления информационными ресурсами предприятия предоставляют программные средства сбора, анализа, управления, накопления, хранения и доставки документов в масштабах организации. Большинство современных ECM- систем включает в себя компоненты электронного обнаружения или электронного раскрытия информации eDiscovery. Средства eDiscovery обеспечивают процесс, с помощью которого организации находят, получают, сохраняют и анализируют документы, связанные с определенным судебным делом.
 DLP-системы — программные решения для предотвращения утечек конфиденциальной информации и минимизации других рисков, связанных с внутренними угрозами.
1.1
Системы управления корпоративным контентом (ECM)
По мере роста объемов информационных ресурсов организациям становится все труднее эффективно их использовать [18, 40]. Решения для управления корпоративным контентом (ECM) предоставляют программные средства сбора, анализа, управления, накопления, хранения и доставки информации пользователям организации. ECM-системы ориентируются на работу с неструктурированной информацией в любом виде, включая офисные текстовые и табличные электронные документы, документы в формате PDF, а также рисунки, чертежи, графики, презентации, сканированные изображения, сообщения электронной почты, web-страницы и т.п.
[41, 42], т.е. по большей части это текстовая информация.
Согласно определению, приведённом в отчёте Gartner [43], ECM-система — это стратегическая инфраструктура и техническая архитектура для поддержки единого жизненного цикла неструктурированной информации (контента) различных типов и форматов. ECM-системы состоят из приложений, которые могут взаимодействовать между собой, а также использоваться

19 и продаваться самостоятельно. В современных ECM-системах обычно выделяют следующие ключевые функции [41, 43, 44]:
 управление документооборотом (англ. Document management) — экспорт и импорт документов, контроль версий, безопасность и другие службы для обработки документов;
 управление записями (англ. Records management, в соответствии с последним переводом стандарта IEEE 15489 — ГОСТ Р ИСО 15489-1-2007, «управление документами») — долгосрочное архивирование, автоматизация политик хранения и соответствия нормам регулирующих органов, обеспечение соответствия законодательным и отраслевым нормам;
 управление образами документов (англ. Image-processing applications) — сканирование бумажных документов, распознавание текста и других реквизитов, импорт в систему;
 социальный контент и сотрудничество (англ. Social content/collaboration) — компоненты, реализующие функционал для совместного использования документов, взаимодействия сотрудников, поддержки проектных команд;
 управление потоками работ (англ. Content workflow) — поддержка бизнес-процессов, передача контента по маршрутам, назначение рабочих задач и состояний, создание журналов аудита;
 пакетные приложения и интеграция (англ. Packaged apps and integration) — поддержка возможности расширения функционала управления контентом за счёт открытых API, открытых исходных кодов программ, модульной архитектуры программных компонент, которые могут объединяться и использоваться вместе со внешними приложениями, данными/файлами других форматов;
 расширяющие компоненты (англ. Extended components) — компоненты, реализующие следующие функции: корпоративный поиск, архивирование данных, управление веб- контентом (англ. web content management) и т.п.
 аналитика/бизнес-аналитика (англ. Analytics/BI) — реализация функций аналитики корпоративного контента (структурированного и неструктурированного содержания), электронного обнаружение или раскрытия информации (англ. electronic discovery,
eDiscovery), анализа действий пользователей.
Из перечисленных пунктов следует, что современные ECM-системы должны обладать развитыми средствами аналитики контентных данных, которые позволяют обнаруживать искомые материалы, определять ценность информации и принимать решения, способствующие росту бизнес-результатов [18, 44]. Стоит отметить, что Gartner в отчёте за 2016 год [44] отдельно выделил функционал аналитики, ранее в отчёте за 2014 год [43] данный пункт был включён в состав расширяющих компонент. Анализ контента помогает решать множество

20 информационных проблем в самых разных отраслях деятельности организаций, например
[45, 46]:
 Повысить степень удовлетворенности клиентов на основе анализа большого объема замечаний, предложений и отзывов клиентов.
 Точнее предугадывать потребности клиентов за счет определения тенденций в неструктурированных коммуникациях с клиентами.
 Оптимизировать процессы с большим документооборотом на основе разумной организации и маршрутизации элементов содержимого.
 Сократить случаи мошенничества на основе анализа форм, документов и коммуникаций.
Для выбора современных ECM-систем, с целью проведения обзора их функциональных возможностей по анализу текстовой информации, были использованы рейтинговые данные, приведённые в отчётах Gartner за 2014 и 2016 года [43, 44].
Gartner для оценки производителей систем располагает их в виде квадрата (англ. Magic
Quadrant), осями которого служат два критерия (см. Рисунок 2):
 Возможность реализации (англ. ability to execute): критерий основан на таких факторах, как финансовое положение поставщика, реакция рынка, разработка и совершенствование продукции, каналы сбыта, клиентская база.
 Полнота виденья (англ. completeness of vision): критерий основан на таких факторах, как инновации поставщика, технологии поставщика задают направление развития рынка или же поставщик следует за рынком, а также соответствует ли видение поставщика о развитии рынка представлениям компании Gartner.
Квадраты Gartner производителей ECM-систем для 2014 и 2016 годов [43, 44].

21
Из рейтинговых данных Gartner, приведённых на Рисунке 2, следует, что уже на протяжении минимум трёх лет ECM-решение от компании IBM является основным лидером на рынке. Кроме того, в отличии от большинства других производителей ECM-систем, IBM предоставляет хорошую документацию к возможностям своих продуктов, причём как на русском, так и на английском языках. Поэтому далее при описании аналитических компонент
ECM-систем будем придерживаться терминологии документации IBM.
Помимо программных компонент анализа контентных данных, подавляющее большинство современных ECM-систем включает в себя компоненты электронного обнаружения или электронного раскрытия информации eDiscovery. Средства eDiscovery обеспечивают процесс, с помощью которого организации находят, получают, сохраняют и анализируют документы, связанные с определенным судебным делом[47-51]. Компоненты eDiscovery могут собирать данные на рабочих местах сотрудников и корпоративных ноутбуках
(пример решений: OpenText [49], IBM Desktop Data Collector [51]), что их приближает по функционалу к DLP-системам. Помимо непосредственно поиска документов, связанных с запросом на электронное раскрытие, также зачастую требуются средства анализа найденных документов, в том числе включающие анализ действий пользователей с информацией. В связи с этим отдельным пунктом будут рассмотрены методы анализа, применяемые в системах eDiscovery.
Анализ функционала ECM-систем, главным образом тех, которые Gartner отнёс к числу лидеров, показал, что можно выделить следующую структуру для описания основных аналитических возможностей по обработке текстовых данных:
 Классификация документов;
 Анализ отдельных документов;
 Поиск и анализ документов;
 Методы анализа контентных данных eDiscovery.
1.1.1
Классификация документов
Классификация текстовых данных реализована в большинстве современных ECM- системах [52, 53, 54]. Выделяют три подхода к классификации:
 Классификация на основе обучающей выборки (пример: продукт IBM Content Classification —
Knowledge bases классификация [55]): определение принадлежности документа к одному или нескольким классам, которые задаются заранее на основе предопределённого обучающего набора классифицированных текстов.
 Классификация на основе заданных правил (пример: продукт IBM Content Classification —
Decision plans классификация [55]): решение о принадлежности документа к одному или

22 нескольким классам принимается на основе соответствия документа заранее сформированным эвристическим правилам (сигнатурам). Для описания таких правил используются признаки как контента документа (например, шаблоны текста, ключевые слова/словосочетания и т.п.), так и его контекста (например, имя отправителя документа/письма, директория хранения документа, время создания документа и т.п.).
 Определение категорий в неизвестных документах (пример: продукт IBM Content
Classification — Taxonomy Proposer классификация [55, 56]): разбиение множества документов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из семантически схожих документов, а документы разных кластеров существенно отличались.
В отличие от задачи классификации, в задаче кластеризации группы документов заранее не определяются, ни сигнатурами, ни обучающим набором (см. Рисунок 3).
Кластеризация документов [56].
Применять классификацию контентной информации в масштабах организации можно для решения различных бизнес-задач, например:
 Применение политик управления информацией организации. Информация о классах документа, а также контекстные данные документа (метаданные), позволяют задавать политики управления контентной информацией. Например, документы заданных категорий должны перемещаться на определённые серверы или архивироваться; электронная почта определённых категорий должна перенаправляться на заданные адреса.
 В целях eDiscovery. Документы и электронная почта могут фильтроваться в зависимость от присвоенных им классов, чтобы гарантировать, что только материалы с запрошенной бизнес- информацией в рамках расследуемого дела были найдены и сохранены. Данная возможность позволяет быстро и эффективно подготовить запрошенные данные.
 Анализ работы сотрудников. Определение классов информации, с которой работает пользователь, и на их основе применение политик безопасности организации. Выявление

23 категорий неизвестных документов, хранящихся на рабочих местах сотрудников или серверах компании.
1.1.2
Анализ отдельных документов
Анализ документа в ECM-системах реализует аналитический конвейер (терминология
IBM [40, 57, 58]), который последовательно выполняет обработку документа. Например, в
аналитический конвейер IBM входят следующие операции:
 Извлечение текста из документа. Обработка документов различных форматов: XML, HTML,
Microsoft Word, Adobe Portable Document Format (PDF) и т.п.
 Определение языка и кодировки документа. Анализатор использует эту информацию, чтобы преобразовать исходный текст в Unicode, прежде чем выполнять лингвистический анализ.
 Токенизация (англ. tokenization). На этой фазе синтаксический анализатор выполняет следующие задачи:
- Нормализация символов, например, перевод символов в верхний регистр и удаление диакритических знаков, таких как умляуты в немецком.
- Анализ структуры абзацев, предложений, слов и пустого пространства. Используя лингвистический анализ, анализатор разбивает составные слова на части и назначает маркеры, позволяющие выполнять просмотр словаря и синонимов.
 Анализ текста документа. В результате выполнения предшествующих операций
аналитического конвейера получается представление текста, к которому применяются методы анализа, направленные на решение следующих типовых задач: извлечение фактов
(англ. fact extraction); анализ тональности текста (англ. sentiment analysis) [49, 59]; выделение значимых слов и словосочетаний документа (англ. keyword extraction); извлечения тематик
(англ. topic extraction) — последовательностей семантически связанных слов текста; построение аннотации документа (англ. summarization).
Основной особенностью текстового анализа в продукте IBM Content Analytics является возможность формирования фасетов на этапе анализа текста документа [57, 60]. Фасеты — это важные аспекты документов, полученные либо из метаданных, которые уже структурированы
(например, дата, автор, теги), либо из понятий, извлеченных из текстового контента [60].
Другими словами, фасеты включают в себя контекстные и контентные характеристики анализируемого документа. При этом контентные характеристики можно рассматривать как набор семантически связанных ключевых слов текста документа. Некоторые фасеты строятся как иерархические и содержат один или несколько уровней субфасетов. Например, у фасета завода- изготовителя автомобилей субфасеты будут представлять разные модели автомобилей, года

24 выпуска и города-изготовители. Сформированные фасеты в дальнейшем могут применяться для формирования «срезов» данных, т.е. используются в качестве фильтров [60].
1.1.3
Поиск и анализ документов
Общую схему процедуры поиска и анализа контентных данных в организации можно описать следующими шагами [57]:
1. Сбор данных. Компоненты системы собирают документы из различных источников данных либо непрерывно, либо по заданному расписанию (частый сбор информации гарантирует, что у пользователей всегда будет доступ к последним данным). Для создания выборки анализируемых документов задаётся набор источников и конфигурация сбора.
2. Анализ отдельных документов. Выполнение операций аналитического конвейера для документов из сформированной выборки.
3. Индексация данных. Компоненты индексации добавляют в индекс информацию о новых и измененных документах. Компоненты индексации также выполняют «глобальный» анализ документов выборки, определяя степень корреляции и обнаруживая повторяющиеся или почти повторяющиеся документы. IBM Content Analytics также позволяет создавать отдельный индекс для фасетов.
4. Поиск и исследование содержимого. Предоставление интерактивного графического интерфейса для решения задач: a. Поиск и формирование выборки интересующих документов для дальнейшего исследования; b. Исследование содержимого документов выборки с целью обнаружения новых знаний, используя аналитические функции ECM-системы.
Основной функционал современных ECM-систем для поиска и исследования
содержимого контентных данных организации можно описать следующими пунктами [60, 61,
62, 63]:
 Задание области анализа. Формирование поискового запроса для создания выборки на основе следующих типов характеристик документа:
- контекстные данные (метаданные) документа;
- контент документа (слова, входящие в текст) и его аналитические характеристики
(например: тематики, классы/категории, фасеты и т.п.).
 Анализ характеристик документов. Выявление преобладающих характеристик документов в области анализа. Анализ взаимосвязей между выделенными характеристиками документов.

25
 Анализ тональности текста. Предназначен для выявления эмоционально окрашенной лексики к объектам, речь о которых идёт в тексте. Можно оценить общее отношение к объектам, определить положительные и отрицательные выражения, а также узнать, как изменяется отношение к объекту в выборке документов с течением времени.
 Просмотр содержимого и метаданных документа:
- Просмотр списка документов, соответствующих заданной области анализа.
- Просмотр отдельных документов: содержимое документа, ключевые слова, аннотация, основные тематики, классы/категории, а также другие метаданные документа.
 Анализ временных рядов:
- Построение и визуализация временных рядов распределения частот встречаемости документов, соответствующих требуемым характеристикам, по заданной временной шкале (дни, годы, месяцы), см. Рисунок 4.
Распределения частот встречаемости документов, соответствующих запросам
«vanilla ice cream», «orange juice», «chocolate ice cream» [62].

26
- Анализ тренда и периодичности в сформированных временных рядах. Обнаружение аномальных изменений тренда (см. Рисунок 4) или периодичности данных, т.е. нахождение интервалов времени, в которых наблюдаемые значения частоты встречаемости документов сильно отличаются от ожидаемых (средних). Далее можно произвести дополнительный анализ обнаруженного аномального временного интервала.
При поиске и анализе документов могут использоваться результаты их классификации в качестве соответствующих аналитических характеристик документа. Как уже было отмечено классификация контентных данных у IBM реализована в продукте IBM Content Classification, а поиск и анализ — в продукте IBM Content Analytics. Указанные продукты взаимодействуют между собой следующим образом [64]:
 при классификации контентных данных IBM Content Classification добавляет метаданные к документу о его классах и группах, что позволяет улучшать качество поиска и использовать добавленные метаданные в качестве дополнительных аналитических характеристик при анализе выборок документов;
 выборки документов, сформированные с помощью IBM Content Analytics, могут использоваться для обучения и применения методов классификации IBM Content
Classification.
1.1.4
Методы анализа контентных данных eDiscovery
Большинство современных ECM-систем при реализации задач электронного обнаружения ограничивается выше описанными средствами классификации, поиска и анализа собранных данных [47-50]. В качестве примера с наиболее широким аналитическим функционалом приведём решение IBM eDiscovery Analyzer [50, 65], которое включает следующие аналитические инструменты, служащие для понимания работы пользователей с контентными данными (см. Рисунок 5):
 Временные ряды предоставляют возможность получить информацию о наблюдаемых и ожидаемых значениях частоты встречаемости документов, соответствующих поисковому запросу и выбранному периоду времени (аналогично описанному в пункте 1.1.3 функционалу
«анализ временных рядов»). Данная возможность наглядно визуализирует интервалы времени, в которых велась работа с интересующей информацией, а также позволяет выявить ситуации, когда интерес к тем или иным темам выходил за пределы нормы.
 Диаграмма электронной почты предоставляет возможность визуализации связей между отправителями и получателями, на основе анализа данных связей также реализована возможность ранжирования сотрудников и доменов электронной почты по их важности.

27
Например, с помощью диаграммы электронной почты можно выделить сотрудника, которому поступает много сообщений электронной почты, но сам он отправляет относительно мало писем. В связи с этим можно предположить, что выделенный сотрудник получает большое количество сообщений электронной почты в качестве копий, но он не является их первичным получателем. Следовательно, данный сотрудник скорее всего выполняет роль принятия решений и является ключевым, поэтому его электронную почту требуется проверить более тщательно.
 Диаграмма категорий предоставляет возможность визуализировать корреляцию между документами из двух различных категорий. В документах из двух выбранных категорий определяются аналитические характеристики — ключевые слова и тематики. После чего строятся графики временных рядов распределения частоты встречаемости соответствующих характеристик в документах за выбранный период времени. Такая визуализация позволяет выявить связи между ключевыми слова и тематиками благодаря их единовременному появлению в документах различных категорий.
Иллюстрация аналитических инструментов
IBM eDiscovery Analyzer [50].

28
1.2
Системы предотвращения утечек данных (DLP)
Для минимизации рисков, связанных с утечками данных, традиционно используются
DLP-системы. Согласно Gartner [66, 67], предотвращение утечек данных включает:
 набор технологий классификации контентной информации (например, данные, содержащейся в текстовых файлах, электронных письмах, хранилищах данных);
 контролирующие техники для применения политик безопасности к контентным данным: ведение журнала событий (логирование), уведомление, перемещение (карантин), шифрование, маркировка (англ. tagging) и др.
Из определения Gartner следует, что технологии классификации информации составляют ядро DLP-систем, особенно учитывая схожесть основных элементов архитектуры DLP-системы: модули контроля информации для её состояний, модули хранения и обработки данных, модуль управления инцидентами безопасности. Стандартными подходами к классификации данных в
DLP решениях являются:
 Цифровые отпечатки(англ. digital fingerprint) — технология предназначена для детектирования редко изменяемых или неизменяемых (статичных) документов. Позволяет автоматически обнаруживать в анализируемом тексте цитаты из документов-образцов, содержащих конфиденциальную информацию.
- Достоинства: высокая точность детектирования статичных документов.
- Недостатки: требуется предварительное индексирование документов-образцов; чувствительность к текстовым изменениям.
 Анализ шаблонов (англ. templates analysis) — анализ текстов на основе словарей и регулярных выражений. Позволяет обнаружить факты несанкционированной пересылки документов, содержащих формализованные данные, образованные по определенному шаблону, как правило, персональные данные (номера кредитных карт, номера паспортов, адреса электронной почты, и т.п.).
- Достоинства: высокая эффективность в детектировании формализованных данных; существуют шаблоны типовых персональных данных.
- Недостатки: не применим для детектирования неформализованных данных.
В течение последних несколько лет производители современных DLP-систем [66, 67] стали предлагать свои уникальные технологии классификации данных, которые основаны на
машинном обучении, например: Vector Machine Learning (Symantec [68]), продукт Автолингвист
(InfoWatch [69]). Использование методов классификации на основе машинного обучения в современных DLP-системах обусловлено тем, что состав и содержимое анализируемых документов постоянно изменяется (например, содержимое и формат данных финансового отчёта

29 могут изменяться со временем), поэтому анализируемые документы могут вовсе и не содержать точных шаблонов или отпечатков документов. Для адаптации к этой динамике применяются методы машинного обучения, т.к. алгоритмы машинного обучения обладают возможностью обобщения. Они способны корректно ранжировать или классифицировать документы, которые не встречались непосредственно в тренировочном наборе. Приведём основные достоинства и недостатки использования подхода к классификации информации на основе машинного обучения:
 Достоинства:
- Работают напрямую с содержимым документови не зависят от «контекста» документа: не важно кем, где и как был создан документ, как называется файл, какой на нем гриф. Широко применяется для защиты внутренних не маркированных документов и категоризация входящих извне документов.
- Обучаемость. Достаточно указать системе пример ошибочно классифицированного документа.
- Возможность обобщения. Некоторые методы способны корректно классифицировать документы, которые не встречались непосредственно в тренировочном наборе.
 Недостатки:
- Требуется формирование обучающего набора.
- Возможность ложноотрицательных (false negative error) и ложноположительные
(false positive error) срабатываний [68].
В качестве примера технологии классификации на основе машинного обучения рассмотрим технологию Vector Machine Learning (VML) от производителя Symantec, как главного лидера на рынке DLP-систем. Описание данной технологии Symantec разбивает на два этапа, представленных на Рисунке 6: обучение (англ. training) и обнаружение/идентификация
(англ. detection). На этапе обучения формируется VML-профиль (модель) данных на основе загруженных в систему обучающих примеров документов. Обучающий набор документов состоит из «положительных» и «отрицательных» документов. «Положительные» документы содержат данные, которые должны быть защищены (конфиденциальная информация),
«отрицательные» документы — данные, которые стоит игнорировать, т.е. информацию, не представляющую ценность для организации. После загрузки обучающего набора, VML выполняет процесс обучения и создаёт статистическую модель — VML-профиль. Далее, на этапе обнаружения созданный VML-профиль используется для классификации неизвестных документов в качестве составной части политики безопасности организации, задающей правила классификации документов. Если документ классифицируется как «положительный», то

30 генерируется определённое событие безопасности в DLP-системе. Для поддержки VML-профиля в актуальном состоянии Symantec также реализовал возможность его дообучения [68].
Иллюстрация работы технологии Vector
Machine Learning (Symantec) [68].
Основная задача DLP-систем заключается в выявлении и/или блокировке несанкционированной передачи конфиденциальной информации. Однако современные DLP- системы также включают в свой состав средства мониторинга и анализа действий пользователей
[70, 71], функционал которых на данный момент базируется на формировании различных статистик по операциям пользователя (в том числе касающимся работы с конфиденциальными данными), и сопоставлении их либо со значениями, заданными администратором DLP-системы, либо со средними значениями данных статистик за определённый временной интервал. В качестве демонстрации подобного функционала в литературе [71] обычно приводится пример анализа работы пользователя с электронной почтой: сотрудник организации на легитимных основаниях может пересылать конфиденциальные данные нескольким клиентам в день посредствам электронной почты. Но если данный сотрудник в течение дня отправляет нетипично большое количество документов, содержащих конфиденциальные данные, то об этом нужно уведомлять администратора. В данном примере инцидентом безопасности является событие пересылки сотрудником определённого типа конфиденциальных данных через электронную почту, а для предотвращения вышеописанной ситуации задаётся максимальное количество подобных пересылок информации за день и формируется соответствующая политика безопасности.

31
На сегодняшний день многие эксперты считают основным недостатком DLP-систем то, что они оценивают действия пользователя с конфиденциальными документами, не учитывая предысторию работы данного пользователя с подобной информацией [11]. Другими словами,
DLP-системы не могут обнаруживать аномальные изменения в пользовательском поведении и, следовательно, давать точную оценку легитимности текущих действий пользователя с конфиденциальной информацией. А поскольку DLP-системы основаны на использовании
«вручную» заданных правил и политик работы пользователей с конфиденциальной информацией, то на практике это приводит либо к созданию политик с существенными пробелами в безопасности, либо слишком строгих политик, которые объективно мешают работе организации и приводят к серьёзным издержкам как в работе рядовых сотрудников, так и в работе службы ИБ [5, 13, 72].
В заключение данного подраздела отметим, что сейчас существуют примеры интеграции
UEBA-систем с DLP-системами. Идея подобной интеграции заключается в том, что UEBA- системе добавляется дополнительный источник структурированных данных об операциях пользователя с конфиденциальными данными — журналируемая информация (логи), формируемая DLP-системой. В качестве примера приведём UEBA-систему от Exabeam и DLP- систему Symantec Vontu [5]. Таким образом, при создании профиля поведения пользователя
UEBA-система учитывает информацию о наличии конфиденциальных данных в пользовательских документах, покидающих информационный периметр организации. Такое расширение источников информации о поведении пользователя позволяет UEBA-системе выявлять аномальные действия пользователя, а также объяснять по каким причинам выявленные действия отличаются от нормы, учитывая следующие поведенческие признаки [5]:
 Как часто и в каком количестве пользователь пересылает конфиденциальные данные через сетевые каналы компании (например, электронную почту).
 Как часто и в каком количестве пользователь копирует документы, содержащие конфиденциальную информацию, на свой локальный компьютер с различных серверов компании или с локального компьютера на внешние носители.
Очевидно, что такую интеграцию UEBA-систем с DLP-системами нельзя считать полноценной реализацией анализа поведенческой информации при работе пользователя с текстовыми данными, поскольку в данном случае анализ содержимого документов пользователя сводится к возможностям DLP системы, которые имеют существенные ограничения:
 Определение того, какая информация является конфиденциальной, и правила работы пользователей с ней по-прежнему задаются «вручную» экспертом. Поэтому DLP системы могут выявлять наличие только определённой конфиденциальной информации в потоках документов соответствующих пользователей.

32
 DLP-системы работают на уровне эксфильтрации данных, тем самым невозможно выявлять ранние признаки утечки информации, которые проявляются за долго до пересылки данных за информационный периметр компании.
1.3
Выводы
Из проведённого обзора подходов к анализу текстовой информации, применяемых в современных программных системах, функционал которых направлен на управление контентной информацией организации, можно сделать следующие выводы:
 В качестве признаков при анализе коллекций документов наряду с ключевыми словами текста также широко используются следующие характеристики документов: категории/классы, получаемые в результате применения алгоритмов классификации; тематики/фасеты — последовательности семантически связанных слов, выделяемые из выборок документов.
 Для визуализации выборок документов зачастую используются представление в виде временных рядов распределения частот встречаемости документов, соответствующих требуемым характеристикам, по заданной временной шкале. Для анализа подобных временных рядов применяются методы определения аномальных (несвойственных) временных интервалов. Но, видимо, из-за специфики решаемых задач, а именно анализа уже имеющихся данных, методы прогнозирования временных рядов в обозреваемой литературе не упоминались.
 При рассмотрении функционала DLP-систем показана важность анализа предыстории работы пользователей с документами для объективной оценки его намерений при пересылке данных, содержащих конфиденциальную информацию. Поэтому на сегодняшний день актуальным становится интеграция DLP и UEBA систем.
Сформулированные выводы являются обоснованием направлений дальнейших исследований:
1. Выбор признакового пространства для описания текстового содержимого документов, с которыми работает пользователь. Исследовать возможность описания текстового контента пользователя с помощью характерных для него последовательностей семантически связанных слов — тематик. Веса выделенных тематик в документе характеризуют тематическую направленность пользователя во время работы с данным документом.
Упорядочив документы по времени операции пользователя с ними можно представить поведенческую информацию в виде многомерного временного ряда изменений весов сформированных тематик.

33 2. Выбор методов обнаружения аномалий в поведенческой информации:
 Исследовать возможность применения методов анализа временных рядов для соответствующего представления изменения тематической направленности пользователя.
 Исследовать возможность применения методов классификации на основе машинного обучения для определения фактов работы пользователя с несвойственными ему текстовыми документами.

34 2
МОДЕЛИРОВАНИЕ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЯ
В диссертационной работе проводится исследование и разработка методов обнаружения аномального поведения пользователей на основе машинного обучения. Исходя из цели работы, для построения модели поведения пользователя используется содержимое потока обрабатываемых текстовых данных, т.е. анализируются объекты, которые представляют совокупность текста документа и времени обращения пользователя к нему.
Формально поток документов пользователя представляет множество
x = {(d, t)}  X = DT, каждый элемент которого представляет пару (d, t) — анализируемый объект, где d — документ, содержащий текстовые данные пользователя, t — временная метка, соответствующая обращению пользователя к d.
В общем случае текст документа представляет существенно неструктурированные и разнородные данные. Методы машинного обучения традиционно работают с более формальными объектами, например, с векторами в пространстве фиксированной размерности.
Таким образом, требуется выбрать формальное представление анализируемых объектов или, другими словами, выбрать модель представления. Для этого необходимо описывать текстовые данные, к которым обращается пользователь, набором признаков, изменения значений которых будут определять поведение пользователя с течением времени. Формально коллекцию документов C = (d
1
, …, d
n
), с которыми работал пользователь, требуется представить в виде числовой матрицы A  ℝ
mn
, строки которой соответствуют признакам, а столбцы — текстовым документам, упорядоченным по времени обращения пользователя. Каждый документ d
j
(1 ≤ j ≤ n) представляется в виде числового вектора A
j
= [a
1,j
, a
2,j
, …, a
m,j
]
T
фиксированной размерности m, где m — число признаков коллекции документов, а i-ая (1 ≤ i ≤ m) компонента вектора A
j
определяет вес i-го признака в j-ом документе (см. Рисунок 7).
Формирования поведенческой модели.
Самым распространенным классическим способом представления текста является векторное представление типа «мешок слов» (англ. «bag-of-words») [73]. В качестве признаков в

35 данной модели используются лексемы, входящие в текст, а размерность признакового пространства равна размерности словаря лексем. Под лексемами в общем случае понимаются все различные слова текста. Однако обычно для сокращения и получения более «информативного» признакового пространства применяются некоторые меры по предварительной обработке текста, например: удаление стоп-слов, приведение слов к нормализованной форме (стемминг) и т.п.
В модели представления «мешок слов» для обозначения признаков текста принято использовать термин «терм» [73]. Хотя даже после применения стандартных методов предварительной обработки текста, результирующая размерность пространства признаков, как правило, достигает десятков и сотен тысяч элементов. Например, для стандартного эталонного набора
20_newsgroups [74], состоящего из 18774 текстовых документов (разделённых на 20 категорий), размерность словаря термов составляет 61188. Ещё одной особенностью модели «мешок слов» является сильная разреженность получаемой матрицы представления коллекции документов, т.к. в общем случае документы являются различными по составу и количеству входящих слов.
Высокая размерность пространства признаков может приводить к низкой скорости работы алгоритмов машинного обучения, также аргументом в пользу уменьшения пространства признаков, является проблема переобучения или «чрезмерно близкой подгонки»
(англ. overfitting, overtraining, overlearning) [73]. Смысл её состоит в том, что обученный алгоритм хорошо удовлетворяет конкретным примерам тренировочного набора, учитывает его незначительные детали, но плохо моделирует пространство объектов в целом благодаря влиянию помех или шума в тренировочном наборе. Например, в результате классификатор будет хорошо классифицировать только объекты из тренировочного набора, но плохо — любые новые объекты, отличные от тех, на которых он был обучен. Как уже было отмечено во введении, текстовые документы зачастую содержат информационный шум, который не влияет на общую семантику документа. Таким образом, возникает проблема фильтрации информационного шума из документов, которая заключается в удалении нерелевантных фрагментов текста.
В диссертационной работе предлагается исследовать подход к анализу и моделированию поведения пользователя, состоящий в представлении информации о потоке документов, с которыми работал пользователь, в виде многомерного временного ряда, показывающего изменение весов признаков соответствующих документов (см. Рисунок 7). Очевидно, что модель представления документов «мешок слов» не подходит для применения в данном подходе из-за следующих обозначенных недостатков:
 большая размерность пространства признаков;
 разреженность матрицы представления документов.
Поэтому было предложено исследовать возможность описания текстового контента пользователя с помощью характерных для него последовательностей семантически связанных

36 слов, которые далее будем называть тематиками. В области анализа текстовой информации для описания текстов с точки зрения их тематик применяются тематические модели. Использование таких моделей представления документов приводит к существенному (на порядки) уменьшению пространства признаков за счёт объединения разных, но семантически связанных, термов в один признак. Однако современные тематические модели в качестве первого этапа обработки документов используют их представления с помощью модели «мешок слов».
Ниже в настоящем разделе будут рассмотрены:
 модель представления документов «мешок слов»;
 тематические модели представления документов;
 построение и применение выбранной тематической модели для представления потока текстовых документов пользователя;
 методы удаления информационного шума из документов.
2.1
Модель представления «мешок слов»
Коллекция документов C = (d
1
, …, d
n
) в модели представления «мешок слов» отображается в числовую матрицу A  ℝ
mn
, строки которой соответствуют термам, а столбцы
— документам. Элементы a
i,j
(1 ≤ j ≤ n, 1 ≤ i ≤ m) матрицы A соответствуют весу i-го терма в векторном представлении j-го документа. Далее будут рассмотрены стандартные техники
предварительной обработки текста для формирования сокращённого признакового пространства и алгоритмы вычисления весовых коэффициентов термов в документах.
2.1.1
Предварительная обработка текста
Цель предварительной обработки текста — оставить только те признаки, которые наиболее информативны, т.е. наиболее сильно характеризуют текст. К тому же уменьшение анализируемых признаков приводит к уменьшению использования вычислительных ресурсов.
Традиционно используются следующие приёмы предварительной обработки текста [73, 75]:
1. Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании текста. К ним можно отнести союзы, предлоги, артикли, а также общеиспользуемые термины, вводные слова, местоимения и т.д. Как правило, для различных языков заранее составляются списки таких слов, и в процессе предварительной обработки они удаляются из текста.
2. Приведение слов к нормализованной форме — стемминг (англ. stemming). Цель этого метода состоит в том, чтобы объединить различные морфологические формы слова в одну координату пространства признаков. На этом этапе осуществляется приведение каждого

37 слова к своей нормализованной форме, то есть выделение основ или корней слов.
Существенным недостатком метода является его зависимость от морфологии языка. Для каждого языка необходим специальный морфологический анализатор. Кроме того, само по себе построение морфологического анализатора для некоторых языков является достаточно нетривиальной проблемой.
3. Представление слов в виде N-грамм. В качестве альтернативы стеммингу используют метод представления слов в виде N-грамм. В данном методе в качестве признаков для каждого слова берутся подряд идущие буквосочетания фиксированной длины N [75]. Например, для слова
«сахар» при N, равном 3, N-граммами будут: «_са», «сах», «аха», «хар», «ар_». Этот метод основывается на предположении, что однокоренные слова будут образовывать сходный набор N-грамм. Так, для слова «сахарный» получатся следующие N-граммы: «_са», «сах»,
«аха», «хар», «арн», «рны», «ный», «ый_». Среди этих N-грамм некоторые оказываются неинформативными: например, «ный» встречается во многих прилагательных. Однако в большинстве своём у однокоренных слов встречаются одни и те же N-граммы. Этот метод применим для многих современных языков, за исключением иероглифических, в которых каждый символ является отдельным признаком. В то же время, в большинстве таких языков иероглиф является сочетанием нескольких черт и этот алгоритм можно распространить и на эти языки. Поэтому метод N-грамм можно считать достаточно универсальным и применимым ко всем языкам. Основным достоинством данного метода является отсутствие необходимости дополнительной лингвистической обработки текста. Разбиение на N-граммы гораздо проще, чем выделение базовой лексемы, а из-за ограниченности алфавита во всех языках максимальное число различных признаков также ограничено. К недостаткам N-грамм можно отнести то, что они могут сильно увеличить количество признаков текста, особенно при небольших значениях N. В связи с этим на практике в основном применяется стемминг, т.к. его реализации существуют для большинства языков: русский, английский, немецкий, французский, итальянский и т.д. [73].
2.1.2
Вычисление весовых коэффициентов термов
Каждый документ d
j
(1 ≤ j ≤ n) из коллекции C = (d
1
, …, d
n
) представляется в виде вектора
A
j
= [a
1,j
, a
2,j
, …, a
m,j
]
T
в пространстве термов, элементами которого являются весовые коэффициенты соответствующих термов. Вес терма i в документе j обычно записывают в виде произведения трёх составляющих — a
i,j
= L
i,j
· G
i
· N
j
:
 L
i,j
— локальный вес терма i в документе j;
 G
i
— глобальный вес терма i во всей коллекции документов;
 N
j
— нормализация вектора документа j.

38
Приведём наиболее популярные локальные и глобальные веса термов, а также нормализации, которые применяются в различных задачах анализа текстовой информации
[73, 76].

1 2 3 4 5 6 7 8 9 10