Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности

Название	Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
Дата	24.01.2022
Размер	4.32 Mb.
Формат файла
Имя файла	Tsarev_dissertation.pdf
Тип	Диссертация #340124
страница	8 из 10

1 2 3 4 5 6 7 8 9 10

Просмотр выборки документов
При просмотре выборки документов соответствующая таблица представляет последовательность наблюдаемых операций, отсортированных по времени (см. Рисунок 34).
Каждая строка таблицы соответствует одной операции, а столбцы — атрибутам операции.
Просмотр выборки документов.
Двойное нажатие левой кнопки мыши на строчке таблицы выборки документов приводит к появлению нового окна, отображающего полную историю действий с ассоциированным наблюдаемым документом (см. Рисунок 35). История действий с документом включает операции, выполняемые как пользователями, так и агентом мониторинга.

114
Просмотр истории действий с документом.
Выбрав интересующую операцию при просмотре истории действий с документом, можно просмотреть извлечённый текст и его аннотацию соответствующей теневой копии документа
(см. Рисунок 36). Отметим, что аннотации к тексту документа формируются на основе предложенного метода расчёта релевантности предложений текста.
Форма просмотра текста теневой копии документа.

115
Просмотр моделей и отчётов идентификации
Просмотр модели идентификации аналогичен просмотру выборки документов, с той лишь разницей, что добавляются следующие столбцы (см. Рисунок 37):
 «Темы» — веса выделенных тематик модели;
 «Номер» — идентификатор временного интервала, к которому относится наблюдаемая операция с документом.
Просмотр модели идентификации.
Отличие просмотра отчёта идентификации от модели заключается в добавлении к таблице наблюдаемых операций столбцов (см. Рисунок 38):
 «Прогноз» — прогноз выделенных тематик для соответствующих временных интервалов;
 «Уровень» — уровень аномальности временных интервалов, для которого вычислен прогноз.
Cтроки таблицы, которые соответствуют тренировочному периоду (для которых не вычисляется прогноз), окрашиваются в серый цвет. Строки же, для которых строился прогноз, окрашиваются в оттенок красного в соответствии с вычисленным уровнем аномальности.

116
Просмотр отчёта идентификации.
Просмотр моделей и отчётов раннего обнаружения
При просмотре моделей и отчётов раннего обнаружения таблица наблюдаемых операций соответствует таблице выборки документов с добавлением столбцов (см. Рисунок 39):
 «Темы» — веса выделенных тематик модели;
 «Уровень аномальности» — уровень аномальности наблюдаемых операций.
Строки таблицы окрашиваются в оттенок красного в соответствии с вычисленным уровнем аномальности.

117
Просмотр документов для моделей и отчетов раннего обнаружения.
Графический просмотр моделей и отчётов
Реализована возможность представления в виде графиков тематических временных рядов для просмотра моделей и отчетов как идентификации, так и раннего обнаружения. Данная возможность предоставляется с помощью двойного нажатия на строке табличного представления наблюдаемых операций, входящих в модель или отчёт, а также с помощью отдельного меню
«Просмотреть графики». Далее приведём особенности графического просмотра моделей и отчётов.
Графический просмотр моделей идентификации
Выводятся графики изменения весов выделенных тематик в сформированных временных интервалах модели. По горизонтали отображаются номера временных интервалов, по вертикали
— веса тематик. В случае выбора наблюдаемой операции при просмотре модели в табличном представлении, временной интервал, соответствующий данной операции, будет обозначен красной вертикальной линией (см. Рисунок 40).

118
Графический просмотр модели идентификации.
Графический просмотр отчётов идентификации
В дополнение к графикам, которые отображаются для моделей идентификации, пунктирными линиями выводятся прогнозы значений весов соответствующих тематик. При этом вертикальной пунктирной линией обозначается начало времени прогноза. Также добавлена дополнительная область отображения графиков «Уровень аномальности» для графиков изменения уровня аномальности по каждой из тематик (см. Рисунок 41).
Графический просмотр отчета идентификации.

119
Графический просмотр моделей и отчетов раннего обнаружения
Выводятся графики изменения весов выделенных тематик в документах, ассоциированных с наблюдаемыми операциями модели или отчёта. Также в дополнение к данным графикам выводится график изменения уровня аномальности наблюдаемых операций
(см. Рисунок 42). В случае выбора наблюдаемой операции при просмотре модели или отчёта в табличном представлении данная операция будет обозначена красной вертикальной линией.
Графический просмотр отчёта раннего обнаружения.
При графическом просмотре моделей и отчётов как идентификации, так и раннего обнаружения, реализованы следующие дополнительные возможности:
 редактирование списка отображаемых графиков;
 изменение типа линий, их размера и цветовой схемы;
 масштабирование области отображения графиков.
4.3
Оценка производительности
Разработанный ЭО ПК обнаружения аномального поведения пользователя при работе с текстовыми данными выполняет три базовые задачи — сбор поведенческой информации, построение индивидуальных поведенческих моделей, применение индивидуальных поведенческих моделей.
Основные функции сбора поведенческой информации выполняет агент мониторинга.
С точки зрения пользователя, на чьё рабочее место устанавливается агент мониторинга, критичным является то, как на производительность его компьютера влияет работа агента. Оценка производительности агента мониторинга приведена в пункте 4.3.1.

120
Построение и применение индивидуальных поведенческих моделей реализует DCOM-
объект анализа поведенческой информации. С алгоритмической точки зрения основными функциями являются:
 удаление информационного шума;
 тематическое моделирование;
 отображение документов в тематическое пространство;
 прогнозирование многомерного временного ряда.
Оценка производительности реализации перечисленных функций приведена в пункте 4.3.2.
Отметим, что из перечисленных функций критичной является только отображение документов в тематическое пространство, т.к. она является основной при применении поведенческих моделей как на агенте мониторинга, так и в отложенном режиме с помощью АРМ.
4.3.1
Оценка производительности агента мониторинга
При сборе поведенческой информации основная нагрузка на агент мониторинга приходится в том случае, когда требуется сохранять данные о наблюдаемых операциях и выполнять теневое копирование соответствующих документов. Примером описанного случая является выполнение пользователем операции создания документа. Поэтому для оценки производительности была проведена серия экспериментов, заключающаяся в копировании
(т.е. создании новых документов) большого числа документов на наблюдаемом компьютере пользователя.
В качестве наблюдаемого компьютера для проведения тестов на производительность агента мониторинга использовалось следующее оборудование: Intel Core 2 Duo E8600 3.33 GHz,
RAM 8.00 Gb, HDD 500 Gb, HDD 500 Gb. Операционная система: Microsoft Windows 7
Professional SP1, 64-разрядная. Двум физическим жёстким дискам тестовой машины соответствуют логические диски C и D, причём диск C является системным. Также в экспериментах используется внешний жёсткий диск ёмкостью 2 Tb, который соответствует логическому диску T.
Тестовый стенд, на котором проводились экспериментальные исследования, состоит из:
 агента мониторинга, установленного на диске C наблюдаемого компьютера;
 директории EnronFolder, содержащей все тестовые документы из уже рассмотренного набора
Enron Attachment (см. пункт 3.3.1);
 директории ObservedFolder — директория, наблюдаемая агентом мониторинга, т.е. все операции, происходящие с данной директорией, не фильтруются агентом мониторинга;
 директории TestFolder — вспомогательная директория для проведения тестов.

121
Для оценки производительности агента мониторинга рассматривались следующие тесты:
1. Копирование всех документов из директории EnronFolder в директорию TestFolder с незапущенным агентом мониторинга.
2. Копирование всех документов из директории EnronFolder в директорию TestFolder с запущенным агентом мониторинга.
3. Копирование всех документов из директории EnronFolder в директорию ObservedFolder с запущенным агентом мониторинга.
Были проведены две серии экспериментов, заключающиеся в выполнении описанных тестов с различными конфигурациями стенда:
 1-ая конфигурация: директории EnronFolder располагается на диске D, а директории
ObservedFolder и TestFolder — на диске С;
 2-ая конфигурация: директории EnronFolder располагается на внешнем жёстком диске T, а директории ObservedFolder и TestFolder — на диске D.
При проведении 3-его теста, с использованием 1-ой конфигурации стенда, получается двойная нагрузка на диск C, т.к. выполняется создание новых документов непосредственно в процессе их копирования и при создании теневых копий агентом мониторинга. Поэтому для всестороннего исследования нагрузки на вычислительные ресурсы, создаваемой агентом мониторинга, была также рассмотрена и 2-ая конфигурация стенда, при которой копии документов будут создаваться на диске D, а их теневые копии на диске С.
Для каждого теста замерялись время копирования всех документов набора
Enron Attachment, а также загрузка ЦП и оперативной памяти агентом мониторинга. Полученные усреднённые за 10 итераций показатели для двух рассмотренных конфигураций тестового стенда приведены в Таблицах 13 и 14.
Результаты серии экспериментов оценки производительности агента мониторинга для 1-ой конфигурации стенда.
Время процесса копирования
(секунды)
Загруженность процессора (%)
Загрузка оперативной памяти (Мбайт)
Тест 1 86 с
—
—
Тест 2 87 с
4.3%
4.95 Мбайт
Тест 3 134 с
10.7%
5.52 Мбайт

122
Результаты серии экспериментов оценки производительности агента мониторинга для 2-ой конфигурации стенда.
Время процесса копирования
(секунды)
Загруженность процессора (%)
Загрузка оперативной памяти (Мбайт)
Тест 1 88 с
—
—
Тест 2 90 с
3.7%
4.8 Мбайт
Тест 3 107 с
9.9%
5.25 Мбайт
Из приведённых в Таблицах 13 и 14 данных можно сделать следующие выводы:
 Мониторинг файловой системы и фильтрация операций с файлами, выполняемые агентом мониторинга, не оказывают существенное влияние на производительность ФС. Разница в скорости копирования тестового набора 11941 документов составляет 1-2%, при этом агент мониторинга загружает ЦП менее чем на 5% и затрачивает порядка 5 Мб ОЗУ. Отметим, что при запущенном агенте выполняется мониторинг всех запросов к ФС. Полученные результаты можно объяснить тем, что операции с ФС выполняются существенно медленнее чем мониторинг и фильтрация операций с файлами.
 При копировании документов в наблюдаемую папку ObservedFolder, расположенную на одном диске с локальным хранилищем агента, время копирования увеличилось в 1.6 раза, но фактически за счёт создания теневых копий число создаваемых файлов увеличивается вдвое.
Таким образом, замедление работы на реальном оборудовании оказалась даже меньше чем ожидалось. Кроме того, если операции с документами выполняются на диске физически отличном от диска с локальным хранилищем агента, то замедление составляет 1.2 раза.
Следовательно, при активной работе пользователя с файлами (например, массовом копировании десятков тысяч документов) агент мониторинга не занимает много оперативной памяти, в среднем около 5.5 МБ, а также не оказывает существенного влияния на загрузку ЦП.
Особенно учитывая современные реалии, когда даже на офисные компьютеры устанавливаются гигабайты оперативной памяти, а число ядер в процессорах превышает 4.
Создание теневой копий документа требуется в случае операции создания, изменения или любой операции с документом, который ранее не был зарегистрирован агентом мониторинга.
Проведённые эксперименты показали, что при одновременном выполнении операций, требующих создание теневых копий, с большим количеством документов, скорость их выполнения в худшем случае уменьшается в 1.6 раза. Однако в повседневной работе пользователя такие массовые операции с документами встречаются редко. Поэтому была проведена ещё одна серия экспериментов с 1-ой конфигурацией стенда, с той лишь разницей что выполнялось последовательное копирование файлов пользователя «vkaminski» с задержкой в

123 1 секунду. Полученные тестовые показатели для рассматриваемой серии экспериментов приведены в Таблице 15.
Результаты серии экспериментов оценки производительности агента мониторинга при последовательном копировании файлов.
Время процесса копирования
(секунды)
Загруженность процессора (%)
Загрузка оперативной памяти (Мбайт)
Тест 1 623 с
—
—
Тест 2 623 с
0.6%
4.2 Мбайт
Тест 3 623 с
0.6%
4.9 Мбайт
Из приведённых данных следует, что каких-либо задержек (с точностью до секунды) в выполнении операций копирования зафиксировано не было. Это объясняется тем, что теневое копирование выполняется только после выполнения пользовательской операции и успевает завершиться менее чем за 1 секунду. Соответственно, низкую загруженность ЦП и ОЗУ можно объяснить тем, что агент успевает обрабатывать все перехваченные обращения к ФС и не возникает ситуации с сильной заполненностью очередей агента. Таким образом, если пользователь одновременно не выполняет операции, требующие от агента создания теневых копий, с большим числом документов, то он даже не заметит каких-либо изменений в характеристиках работы своего наблюдаемого компьютера.
4.3.2
Оценка производительности методов обнаружения аномального поведения пользователя
Настоящий пункт посвящён оценке производительности функций DCOM-объекта
анализа поведенческой информации, реализующих удаление информационного шума, тематическое моделирование, отображение документов в тематическое пространство, прогнозирование многомерного временного ряда. Для перечисленных функций DCOM-объекта проводились следующие эксперименты с использованием тестовых документов из набора
Enron Attachment:
 Удаление информационного шума. Документы из набора Enron Attachment могут содержать различный по объёму текст, поэтому для оценки времени выполнения данной функции использовались значения медианы и интерквартильного размаха, вычисленные на основе значений времени обработки каждого документа.
 Тематическое моделирование и отображение документов в тематическое пространство.
Эксперименты по оценки производительности данных функций проводились по тому же

124 сценарию, что был описан в пункте 3.3.2. Для каждого из 15 пользователей набора
Enron Attachment были сформированы экспериментальные периоды, состоящие из документов для построения модели и документов для применения модели. Среди полученных экспериментальных периодов количество документов для построения и применения моделей существенно не изменялось, поэтому для оценки времени работы соответствующих функций
DCOM-объекта рассчитывалось их среднее время выполнения. Отображение документов в тематическое пространство может применяться не только к коллекции документов, но и к документам по отдельности, которые, в свою очередь, содержат разный по количеству термов текст. Поэтому для оценки времени работы функции отображения документов в
тематическое пространство, применённой к одному документу, использовались значения медианы и интерквартильного размаха.
 Прогнозирование многомерного временного ряда. Для оценки производительности данной функции была проведена серия экспериментов, которая заключалась в построении прогноза по суточным данным за месяц на неделю вперёд (7 шагов). Таким образом, среднее число точек, по которым строился прогноз, равнялось 30, число тематик было выбрано равным 3.
В сформированных временных рядах число точек было примерно одинаковым, поэтому для оценки времени работы функции прогнозирования рассчитывалось среднее время её выполнения.
Описанные эксперименты были выполнены на следующем оборудовании: Intel Xeon
E5506 2.13 GHz (2 процессора), RAM 48 Gb, HDD 500Gb, HDD 2 Tb. Операционная система:
Windows Server 2008 R2 Enterprise, 64-разрядная.
При каждом эксперименте замерялась используемая оперативная память и вычислялись оценки времени работы соответствующих функций DCOM-объекта. Полученные показатели, а также основные характеристики тестовых данных приведены в Таблице 16.

125
Результаты оценки производительности функций DCOM-объекта.
Функция DCOM-объекта анализа поведенческой информации
Оценки времени работы
Загрузка оперативной памяти
(Мбайт)
Удаление информационного шума
Время работы: медиана 0.049 с; ИКР 0.09 5.5 Mb
Тематическое моделирование
Среднее число документов: 199
Среднее число термов: 3200
Число тематик: 10
Время построения модели: 1.8 с
18 Mb
Отображение документов в тематическое пространство
Среднее число документов: 443
Среднее число термов: 2245
Время применения модели: 1.3 с
35.5 Mb
Время применения модели к одному документу: медиана 0.01 с; ИКР 0.004 5.2 Mb
Прогнозирование многомерного временного ряда
Среднее число документов: 30
Число тематик 3
Время построения прогноза на 7 шагов: 0.007 с
7.2 Mb
Из приведённых данных можно сделать вывод, что процессы построения и применения поведенческих моделей с помощью функций реализованного DCOM-объекта анализа
поведенческой информации не требуют больших объёмом ОЗУ и не занимают длительное время.
Наиболее критичным с точки зрения затрачиваемых вычислительных ресурсов является процесс применения поведенческих моделей, т.к. он может выполняться на агенте мониторинга в режиме близком к реальному времени. Соответственно, применение поведенческих моделей может влиять на производительность наблюдаемых машин пользователей, в отличие от построения поведенческих моделей, которое выполняется на выделенных машинах. Представленные в
Таблице 16 данные в части функции отображения документов в тематическое пространство, которая является основной при применении поведенческих моделей, показывают, что выполнение данной функции не занимает много оперативной памяти, в среднем около 5.2 МБ, а также на обработку одного документа тратится порядка 0.01 секунды. Отметим, что при обработке сразу нескольких документов (коллекции документов) среднее время анализа одного документа существенно сокращается. Таким образом, как и в случае мониторинга поведенческой информации, если пользователь одновременно не выполняет операции, требующие от агента

126 создания теневых копий, с большим числом документов, то он даже не заметит каких-либо изменений в характеристиках работы своего наблюдаемого компьютера.

1 2 3 4 5 6 7 8 9 10