Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности

Название	Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
Дата	24.01.2022
Размер	4.32 Mb.
Формат файла
Имя файла	Tsarev_dissertation.pdf
Тип	Диссертация #340124
страница	7 из 10

1 2 3 4 5 6 7 8 9 10

Итого
169574148
44289992
73.88%
Из приведённых данных следует, что предложенный метод удаления информационного шума из документов, приводит к улучшению (в среднем на 3%) качества классификации при этом объём обрабатываемых данных сократился на 70%, что является существенным. Отметим, что улучшение результатов наблюдается для методов классификации, использующих для векторного представления документов как пространство термов, так и пространство, формируемое doc2vec.
Соответствующие значения интерквартильных размахов также уменьшаются при удалении информационного шума. Поэтому можно сделать вывод, что удаление информационного шума действительно приводит к более информативному признаковому пространству и улучшает точность обнаружения аномального поведения пользователя.

82
3.4
Выводы
В данном разделе производились исследование и разработка методов машинного обучения для обнаружения аномального поведения пользователя при работе с текстовыми данными. Было исследовано два предложенных метода, использующих разработанную в предыдущем разделе тематическую модель поведения пользователя на основе ортонормированной неотрицательной матричной факторизации:
1. Метод прогнозирования тематической направленности пользователя. Обнаружение интервалов времени несвойственной работы пользователя на основе значений отклонений тематической направленности от спрогнозированных данных. Данный метод показал высокое качество обнаружения даже при использовании стандартных методов прогнозирования. В рамках исследования данного метода был разработан алгоритм прогнозирования временных рядов, основанный на ортонормированной неотрицательной матричной факторизации, который показал высокое качество прогнозирования и свою применимость в данном методе обнаружения аномального поведения пользователя.
2. Метод оценки принадлежности документа к характерным тематикам пользователя.
Обнаружение фактов работы пользователя с несвойственным документом на основе оценки принадлежности текста документа к характерным тематикам анализируемого пользователя.
Данный метод показал высокое качество выявление фактов работы пользователя с несвойственными для него документами. Также была проведена апробация разработанного метода удаления информационного шума из документа, которая показала улучшение качества обнаружения аномального поведения пользователя и существенное сокращение объёма обрабатываемых данных.

83 4
ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
ЭКСПЕРИМЕНТАЛЬНОГО ОБРАЗЦА ПРОГРАММНОГО
КОМПЛЕКСА
Раздел посвящён разработке и реализации экспериментального образца программного комплекса (ЭО ПК) обнаружения аномального поведения пользователей при работе с текстовыми данными. Работа ЭО ПК основывается на предложенных методах обнаружения аномального поведения пользователя, использующих разработанную тематическую модель поведения. Раздел состоит из описания решения следующих задач:
 Разработка сценариев функционирования и проектирование архитектуры ЭО ПК.
 Разработка структуры представления поведенческой информации.
 Реализация программных модулей сбора и хранения поведенческой информации пользователей. Оценка параметров их работы с точки зрения нагрузки на используемые вычислительные ресурсы.
 Реализация программных модулей построения, управления и применения пользовательских поведенческих моделей для обнаружения аномального поведения пользователя при работе с текстовыми данными. Оценка параметров их работы с точки зрения нагрузки на используемые вычислительные ресурсы.
4.1
Сценарии функционирования
Разрабатываемая экспериментальная система должна реализовывать три базовых сценария функционирования:
 сбор поведенческой информации;
 построение индивидуальных поведенческих моделей;
 применение индивидуальных поведенческих моделей.
4.1.1
Сбор поведенческой информации
Исходя из формулировки темы диссертационной работы требуется осуществлять сбор информации о работе пользователей с текстовыми данными. В качестве текстовых данных пользователей рассматривались следующие типы электронных документов, обрабатываемых пользователем на рабочем месте: текстовые файлы популярных форматов, почтовые сообщения, посещаемые web-страницы. Таким образом, необходимо отслеживать операции пользователя с документами, относящимися к перечисленным типами информации, а также осуществлять сбор

84 содержимого документов, над которыми выполняются данные операции. Под поведенческой информацией (ПИ) работы пользователя с текстовыми документами далее будем понимать совокупность данных, описывающих:
1. атрибуты операций, выполняемых пользователем с документами (структурированные данные, которые можно представить в виде реляционной модели);
2. текстовое содержимое документов, ассоциированное с операциями пользователя
(неструктурированные данные, которые сохраняются без преобразований в файлах или текстовых полях БД).
На практике для сбора подобного рода данных о действиях пользователей широко используются программные агенты сбора, устанавливаемые непосредственно на рабочие места пользователей (источники данных) и передающие собранную информацию в единое хранилище для её последующей обработки. Программный агент — это автономный процесс, способный реагировать на среду исполнения и вызывать изменения в среде исполнения, возможно, в кооперации с пользователями или другими агентами [123]. Свойство, которое делает агента чем- то большим, чем процесс — это способность функционировать автономно, агент сам контролирует свои действия. Агенты, которые кооперируются с другими агентами, относят к классу кооперативных агентов. Кооперативный агент (англ. collaborative agent) — это агент, составляющий часть мультиагентной системы (англ. multi-agent system), то есть системы, в которой агенты, кооперируясь, выполняют некие общие задачи [123]. В нашем случае программные агенты сбора поведенческой информации (агенты мониторинга) должны передавать данные в единое хранилище, поэтому для обеспечения приёма этих данных требуется агент консолидации (модуль консолидации), который, кооперируясь с агентами мониторинга, сохраняет полученные данные в единое хранилище.
Тогда сценарий сбора поведенческой информации о работе пользователей с текстовыми данными состоит из трёх этапов:
1. Сбор поведенческих данных на рабочих местах пользователей. Программные агенты должны реализовывать сбор и промежуточное локальное хранение поведенческой информации с целью оптимизации нагрузки на сеть передачи данных (в соответствии с заданным режимом передачи) или в случае отсутствия соединения с единым хранилищем.
2. Передача собранной поведенческой информации модулю консолидации в соответствии с заданным режимом передачи. Передача поведенческих данных с различных рабочих мест пользователей в единое хранилище.
3. Приём поведенческой информации от агентов мониторинга и последующее сохранение в единое хранилище.

85 4.1.2
Построение индивидуальных поведенческих моделей
В рамках настоящей работы было предложено два метода обнаружения аномального поведения пользователя при работе с текстовыми данными:
1. Метод прогнозирования тематической направленности пользователя;
2. Метод оценки принадлежности документа к характерным тематикам пользователя.
Необходимо на основе собранной информации о работе пользователей с текстовыми данными реализовать процесс построения соответствующих индивидуальных поведенческих моделей (ИПМ). Для каждого из разработанных методов обнаружения аномального поведения сценарий построения ИПМ пользователя состоит из следующих этапов:
1. формирование выборки действий пользователя с текстовыми данными путём задания соответствующих фильтров к поведенческим данным из единого хранилища (например, задание тренировочного периода, типов операций и т.п.);
2. применение разработанных методов обнаружения аномального поведения для построения соответствующих ИПМ по сформированной выборке;
3. сохранение построенной ИПМ в хранилище моделей для последующего применения к поведенческим данным пользователей.
4.1.3
Применение индивидуальных поведенческих моделей
Результатом применения ИПМ, сформированной одним из предложенных методов обнаружения аномального поведения, к данным о работе пользователей с текстовой информацией является вычисленный уровень аномальности соответствующих действий пользователя. Построенные ИПМ можно применять в двух режимах: отложенном режиме и режиме близком к реальному времени. В первом случае применение ИПМ осуществляется к данным, которые находятся в едином хранилище. Например, применение модели может инициировать непосредственно аналитик (пользователь разрабатываемого ЭО ПК) или может быть задано расписание применения. Во втором случае требуется скорейшее применение ИПМ к данным о работе пользователя с текстовой информацией. Причём, как уже отмечалось, может отсутствовать соединение между рабочей машиной пользователя и единым хранилищем, поэтому применение моделей должно осуществляться непосредственно на рабочих машинах пользователей.
Для применения ИПМ в режиме близком к реальному времени логично использовать только метод, основанный на расчёте оценки принадлежности документа к характерным тематикам пользователя. Метод прогнозирования тематической направленности пользователя не подходит по причине того, что оценка аномальности присваивается достаточно длительному

86 временному интервалу работы пользователя с текстовыми данными, следовательно, всё равно необходимо ждать до тех пор, пока не соберётся требуемое количество поведенческой информации.
Кроме того, существующие UEBA-решения анализируют поведение пользователей на основе данных из системных журналов ОС, журналов SIEM, IDS/IPS, DLP систем. Поэтому для возможности реализации комбинированной системы (англ. multi-model fusion [120]), учитывающей уровень аномальности действий пользователей на основе данных из различных источников поведенческой информации, от разрабатываемого ЭО ПК также требуется осуществлять применение разработанных поведенческих моделей непосредственно на рабочих местах пользователей в режиме близком к реальному времени. А это возможно только при использовании ИПМ метода, основанного на расчёте оценки принадлежности документа к характерным тематикам пользователя.
В отложенном режиме возможно применение ИПМ для обоих разработанных методов обнаружения аномального поведения пользователя. Также в отложенном режиме возможно применение и других средств выявления знаний в собранных текстовых данных и структурированных данных, описывающих различные атрибуты операций пользователя.
Для рассмотренных режимов применения
ИПМ приведём сценарии их функционирования:
 Отложенный режим:
1. Формирование выборки действий пользователя для применения ИПМ (аналогично формированию выборки при построении ИПМ);
2. Выбор ИПМ пользователя, соответствующей сформированной выборки;
3. Применение выбранной ИПМ к сформированной выборки.
 Режим близкий к реальному времени применяется непосредственно на рабочих местах пользователя. Для действий пользователя с текстовыми документами, выполняется:
1. Выбор ИПМ пользователя, соответствующей анализируемому действию;
2. Применение выбранной ИПМ к действию пользователя;
3. Сохранение полученного значения аномальности действий пользователя.
4.2
Программная реализация
В данном подразделе приводится описание архитектуры разрабатываемого ЭО ПК и программных компонент, входящих в его состав. В рамках настоящей работы использовались следующие требования к функционированию разрабатываемого ЭО ПК:

87
 Программные компоненты ЭО ПК должны функционировать под управлением операционной системы семейства Windows (версии 7 и выше);
 Должен обеспечиваться сбор поведенческой информации со следующими типами электронных документов, обрабатываемых пользователем на рабочем месте:
1. текстовые документы популярных форматов в виде локальных файлов или файлов на внешних носителях;
2. почтовые сообщения, получаемые и отправляемые пользователем с помощью почтового клиента Microsoft Outlook;
3. посещаемые web-страниц и отправляемые формы по протоколу HTTP через браузер
Internet Explorer.
4.2.1
Архитектура системы
Архитектурное решение, удовлетворяющее представленным в подразделе 4.1 базовым сценариям функционирования, представляет собой мультиагентную систему, состоящую из следующих программных модулей:
1. Агент мониторинга. Программный агент, устанавливаемый на рабочее место пользователя, который, в свою очередь, состоит из совокупности параллельно работающих модулей
(см. Рисунок 23 и Рисунок 24) — модуль сбора и модуль классификации. a. Модуль сбора выполняет: i. Сбор поведенческой информации (ПИ) о работе пользователей с текстовыми данными; ii. Промежуточное локальное хранение собираемой ПИ с целью оптимизации нагрузки на сеть передачи данных (в соответствии с заданным режимом передачи) или в случае отсутствия соединения с модулями консолидации и/или хранилищем поведенческих моделей; iii. Передачу собранной ПИ модулю консолидации в соответствии с заданным режимом передачи; b. Модуль классификации служит для применения ИПМ в режиме близком к реальному времени к собираемой в локальном хранилище ПИ.

88
Составные модули агента мониторинга.
2. Модуль консолидации поведенческой информации. Является программным агентом, который служит для обеспечения консолидации в едином хранилище ПИ, получаемой от агентов
мониторинга. Кроме хранения ПИ в задачи модуля также входит предоставление доступа к единому хранилищу для формирования выборок ПИ, которые далее будут использоваться при создании и применении ИПМ. Доступ к хранилищу также может использоваться и для применения других средств выявления знаний (например, средства классификации) в ПИ путём агрегированного анализа как операций с электронными документами, так и их текстового содержимого.
3. Модуль построения индивидуальных поведенческих моделей. На основе выборки данных ПИ модуль выполняет процедуру построения ИПМ, соответствующей одному из двух разработанных методов обнаружения аномального поведения пользователей. После формирования соответствующих структур модели производится её сохранение в хранилище
моделей.
4. Модуль обнаружения аномального поведения служит для применения ИПМ в отложенном режиме, т.е. ИПМ применяются к выборке поведенческих данных, формируемой из хранилища модуля консолидации. При этом формирование выборок может осуществлять либо аналитиком (администратор) ЭО ПК в ручном режиме, либо формирование выборок и последующее применение ИПМ будет происходить автоматически по заданным расписанию и параметрам формирования соответствующих выборок.
5. Автоматизированное рабочее место (АРМ) аналитика. Представляет графический интерфейс, реализующий следующие варианты использования ЭО ПК: a. Построение ИПМ — формирование выборок ПИ, создание ИПМ;

89 b. Применение ИПМ — формирование выборки ПИ, выбор ИПМ, применение ИПМ к выборке, формирование отчетов о результатах применения.
На Рисунке 24 изображена архитектура ЭО ПК, состоящая из описанных выше программных модулей.
Архитектура ЭО ПК.
Функционал построения и применения ИПМ был реализован в виде DCOM-объекта
(англ. Distributed Component Object Model [124]) анализа поведенческой информации. Методы данного DCOM-объекта можно использовать, устанавливая его как на множество отдельных машин (например, вместе с агентами мониторинга и АРМ), так и на один выделенный сервер.
Такое решение обеспечивает гибкий механизм конфигурирования распределения вычислительной нагрузки на имеющиеся вычислительные ресурсы сети. Фактически указанный
DCOM-объект реализует модуль построения ИПМ и модуль обнаружения аномального
поведения, а также его методы используются для классификации поведенческой информации в
модуле классификации агента мониторинга.
Далее детально рассматривается реализация следующих программных модулей ЭО ПК:
DCOM-объект анализа поведенческой информации, агент мониторинга, модуль консолидации,
автоматизированное рабочее место (АРМ) аналитика.
4.2.2 DCOM- объект анализа поведенческой информации
Для построения и применения предложенных ИПМ всегда используется тематическое моделирование текстовых данных на основе ортонормированной неотрицательной матричной факторизации. В качестве текстовых данных используются текстовые документы различных форматов, полученные из различных источников информации. Поэтому для удобства и простоты обработки текстовых документов был выбран язык Python, который имеет множество дополнительных свободных библиотек, в частности, для работы с различными форматами

90 текстовых файлов, работы с кодировками, предобработки текстовой информации (фильтрация стоп-слов, приведение слов к нормализованной форме [102]) и т.п. Таким образом, для реализации DCOM-объекта был выбран язык Python [125], но весь ресурсоёмкий математический аппарат, служащий для тематического моделирования и прогнозирования многомерных временных рядов, реализован в виде отдельных исполняемых файлов, написанных на языке C++.
Приведём список методов разработанного COM-объекта:
1. Извлечение текста документа. Извлечения текста из документов различных текстовых форматов основано на фильтрах ifilter от Microsoft [126]. Для получения доступа к соответствующим ifilter, входящим в Micosoft Index Server, используется Python-модуль win32com.ifilter [125].
2. Удаление информационного шума. Метод возвращающий текст исходного документа с удалёнными нерелевантными предложениями. Разбиение текса документа на предложения и предварительная обработка текста реализованы на Python с использованием библиотеки
NLTK [102]. Вычисление релевантности предложений текста реализовано в виде отдельного исполняемого файла, написанного на языке C++ с использованием высокопроизводительной библиотеки линейной алгебры Eigen [127].
3. Тематическое моделирование. Построение тематической модели по коллекции текстовых документов. Предварительная обработка текстов документов реализована на Python с использованием библиотеки NLTK [102]. Построение матриц тематической модели реализовано в виде отдельного исполняемого файла, написанного на языке C++ с использованием высокопроизводительной библиотеки линейной алгебры Eigen [127].
4. Отображение документов в тематическое пространство. Представление коллекции документов в тематическом пространстве существующей тематической модели. В качестве результата также предоставляется список норм векторов, соответствующих векторным представлением входных документов в тематическом пространстве. Предварительная обработка текстов документов реализованы на Python с использованием библиотеки NLTK
[102]. Построение матрицы тематического представления документов реализовано в виде отдельного исполняемого файла, написанного на языке C++ с использованием высокопроизводительной библиотеки линейной алгебры Eigen [127].
5. Прогнозирование многомерного временного ряда. Построение прогноза многомерного временного ряда на заданное число шагов с помощью разработанного метода прогнозирования на основе ортонормированной неотрицательной матричной факторизации.
Метод прогнозирования реализован в виде отдельного исполняемого файла, написанного на языке C++ с использованием высокопроизводительной библиотеки линейной алгебры Eigen
[127].

91
Как было отмечено в пунктах 4.1.3 и 4.2.1, применение ИМП для метода оценки принадлежности документа к характерным тематикам пользователя реализует как непосредственно агент мониторинга (в режиме близком к реальному времени), так и АРМ
аналитика (в отложенном режиме). Описание применения данного типа моделей на агенте мониторинга приведено в подпунктах 4.2.3.6, 4.2.3.10. Далее приведём описание процедур построения и применения ИПМ для обоих разработанных методов обнаружения аномального поведения пользователя с помощью описанного выше DCOM-объекта, которые реализуются в отложенном режиме на АРМ аналитика.
Метод прогнозирования тематической направленности пользователя
ИПМ данного типа основаны на прогнозировании тематической направленности пользователя за длительные интервалы времени на основе сложившихся в прошлом тенденций работы пользователя с текстовым контентом различных категорий. Поэтому для построения
ИПМ первоочередной задачей является задание тренировочного периода для анализируемого пользователя. Затем для текстовых документов анализируемого пользователя, входящих в заданный тренировочный период, выполняется следующий аналитический конвейер построения
ИПМ:
1. Извлечение текста документа. Поведенческие модели строятся и применяются к текстовой информации, поэтому необходимо извлекать текст в единой кодировке из наблюдаемых документов различных форматов, которые могут представлять собой текстовые файлы различных форматом (например: doc, rtf, pdf, и т.п.). Данная функция выполняется путём вызова метода «Извлечение текста документа» DCOM-объекта анализа поведенческой информации.
2. Разбиение тренировочного периода на интервалы. Заданный тренировочный период разбивается на последовательно измеренные через некоторые промежутки времени интервалы. Для этого задаётся параметр формирования интервалов — либо фиксированный шаг времени (т.е. длина каждого интервала по времени), либо фиксированное число операций пользователя с документами, которые должен содержать каждый интервал. Далее для каждого полученного временного интервала все тексты его документов объединяются в один.
3. Удаление информационного шума. Опциональный этап удаления нерелевантных предложений текста, который применяется к объединённому тексту каждого интервала.
Данная функция выполняется путём вызова метода «Удаление информационного шума»
DCOM-объекта анализа поведенческой информации.
4. Тематическое моделирование. К полученным объединённым текстам интервалов, применяется тематическое моделирования с помощью метода «Тематическое

92
моделирование» DCOM-объекта анализа поведенческой информации. Таким образом, получаем матрицу изменения тематической направленности пользователя за тренировочный период.
5. Прогнозирование тематической направленности. Применение метода «Прогнозирование
многомерного временного ряда» DCOM-объекта анализа поведенческой информации к полученной матрице изменения тематической направленности пользователя для формирования прогноза на следующие m интервалов.
6. Сохранение ИПМ. Сохранение в хранилище моделей (сетевой папке) файлов ИПМ, содержащих следующие данные: a. Параметр формирования временных интервалов — либо фиксированный шаг времени, либо фиксированное число операций с документами; b. Тематическая модель поведения пользователя по сформированным временным интервалам; c. Спрогнозированные значения весов тематик на m-шагов.
Применение ИПМ данного типа, сохранённой в хранилище моделей, возможно к заданным
n временным интервалам (соответствующим параметру формирования интервалов модели), следующим за тренировочным периодом, на основе которого формировалась модель (при этом n не должно превышать m — число точек прогноза модели). Поэтому предварительным шагом является формирование n временных интервалов для применения ИПМ. Тогда для каждого из
n интервалов выполняется следующий аналитический конвейер:
1. Извлечение текста документа. Извлечение текста из документов, входящих в анализируемый интервал времени, с помощью метода «Извлечение текста документа»
DCOM-объекта анализа поведенческой информации.
2. Объединение текстов документов. Объединение всех полученных текстов для анализируемого интервала в один.
3. Удаление информационного шума. Аналогично 3 этапу аналитического конвейера построения данной ИПМ.
4. Отображение объединённого текста интервала в тематическое пространство ИПМ.
Используя тематическую модель, входящую в ИПМ, получение весов тематик для объединённого текста интервала с помощью метода «Отображение документов в
тематическое пространство» DCOM-объекта анализа поведенческой информации.
5. Вычисление уровня аномальности интервала времени. Расчёт отклонения тематического представления объединённого текста интервала от спрогнозированных значений.
Полученное значение отклонения характеризует аномальность анализируемого временного интервала работы пользователя с текстовой информации. Соответственно, чем больше

93 значение отклонения, тем выше аномальность работы пользователя за рассматриваемый интервал времени.
Метод оценки принадлежности документа к характерным тематикам пользователя
ИПМ данного типа основаны на оценке принадлежности документа, с которым работает пользователь, к характерным тематикам данного пользователя. Поэтому для построения ИПМ первоочередной задачей является задание тренировочного периода для анализируемого пользователя. Затем для текстовых документов анализируемого пользователя, входящих в заданный тренировочный период, выполняется следующий аналитический конвейер построения
ИПМ:
1. Извлечение текста документа. Извлечение текста из документов с помощью метода
«Извлечение текста документа» DCOM-объекта анализа поведенческой информации.
2. Удаление информационного шума. Опциональный этап удаления нерелевантных предложений текста, который применяется для документов, содержащих большой объём извлечённого текста. Данная функция выполняется путём вызова метода «Удаление
информационного шума» DCOM-объекта анализа поведенческой информации.
3. Тематическое моделирование. К полученным текстам документов применяется тематическое моделирования с помощью метода «Тематическое моделирование» DCOM-объекта анализа поведенческой информации. Таким образом, получаем матрицу «портрета» пользователя, которая и будет служить для представления документов в пространстве тематик характерных для данного пользователя.
4. Сохранение ИПМ. Сохранение в хранилище моделей (сетевой папке) файлов ИПМ, содержащих следующие данные: a. Тематическую модель поведения пользователя за тренировочный период; b. Параметр, задающий используемую норму для вычисления оценки принадлежности документа к тематикам пользователя.
Для вычисления уровня аномальности наблюдаемой операции пользователя с документом необходимо применить поведенческую модель (соответствующую пользователю, от имени которого была выполнена операция) к тексту документа, ассоциированного с данной операцией.
Поэтому для каждой пары [наблюдаемая операция / наблюдаемый документ], являющейся частью сохранённой поведенческой информации пользователя, выполняется следующий
аналитический конвейер применения выбранной поведенческой модели:
1. Извлечение текста документа. Аналогично 1 этапу аналитического конвейера построения
ИПМ.

94 2. Удаление информационного шума. Аналогично 2 этапу аналитического конвейера построения
ИПМ.
3. Отображение текста документа в тематическое пространство ИПМ. Используя тематическую модель, входящую в ИПМ, получение весов тематик для анализируемого текста документа с помощью метода «Отображение документов в тематическое
пространство» DCOM-объекта анализа поведенческой информации.
4. Вычисление уровня аномальности документа. Расчёт оценки принадлежности документа к характерным тематикам пользователя путём вычисления нормы полученного векторного представления текста документа в тематическом пространстве ИПМ. Данная оценка является одним из результатов выполнения 3 этапа конвейера. Полученное значение оценки показывает уровень аномальности текста наблюдаемого документа и соответствующей операции пользователя. Чем ниже значение принадлежности, тем более аномален факт операции пользователя с анализируемым документом.
4.2.3
Агент мониторинга поведенческой информации
Агент мониторинга устанавливается на наблюдаемое рабочее место пользователя и состоит из совокупности параллельно работающих модулей — модуль сбора и модуль
классификации. По существу, данные агенты выполняют сбор, обработку и передачу поведенческих данных, такие агенты в [123] отнесены к типу информационных — управление информацией из множества различных источников, в том числе и физически разных.
Исходя из предъявленных требований в начале подраздела 4.2 к типам собираемой поведенческой информации, необходимо осуществлять мониторинг:
1. текстовых документов популярных форматов в виде локальных файлов или файлов на внешних носителях;
2. почтовых сообщений, получаемых и отправляемых пользователем с помощью почтового клиента Microsoft Outlook;
3. посещаемых web-страниц и отправляемых форм через браузер Internet Explorer.
Реализация мониторинга электронных документов 1-го типа будет достигнута за счёт мониторинга изменений, происходящих в файловой системе (ФС) наблюдаемого компьютера.
Реализацию мониторинга электронных документов 2-го и 3-го типов сведём к мониторингу ФС путём выполнения:
 сохранения электронных почтовых сообщений, получаемых и отправляемых пользователем с помощью почтового клиента Microsoft Outlook, установленного на наблюдаемом компьютере, в виде файлов в специальной директории агента мониторинга;

95
 сохранения посещаемых web-страниц и отправляемых форм пользователем по протоколу
HTTP с помощью браузера Internet Explorer, установленного на наблюдаемом компьютере, в виде файлов в специальной директории агента мониторинга.
Получаем, что факты работы пользователей с документами всех требуемых типов будут собраны и обработаны путём мониторинга ФС. Поэтому далее речь пойдёт только о реализации мониторинга файлов, а разработка программных компонент, сохраняющих электронные документы 2-го и 3-го типов в виде файлов, приведена в подпунктах 4.2.3.12 и 4.2.3.13.
Для текстовых документов популярных форматов в виде локальных файлов или файлов на внешних носителях необходимо осуществлять мониторинг следующих операций: создание, изменение, чтение, перемещение, удаление. В случае создания файла или его первой регистрации в системе агенту мониторинга достаточно сохранять его содержимое и путь, в случае перемещения — сохранять новый путь, в случае изменения содержимого — новое содержимое
(задача теневого копирования), в случае удаления — просто пометить его как удаленный. После чего всю собранную информацию необходимо передавать в хранилище модуля консолидации.
Таким образом, на каждом компьютере, для которого производится мониторинг, необходимо решение агентом следующих задач:
1. Модуль сбора: a. Мониторинг файловой системы. Получение данных об изменениях в файловой системе локального компьютера для мониторинга операций с файлами и подключения внешних носителей; b. Фильтрация файлов и операций. Для разных организаций разные файлы и операции над ними представляют интерес, поэтому необходимо иметь средство задания правил, по которым будут определяться требуемые файлы и операции, которые мы будем называть «наблюдаемыми»; c. Сохранение операций с документами. Сохранение атрибутов наблюдаемых операций в локальное хранилище агента. d. Сохранение содержимого документов. Сохранение теневых копий документов, над которыми выполняются наблюдаемые операции, в локальное хранилище агента. e. Передача поведенческой информации модулю консолидации.
2. Модуль классификации: a. Актуализация ИПМ пользователей для наблюдаемого компьютера; b. Применение ИПМ. Выборка неклассифицированных данных из локального хранилища
ПИ, применение ИПМ, сохранение результата.
Далее приводятся описания решений данных задач, и в заключение приводится общая архитектура агента мониторинга документов на компьютере.

96
Мониторинг файловой системы
В ОС Windows используются специальные структуры данных ядра, называемые IRP- пакетами (англ. I/O Request Packet — пакет запроса ввода/вывода), для обеспечения обмена данными между приложениями и драйвером, а также между драйвером и драйвером. Таким образом, обращение к файлам — это фактически формирование соответствующих IRP и посылка их драйверам файловой системы [128]. Операции быстрого ввода/вывода (англ. Fast I/O), специально предназначенные для быстрого синхронного ввода/вывода в кэшируемых файлах, мы не учитываем, т.к. они служат для передачи данных непосредственно между пользовательскими буферами и системным кэшем в обход файловой системы и стеков драйверов устройств [129].
Фильтрация IRP — это общий и универсальный механизм, его используют при разработке антивирусов, файловых архиваторов, файлового шифрования и т.д. Для реализации фильтрации
IRP есть документированные возможности — написание драйвера и присоединение его к стеку драйверов файловой системы. Начиная с Windows XP SP2, возможно написание драйверов —
минифильтров ФС [130], предназначенных специально для мониторинга (и фильтрации) IRP- пакетов ФС. Важной особенностью минифильтров является поддержка двунаправленного небуферизированного канала обмена сообщениями между драйвером и приложениями пользовательского режима, в качестве которых обычно используют службы Windows [131].
Общий механизм мониторинга IRP изображён на Рисунке 25.
Мониторинг IRP.

97
Для мониторинга файловой системы требуется разработать драйвер-минифильтр ФС. Для ведения жизненного пути файла, достаточно перехватывать операции открытия и закрытия, т.е. соответствующие IRP-пакеты: IRP_MJ_CREATE и IRP_MJ_CLEANUP.
 Создание нового файла или открытие существующего файла — факт наличия IRP на открытие файла (IRP_MJ_CREATE).
 Изменение файла — наличие флага с доступом на запись в IRP на открытие.
 Перемещение файла — несоответствие путей при IRP_MJ_CREATE и IRP_MJ_CLEANUP.
 Удаление файла — наличие соответствующего флага в IRP на закрытие.
Таким способом можно отслеживать любые обращения к файлам, но не все файлы и не все операции с файлами представляют интерес (например, системные файлы и операции системных процессов), особенно учитывая направленность функционала целевой системы на мониторинг файлов, содержащих текстовую информацию. Поэтому необходима реализация механизма фильтрации файлов и операций над ними.
Фильтрация файлов и операций
С помощью мониторинга файловой системы можно получать структурированное описание операций с файлами. Для определения того, требуется ли вести наблюдение за файлом, над которым выполняется операция, будет использоваться информация о выполняемой операции
(пример атрибутов операций: имя файла, путь к файлу, имя процесса, имя пользователя, тип операции и т.п.).
Далее под наблюдаемой операцией с файлом будем понимать операцию, удовлетворяющую заранее заданным свойствам её атрибутов, а файл, над которым выполняется наблюдаемая операция, будем называть наблюдаемым документом. Тогда поведенческая информация о работе пользователей с текстовыми документами состоит из данных о наблюдаемых операциях и содержимого соответствующих наблюдаемых файлов.
Задача определения, является ли операция с файлом наблюдаемой, затруднена тем, что в различных организациях могут использоваться различные правила (политики) для задания наблюдаемых операций. Соответственно, необходимо предоставить экспертам возможность задания правил, по которым будет производиться данная классификация. Для задания сложных правил удобно использовать язык Python. Для него есть JIT-компилятор Psyco, позволяющий транслировать исходный код в машинный, во время первого запуска. Это позволяет существенно увеличить производительность. Кроме того, для Python имеется множество дополнительных свободных библиотек, в частности, для работы с различными форматами текстовых файлов, работы с кодировками и т.п. Отметим, что если правила, определяющие наблюдаемые операции,

98 не очень сложны, то их можно задавать путём обычного конфигурационного файла (например, формата XML или JSON).
Сохранение наблюдаемых операций и содержимого документов
Поступающую от драйвера информацию об операциях с ФС, после прохождения через соответствующие фильтры, необходимо где-то сохранять, т.е. выполнять промежуточное локальное хранение. Кроме описаний самих операций нужно хранить связанные с ними данные о процессах и пользователях. Также необходимо осуществлять эффективную выборку данных для их последующей передачи в центральное хранилище. Поэтому логично хранить всю информацию в «легковесной» реляционной СУБД, например, MS Access, тем более, библиотеки для работы с ней предустановлены практически на любой рабочей станции с ОС Windows.
Помимо сохранения информации о наблюдаемых операциях с документами необходимо сохранять и содержимое документов. Содержимое документов сохраняется в случае операции создания документа или любого обращения к существующему документу, но который ранее не был зарегистрирован в системе, а также в случае последующих операций изменения содержимого документов. Теневые копии содержимого документов помещаются в специальную директорию, а информация о скопированных агентом документах также сохраняется в РСУБД наряду с другими операциями. Копии документов решено было сохранять в виде файлов, т.к. в этом случае БД агента не будет перегружаться большим объёмом информации типа BLOB
(англ. Binary Large OBject) и копии документов всегда будут напрямую доступны для различных дополнительных операций обработки.
В отличие от описания операций с документами содержимое самих документов, как правило, представляет гораздо больший объём данных, поэтому необходима эффективная организация его хранения. Также эффективное хранения накопленных контентных данных важно и с точки зрения уменьшения объёма передаваемых данных. Однако теневые копии документов необходимы модулю классификации (который также входит в состав агента мониторинга) непосредственно для вычисления значения аномальности содержимого документа и ассоциированной с ним наблюдаемой операции пользователя. Поэтому было решено организовать сжатие накопленных теневых копий документов по расписанию, а удаление теневых копий будет выполняться после завершения их обработки модулем классификации.
Передача поведенческой информации модулю консолидации
В функции агента мониторинга входит передача собранных поведенческих данных модулю консолидации для последующего их анализа в отложенном режиме. Консолидация данных подразумевает передачу больших объемов собранной информации по сети, поэтому

99 актуальным является наличие методов сжатия передаваемых данных и планирования передачи данных. Также требуются механизмы защиты при хранении и передачи собранной поведенческой информации.
От агента мониторинга требуется передача следующих собранных данных, формирующих поведенческую информацию:
1. Описание операций над документами. Информация об операциях хранится на агенте в виде таблиц локальной БД, поэтому экспорт данных из БД можно реализовать средствами самой РСУБД.
2. Содержимое документов. Содержимое документов хранится на агенте в виде файлов.
Список файлов, требующийся для передачи, определятся на основе данных об экспортируемых операциях.
Пакет файлов, содержащий данные об операциях с документами и файлы содержимого документов, перед отправкой сжимается архиватором gzip [132]. Архиватор gzip был выбран, т.к. предоставляет хорошую степень сжатия при высокой скорости работы, и он имеет свободные реализации на всех популярных платформах.
Для обеспечения распределения нагрузки на сеть и балансировки нагрузки на наблюдаемые компьютеры предложено организовывать передачу собранных данных по одной или нескольким из следующих стратегий:
1. Фиксированными объемами данных. Агент накапливает определенный объем информации или фиксированное количество записей в базе данных и затем передает их на сервер консолидации.
2. Через равные промежутки времени. Агент через равные промежутки времени передает все имеющиеся у него в локальном хранилище данные независимо от их объема.
3. Немедленная передача. Агент сразу же передает полученные данные при появлении каждой новой записи в журнале. Данная стратегия наиболее требовательная к ресурсам компьютера.
Указанный механизм реализован заданием параметров, описывающих максимально возможный объем непереданных данных и максимально возможный интервал времени, в течение которого агент может не передавать данные. Как только одно из максимально возможных значений достигнуто, все собранные данные помещаются в очередь на сжатие и последующую отправку.
Если после выполнения процедуры сжатия теневые копии помечены как обработанные модулем классификации, то они и соответствующие им данные о наблюдаемых операциях удаляются из локального хранилища агента. Таким образом, в случае неуспешной отправки данных модулю консолидации в локальном хранилище останутся только сжатые данные.

100
Защищенность собираемых данных обеспечивается средствами разграничения прав доступа ОС Windows: достаточно запретить пользователю доступ к Локальному хранилищу агента (установив права на доступ к соответствующей директории) и системным процессам.
Для обеспечения безопасности все передаваемые по сети данные шифруются с помощью криптографического протокола SSL. Применяется двусторонняя авторизация для невозможности подмены принимающей или передающей стороны. Протокол обеспечивает конфиденциальность обмена данными между клиентом и сервером, использующими TCP/IP, причём для шифрования используется асимметричный алгоритм с открытым ключом [133].
Актуализация индивидуальных поведенческих моделей пользователей
Для возможности вычисления оценки аномальности наблюдаемого документа необходимо к его текстовому содержимому применить индивидуальную поведенческую модель, соответствующую пользователю, от имени которого была выполнена операция с документом.
Исходя из разработанной архитектуры ЭО ПК все актуальные пользовательские поведенческие модели хранятся в хранилище моделей. Очевидно, что при обработке наблюдаемых документов на агенте мониторинга каждый раз читать данные из хранилища моделей, которое в общем случае располагается на отдельной машине, нецелесообразно, т.к. тратится время на чтение по сети и увеличивается нагрузка на саму сеть дополнительным трафиком. Кроме того, возможны случаи, когда машина с хранилищем моделей и вовсе недоступна. Учитывая, что поведенческие модели перестраиваются редко или по заданному расписанию, то было решено на агенте мониторинга локально сохранять копии поведенческих моделей пользователей, которые работают на наблюдаемой агентом машине. Актуализация моделей на агенте может происходить либо по расписанию, либо принудительно администратором ЭО ПК.
Применение поведенческих моделей
Для вычисления уровня аномальности наблюдаемой операции необходимо применить
ИПМ (соответствующую пользователю, от имени которого была выполнена операция) к тексту документа, ассоциированного с данной операцией. Поэтому для каждой необработанной пары
[наблюдаемая операция / наблюдаемый документ], сохранённой в локальном хранилище агента, выполняется аналитический конвейер, описанный в подпункте 4.2.2.2, с дополнительными этапами:
 Выбор ИПМ — предварительный этап, заключающийся в выборе ИПМ для пользователя совершившего наблюдаемую операцию.
 Сохранение результата — заключительный этап, заключающийся в выполнении следующих действий:

101
 пометить соответствующую теневую копию как проклассифицированную
(обработанную);
 записать вычисленный уровень аномальности.
Архитектура агента мониторинга
В настоящем подпункте приводится описание архитектуры разработанного программного агента мониторинга, а также детали его реализации.
Агент мониторинга состоит из следующих основных программных компонент:
1. Драйвер–минифильтр. Получение данных об операциях с файлами на наблюдаемом компьютере и подключаемых к нему внешних носителях.
2. Служба Windows мониторинга поведенческой информации. Обрабатывая сообщения от
драйвера–минифильтра, производит сохранение атрибутов наблюдаемых операций и теневое копирование соответствующих документов.
3. Служба Windows классификации поведенческой информации. Выполняет применение индивидуальных поведенческих моделей к собранной поведенческой информации.
4. Служба Windows передачи данных. Передача собранной поведенческой информации и результатов применения индивидуальных поведенческих моделей модулю консолидации.
Связь между перечисленными программными компонентами изображена на Рисунке 26.

102
Архитектура агента мониторинга.
Ниже в соответствующих подпунктах приводятся детали реализации перечисленных выше программных компонент. Для сбора поведенческой информации с электронными сообщениями MS Outlook (2-ой тип поведенческой информации) и веб-страницами MS Internet
Explorer (3-ий тип поведенческой информации) были разработаны дополнительные программные компоненты, описание которых приведено в подпунктах 4.2.3.12 и 4.2.3.13 соответственно.
Драйвер–минифильтр
Драйвер–минифильтр обрабатывает
IRP-пакеты типа
IRP_MJ_CREATE и
IRP_MJ_CLEANUP, составляя на каждый обработанный IRP (IRP-пакеты, отвергнутые нижележащими драйверами, игнорируются) сообщение для службы режима пользователя
(Служба мониторинга поведенческой информации) с полями:
 Путь наблюдаемого файла (в двухбайтовой кодировке);
 Путь к исполняемому файлу процесса, вызвавшему данный запрос;
 SID пользователя, которому принадлежит данный процесс;
 Указатель на структуру FILE_OBJECT (уникальный идентификатор открытого файла [134]);

103
 Размер файла;
 Флаг директория/файл;
 Флаг, открыт файл с правами на изменение или нет (только для IRP_MJ_CREATE);
 Флаг, отмечен файл на удаление или нет (только для IRP_MJ_CLEANUP).
Драйвер–минифильтр написан на языке C, так как это единственный поддерживаемый
Microsoft язык для программирования драйверов.
Служба Windows мониторинга поведенческой информации
Системная служба Windows мониторинга поведенческой информации выполняет буферизацию сообщений, поступающих от драйвера–минифильтра, и их последующую обработку с помощью двух параллельно выполняющихся нитей: ведение журнала операций,
теневое копирования документов.
Модуль ведения журнала операций для каждого сообщения от драйвера–минифильтра, находящегося в буфере службы, выполняет следующие действия:
1. Производит классификацию операций (т.е. определяет, является ли операция наблюдаемой) по следующим атрибутам: полное имя файла, полное имя исполняемого файла процесса, SID пользователя, имя пользователя, размер файла.
2. Делает запись о наблюдаемой операции с документом в журнале операций. Сохраняется следующие данные об операции: путь к файлу, время операции, тип операции (создание, изменение, чтение, перемещение, удаление), информация о процессе
(инициализирующем данную операцию), информация о пользователе и вспомогательный путь (новый путь к файлу в случае операции типа «перемещение»).
3. В случае если документ, над которым выполняется наблюдаемая операция, был изменён или впервые зарегистрирован агентом, то добавляет запись с указанием пути наблюдаемого документа в очередь на копирование.
Модуль теневого копирования документов для каждой записи в очереди на копирование
выполняет следующие действия:
1. Копирование соответствующего наблюдаемого документа в Хранилище документов, т.е. создание теневой копии.
2. Добавление записи о теневой копии в Журнал операций.
3. Добавление записи о наблюдаемой операции и пути соответствующей теневой копии в
очередь на обработку.
Журнал операций представляет собой базу данных MS Access. Используемая в Журнале
операций реляционная модель данных, описывающая поведенческую информацию, представлена на Рисунке 27. Копии документов помещаются в специальную директорию, а

104 информация о скопированных агентом документах также сохраняется в Журнале операций.
Таким образом, Локальное хранилище агента представляет собой файл базы данных MS Access
(Журнал операций) и директорию ФС (Хранилище документов), права доступа к которым обычные пользователи не имеют.
Реляционная модель описания поведенческой информации.
Служба Windows мониторинга поведенческой информации реализована на языке C++, основным критерием выбора являлось быстродействие, которое обеспечивает язык.
Служба Windows классификации поведенческой информации
Системная служба Windows классификации поведенческой информации для каждой записи в очереди на обработку выполняет аналитический конвейер, описанный в подпункте 4.2.3.6. Также в функции данной службы входит выполнение актуализации ИПМ, заключающейся в копировании соответствующих файлов моделей из хранилища моделей, реализованного в виде сетевой папки, в локальное хранилище моделей агента.
После выполнения актуализации моделей можно выполнять аналитический конвейер вне зависимости от наличия сетевого соединения с сетевой папкой хранилища моделей. Такие этапы аналитического конвейер, как извлечение текста документа, удаление информационного шума,
отображение текста документа в тематическое пространство, вычисление уровня
аномальности документа, реализованы в виде соответствующих методов DCOM-объекта

105 анализа поведенческой информации. Остаются следующие этапы аналитического конвейера, которые не реализуют методы DCOM-объекта:
 Выбор ИПМ выполняется на основе имени пользователя, совершившего наблюдаемую операцию.
 Сохранение результата производится как в отдельную таблицу Журнала операций, так и в журнал событий Windows (англ. Event Log). Сохранение вычисленного уровня аномальности наблюдаемых операции в журнал событий Windows реализовано для возможности интеграции с другими программными модулями, вычисляющими оценку аномальности поведения пользователя на основе данных из различных источников поведенческой информации (например, помимо данных о работе пользователя с текстовыми документами, можно также использовать данные о динамике работы пользователя с клавиатурой и мышью).
Основные ресурсоёмкие операции выполняет DCOM-объект, поэтому для удобства разработки службы Windows классификации поведенческой информации был выбран язык C#.
Служба Windows передачи данных
Системная служба Windows передачи данных реализует планирование передачи данных путём задания параметров, описывающих максимально возможный объем непереданных данных и максимально возможный интервал времени, в течение которого агент может не передавать данные. Как только одно из максимально возможных значений параметров достигнуто, все собранные данные помещаются в очередь на отправку.
Схема работы при наступлении события начала передачи данных следующая:
1. Формирование пакета файлов для отправки, содержащего данные об операциях с документами (данные из таблиц Журнала операций) и файлы теневых копий соответствующих документов. Если отправляемые поведенческие данные обработаны модулем классификации, то: a. в пакет для отправки включается файл с данными таблицы, содержащей результаты применение поведенческих моделей; b. выполняется очистка Локального хранилища агента, т.е. удаляются данный из соответствующих таблиц Журнала операций и файлы теневых копий.
2. Сформированный пакет файлов для отправки сжимается архиватором gzip.
3. В специальную таблицу в Журнале операций заносятся данные о том, какая информация была выбрана для отправки, для этого генерируется уникальный идентификатор данного сеанса передачи данных.
4. Выполняется передача данных по сети модулю консолидации.

106 5. Ожидается получение подтверждения приема данных, если таковое получено, то данный факт фиксируется в Журнале операций. Если подтверждение не пришло, то попытка передачи повторится при повторном наступлении события начала передачи данных.
Служба Windows передачи данных реализована на языке C++. Для обеспечения безопасной передачи данных по сети используется библиотека OpenSSL [133].
Мониторинг электронных сообщений MS Outlook
Задачей мониторинга электронных сообщений является перехват отправляемых и получаемых электронных писем через почтовый клиент Microsoft Outlook. Для решения данной задачи был реализован VSTO-плагин [135], который добавляет следующую функциональность к почтовому клиенту Microsoft Outlook:
 Сохранение текста тела входящего электронного письма в виде файла, а также сохранение прикреплённых к нему файлов. Сохранение перечисленных файлов производится в специальную директорию для входящих электронных писем, которую можно рассматривать как часть локального хранилища агента мониторинга;
 Сохранение текста тела отправленного электронного письма в виде файла, а также сохранение прикреплённых к нему файлов. Сохранение перечисленных файлов производится в специальную директорию для отправленных электронных писем, которую можно рассматривать как часть локального хранилища агента мониторинга.
Разработанный VSTO-плагин не содержит ресурсоёмких операции, поэтому для удобства и скорости разработки был выбран язык C#.
Мониторинг веб-страниц MS Internet Explorer
Задачей мониторинга web-страниц является перехват отправляемых форм и посещаемых web-страниц через браузер Internet Explorer. Для решения данной задачи был реализован BHO- плагин (англ. Browser Helper Object) [136], который добавляет следующую функциональность к браузеру Internet Explorer:
 Сохранение посещаемой web-страницы в виде файла в специальную директорию для посещаемых страниц, которую можно рассматривать как часть локального хранилища агента мониторинга;
 Сохранение отправляемой формы методом POST протокола HTTP в виде файла (файлов в случае отправки формы типа «multipart/form-data») в специальную директорию для отправленных форм, которую можно рассматривать как часть локального хранилища агента мониторинга. При этом в случае отправки формы типа «multipart/form-data» происходит сохранение всех файлов, содержащихся в форме, по отдельности.

107
Разработанный BHO-плагин не содержит ресурсоёмких операции, поэтому для удобства и быстроты разработки был выбран язык C#.
4.2.4
Модуль консолидации поведенческой информации
Модуль консолидации обеспечивает приём, распаковку и сохранение в единое хранилище поведенческих данных, поступающих от множества агентов мониторинга. Также в задачи модуля консолидации входит предоставление доступа к единому хранилищу для других программных модулей, например, АРМ аналитика, который осуществляет формирование выборок поведенческой информации для последующего построения и применения ИПМ.
Модуль консолидации поведенческой информации реализован в виде отдельного исполняемого файла, написанного на языке C#. Для обеспечения безопасного обмена данными по сети используется библиотека OpenSSL [133]. Единое хранилище представляет собой базу данных в СУБД Microsoft SQL Server 2012. Для хранения поведенческой информации используется аналогичная структура данных, которая реализована в агентах мониторинга.
То есть информация о наблюдаемых операциях хранится в таблицах БД, а копии документов хранятся в директориях ФС, соответствующих каждому зарегистрированному агенту. Для разграничения прав доступа к поведенческой информации задаются соответствующие права как на БД, так и на директории агентов.
4.2.5
Автоматизированное рабочее место
Автоматизированное рабочее место (АРМ) аналитика выполнено в виде MMC
(англ. Microsoft Management Console) компоненты (оснастки) [137]. АРМ предназначено для решения следующих основных задач:
 создание выборок поведенческой информации пользователей;
 построение ИПМ по выборкам;
 построение отчетов по применению ИПМ;
 просмотр результатов.
Для выполнения перечисленных задач АРМ взаимодействует с единым хранилищем поведенческой информации модуля консолидации и DCOM-объектом анализа поведенческой информации.
Разработанное АРМ представляет графический интерфейс для решения перечисленных задач и не содержит ресурсоёмких операции, поэтому для удобства и быстроты разработки был выбран язык C#.

108
Главное окно MMC оснастки
Главное окно MMC оснастки состоит из 3 частей (см. Рисунок 28): слева отображается дерево функциональных узлов, посередине — элементы (меню) выбранного узла, справа — меню действий для выбранного узла.
Корневым узлом АРМ является «Анализ текстовых потоков», у которого есть следующие основные дочерние узлы:
 «Выборки документов» — позволяет формировать выборки поведенческой информации пользователей, содержащейся в едином хранилище модуля консолидации.
 «Идентификация» — позволяет выполнять построение и применение ИПМ для метода прогнозирования тематической направленности пользователя.
 «Раннее обнаружение» — позволяет выполнять построение и применение ИПМ для метода оценки принадлежности документа к характерным тематикам пользователя.
Корневой узел «Анализ текстовых потоков» реализует следующие основные действия:
 «Подключиться к хранилищу» — позволяет подключиться к базе данных единого хранилища по указанным параметрам подключения.
 «Отключиться» — позволяет отключиться от базы данных единого хранилища (становится активным после успешного подключения к базе данных).
 «Настройки» — служит для задания базовых настроек ЭО ПК. Например, задаются такие параметры как: директории для сохранения выборок, ИПМ и отчетов.
Главное окно MMC оснастки.

109
Создание выборок поведенческой информации
Интерфейс создания выборок предоставляется с помощью меню «Создать выборку» узла
«Выборки документов» (см. Рисунок 28). Приведём описание основных элементов данного меню
(см. Рисунок 29):
 «Агенты» — выбор имени компьютера, поведенческая информация с которого будет далее рассматриваться при создании выборки;
 «Пользователи» — выбор пользователей, по которым необходимо построить выборку поведенческой информации;
 «Время» — задание фильтра по времени наблюдаемых операций с текстовыми документами;
 «Типы действий» — задание фильтра на тип операций с текстовыми документами;
 «Имя документа» и «Имя процесса» — задание текстового фильтра на соответствующие атрибуты наблюдаемых операций с документами;
 «Минимальный размер текстового файла» — задание фильтра на размер наблюдаемых текстовых документов;
 «Процессы» — выбор процессов, которые выполняли наблюдаемые операции;
 «Создать выборку» — кнопка для создания выборки, после её нажатия появляется окно для задания имени создаваемой выборки.
Создание выборки поведенческой информации.

110
Построение моделей идентификации
Интерфейс построения ИПМ для метода прогнозирования тематической направленности пользователя предоставляется с помощью меню «Создать модель» узла «Идентификация»
(см. Рисунок 28). Приведём описание основных элементов данного меню (см. Рисунок 30):
 «Имя фильтра» — задает имя выборки, по которой будет построена модель;
 «Число латентных тематик» — целое число тематик, требующееся для тематического моделирования;
 «Тип шага дискретизации» — выбор способа разбиения выборки на интервалы: по
времени или по числу документов (числу операций пользователя);
 «Обновление по таймеру» — добавляет возможность обновления модели по истечении заданного времени;
 «Создать» — кнопка для создания модели, после её нажатия появляется окно для задания имени создаваемой модели.
Создание модели идентификации.
Таки образом, под моделью идентификации понимается только тематическая модель, сформированная по объединённым текстам временных интервалов выборки, и параметр
формирования интервалов.

111
Построение отчетов по моделям идентификации
Интерфейс построения отчетов по применению ИПМ для метода прогнозирования тематической направленности пользователя предоставляется с помощью меню «Создать отчет» узла «Идентификация» (см. Рисунок 28). Приведём описание основных элементов данного меню
(см. Рисунок 31):
 «Имя фильтра» — задает имя выборки, к которой будет применена модель;
 «Имя модели» — задает имя модели, которую требуется применить к выборке;
 «Горизонт прогноза» — задаёт число интервалов, для которых будет построен прогноз;
 «Время для прогноза» —задаёт начальную точку прогноза (номер интервала, начиная с которого будет построен прогноз);
 «Общее число блоков в выборке» — отображение количество временных интервалов в данной выборке, если к ней будет применена текущая модель идентификации;
 «Создать» — кнопка для создания отчёта, после её нажатия появляется окно для задания имени создаваемого отчёта.
Создание отчета идентификации.

112
Построение моделей раннего обнаружения
Интерфейс построения ИПМ для метода оценки принадлежности документа к характерным тематикам пользователя предоставляется с помощью меню «Создать модель» узла
«Раннее обнаружение» (см. Рисунок 28). Приведём описание основных элементов данного меню
(см. Рисунок 32):
 «Имя фильтра» — задает имя выборки, по которой будет построена модель;
 «Число латентных тематик» — целое число тематик, требующееся для тематического моделирования;
 «Создать» — кнопка для создания модели, после её нажатия появляется окно для задания имени создаваемой модели.
Создание модели раннего обнаружения.
Построение отчетов по моделям раннего обнаружения
Интерфейс построения отчетов по применению ИПМ для метода оценки принадлежности документа к тематикам пользователя предоставляется с помощью меню «Создать отчет» узла
«Раннее обнаружение» (см. Рисунок 28). Приведём описание основных элементов данного меню
(см. Рисунок 33):
 «Имя фильтра» — задает имя выборки, к которой будет применена модель;
 «Имя модели» — задает имя модели, которую требуется применить к выборке;
 «Создать» — кнопка для создания отчёта, после её нажатия появляется окно для задания имени создаваемого отчёта.

113
Создание отчета раннего обнаружения.
Просмотр выборок, моделей и отчётов
Каждая выборка документов, модель или отчет содержит меню «Просмотреть», которое выводит соответствующие наблюдаемые операции с документами в виде таблицы.

1 2 3 4 5 6 7 8 9 10