Главная страница
Навигация по странице:

  • Степень разработанности темы

  • Цели и задачи

  • Научная новизна

  • Практическая значимость работы

  • Методология и методы исследования

  • Положения, выносимые на защиту

  • Личный вклад

  • Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности


    Скачать 4.32 Mb.
    НазваниеМетоды и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
    Дата24.01.2022
    Размер4.32 Mb.
    Формат файлаpdf
    Имя файлаTsarev_dissertation.pdf
    ТипДиссертация
    #340124
    страница2 из 10
    1   2   3   4   5   6   7   8   9   10
    актуальным является развитие направления обнаружения ранних признаков аномального поведения пользователей на основе методов машинного обучения для решения следующих задач информационной безопасности:
    Задача раннего обнаружения попыток хищения информации — процедура выявления фактов аномального или подозрительного поведения инсайдеров (авторизованных легальных пользователей или нарушителей, авторизовавшихся под чужим именем), которые могут предшествовать или непосредственно являться частью организации попытки хищения информации.
    Задача аутентификации пользователей — процедура оценки достоверности того, что пользователь, работающий с защищаемой компьютерной системой, является действительно тем, от имени кого он авторизовался.
    Степень разработанности темы
    Существующие UEBA-системы с помощью методов машинного обучения анализируют данные об операциях пользователя (контекстную информацию), которые являются хорошо структурированными, например, данные системных журналов ОС, журналов SIEM, IDS/IPS, DLP систем; данные об операциях с файлами, электронной почтой. Анализ содержимого обрабатываемых пользователем текстовых данных представляет более сложную задачу и не рассматривается в существующих решениях UEBA-систем. Во-первых, текст является
    1
    Gartner, Inc.— компания, специализирующаяся на рынках информационных технологий, является мировым лидером в области исследований и консалтинговых услуг (http://www.gartner.com/technology/about.jsp).

    9 неструктурированной информацией, а во-вторых, содержит данные гораздо большего объёма.
    Поэтому существующие подходы не способны выявить случаи нелегитимной активности пользователя при характерных для него действиях, но с нелегальным содержимым (контентом).
    Кроме того, только лишь анализ структурированной информации об операциях пользователя не даёт стопроцентную точность обнаружения утечки [14-16]. Следовательно, является
    актуальным исследование и разработка методов машинного обучения для оценки аномальности действий пользователя на основе контентного анализа информации, с которой он взаимодействует.
    Новизну и актуальность выбранной темы диссертации подтверждает отчёт Gartner [12], в котором также подчёркивается, что анализ текстовых данных является гораздо более сложной задачей, чем анализ структурированных данных об операциях. Поэтому Gartner ожидает появление данного функционала в UEBA-системах в течение следующих нескольких лет, отмечая при этом важность анализа пользовательской текстовой информации для понимания и оценки злонамеренности действий пользователя.
    Таким образом, на сегодняшний день не существует разработанных подходов к обнаружению аномального поведения пользователей на основе анализа содержимого обрабатываемых текстовых данных с использованием методов машинного обучения. Поэтому в работе также исследуются существующие подходы к анализу текстовой информации, применяемые в современных программных системах, функционал которых направлен на управление контентной информацией в организации. К данным системам были отнесены системы следующих классов: системы управления корпоративным контентом (англ. Enterprise
    Content Management, ECM), которые также включают средства электронного раскрытия информации (англ. eDiscovery); DLP-системы предотвращения утечек данных.
    Более 80% информации организаций состоит из неструктурированных (контентных) данных, причём в подавляющем большинстве это текстовая информация [13, 17], например, содержащаяся в деловых документах, отчётах, контрактах, электронной почте и т.п. Понимание деловой ценности информации, циркулирующей внутри организации, и процессов, происходящих с ней, позволит разрабатывать свои политики безопасности и применять их к различным типам информации, а также управлять рисками, связанными с использованием конфиденциальных данных и наличием неизвестной или неконтролируемой информации [18].
    Для решения указанных задач в настоящее время в организациях применяются ECM-системы.
    В рамках диссертационной работы данные системы представляют интерес не столько с точки зрения их роли в компьютерной безопасности, сколько из-за их аналитических возможностей по обработке корпоративного текстового контента, которые, в свою очередь, требуются для

    10 исследования и разработки признаков, описывающих поведение пользователей, и методов их анализа.
    В дополнение к ECM-системам также детально рассматриваются DLP-системы, функционал которых направлен на управление контентной информацией организации, но с точки зрения решения задачи предотвращения утечек конфиденциальной информации путём блокирования передачи соответствующих документов. Данный класс систем представляет интерес как с точки зрения используемых технологий анализа текстового контента, так и с точки зрения используемых сценариев работы систем и их программной архитектуры.
    Системы выделенных классов направлены на решение разных целевых задач, но все они содержат средства анализа текстового контента, функционирующего в корпоративной сети.
    Обзор современных индустриальных программных систем рассматриваемых классов обеспечит полное и всестороннее освещение подходов к анализу текстовой информации, применяемых в организациях для анализа своего контента, в том числе и для анализа работы своих сотрудников.
    Цели и задачи
    Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей на основе анализа содержимого потока обрабатываемых текстовых данных с использованием методов машинного обучения для задач информационной безопасности.
    Объектом исследования диссертационной работы является поведенческая информация пользователей при работе с электронными текстовыми документами. Под поведенческой информацией пользователя будем понимать данные об операциях, выполняемых пользователем с электронными документами, и данные о содержимом этих документов.
    Для каждого типа электронного документа и среды его функционирования определён свой набор операций, изменяющих его состояние. Например, для текстовых файлов на рабочем месте пользователя это операции: создание, чтение, изменение, перемещение, удаление; для почтовых сообщений, получаемых и отправляемых пользователем с помощью почтового клиента: получение сообщения и отправка сообщения. Изменения электронного документа могут быть двух типов:
    контентное — изменение содержимого документа (например, редактирование содержимого текстового файла);
    контекстное — изменение атрибутов документа (например, изменение имени или пути текстового файла).

    11
    Таким образом, при контентном изменении поведенческая информация включает в себя данные об операции, вызвавшей данное изменение, и о содержимом документа до и после его изменения; при контекстном изменении — только информацию об операции.
    В рамках настоящей работы исследуется возможность обнаружения аномального поведения пользователей, основываясь на контенте электронных документов, к которым обращались пользователи. Факт обращения пользователя к документу определяется набором соответствующих операций. Поэтому описание самих операций пользователя отходит на второй план, а анализируется только содержимое электронных документов и время обращения к ним, или, говоря иными словами, поток текстовых данных.
    При анализе текстового содержимого электронных документов возникает проблема наличия информационного шума, т.е. наличия в тексте документа схожей или однотипной информации, которая не влияет на общую семантику документа, а также информации, не относящейся к основному содержанию документа (например: титульный лист, заголовки форм документов, текст меню/рекламы на посещаемых web-страницах и т.п.). Таким образом, удаление информационного шума, путём выделения наиболее значимых фрагментов текста из анализируемых документов, позволит сократить объём обрабатываемой текстовой информации и приведёт к построению более точных моделей поведения пользователей, что, в свою очередь, улучшит качество обнаружения аномалий.
    Для достижения поставленной цели необходимо решение следующих задач:
    1. Разработать модель представления поведенческой информации пользователя о его работе с текстовыми данными и исследовать возможность применения методов удаления информационного шума.
    2. Разработать методы обнаружения аномального поведения пользователя при работе с текстовыми данными, используя выбранную модель представления поведенческой информации. Разработанные методы должны быть основаны на машинном обучении и служить для построения и применения индивидуальных моделей поведения пользователей.
    3. Разработать архитектуру и реализовать экспериментальный образец программного комплекса (ЭО ПК), выполняющего сбор поведенческой информации, построение и применение индивидуальных моделей поведения пользователей на основе разработанного комплекса алгоритмов для обнаружения аномального поведения.

    12
    Научная новизна заключается в предложенном новом подходе к анализу и моделированию поведения пользователя, основанном на отображении содержимого потока электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени представляет многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя. Разработаны новые методы, основанные на расчёте оценки принадлежности документов пользователя к характерным для него тематикам, и методы оценки отклонения тематической направленности пользователя от спрогнозированных значений.
    Практическая значимость работы состоит в разработке и реализации экспериментального образца программного комплекса обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией, предназначенного для решения задач информационной безопасности. Полученные результаты диссертационной работы могут послужить основой для построения перспективных современных систем информационной безопасности класса UEBA, которые будут включать средства анализа содержимого обрабатываемых пользователями текстовых данных. Причём могут использоваться как все разработанные программные модули для осуществления сбора поведенческой информации, построения и применения индивидуальных моделей поведения пользователей, так и только модули, служащие для сбора и представления в структурированном виде содержимого обрабатываемых пользователями текстовых данных.
    Методология и методы исследования
    При получении основных результатов диссертации использовались методы теории машинного обучения и анализа текстов на естественном языке, а также проведённые экспериментальные исследования на примере набора реальной корпоративной электронной почты. При разработке программных модулей экспериментальной системы обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией использовались методы объектно-ориентированного анализа и проектирования.

    13
    Положения, выносимые на защиту
    1. Предложена новая модель представления потока текстовых документов в виде многомерного временного ряда, где каждая компонента ряда показывает изменение веса тематики во времени, при этом характерные тематики потока определяются с использованием методов ортонормированной неотрицательной матричной факторизации. Разработанная модель представления предназначена для решения задач анализа поведения пользователя при работе с текстовыми данными и фильтрации информационного шума из потоков текстовых документов.
    2. Разработаны два новых алгоритма обнаружения аномального поведения пользователя при работе с текстовыми данными, использующих предложенное тематическое представление потока текстовых документов: алгоритм на основе анализа оценок принадлежности документов к характерным тематикам пользователя; алгоритм на основе анализа отклонений при прогнозировании тематических временных рядов пользователя.
    3. Разработана архитектура и реализован экспериментальный образец мультиагентного программного комплекса, использующий предложенный комплекс алгоритмов для обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.
    Личный вклад автора заключается в выполнении основного объема теоретических и экспериментальных исследований, а также в разработке архитектуры и реализации экспериментального образца мультиагентного программного комплекса обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией. Автор выполнил анализ и оформление полученных результатов диссертационной работы в виде публикаций, научных докладов, патента на полезную модель и двух свидетельств о государственной регистрации программ для ЭВМ.
    В работе [19] Д. В. Царёв предложил модель представления текстовой информации, основанную на выделении частых эпизодов (комбинаций термов текста), и провёл экспериментальные исследования.
    В работах [20, 21, 22] Д. В. Царёв выполнил описание обзорной части, предложил новый алгоритм автоматического аннотирования текстовых документов, основанный на использовании неотрицательной матричной факторизации для тематического моделирования, и провёл экспериментальные исследования.
    В работах [23, 25] Д. В. Царёв провёл экспериментальные исследования и показал возможность применения разработанного алгоритма автоматического аннотирования [20, 21, 22]

    14 для удаления информационного шума из текстовых данных и, как следствие, сокращения объёма обрабатываемой текстовой информации в задачах классификации.
    Работа [24] полностью выполнена Д. В. Царёвым. В данной работе приводится описание разработанной экспериментальной мультиагентной системы сбора информации о потоках текстовых данных, обрабатываемых пользователями корпоративной сети.
    В работе [26] Д. В. Царёв выполнил описание обзорной части и предложенного алгоритма вычисления релевантности фрагментов текста, который, в свою очередь, основан на разработанном алгоритме автоматического аннотирования [20, 21, 22]. В качестве тематических моделей, используемых для вычисления релевантности фрагментов текста, были рассмотрены следующие популярные модели: модели, основанные на латентно-семантическом анализе, модель вероятностного латентно-семантического анализа, модель скрытого распределения
    Дирихле. Д. В. Царёв также провёл экспериментальные исследования.
    В работах [27, 28] и патенте [37] авторами описывается разработанная технология оценки качества научно-технических документов, которая основана на комбинированном подходе, учитывающем различные категории автоматически рассчитываемых характеристик качества документов — как существующие библиометрические и наукометрические характеристики, так и новые типы характеристик, основанные на семантическом анализе текстов научно-технических документов, применении эвристических правил, а также на применении методов оценки наличия прямых текстовых заимствований (плагиата). Д. В. Царёву принадлежит описание применяемых семантических и эвристических характеристик качества документов, а также описание соответствующих программных модулей. Семантические характеристики основаны на применении неотрицательной матричной факторизации для семантического анализа отдельных документов и коллекций документов. В свою очередь, семантические характеристики отдельных документов базируются на вычислении релевантности фрагментов текста алгоритмом, предложенным в [26].
    В работе [29] Д. В. Царёв предложил новый алгоритм подстановки пропущенных значений в матричных данных, основанный на использовании неотрицательной матричной факторизации для нахождения взаимосвязей между элементами входной матрицы, и провёл экспериментальные исследования.
    В работах [30, 31] Д. В. Царёв впервые описал новый подход к анализу и моделированию поведения пользователя, состоящий в представлении информации о потоке документов, с которыми работал пользователь, в виде многомерного тематического временного ряда. В рамках данного подхода Д. В. Царёв предложил новый метод обнаружения аномального поведения пользователя на основе прогнозирования временных рядов тематической направленности пользователя с последующей оценкой отклонения наблюдаемых значений от

    15 спрогнозированных. Д. В. Царёв также провёл экспериментальные исследования предложенного метода для задачи аутентификации пользователей на примере реальной корпоративной переписки пользователей, сформированной из набора данных Enron.
    В работе [32] Д. В. Царёв адаптировал предложенный в [29] алгоритм подстановки пропущенных значений для решения задачи прогнозирования многомерных временных рядов, после чего применил его в методе обнаружения аномального поведения пользователя, описанном ранее в [30, 31].
    В работах [33, 34] Д. В. Царёв впервые описал новый метод обнаружения аномального поведения пользователя при работе с текстовыми данными, основанный на расчёте оценки принадлежности документов пользователя к характерным для него тематикам. Д. В. Царёв также провёл экспериментальные исследования предложенного метода в задаче раннего обнаружения попыток хищения информации на примере реальной корпоративной переписки пользователей, сформированной из набора данных Enron.
    В работах [35, 36] Д. В. Царёв описал алгоритм автоматического аннотирования текстовых документов, который впервые был предложен в работах [20, 21], и алгоритм выделения ключевых слов, основанный на использовании неотрицательной матричной факторизации для тематического моделирования текста документа.
    В свидетельстве о государственной регистрации программы для ЭВМ [38] Д. В. Царёву принадлежит реализация и описание программных модулей сбора и анализа информации об особенностях работы пользователя с текстовой информацией, предназначенных для решения задач непрерывной фоновой аутентификации (идентификации) и раннего обнаружения попыток хищения конфиденциальной информации.
    В свидетельстве о государственной регистрации программы для ЭВМ [39] Д. В. Царёву принадлежит реализация и описание программных модулей, составляющих систему мониторинга, теневого копирования и автоматического аннотирования текстовых данных при работе пользователя с электронными текстовыми документами.
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта