Главная страница
Навигация по странице:

  • Итого 15 пользователей 11941 текстовых документов

  • Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности


    Скачать 4.32 Mb.
    НазваниеМетоды и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
    Дата24.01.2022
    Размер4.32 Mb.
    Формат файлаpdf
    Имя файлаTsarev_dissertation.pdf
    ТипДиссертация
    #340124
    страница6 из 10
    1   2   3   4   5   6   7   8   9   10
    Сумма
    отклонений
    0.349273
    0.351276
    0.700549
    2.680084
    2.750532
    5.430616

    69
    Данные, приведённые в Таблице 5, демонстрируют:
     отклонение временных рядов пользователя «kaminski-v» всегда меньше чем для пользователя
    «dasovich-j»;
     достаточно задать для любой из тематик допустимое значение отклонения равным 0.1, чтобы однозначно определить пользователя для каждого рассмотренного временного интервала;
     суммарное отклонение от прогноза пользователя «dasovich-j» за 15 суток больше в 7.75 раз чем для пользователя «kaminski-v».
    Из полученных результатов можно сделать следующие выводы:
     построенный предложенным методом тематический «портрет» пользователя действительно описывает тематики, характеризующие пользователя, т.к. веса выделенных тематик во временных интервалах анализируемого пользователя больше чем веса данных тематик во временных интервалах другого пользователя (см. Рисунок 18 и Рисунок 19);
     отображение новых (за время прогноза) временных интервалов с использованием матрицы
    «портрета» пользователя приводит к получению значений тематической направленности близких к cпрогнозированным для анализируемого пользователя и значений, сильно (как правило, на порядок) отличающихся от прогноза, для другого пользователя.
    Проведённое предварительное экспериментальное исследование показало применимость подхода прогнозирования тематической направленности пользователя по длительным интервалам времени. Вводя порог значения отклонения от прогноза за один временной интервал или за последовательность временных интервалов, можно определять аномальные
    (несвойственные) временные интервалы работы пользователя с текстовыми данными. Также можно сделать вывод о том, что тематические «портреты» действительно отражают специфические тематики наборов документов, на основе которых они формируются. Данная возможность позволит анализировать работу пользователя, используя тематические «портреты» специально подготовленных наборов документов, например, содержащих различные категории конфиденциальных данных.
    Проведение серии экспериментов
    Для проведения серии экспериментальных исследований необходимо выбрать соответствующие экспериментальные периоды (ЭП). Выбирать ЭП требуется так, чтобы по их данным можно наиболее вероятно смоделировать ситуацию подмены анализируемого пользователя на другого пользователя, т.е. смоделировать условия для решения задачи аутентификации пользователя. Поэтому в рамках каждого ЭП анализируемый пользователь должен иметь существенное количество общих писем с другими пользователями из ЭП (письмо считается общим для двух пользователей, если их адреса единовременно встречаются в списках

    70 получателей и/или отправителей). Это требование позволит оставлять в одном ЭП пользователей, которые либо знают друг друга, либо работают над одним проектом. Для полноты исследования также было предъявлено требование, что каждый ЭП должен содержать данные как минимум двух пользователей отличных от анализируемого. Тем самым увеличивается разнообразие возможных подмен легитимной активности на другие, не свойственные анализируемому пользователю. Кроме того, для возможности корректного применения алгоритмов прогнозирования переписка пользователей из ЭП должна быть активной, т.е. у пользователей должно быть как можно меньше дней без отправленных и полученных писем.
    Исходя из перечисленных требований и характеристик набора данных Enron, был сформирован 21 ЭП, которые состоят из 30280 различных писем. При этом количество общих писем анализируемого пользователя с остальными пользователями составляло 10%-20% от числа писем анализируемого пользователя за ЭП. Длина ЭП выбиралась равной пяти неделям. Для тренировочного периода использовались первые четыре недели, а период анализа (время прогноза) занимала последующая неделя. Данное решение было принято из-за того, что в наборе часто встречаются дни без всякой активности пользователей, поэтому для возможности корректной аппроксимации пропущенных временных данных при прогнозировании выбирались четыре недели для тренировочного периода. Также в пользу выбора длины ЭП равной пяти неделям свидетельствовал тот факт, что в рассматриваемом наборе данных редко можно выделить ЭП, соответствующие перечисленным выше критериям, длительностью больше месяца.
    Далее для каждого из ЭП рассматривалась задача бинарной классификации: требуется отделить временные интервалы работы анализируемого пользователя от временных интервалов работы остальных пользователей.
    При проведении серии экспериментов было выбрано разбиение времени ЭП по числу писем, т.к. при разбиении по суткам явно прослеживается недельная периодичность, что упрощает прогнозирование, а также зачастую получались пустые временные точки, соответствующие выходным дням. Таким образом, для каждого пользователя шаг временного интервала задавался равным не 1 суткам, а времени, за которое пользователь успевал обработать
    50 писем (что соответствует среднему числу писем, обрабатываемых пользователями за сутки).
    Другими словами, каждая точка тематического временного рядя пользователя соответствует конкатенации текста из 50 его писем (см. Рисунок 20).
    С каждым из сформированных ЭП производилась следующая процедура:
    1. Для анализируемого пользователя и заданного тренировочного периода строилась тематическая модель поведения, при этом число тематик выбиралось равным трём (k=3).

    71 2. На основе сформированного тематического портрета (матрицы W
    k
    ) анализируемого пользователя рассчитывалась тематическая направленность всех временных интервалов времени прогноза для всех пользователей из ЭП.
    3. С помощью методов прогнозирования строились прогнозы на основе тематических временных рядов анализируемого пользователя. В рассматриваемых экспериментах, в которых время ЭП разбивалось по числу писем, из алгоритмов, применяемых в Microsoft
    Analysis Services, наилучшие результаты показал алгоритм ARTXP без объединения с результатами алгоритма ARIMA. В дополнение к ARTXP также был рассмотрен метод авторегрессии (AR), т.к. авторегрессионная модель непосредственно является частью авторегрессионной модели дерева, на которой основан алгоритм ARTXP. Кроме того, рассматривался собственный метод прогнозирования на основе ортонормированной неотрицательной матричной факторизации. Далее для обозначения методов прогнозирования используются сокращения: метод авторегрессии — AR, метод на основе авторегрессионной модели дерева решений — MS_ARTXP, предложенный метод прогнозирования на основе ортонормированной неотрицательной матричной факторизации — ONMF.
    4. Для каждого метода прогнозирования рассчитывалась оценка отклонения временных интервалов всех пользователей от спрогнозированных значений. В качестве оценки отклонения временного интервала от прогноза использовалась абсолютная оценка — сумма по всем k тематикам абсолютного отклонения реальных значений весов тематик от спрогнозированных. Данную оценку также будем называть оценкой аномальности.
    Временные ряды анализируемых пользователей для одной из тематик.

    72
    После проведения вышеописанной процедуры получаем, что для каждого ЭП вычислены оценки аномальности каждого временного интервала для всех пользователей за время прогноза.
    На основе данных оценок аномальности для каждого ЭП были рассчитаны значения AUC соответственно для каждого метода прогнозирования. Полученные значения медиан и интерквартильных размахов для рассматриваемых методов прогнозирования приведены в
    Таблице 6.
    Значения медиан и интерквартильных размахов множества AUC.
    Метод прогнозирования
    Медиана
    Интерквартильный размах
    ONMF
    0.90625 0.141
    MS_ARTXP
    0.86735 0.117
    AR
    0.89286 0.131
    Из приведённых данных следует, что:
     Предложенный подход к обнаружению аномального поведения пользователя на основе прогнозирования тематической направленности пользователя за длительные интервалы времени показывает высокое качество идентификации даже при использовании стандартных методов прогнозирования.
     Разработанный метод прогнозирования временных рядов, основанный на ортонормированной неотрицательной матричной факторизации, показал высокое качество прогнозирования и свою применимость в рассмотренном подходе к обнаружению аномального поведения пользователя.
    3.3
    Оценка принадлежности документа к характерным тематикам
    пользователя
    Наглядно продемонстрируем специфику работы корпоративного пользователя с текстовыми документами, которая заключается в том, что пользователь последовательно может работать с документами, относящимися к различным тематикам (при этом данные тематики являются характерными для пользователя), вследствие чего возникает сильное изменение тематической направленности пользователя при переходе от одной точки временного ряда к последующей в модели его поведения. На Рисунке 21 приведены тематические временные ряды пользователя из набора Enron, в которых каждая точка ряда соответствует отдельному документу. Представленные графики демонстрируют, что очерёдность обращения пользователя к документам определённых тематик зачастую трудно предугадать. Поэтому невозможно

    73 применить предложенный в подразделе 3.2 подход к обнаружению аномального поведения пользователя, в котором используется прогнозирование тематической направленности.
    Тематическая модель поведения пользователя из набора Enron.
    Для решения указанной проблемы автором было предложено оценивать аномальность поведения пользователя исходя из того, насколько характерны документы, с которыми он работает в данный момент, его тематической направленности, сформированной за тренировочный период. То есть процедура идентификации обращения пользователя к аномальному документу заключается в оценке общего присутствия характерных тематик пользователя в каждой точке временного ряда.
    Реализация данного подхода состоит в построении предложенной тематической модели поведения пользователя по отдельным фактам работы пользователя с документами. Далее на основе полученного тематического портрета (матрица W
    k
    ) анализируемого пользователя любой текстовый документ может быть представлен в пространстве тематик пользователя в виде числового вектора h = [h
    1
    , …, h
    k
    ], фиксированной размерности k, где k — число выделенных тематик пользователя за тренировочный период, а i-ая компонента вектора (1 ≤ i k) определяет вес i-ой тематике в рассматриваемом документе. Чем больше элементы вектора h, тем сильнее текст соответствующего документа характеризуется тематиками анализируемого пользователя.
    Поэтому для вычисления общей оценки принадлежности документа к тематикам пользователя было предложено использовать норму вектора документа, представленного в пространстве тематик. Были исследованы возможности применение следующих норм вектора: L
    1
    (сумма элементов вектора), L
    2
    (евклидова норма), L

    (максимум из элементов вектора). На Рисунке 22 продемонстрированы вычисленные оценки принадлежности документов к тематикам пользователя на основе рассматриваемых норм для примера тематических временных рядов, представленных на Рисунке 21.

    74
    Оценки принадлежности документов к тематикам.
    На основе значений оценок принадлежности документов к тематикам анализируемого пользователя определяются документы, не свойственные для данного пользователя.
    Соответственно, чем ниже вычисленная оценка принадлежности документа, тем более аномально обращение пользователя к данному документу.
    Основное отличие предложенного подхода к обнаружению аномального поведения пользователя от подхода, рассмотренного в предыдущем подразделе 3.2, заключается в том, что каждая точка формируемых тематических временных рядов теперь соответствует отдельному документу, а не совокупному текстовому содержимому документов пользователя за длительные интервалы времени. Следовательно, в рассматриваемом подходе не требуется ждать длительное время пока заполнится временное окно. Другими словами, выявляются не интервалы времени с несвойственной для пользователя работой с текстовыми данными, а непосредственно факты работы с документами несвойственного контента. Также не требуется выполнять дополнительную процедуру построения прогноза дальнейшей тематической направленности пользователя.
    Для проведения экспериментальных исследований в работе используется набор реальной корпоративной переписки Enron. При проведении экспериментальных исследований рассмотренного ранее подхода прогнозирования тематической направленности пользователя критичным являлось требование минимизации количества дней, в которых у пользователей не было отправленных или полученных писем. Поэтому использовалась стандартная версия набора
    Enron [99], которая содержит электронные письма без вложенных файлов (англ. attachment), т.к. число писем без вложений гораздо больше числа писем с вложениями. В связи с этим данный набор плохо подходит для применения разработанного метода удаления информационного

    75 шума, т.к. текст электронного письма, как правило, не содержит лишней информации и является небольшим по объёму.
    В предложенном методе оценки принадлежности документа к характерным тематикам пользователя анализируются документы по отдельности, поэтому для проведения экспериментальных исследований была выбрана версия набора Enron со всеми вложениями [115], которую далее будем обозначать Enron Attachment. Прикреплённые к электронным письмам документы текстовых форматов также являются текстовой информацией, обрабатываемой пользователями, а данные о письме, такие как время отправки/получения и адресаты, служат для описания использования текстовых документов. Текстовые документы, пересылаемые по корпоративной электронной почте, представляют характерный контент пользователей из корпоративной среды, поэтому на их примере также актуальным будет исследовать возможность применения рассмотренного метода удаления информационного шума.
    Ниже настоящий подраздел организован следующим образом:
    1. Формирование экспериментальных данных на основе набора Enron Attachment;
    2. Экспериментальное исследование предложенного подхода оценки принадлежности документов к характерным тематикам анализируемого пользователя;
    3. Экспериментальное исследование применения метода удаления информационного шума в предложенном подходе оценки принадлежности документов к характерным тематикам анализируемого пользователя.
    3.3.1
    Формирование экспериментальных данных
    Архив исходного набора данных Enron Attachment представлен в виде набора папок, каждая папка соответствует отдельному почтовому ящику пользователя. Электронные письма пользователей хранятся в виде PST-файлов (файлы данных ПО Microsoft Outlook). Для обеспечения полноты и репрезентативности формируемого набора экспериментальных данных были выбраны все пользователи, у которых суммарный размер PST-файлов был не меньше 1Гб.
    Таким образом были выбраны 15 пользователей, представленные в Таблице 7.

    76
    Пользователи набора экспериментальных данных Enron Attachment.
    Номер
    Имя пользователя
    Суммарный размер PST-файлов пользователя
    1 chris_germany
    1.0Гб
    2 daren_farmer
    1.6Гб
    3 darron_c_giron
    1.2Гб
    4 gerald_nemec
    1.2Гб
    5 john_lavorato
    1.2Гб
    6 kate_symes
    1.5Гб
    7 louise_kitchen
    1.4Гб
    8 mark_taylor
    1.1Гб
    9 matthew_lenhart
    1.6Гб
    10 phillip_m_love
    1.2Гб
    11 richard_sanders
    2.2Гб
    12 richard_shapiro
    1.1Гб
    13 sally_beck
    2.4Гб
    14 sara_shackleton
    1.7Гб
    15 vkaminski
    3.3Гб
    Для извлечения данных об электронных письмах и прикреплённых к ним файлах использовалась программа readpst
    4
    [116]. Поскольку не все прикреплённые к письмам файлы содержат текстовую информацию, необходимо было выбрать типы (форматы) файлов, которые далее будут использоваться в экспериментальных исследованиях.
    Наиболее популярными форматами документов для представления текстовой информации являются DOC, RTF и PDF. В ходе дальнейшего анализа было получено, что во многих PDF-файлах из набора данных Enron Attachment текстовая информация представлена в виде графических элементов или с использованием неизвестной кодировки, что приводит к невозможности корректного извлечения текста стандартными программными средствами, например, pdftotext [117]. В связи с этим при дальнейшем формировании набора экспериментальных данных рассматривались только документы форматов DOC и RTF, а для извлечения текста использовалась программа catdoc [118].
    Для каждого из выбранных пользователей (см. Таблицу 7) были получены следующие экспериментальные данные: текст обрабатываемых по средствам электронной почты документов
    4
    readpst -D -S -b -j 1 <имя_pst-файла>

    77 форматов DOC и RTF; время обработки документа. В Таблице 8 приведены характеристики полученных данных.
    Характеристики данных, полученных из набора Enron Attachment.
    Номер
    Имя пользователя
    Число текстовых документов за 2000 и 2001 года
    1 chris_germany
    94 2 daren_farmer
    273 3 darron_c_giron
    42 4 gerald_nemec
    3152 5 john_lavorato
    112 6 kate_symes
    70 7 louise_kitchen
    342 8 mark_taylor
    1728 9 matthew_lenhart
    6 10 phillip_m_love
    31 11 richard_sanders
    888 12 richard_shapiro
    707 13 sally_beck
    606 14 sara_shackleton
    3267 15 vkaminski
    623
    Итого
    15 пользователей
    11941 текстовых документов
    3.3.2
    Экспериментальное исследование метода обнаружения аномального поведения пользователя
    Проводимые экспериментальные исследования посвящены задаче раннего обнаружения попыток хищения информации, т.е. требуется выявлять обращения анализируемого пользователя к несвойственным ему документам. Под несвойственными документами будем понимать документы пользователей отличных от анализируемого. Поэтому при формировании ЭП использовались соответствующие данные всех 15 пользователей набора Enron Attachment.
    Исходя из характеристик набора данных Enron Attachment, было сформировано 118 ЭП.
    Длина ЭП выбиралась равной шести неделям. Для тренировочного периода использовались первые четыре недели, а период анализа занимали последующие две недели. Данное решение было принято из-за того, что в наборе данных Enron Attachment на порядок меньше текстовых документов чем в стандартном наборе Enron, поэтому даже не всегда удавалось выбрать четыре

    78 недели для формирования пространства тематик, в течение которых у анализируемого пользователя было 20 обращений к текстовым документам. По этой же причине длина периода анализа выбиралась в две недели. Кроме того, более длительные периоды могут привести к смене тематической направленности анализируемого пользователя.
    Далее для каждого из ЭП рассматривалась задача бинарной классификации: требуется отделить документы анализируемого пользователя от документов остальных пользователей за период анализа.
    С каждым из сформированных ЭП производилась следующая процедура:
    1. Для анализируемого пользователя и заданного тренировочного периода строилась тематическая модель поведения, при этом число тематик выбиралось равным 10% от размера словаря термов, но не более 10.
    2. На основе сформированного тематического портрета (матрицы W
    k
    ) анализируемого пользователя вычислялись тематические векторные представления всех классифицируемых документов периода анализа для всех пользователей из ЭП.
    3. Для каждой из рассматриваемых норм вектора (L
    1
    , L
    2
    , L

    ) рассчитывалась оценка принадлежности классифицируемых документов к тематикам анализируемого пользователя.
    В качестве оценки аномальности использовалось отрицательное значение рассчитанной оценки принадлежности документа к тематикам анализируемого пользователя.
    После проведения вышеописанной процедуры получаем, что для каждого ЭП вычислены оценки аномальности каждого документа для всех пользователей за период анализа. На основе данных оценок аномальности для каждого ЭП были рассчитаны значения AUC соответственно для каждой из рассматриваемых норм, полученные значения медиан и интерквартильных размахов приведены в Таблице 9.
    Значения медиан и интерквартильных размахов множества AUC.
    Норма
    Медиана
    Интерквартильный размах
    L
    1 0.870209469 0.129879657
    L
    2 0.899628484 0.118101298
    L

    0.906455554 0.110922615
    Для того чтобы сравнить полученные результаты с существующими методами, рассмотрим решаемую задачу, как задачу одноклассовой классификации, т.е. требуется определить принадлежит ли документ к заданному классу документов из тренировочного периода анализируемого пользователя. Исследование существующей литературы показало, что в области анализа поведения пользователей для решения аналогичных задач наилучшие

    79 результаты показывают следующие методы одноклассовой классификации [96, 98, 119, 120] метод опорных векторов (англ. one-class support vector machine), метод ближайших соседей (англ.
    one-class k-nearest neighbour).
    Отметим, что в настоящее время набирает всё большую популярность разработанная в
    Google векторная модель представления документов, которую называют doc2vec или
    Paragraph Vector [121, 122]. Данная модель также оценивает семантическую близость между словами на основе их контекстной встречаемости, использую обучение нейронной сети с единственным скрытым слоем.
    Указанные методы одноклассовой классификации применяются к векторному представлению документов. Поэтому рассматривались векторные представления документов как в пространстве термов (модель представления «мешок слов»), так и в пространстве, формируемым doc2vec. Полученные значения медиан и интерквартильных размахов для метода опорных векторов (SVM) и метода ближайших соседей приведены (KNN) в Таблице 10.
    Значения медиан и интерквартильных размахов множества AUC.
    Метод одноклассовой классификации
    Медиана
    Интерквартильный размах
    Метод опорных векторов
    (модель представления «мешок слов»)
    0.868529715 0.1375638
    Метод опорных векторов
    (представление doc2vec)
    0.901159162 0.1248971
    Метод ближайших соседей
    (модель представления «мешок слов»)
    0.884195613 0.16343003
    Метод ближайших соседей
    (представление doc2vec)
    0.891329053 0.1277554
    Из приведённых данных следует, что предложенный метод на основе оценки принадлежности документов к тематикам анализируемого пользователя показывает высокое качество выявления фактов работы пользователя с несвойственными для него документами.
    Кроме того, предложенный подход показал лучшее качество классификации в сравнении с традиционными методами одноклассовой классификации.
    3.3.3
    Экспериментальное исследование применения метода удаления информационного шума
    Для исследования того, как на качество классификации влияет удаление информационного шума из документов, были выполнены эксперименты, аналогичные

    80 проводимым в пункте 3.3.2. Только к каждому документу, полученному из набора
    Enron Attachment, применялся разработанный метод удаления информационного шума.
    Очевидно, что размер документа также играет большую роль при удалении информационного шума, так нет смысла удалять предложения из документов, состоящих из 3-5 предложений. Поэтому при удалении информационного шума использовалось ограничение на минимальный размер результирующего документа, который задавался равным в 300 слов.
    Значения медиан и интерквартильных размахов полученного множества AUC для всех рассмотренных в пункте 3.3.2 методов классификации приведены в Таблице 11. Числовые характеристики сокращения объёма текстовых данных до и после удаления информационного шума приведены в Таблице 12.
    Значения медиан и интерквартильных размахов множества AUC при удалении информационного шума.
    Метод одноклассовой классификации
    Медиана
    ИКР
    Улучшение значения медианы
    Предложенный метод (L
    1
    )
    0.9213664 0.1033228 5.9%
    Предложенный метод (L
    2
    )
    0.9290707 0.1093923 3.3%
    Предложенный метод (L

    )
    0.926603 0.1075452 2.2%
    Метод опорных векторов
    (модель представления «мешок слов»)
    0.902885 0.1199535 3.96%
    Метод опорных векторов
    (представление doc2vec)
    0.92036675 0.1191462 2.13%
    Метод ближайших соседей
    (модель представления «мешок слов»)
    0.8969872 0.1458051 1.5%
    Метод ближайших соседей
    (представление doc2vec)
    0.9217991 0.1288583 3.42%

    81
    Сокращение объёма текстовых данных при удалении информационного шума.
    Пользователь
    Суммарный размер исходных текстовых данных (байт)
    Суммарный размер текстовых данных с удалённым информационным шумом (байт)
    Процент сокращения размера текстовых данных gerald_nemec
    53027303 12380839 76.65% kate_symes
    273032 181008 33.71% chris_germany
    706291 150131 78.74% louise_kitchen
    3323118 1015312 69.45% sally_beck
    4411489 1760671 60.09% sara_shackleton
    60073812 14954158 75.11% daren_farmer
    909679 460790 49.35% vkaminski
    4330700 1838239 57.55% mark_taylor
    21976781 5694107 74.09% phillip_m_love
    167248 109933 34.27% richard_sanders
    9255526 2799925 69.75% john_lavorato
    718519 276648 61.5% darron_c_giron
    204239 122111 40.21% richard_shapiro
    10186997 2536706 75.1% matthew_lenhart
    9414 9414 0%
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта