Главная страница
Навигация по странице:

  • Глобальные веса

  • Нормализация

  • Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности


    Скачать 4.32 Mb.
    НазваниеМетоды и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
    Дата24.01.2022
    Размер4.32 Mb.
    Формат файлаpdf
    Имя файлаTsarev_dissertation.pdf
    ТипДиссертация
    #340124
    страница4 из 10
    1   2   3   4   5   6   7   8   9   10
    Локальные веса:
    Частотный вес (TF) — число появлений терма i в документе j: L
    i,j
    = t
    i,j
    ;
    Бинарный вес (BI):







    0
    t
    ,
    0 0
    t
    ,
    1
    )
    (
    j i,
    j i,
    ,
    ,
    если
    если
    t
    L
    j
    i
    j
    i

    ;
    Логарифмический вес (LOG): L
    i,j
    = 1 + log(t
    i,j
    ).
    Глобальные веса:
    Глобальный вес не учитывается (NW): G
    i
    = 1;
    Обратная частота документа (IDF, англ. Inverse Document Frequency):
    1
    )
    log(


    i
    i
    n
    N
    G
    , где
    N — число всех документов в коллекции, n
    i
    — число документов, содержащих терм i;
    Энтропия (EN):




    N
    j
    j
    i
    j
    i
    i
    N
    p
    p
    G
    1
    ,
    ,
    )
    log log
    (
    1
    , где
    i
    j
    i
    j
    i
    F
    t
    p
    ,
    ,

    ,



    N
    k
    k
    i
    i
    t
    F
    1
    ,
    Нормализация:
    Нормализация не используется (NN): N
    j
    = 1;
    Нормализация косинуса (COS):





    m
    i
    i
    j
    i
    j
    G
    L
    N
    0 2
    ,
    1
    В зависимости от решаемой задачи могут применяться различные сочетания локального, глобального весов и нормализации, которые принято называть весовыми схемами.
    2.2
    Тематическое представление документов
    В литературе [73, 77-81] среди тематических моделей, как правило, выделяют три основных подхода: латентно-семантический анализ (англ. Latent Semantic Analysis, LSA), вероятностный латентно-семантический анализ (англ. Probabilistic Latent Semantic Analysis,
    PLSA), скрытое распределение Дирихле (англ. Latent Dirichlet allocation, LDA).
    Тематическое моделирование коллекции текстовых документов сводится к задаче кластеризации, путём присвоения кластера документу в соответствии с его наиболее характерной тематикой. Поэтому для выбора тематической модели рассматривалась задача кластеризации

    39 текстовых документов. В работах [78, 81] проводятся подобные эксперименты на пяти различных эталонных наборах текстовых данных. Для выбора тематической модели рассматриваются такие критерии, как:
     устойчивость результата кластеризации относительно множества запусков алгоритма;
     относительное число документов, которые меняют свою принадлежность к кластеру/тематике за итерацию алгоритма;
     время работы алгоритмов.
    В результате применение неотрицательной матричной факторизации в подходе латентно- семантического анализа показало наилучшие результаты по сравнению с другими тематическими моделями, в том числе вероятностными. Также применение неотрицательной матричной факторизации для вычисления релевантности фрагментов текста в задачах удаления информационного шума и автоматического аннотирования показало высокий результат, который далее будет показан в подразделе 2.4.
    Таким образом, в настоящей работе для тематического моделирования был выбран один из наиболее перспективных на сегодняшний день подходов, основанный на применении неотрицательной матричной факторизации в латентно-семантическом анализе.
    Латентно-семантический анализ — это полностью автоматический алгебраически- статистический метод обработки текстовой информации на естественном языке, который применяется для получения и представления контекстного использования значений слов в коллекции текстовых документов. Основная идея этого метода состоит в том, что совокупность всех текстовых документов коллекции приводит к взаимным ограничениям использований слов, которые и определяют сходство семантических значений слов и документов [73, 77, 82].
    Латентно-семантический анализ широко используется в различных областях анализа текстовых данных, в том числе в информационном поиске
    2
    [73], классификации документов [73, 78, 81, 83], автоматическом аннотировании [84-88].
    Метод латентно-семантического анализа работает с матричным представлением коллекции текстовых документов A, получаемым с помощью модели «мешок слов».
    Формирование пространства тематик и тематического представления документов выполняется путём применения к матрице A одного из матричных разложений. Первым и сохранившим до сих пор широкое распространение является сингулярное разложение (англ. Singular Value
    Decomposition, SVD) [73, 77]. Однако, как уже было отмечено, в последнее время набирает всё большую популярность применение неотрицательной матричной факторизации (англ. Non-
    2
    В информационном поиске данный метод называют латентно-семантическим индексированием
    (англ. Latent Semantic Indexing, LSI).

    40
    negative Matrix Factorization, NMF) [78, 80-83, 86-88]. Далее будет рассмотрено применение указанных матричных разложений в латентно-семантическом анализе для демонстрации особенностей каждого из них.
    Формально тематическая модель коллекции текстовых документов C = (d
    1
    , …, d
    n
    ), сформированная на основе подхода латентно-семантического анализа, представляет совокупность (L
    m
    , W
    k
    , H
    k
    ), где:
    L
    m
    — словарь, содержащий m термов коллекции;
    W
    k


    mk
    — матрица отображения между пространством k тематик и пространством m термов;
    H
    k
    = [H
    1
    , …, H
    n
    ] 

    kn
    — матрица представления документов в пространстве тематик.
    Под совокупностью (L
    m
    , W
    k
    ) далее будем понимать тематическое пространство.
    2.2.1
    Сингулярное разложение матрицы (SVD)
    Сингулярное разложение матрицы A  ℝ
    mn
    , без ограничения общности будем считать
    mn, определяется как [73, 84]:
    A = U·
    ·V
    T
    , где:
    U  ℝ
    mn
    — матрица, столбцы которой представляют ортонормированную систему и называются левыми сингулярными векторами (u
    i
    );

    = diag(
    1
    , …,

    n
    ) 

    nn
    — диагональная матрица, причем


    ≥ … ≥

    r
    > 0 =

    r+1
    = … =

    n
    ,
    r = rank(A) ≤ min(m, n) — ранг матрицы A,

    i
    — сингулярные числа матрицы A;
    V  ℝ
    nn
    — ортонормированная матрица, столбцы которой называются правыми сингулярными векторами (v
    i
    ).
    Сингулярное разложение дает наилучшую аппроксимацию исходной матрицы A матрицей







    k
    i
    T
    i
    i
    i
    T
    k
    k
    k
    k
    v
    u
    V
    U
    A
    1

    ранга k << min(m, n) в норме Фробениуса (



    j
    i
    ij
    F
    a
    A
    A
    ,
    2 2
    )
    [73].
    Пусть сформирована матрица коллекции текстовых документов A  ℝ
    mn
    , где m — число различных термов, n — число документов. Каждый j-ый столбец матрицы A, соответствующий векторному представлению j-ого документа, отображается в j-ый столбец матрицы
    T
    k
    V
    , который представляет j-ый документ в пространстве k тематик. Матрица U
    k
    задает отображение между пространством k тематик и пространством m термов. Сингулярные числа

    l
    , где 1 ≤ l ≤ k, обозначают вес каждой из выделенных тематик коллекции (см. Рисунок 8) [84].

    41
    Аппроксимация матрицы A при сингулярном разложении.
    2.2.2
    Неотрицательная матричная факторизация (NMF)
    В общем случае под неотрицательной матричной факторизацией понимают группу алгоритмов, которые для матрицы A  ℝ
    mn с неотрицательными элементами и положительного целого числа k << min(m, n) находят матрицы W
    k


    mk и H
    k


    kn с неотрицательными элементами, минимизирующие целевую функцию [80]:
    2 2
    1
    )
    ,
    (
    F
    k
    k
    k
    k
    H
    W
    A
    H
    W
    f


    Получаем аппроксимацию матрицы A: AA
    k
    = W
    k
    H
    k
    Пусть сформирована матрица коллекции текстовых документов A  ℝ
    mn
    , где m — число различных термов, n — число документов. Элементы матрицы A принимают неотрицательные значения, т.к. являются весами соответствующих термов в текстовых документах
    (см. пункт 2.1.2). Матрица W
    k
    задает отображение между пространством k тематик и пространством m термов, матрица H
    k
    соответствует представлению документов в пространстве тематик (см. Рисунок 9). В связи с тем, что элементы матрицы W
    k
    неотрицательны, можно установить, какие термы текста наибольшим образом характеризуют каждую из выделенных тематик, которым соответствуют столбцы матрицы W
    k
    . Аналогично по матрице H
    k
    можно установить, какие из выделенных тематик наилучшим образом характеризуют каждый документ.
    Данное свойство широко используется в задаче кластеризации текстовых данных [83]. Таким образом, неотрицательная матричная факторизация, в отличие от сингулярного разложения, предоставляет хорошо интерпретируемое семантическое пространство за счёт неотрицательности элементов матриц W
    k
    и H
    k

    42
    Аппроксимация матрицы
    A при неотрицательной матричной факторизации.
    Основные отличия неотрицательной матричной факторизации от сингулярного разложения следующие:
     Элементы матриц W
    k
    и H
    k
    не могут принимать отрицательные значения;
     Нет требования ортогональности пространства тематик, т.е. столбцы матрицы W
    k
    не обязаны образовывать ортогональную систему векторов;
     Отсутствует матрица, элементы которой оценивали бы веса выделенных тематик.
    Мультипликативный алгоритм является стандартным для реализации неотрицательной матричной факторизации [80]:
    1. Элементы матриц W
    1


    mk и H
    1


    kn инициализируются случайными неотрицательными числами.
    2. В цикле p раз выполняются итерационные формулы для вычисления матриц W и H: a.
    n
    j
    k
    b
    j
    b
    H
    W
    W
    A
    W
    H
    H
    j
    b
    p
    p
    T
    p
    j
    b
    T
    p
    p
    j
    b
    p
    j
    b







    1
    ,
    1
    :
    ,
    ,
    )
    )
    ((
    )
    )
    ((
    ,
    ,
    ,
    1
    ,
    , b.
    k
    a
    m
    i
    a
    i
    H
    H
    W
    H
    A
    W
    W
    a
    i
    T
    p
    p
    p
    a
    i
    T
    p
    p
    a
    i
    p
    a
    i










    1
    ,
    1
    :
    ,
    ,
    )
    )
    (
    (
    )
    )
    (
    (
    ,
    1 1
    ,
    1
    ,
    1
    ,
    2.2.3
    Ортонормированная неотрицательная матричная факторизация (ONMF)
    В зависимости от решаемой задачи может потребоваться представить новый документ, не входящий в первоначальную коллекцию, в уже сформированном тематическом пространстве, задаваемом матрицей W
    k
    . Для реализации данного функционала в формулировке задачи неотрицательной матричной факторизации необходимо наложить дополнительное условие ортонормированности матрицы W
    k
    :
    I
    W
    W
    k
    T
    k


    . Тогда матрица W
    k
    T
    будет задавать отображение между пространством m термов и пространством k тематик.
    Для задания условия ортонормированности матрицы W
    k
    в формулировке задачи неотрицательной матричной факторизации рассматривается целевая функция [80]:
    2 2
    2 2
    1
    )
    ,
    (
    F
    k
    T
    k
    F
    k
    k
    k
    k
    I
    W
    W
    H
    W
    A
    H
    W
    f






    43
    Подобная интерпретация ортонормированности была выбрана из-за возможности параметризировать ортонормированность матрицы W
    k
    путём задания значения параметра α [80,
    89, 90]. Тогда мультипликативный алгоритм модифицируется следующим образом:
    1. Элементы матриц W
    1


    mk и H
    1


    kn инициализируются случайными неотрицательными числами;
    2. В цикле p раз выполняются итерационные формулы для вычисления матриц W и H: a.
    n
    j
    k
    b
    j
    b
    H
    W
    W
    A
    W
    H
    H
    j
    b
    p
    p
    T
    p
    j
    b
    T
    p
    p
    j
    b
    p
    j
    b







    1
    ,
    1
    :
    ,
    ,
    )
    )
    ((
    )
    )
    ((
    ,
    ,
    ,
    1
    ,
    , b.
    k
    a
    m
    i
    a
    i
    W
    W
    W
    H
    H
    W
    W
    H
    A
    W
    W
    a
    i
    p
    T
    p
    p
    T
    p
    p
    p
    a
    i
    p
    T
    p
    p
    a
    i
    p
    a
    i












    1
    ,
    1
    :
    ,
    ,
    )
    )
    (
    )
    (
    (
    )
    )
    (
    (
    ,
    1 1
    ,
    1
    ,
    1
    ,


    2.3
    Построение и применение тематической модели поведения
    пользователя
    В диссертационной работе проводится исследование и разработка методов обнаружения аномального поведения пользователей на основе машинного обучения. Для задания поведенческой информации пользователя, по которой будет формироваться модель поведения, определяется интервал времени, который далее будем называть тренировочным периодом.
    Характерные тематики анализируемого пользователя выделяются с помощью тематического моделирования коллекции документов, к которым обращался данный пользователь за тренировочный период. Тематическое моделирование реализуется методом латентно-семантического анализа на основе ортонормированной неотрицательной матричной факторизации. Свойство ортонормированности здесь является важным, т.к. формируемая тематическая модель далее потребуется для тематического представления новых документов, не вошедших в тренировочный период.
    Таким образом, коллекция документов пользователя C = (d
    1
    , …, d
    n
    ) за тренировочный период сначала представляется в виде матрицы A, используя модель «мешок слов». Традиционно при тематическом моделировании коллекции документов для вычисления весов термов используется весовая схема LOG·IDF·COS (см. пункт 2.1.2). Затем к матрице A применяется ортонормированная неотрицательная матричная факторизация для формирования тематической модели (L
    m
    , W
    k
    , H
    k
    ), см. Рисунок 10:
     Матрица W
    k
    =[w
    ij
    ] задаёт отображение пространства k тематик в пространство m термов, а матрица W
    k
    T
    — отображение между пространством m термов и пространством k тематик.
    Столбцы матрицы W
    k
    соответствуют выделенным k тематикам, при этом полученные

    44 тематики будут характерны только для документов пользователя за тренировочный период, т.е. будут характеризовать анализируемого пользователя.
     Матрица H
    k
    =[h
    ij
    ] соответствует представлению текстов документов в пространстве тематик, т.е. элемент h
    ij
    соответствует весу i-ой тематики в j-ом документе.
    Построение тематической модели поведения пользователя.
    Веса тематик в документе характеризуют тематическую направленность пользователя во время работы с данным документом. Упорядочив документы по времени операции пользователя с ними, можно визуально отобразить изменение тематической направленности (поведения) пользователя со временем в виде многомерного временного ряда весов сформированных тематик в документах (см. Рисунок 10).
    Для применения полученной тематической модели пользователя к текущей его активности необходимо отображать новые документы dC в уже построенное пространство тематик (L
    m
    , W
    k
    ). В силу ортонормированности матрицы W
    k
    , для отображения нового документа в сформированное пространство тематик пользователя выполняются следующие шаги
    (см. Рисунок 11):
    1. Представление нового документа dC в виде вектора b, используя модель «мешок слов» со словарём m термов тренировочного периода. При этом все термы, не попавшие в словарь тренировочного периода L
    m
    , считаются одним специальным термом «others» («другие»), который далее рассматривается как отдельный признак документа.
    2. Представление вектора нового документа b в пространстве тематик (L
    m
    , W
    k
    ). Для этого достаточно вектор b умножить слева на матрицу W
    k
    T
    , результирующий вектор h
    new
    будет соответствовать векторному представлению нового документа в пространстве тематик пользователя за тренировочный период.

    45
    Отображение нового документа в сформированное тематическое пространство.
    Формально предлагаемая тематическая модель поведения пользователя, сформированная по потоку текстовых документов x = {(d
    1
    , t
    1
    ), …, (d
    n
    , t
    n
    )}, представляет совокупность
    (L
    m
    , W
    k
    , H
    k
    , T
    n
    ), где:
     (L
    m
    , W
    k
    , H
    k
    ) — тематическая модель коллекции документов C = (d
    1
    , …, d
    n
    ), основанная на ортонормированной неотрицательной матричной факторизации;
    T
    n
    = (t
    1
    , …, t
    n
    ) — временные метки каждого документа.
    Отметим, что матрица W
    k
    , построенная по документам из тренировочного периода, описывает основные тематики пользовательского контента и служит для отображения любых текстовых данных в пространство тематик данного пользователя, т.е. матрица W
    k
    «характеризует» пользователя с точки зрения его тематических предпочтений в контенте.
    Поэтому для обозначения матрицы W
    k
    также будет использоваться термин «тематический портрет» пользователя. Также возможно сформировать подобную матрицу W
    k
    вообще не на основе содержимого потока обрабатываемых текстовых данных пользователя, а на основе заранее сформированного набора документов организации, чьи тематики представляют наибольший интерес для анализа работы пользователей. Получив таким образом «тематический портрет» набора документов, можно на его основе анализировать факты обращения пользователей к документам, характерным для рассматриваемого тренировочного набора.
    2.4
    Удаление информационного шума из документа
    Задача удаления информационного шума из документа заключается в оценке значимости
    (релевантности) отдельных фрагментов текста и последующего удаления из результирующего документа наименее значимых фрагментов, при этом оставляемые фрагменты должны описывать все главные темы исходного текста. В качестве фрагментов обычно выбирают предложения текста или его параграфы (при обработке текста большого объёма). Релевантность фрагмента текста показывает его информационную значимость в рассматриваемом документе, поэтому

    46 релевантность можно рассматривать в качестве оценки количества информации, содержащейся в данном фрагменте. Исходя из этого, можно определить минимальное число фрагментов текста, требующееся для покрытия заданного процента содержащейся в тексте информации. Для построения результирующего документа, не содержащего информационного шума, выбираются его фрагменты с максимальными релевантностями, сумма которых не превышает заданный процент информации, который, как правило, варьируется от 20% до 30% [91].
    Рассматриваемая задача тесно связана с задачей автоматического аннотирования, для решения которой также необходимо сформировать аннотацию, состоящую из наиболее значимых предложений текста. На сегодняшний день наиболее популярные методы автоматического аннотирования, которые выполняют ранжирование фрагментов текста, основаны на использовании латентно-семантического анализа [84-88]. В данных методах исходный текст представляется с помощью модели «мешок слов» в виде числовой матрицы
    A

    mn
    , где m — число различных термов, а n — число фрагментов текста. Как правило для вычисления весов термов используется весовая схема BI·EN·NN (см. пункт 2.1.2). Далее к полученной матрице применяется латентно-семантический анализ для определения основных тематик текста в виде семантических связей между его термами и оценки веса каждой тематики в каждом фрагменте. На основе полученного тематического представления текста осуществляется выбор наиболее значимых фрагментов.
    Формально требуется построить функцию ранжирования R: ℝ
    mn


    n
    , которая по заданному матричному представлению фрагментов текста A  ℝ
    mn вычисляет степень релевантности каждого фрагмента. Релевантность фрагмента представляет агрегированную оценку соответствия данного фрагмента ключевым тематикам текста и прямо зависит от модулей весов тематик текста во фрагменте. Чем больше модули весов тематик во фрагменте, тем больше его релевантность. Более формальное определение релевантности зависит от конкретного тематического представления документа.
    Далее приводится описание методов автоматического аннотирования, которые ранжируют фрагменты текста на основе их тематического представления, получаемого с помощью латентно-семантического анализа. Кроме того, ниже в пункте 2.4.2 представлен собственный разработанный метод вычисления релевантности фрагментов текста, использующий неотрицательную матричную факторизацию в качестве разложения для латентно- семантического анализа. В заключение данного подраздела приводятся обобщающие выводы по рассмотренным методам и их экспериментальной проверке на эталонном тестовом наборе данных DUC 2001.

    47 2.4.1
    Методы на основе сингулярного разложения
    При сингулярном разложении аппроксимацию исходной матрицы текста A  ℝ
    mn в пространстве, состоящем из k тематик, можно записать в виде:
    T
    k
    k
    k
    k
    V
    U
    A
    A





    , где k << min(m, n).
    Для выделения ключевых фрагментов на основе такого представления используется один из следующих методов:
     Тематики рассматриваются в порядке от 1 до k. Для каждой тематики l, где 1 l k рассматривается строка
    ]
    ,...,
    ,
    [
    ,
    ,
    2
    ,
    1
    l
    n
    l
    l
    T
    l
    v
    v
    v
    v
    матрицы
    T
    k
    V
    , элементы которой показывают вес тематики l в каждом из n фрагментов. Находится максимальное по модулю v
    i,l
    . Это означает, что i-ый фрагмент лучше всего соответствует тематике l. Если i-ый фрагмент уже входит в аннотацию, то выбирается следующий максимальный по модулю элемент вектора
    T
    l
    v
    и т.д.
    Таким образом ранжируются по важности все фрагменты исходного текста [84, 91].
     Основной недостаток первого метода заключается в том, что в аннотацию могут попасть предложения, которые соответствуют тематикам с небольшим весом. Веса тематик оцениваются соответствующими сингулярными числами. Поэтому для устранения этого недостатка число предложений, соответствующих тематике l, выбирается исходя из процентного соотношения веса данной тематики к сумме весов всех рассматриваемых тематик [84, 91].
     Наиболее новым является метод [85, 91], в котором каждому предложению документа сопоставляется некоторая числовая оценка — релевантность предложения. Далее выбирается необходимое количество предложений в порядке убывания их релевантности. Релевантность
    j-ого предложения (1 j n), рассчитывается как длина j-го вектор-столбца матрицы 
    k
    2
    V
    k
    T
    В основе данного метода лежит предположение о том, что значимость каждой тематики в документе аппроксимируется квадратом соответствующего сингулярного числа. При проведении экспериментальных исследований данный метод будем обозначать «SVD-
    Square».
    2.4.2
    Методы на основе неотрицательной матричной факторизации
    Элементы исходной матрицы текста A  ℝ
    mn принимают неотрицательные значения, т.к. являются весами соответствующих термов во фрагментах, поэтому для аппроксимации матрицы A можно применить неотрицательную матричную факторизацию (k << min(m, n)):
    AA
    k
    = W
    k
    · H
    k

    48
    Наиболее популярный метод вычисления релевантности предложений текста на основе неотрицательной матричной факторизации описан в [86], также его модификации используются и в задаче построения аннотаций на основе запроса [87], и в задаче многодокументного аннотирования [88].
    Основная идея этого метода заключается в подсчете общей релевантности (англ. Generic
    Relevance, GR) для предложений текста. Общая релевантность j-го предложения вычисляется по формуле
    )
    )
    (
    (
    1
    *




    k
    i
    i
    ij
    j
    H
    weight
    h
    GR
    , где
    





    k
    p
    n
    q
    pq
    n
    q
    iq
    i
    h
    h
    H
    weight
    1 1
    1
    *
    )
    (

    относительная
    релевантность i-ой тематики среди всех выделенных тематик. Далее выбирается необходимое число предложений с наибольшими значениями общей релевантности. При проведении экспериментальных исследований данный метод будем обозначать «NMF-Generic».
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта