Главная страница
Навигация по странице:

  • Актуальность темы исследования

  • Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности


    Скачать 4.32 Mb.
    НазваниеМетоды и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности
    Дата24.01.2022
    Размер4.32 Mb.
    Формат файлаpdf
    Имя файлаTsarev_dissertation.pdf
    ТипДиссертация
    #340124
    страница1 из 10
      1   2   3   4   5   6   7   8   9   10

    Московский государственный университет имени М.В.Ломоносова
    На правах рукописи
    Царёв Дмитрий Владимирович
    МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА АНАЛИЗА
    ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ПРИ РАБОТЕ С ТЕКСТОВЫМИ
    ДАННЫМИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ИНФОРМАЦИОННОЙ
    БЕЗОПАСНОСТИ
    Специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
    ДИССЕРТАЦИЯ на соискание ученой степени кандидата физико-математических наук
    Научные руководители: доктор физико-математических наук, профессор Машечкин Игорь Валерьевич кандидат физико-математических наук, доцент Петровский Михаил Игоревич
    Москва 2017

    2
    ОГЛАВЛЕНИЕ
    ВВЕДЕНИЕ ............................................................................................................................................. 4 1
    АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННЫХ ИНДУСТРИАЛЬНЫХ РЕШЕНИЙ
    УПРАВЛЕНИЯ КОНТЕНТНОЙ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИИ ......................................... 18 1.1
    Системы управления корпоративным контентом (ECM) ....................................................... 18 1.1.1
    Классификация документов ............................................................................................ 21 1.1.2
    Анализ отдельных документов ....................................................................................... 23 1.1.3
    Поиск и анализ документов............................................................................................. 24 1.1.4
    Методы анализа контентных данных eDiscovery .......................................................... 26 1.2
    Системы предотвращения утечек данных (DLP)..................................................................... 28 1.3
    Выводы ........................................................................................................................................ 32 2
    МОДЕЛИРОВАНИЕ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЯ ........................................................ 34 2.1
    Модель представления «мешок слов» ...................................................................................... 36 2.1.1
    Предварительная обработка текста ................................................................................ 36 2.1.2
    Вычисление весовых коэффициентов термов ............................................................... 37 2.2
    Тематическое представление документов ................................................................................ 38 2.2.1
    Сингулярное разложение матрицы (SVD) ..................................................................... 40 2.2.2
    Неотрицательная матричная факторизация (NMF) ...................................................... 41 2.2.3
    Ортонормированная неотрицательная матричная факторизация (ONMF) ................ 42 2.3
    Построение и применение тематической модели поведения пользователя ......................... 43 2.4
    Удаление информационного шума из документа .................................................................... 45 2.4.1
    Методы на основе сингулярного разложения ............................................................... 47 2.4.2
    Методы на основе неотрицательной матричной факторизации .................................. 47 2.4.3
    Экспериментальное исследование .................................................................................. 49 2.5
    Выводы ........................................................................................................................................ 53 3
    МЕТОДЫ ОБНАРУЖЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЯ ........... 54 3.1
    Базовый сценарий проведения экспериментальных исследований ....................................... 56 3.2
    Прогнозирование тематической направленности пользователя ............................................ 58 3.2.1
    Методы прогнозирования временных рядов ................................................................. 61 3.2.2
    Экспериментальные исследования ................................................................................. 66 3.3
    Оценка принадлежности документа к характерным тематикам пользователя .................... 72 3.3.1
    Формирование экспериментальных данных ................................................................. 75

    3 3.3.2
    Экспериментальное исследование метода обнаружения аномального поведения пользователя ..................................................................................................................................... 77 3.3.3
    Экспериментальное исследование применения метода удаления информационного шума ................................................................................................................. 79 3.4
    Выводы ........................................................................................................................................ 82 4
    ПРОГРАММНАЯ
    РЕАЛИЗАЦИЯ
    ЭКСПЕРИМЕНТАЛЬНОГО
    ОБРАЗЦА
    ПРОГРАММНОГО КОМПЛЕКСА .................................................................................................... 83 4.1
    Сценарии функционирования .................................................................................................... 83 4.1.1
    Сбор поведенческой информации .................................................................................. 83 4.1.2
    Построение индивидуальных поведенческих моделей ................................................ 85 4.1.3
    Применение индивидуальных поведенческих моделей ............................................... 85 4.2
    Программная реализация ........................................................................................................... 86 4.2.1
    Архитектура системы ...................................................................................................... 87 4.2.2
    DCOM-объект анализа поведенческой информации .................................................... 89 4.2.3
    Агент мониторинга поведенческой информации ......................................................... 94 4.2.4
    Модуль консолидации поведенческой информации .................................................. 107 4.2.5
    Автоматизированное рабочее место............................................................................. 107 4.3
    Оценка производительности .................................................................................................... 119 4.3.1
    Оценка производительности агента мониторинга ...................................................... 120 4.3.2
    Оценка производительности методов обнаружения аномального поведения пользователя ................................................................................................................................... 123 4.4
    Апробация экспериментальной системы ............................................................................... 126 4.5
    Выводы ...................................................................................................................................... 127 5
    Заключение ................................................................................................................................ 129 6
    Список литературы ................................................................................................................... 131

    4
    ВВЕДЕНИЕ
    Актуальность темы исследования
    За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах. Многими экспертами в области информационной безопасности (ИБ) отмечается тенденция возросшего количества внутренних вторжений по сравнению с внешними. Обеспокоенность относительно данной проблемы подкрепляется тем, что компании обычно направляют основные усилия на защиту от внешних угроз, в то время как аналитики отмечают, что более половины случаев вторжений и нарушений компьютерной безопасности происходят по вине собственных сотрудников или иных лиц, имеющих легитимный доступ к информационной системе [1-4]. Хищение и продажа конфиденциальной информации, распространение информации ограниченного доступа — вот лишь небольшой перечень ИБ-инцидентов, напрямую связанных с внутренними угрозами [2].
    Таким образом, внутренние угрозы информационной безопасности вызваны вредоносными действиями пользователей (инсайдеров), которые имеют легитимный доступ к корпоративной сети. Данный тип атак, как правило, отличают от атак, которые являются следствием компрометации учётных записей сотрудников компании, где злоумышленник (хакер) получает доступ к корпоративным IT-ресурсам, используя украденные учётные данные [5].
    В случае внутренней атаки инсайдер обычно действует злонамеренно и скорее всего знает, что нарушает политики безопасности своей компании [5]. Однако при классификации внутренних угроз также выделяют группу угроз, совершаемых без злого умысла (случайные), по неосторожности или технической некомпетентности [4, 6]. В [7] приводятся ключевые характеристики и отмечаются наиболее распространённые причины неумышленных нарушений, например, желание упростить работу, или оказание помощи сослуживцу, не обладающему соответствующими полномочиями.
    Источниками внутренних угроз могут являться различные категории пользователей, имеющих или имевших доступ к корпоративной сети: действующие и бывшие сотрудники, бизнес-партнёры, подрядчики, внешние поставщики услуг (аутсорсеры) и т.п. Часто возникают случаи, когда у пользователей из перечисленных категорий могут быть несоответствующие права доступа. Во многих организациях права доступа сотрудников не отменяются при изменении роли (направления работы) сотрудника. Общая тенденция заключается в том, что с течением времени сотрудники накапливают права, но не теряют их [5]. В результате сотрудники с большим стажем работы в организации имеют доступ к корпоративным IT-ресурсам, которые не требуются для выполнения своих текущих должностных обязанностей. Также нередки случаи, когда при увольнении сотрудника у него всё ещё остаётся доступ к каким-либо корпоративным

    5 программам или удалённым серверам. Таким образом, группу потенциально вредоносных пользователей корпоративной сети трудно идентифицировать, и она может быть намного шире, чем может показаться на первый взгляд.
    Кроме того, количество данных, которые могут являться целью внутренних атак, постоянно растёт, причём с большой скоростью [5]. В качестве примера таких уязвимых данных обычно приводят финансовые отчёты, данные о клиентах или сотрудниках, техническую документацию продуктов и т.п. Подобные данные могут единовременно находиться в различных местах корпоративной сети, поскольку они требуются для обработки различными подразделениями/сотрудниками, сохраняются на корпоративных почтовых серверах, делаются резервные копии и т.п.
    Утечка данных является одной из самых опасных внутренних угроз для современных компаний. Количество и сложность внутренних атак продолжает расти. В 2015 году было зарегистрировано на 64% больше атак, чем в 2014 году [8, 9]. Согласно исследованиям организации Ponemon Institute, проводимым при поддержке IBM, в 2016 году средний ущерб компании от утечки данных составил 4 млн долларов США за один инцидент, а средняя стоимость потерянного или украденного документа оценивается в 158 долларов США.
    Приведённые данные были получены на основе анализа 383 компаний в 12 странах [9, 10].
    Приведём несколько примеров внутренних инцидентов нарушения безопасности из реальной жизни, которые связанны с утечками данных [5]:
     Менеджер по продажам копирует данные о текущих клиентах компании перед уходом на работу в конкурирующую фирму.
     Инженер компании решает открыть свой стартап и копирует техническую документацию текущего рабочего проекта.
     Научный сотрудник копирует данные проекта для продажи (в 2012 научный сотрудник из
    Dow Chemical был приговорён к пяти годам тюрьмы за продажу коммерческой тайны компаниям из Китая).
     Сотрудник спецслужбы копирует внутренние данные и коды программ, чтобы передать соответствующие сведения прессе.
    Перечисленные примеры описывают лишь заключительный этап утечки данных —
    эксфильтрацию данных (англ. data exfiltration), т.е. несанкционированное копирование или перемещение данных с компьютера или устройства организации [11, 12]. Как показывают современные исследования утечек, от момента, когда пользователь решает украсть данные, до непосредственно пересылки данных, проходит от нескольких недель до нескольких месяцев, которые уходят на стадию подготовки утечки. Поэтому в настоящее время всё больше экспертов

    6 сходится во мнении, что утечки данных необходимо определять ещё до стадии пересылки данных за информационный периметр компании [11, 12].
    Опишем более детально типичные этапы утечки данных, в том числе предшествующие эксфильтрации данных (см. Рисунок 1). Легитимный сотрудник становится инсайдером начиная с некоторого переломного момента, например, после коммуникации с помощью социальных сетей/электронной почты с одним из конкурентов его компании (этап «Начало внутреннего вторжения»). После чего данный сотрудник-инсайдер вступает в исследовательскую фазу
    (этап «Фаза исследования»), в которой он пытается найти интересующую его информацию и получить к ней доступ, при этом пользуясь своими текущими правами или пытаясь легитимными способами расширить их. На данном этапе часто отмечаются случаи, когда инсайдер под разными предлогами просит у своих коллег воспользоваться их правами для доступа к определённой категории информации, в качестве примера подобного поведения обычно приводят действия Эдварда Сноудена [7]. Здесь также будет уместно отметить важность задачи аутентификации пользователей, т.е. определения того, что пользователь является тем, от имени кого он авторизовался. «Фаза исследования» у инсайдера может продолжаться неделями и месяцами, но с течением времени он, как правило, находит способ для получения доступа к интересующим данным.
    Цепочка этапов утечки данных.
    После получения доступа к желаемой информации наступает этап «Сокрытия данных».
    На данном этапе основная цель инсайдера — это протестировать существующие системы информационной безопасности компании и найти оптимальный способ для безопасной эксфильтрации полученной информации. До этой стадии попыток пересылки данных за

    7 информационный периметр организации не предпринималось, поэтому традиционные средства защиты от утечек данных, такие как DLP-системы (англ. Data Loss Prevention — предотвращение утечек данных), не срабатывали. Для достижения цели этапа «Сокрытия данных» инсайдеру подойдут любые действия, которые в случае их раскрытия можно будет оправдать неосторожностью (халатностью) или незнанием (технической некомпетентностью), т.е. свести к неумышленному нарушению. Зачастую инсайдеры пользуются достаточно простыми приёмами, например, создают «фиктивные» данные, которые схожи по структуре содержания с данными, запланированными для эксфильтрации, но в тоже время которые не являются конфиденциальными. После чего, используя сформированные «фиктивные» данные, пытаются их шифровать, создавать архивы с паролем и в конечном счёте передавать их за пределы корпоративной сети, например, скопировав на внешний жесткий диск, или загрузив их через
    Dropbox, или отправив через Gmail, или воспользовавшись любым другим облачным приложением для передачи файлов. Инсайдер будет повторять подобные попытки пересылки данных с определённой периодичностью пока не определит способ передачи, при котором не срабатывают системы ИБ. Затем, имея доступ к интересующей конфиденциальной информации и выбрав способ её кражи, инсайдер переходит к заключительному этапу утечки —
    «Эксфильтрация данных».
    Из приведённого выше описания сценария утечки данных следует, что в большинстве случаев непосредственно хищению информации предшествует аномальное (хотя возможно и разрешённое) поведение пользователя, т.е. пользователь еще до кражи информации начинает совершать действия, не характерные для его предыдущей активности как по набору выполняемых операций, так и по содержанию обрабатываемой информации. Также сама стадия подготовки к утечке данных, в течение которой наблюдается аномальное поведение пользователя, как правило, занимает достаточно длительное время, вплоть до нескольких месяцев. В связи с этим за последние несколько лет активное развитие получило направление анализа поведения пользователей для обнаружения аномалий [5, 12, 13].
    Обычно целью внутренних вторжений является получение доступа к текстовой информации (финансовые отчёты, договора, техническая документация, электронная почта и т.п.) [5, 13], приведённые выше примеры внутренних вторжений это лишь подтверждают.
    Поэтому ключевым является выявление аномального поведения пользователей при работе с текстовыми данными. Аномальное поведение может свидетельствовать о том, что пользователь не является тем, от имени кого он авторизовался (задача аутентификации пользователей), или пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).

    8
    В настоящее время сформировался самостоятельный класс систем информационной безопасности, в основе которых лежат методы машинного обучения для выявления признаков несвойственного поведения пользователей. Компания Gartner
    1
    данный класс систем обозначает как UEBA (англ. User and Entity Behavior Analytics — анализ поведения пользователей и систем) [12]. UEBA-системы, в отличие от DLP, осуществляют мониторинг широкого спектра действий пользователя и принимают решения не на основе экспертно сформированных политик безопасности, а на основе исторических данных о легитимной работе пользователя. Данные системы обнаруживают ранние признаки утечки, поэтому их основная цель состоит не в блокировке действий пользователей, а в предоставлении аналитических данных службе ИБ с описанием того, почему выявленные действия являются аномальными для конкретного пользователя. Согласно определению, приведённом в отчёте Gartner [12], UEBA-системы на основе методов машинного обучения выполняют построение и применение моделей поведения
    (профилей) пользователей для выявления признаков аномального поведения.
    Поэтому
      1   2   3   4   5   6   7   8   9   10


    написать администратору сайта