Главная страница

Практическое_задание_2. Визуализация многомерных данных. Введение в Matplotlib


Скачать 1.05 Mb.
НазваниеВизуализация многомерных данных. Введение в Matplotlib
Дата08.03.2023
Размер1.05 Mb.
Формат файлаdocx
Имя файлаПрактическое_задание_2.docx
ТипДокументы
#974604
страница8 из 9
1   2   3   4   5   6   7   8   9

Пример выполнения практической работы


В качестве анализируемого набора данных рассмотрим набор данных, сгене- рированный с помощью программно-аппаратного макета, описанного в [Water, Meleshko et al., 2020]. Макет содержит два резервуара, датчики уровня воды и давления воды, управляемый кран, насос, датчик потока воды и элементы управления.



Рисунок12.-Схемамакетасистемыуправленияводоснабжения[Meleshkoetal.,2020]

В данной работе исследуется набор данных содержащий только один тип атак - атаку на датчики уровня воды. Она заключается в изменении показа- ний датчиков уровня воды, во время атаки их показания не совпадают с по- казаниями датчиков наполненности резервуара. Атака актуальна для двух ре- зервуаров, и в наборе данных эта атака отмечена меткой classAttack, равной 1.

При анализе набора данных, следует ответить на следующие вопросы:

  1. Есть ли выбросы в данных. Если да, укажите в каких атрибутах, связаны ли они с выполнением атаки.

  2. Есть ли переходный период, в течение которой система выходит на режим. Можно ли по нему судить о наличии атаки.

  3. Определите, какие атрибуты наиболее показательны при анализе атаки. Детально процесс анализа приведен в блокноте Python - Практическая_ра- бота_2_(AttackAnalysis), исследуемый набор данных - 0_1_Attack_DataSet.csv. В этом разделе приведены только результаты анализа, струтурированные по не- обходимой форме.

Таблица3.Примероформлениярезультатованализаданных


Анализ данных с помощью стандартных методов визуализации

Вопрос

Ответ

1.Для каждого пара- метра определен тип, и в зависимости его типа представ- лены различные описательные стати- стики.

В наборе данных представлены

Один служебный атрибут номер метки id_record_inc (идентификатор, целочисленный)

Два служебных атрибута, служащих меткой «норма/ненорма» и дублиру- ющих друг друга:

isAttack (булевый, но представленный числом 0,1 classAttack (целочисленный, [0,1]

Метка времени Time_sec числовой параметр.

  • 7 булевых атрибута, представленных целочисленным значением [0,1]: watLevel_R1_3_bool , watLevel_R1_2_bool, watLevel_R1_1_bool, wat- Level_R2_3_bool, watLevel_R2_2_bool, watLevel_R2_2_bool, wat- Level_R2_2_bool

  • 5 вещественных параметров:

Fullness_R1_persent, Crane_state_persent, Flow_state_persent Fullness_R2_persent, PumpFlow_state_persent .

Анализ показал, что не у 3 параметров диапазон значений отличается, и поэтому он был приведен к общему масштабу [0;100]

Они были исследованы с помощью гистограмм и с помощью специализи- рованных методик визуализации, первые оказались более эффективными, тк позволяют анализировать данные с учетом метки атаки и, следова- тельно увидеть возможные зависимости между значениями атрибута и наличием аномалии.




2. Вопрос 1 к набору данных: Есть ли вы- бросы в данных. Если да, укажите в каких атрибутах, связаны ли они с вы- полнением атаки.

Для ряда вещественных параметров был выявлены выбросы и характер- ные изменения (см рисунок 13).

PumpFlow_State_persent - выброс

Crane_state_persent, Fullness_R1_persent , Fullness_R2_persent - Х

арактерные изменения.

Однако данные изменения оказались связаны со спецификой функциони- рования системы, и не связаны с аномалией (см рисунок 14).

Выброс параметра PumpFlow_State _persent связан с выходом системы на режим и как некоторое является (возможно, случайное) после первого случая атаки. (см рис 15).
В части атак, наиболее очевидны оказались изменения в булевых призна- ках (что в принципе следует из описания атаки). Причем наиболее пока- зательны оказались линейные графики, которые отражают изменение па- раметров во времени. (см. рис 16), для интервалов с атакой характерно увеличение частоты изменения значений параметров.

3. Вопрос к набору данных 2

Есть ли переходный период, в течение которой система вы- ходит на режим.

Можно ли по нему судить о наличии

атаки.

По рисункам, показывающим изменение параметров во времени (напри- мер, рисунок 15, 16) был устрановлен переходный период системы. Он длится 170мс (340 записей).

В течение него изменений в данных обнаружен не было (что подтвержда- ется тем, что атака выполнялась позже, см рис 15)

Вопрос 3. Опреде- лите, какие атри- буты наиболее пока- зательны при ана- лизе атаки

Наиболее показательны для выявления атаки именно булевы параметры, это подтверждается матрицей корреляцией: именно эти параметры имеют линейную связь между меткой атаки и изменением значений. (см рис 17)

Были построены также двумерная проекция данных методом PCA, и хотя объяснимый разброс данных не велик (0.64), полученные проекции дан- ных для нормы и не нормы хорошо разделимы для пар компонент (PC1- PC2) и (PС2-PС3), следовательно, они также успешно могут быть исполь- зованы в машинном обучении для выявления аномалий (рис 18).


Таблица4.Описательныестатистикивещественныхпараметров





Full-

ness_R1_persent

Crane_state_p

ersent

Flow_state_persent

Fullness_R2_per-

sent

Pump-

Flow_state_persent

count

7200.000000

7200.000000

7200.000000

7200.000000

7200.000000

mean

10.679284

11.286111

11.265319

89.320716

86.380431

std

8.459536

25.142159

25.026101

8.459536

18.342435

min

4.315000

0.000000

0.000000

0.660000

0.000000

25%

6.835000

0.000000

0.000000

87.620000

84.200000

50%

9.463500

0.000000

0.000000

90.536500

89.300000

75%

12.380000

0.000000

0.000000

93.165000

94.700000

max

99.340000

100.000000

99.900000

95.685000

100.000000





Рисунок 13. Гистограмма значений вещественных параметров: очевидны некоторые харак-терныеособенностираспределениязначений.

ИспользуетсялогарифмическаяшкалапоосиY.



Рисунок 14. -Гистограмма значений вещественных параметров для нормы (синий цвет) и ненормы(красный цвет).Используетсялогарифмическая шкалапо осиY.



Рисунок 15. -График изменения параметра во времени PumpFlow_State_persent (Обратитевнимание ось X не подписана! Надо исправить). Фон показывает интервалы времени с ата-кой(оранжевый фон)ибез(зеленый фон)


Рисунок 16. -График изменения булевых параметров во времени watLevel_R1_3_bool и wat-Level_R1_2_bool. Фон показывает интервалы времени с атакой (оранжевый фон) и без (зеле-ный фон)



Рисунок17.Матрица корреляциипараметров

спорогомфильтрациикоэффициентовбольше0.4именьше -0.4.


Рисунок18.Графикирассеивания,построенныедляпроекцииданных.Цветпоказываетнорму(серый цвет)илиненорму (красный цвет).

1   2   3   4   5   6   7   8   9


написать администратору сайта