Практическое_задание_2. Визуализация многомерных данных. Введение в Matplotlib
Скачать 1.05 Mb.
|
|
Анализ данных с помощью стандартных методов визуализации | |
Вопрос | Ответ |
1.Для каждого пара- метра определен тип, и в зависимости его типа представ- лены различные описательные стати- стики. | В наборе данных представлены Один служебный атрибут – номер метки id_record_inc (идентификатор, целочисленный) Два служебных атрибута, служащих меткой «норма/ненорма» и дублиру- ющих друг друга: isAttack (булевый, но представленный числом 0,1 classAttack (целочисленный, [0,1] Метка времени Time_sec числовой параметр. 7 булевых атрибута, представленных целочисленным значением [0,1]: watLevel_R1_3_bool , watLevel_R1_2_bool, watLevel_R1_1_bool, wat- Level_R2_3_bool, watLevel_R2_2_bool, watLevel_R2_2_bool, wat- Level_R2_2_bool 5 вещественных параметров: Fullness_R1_persent, Crane_state_persent, Flow_state_persent Fullness_R2_persent, PumpFlow_state_persent . Анализ показал, что не у 3 параметров диапазон значений отличается, и поэтому он был приведен к общему масштабу [0;100] Они были исследованы с помощью гистограмм и с помощью специализи- рованных методик визуализации, первые оказались более эффективными, тк позволяют анализировать данные с учетом метки атаки и, следова- тельно увидеть возможные зависимости между значениями атрибута и наличием аномалии. |
2. Вопрос 1 к набору данных: Есть ли вы- бросы в данных. Если да, укажите в каких атрибутах, связаны ли они с вы- полнением атаки. | Для ряда вещественных параметров был выявлены выбросы и характер- ные изменения (см рисунок 13). PumpFlow_State_persent - выброс Crane_state_persent, Fullness_R1_persent , Fullness_R2_persent - Х арактерные изменения. Однако данные изменения оказались связаны со спецификой функциони- рования системы, и не связаны с аномалией (см рисунок 14). Выброс параметра PumpFlow_State _persent связан с выходом системы на режим и как некоторое является (возможно, случайное) после первого случая атаки. (см рис 15). В части атак, наиболее очевидны оказались изменения в булевых призна- ках (что в принципе следует из описания атаки). Причем наиболее пока- зательны оказались линейные графики, которые отражают изменение па- раметров во времени. (см. рис 16), для интервалов с атакой характерно увеличение частоты изменения значений параметров. |
3. Вопрос к набору данных 2 Есть ли переходный период, в течение которой система вы- ходит на режим. Можно ли по нему судить о наличии атаки. | По рисункам, показывающим изменение параметров во времени (напри- мер, рисунок 15, 16) был устрановлен переходный период системы. Он длится 170мс (340 записей). В течение него изменений в данных обнаружен не было (что подтвержда- ется тем, что атака выполнялась позже, см рис 15) |
Вопрос 3. Опреде- лите, какие атри- буты наиболее пока- зательны при ана- лизе атаки | Наиболее показательны для выявления атаки именно булевы параметры, это подтверждается матрицей корреляцией: именно эти параметры имеют линейную связь между меткой атаки и изменением значений. (см рис 17) Были построены также двумерная проекция данных методом PCA, и хотя объяснимый разброс данных не велик (0.64), полученные проекции дан- ных для нормы и не нормы хорошо разделимы для пар компонент (PC1- PC2) и (PС2-PС3), следовательно, они также успешно могут быть исполь- зованы в машинном обучении для выявления аномалий (рис 18). |
Таблица4.Описательныестатистикивещественныхпараметров
| Full- ness_R1_persent | Crane_state_p ersent | Flow_state_persent | Fullness_R2_per- sent | Pump- Flow_state_persent |
count | 7200.000000 | 7200.000000 | 7200.000000 | 7200.000000 | 7200.000000 |
mean | 10.679284 | 11.286111 | 11.265319 | 89.320716 | 86.380431 |
std | 8.459536 | 25.142159 | 25.026101 | 8.459536 | 18.342435 |
min | 4.315000 | 0.000000 | 0.000000 | 0.660000 | 0.000000 |
25% | 6.835000 | 0.000000 | 0.000000 | 87.620000 | 84.200000 |
50% | 9.463500 | 0.000000 | 0.000000 | 90.536500 | 89.300000 |
75% | 12.380000 | 0.000000 | 0.000000 | 93.165000 | 94.700000 |
max | 99.340000 | 100.000000 | 99.900000 | 95.685000 | 100.000000 |
Рисунок 13. Гистограмма значений вещественных параметров: очевидны некоторые харак-терныеособенностираспределениязначений.
ИспользуетсялогарифмическаяшкалапоосиY.
Рисунок 14. -Гистограмма значений вещественных параметров для нормы (синий цвет) и ненормы(красный цвет).Используетсялогарифмическая шкалапо осиY.
Рисунок 15. -График изменения параметра во времени PumpFlow_State_persent (Обратитевнимание ось X не подписана! Надо исправить). Фон показывает интервалы времени с ата-кой(оранжевый фон)ибез(зеленый фон)
Рисунок 16. -График изменения булевых параметров во времени watLevel_R1_3_bool и wat-Level_R1_2_bool. Фон показывает интервалы времени с атакой (оранжевый фон) и без (зеле-ный фон)
Рисунок17.–Матрица корреляциипараметров
спорогомфильтрациикоэффициентовбольше0.4именьше -0.4.
Рисунок18.–Графикирассеивания,построенныедляпроекцииданных.Цветпоказываетнорму(серый цвет)илиненорму (красный цвет).