Главная страница

АНАЛИЗ ПРИЗНАКОВ И ОЦЕНКА ИХ ИНФОРМАТИВНОСТИ. Задание1 (дедактор). Анализ признаков и оценка их информативности


Скачать 0.74 Mb.
НазваниеАнализ признаков и оценка их информативности
АнкорАНАЛИЗ ПРИЗНАКОВ И ОЦЕНКА ИХ ИНФОРМАТИВНОСТИ
Дата24.10.2022
Размер0.74 Mb.
Формат файлаdocx
Имя файлаЗадание1 (дедактор).docx
ТипЛабораторная работа
#751284

Лабораторная работа 1

АНАЛИЗ ПРИЗНАКОВ И ОЦЕНКА ИХ ИНФОРМАТИВНОСТИ
Цель работы: ознакомиться с возможностями аналитического пакета Deductor Academic.

В качестве функции была выбрана функция гиперболического синуса.

Программа работы

  1. Выполнить импорт данных в программный комплекс

Deductor.

  1. Выполнить задание по предварительной парциальной обработке данных.

  2. Выполнить задание по предварительной обработке путем удаления аномалий в данных.

  3. Выполнить задание по предварительной обработке путем сглаживания данных методом спектральной обработки.

  4. Выполнить задание по удаление шумов на этапе предварительной обработке данных.

  5. Ознакомиться с возможностями автоматического анализа качества импортируемых данных.


Импорт данных в программный комплекс Deductor Academic
Импорт данных является отправной точкой анализа данных. Импорт в Deductor может осуществляться из популярных форматов хранения данных, таких как Excel, Access, MS SQL, Oracle, Текстовый файл и прочих. Кроме того, имеется универсальный доступ к любому источнику данных посредством ADO или ODBC (Только в коммерческой версии, в бесплатной версии возможен импорт из *.txt,

*.csv и *.ded).

Импорт данных из текстового файла с разделителями осуществляется путем вызова мастера импорта на панели «Сценарии» (рис. 1.1).



Рис. 1.1. - Панель сценарии
После запуска мастера импорта укажем тип импорта «Текстовый файл» и перейдем к настройке импорта(рис. 1.2-3). Укажем имя файла, из которого необходимо получить данные. В окне просмотра, выбранного файла можно увидеть содержание данного файла.




Рис. 1.2 - Мастер импорта

Рис. 1.3 – Данные


Рис. 1.4 - Способ отображения
От того, какие способы отображения будут выбраны на этом этапе, зависят последующие шаги мастера. В данном случае необходимо настроить, какие столбцы диаграммы следует отображать и как именно. Выберем для отображения поле «СИНУС» и тип диаграммы «Линии» (рис. 1.5).



Рис. 1.5 - Настройка столбцов

На последнем шаге мастера необходимо указать название ветки в дереве сценариев. Напишем в поле заголовка окна «Импорт примера для демонстрации предобработки данных» и нажмем «Готово». На этом работа мастера импорта заканчивается. Теперь в дереве сценариев появится новый узел с необходимыми данными. В главном окне программы представлены все выбранные отображения данных этого узла. В данном случае только диаграмма. Примечание: для отображение диаграммы в 3D-виде, необходимо нажать кнопку

«3-х мерный вид» в левом верхнем углу панели «Диаграмма». А для просмотра другой диаграммы, нажать на значок лупы «Отображать поля».



Рис. 1.6 – Завершение импорта

Рис. 1.7 - Диаграмма функции


    1. Предварительная парциальная обработка


Часто исходные данные для анализа не годятся, а качество данных влияет на качество результатов, поэтому вопрос подготовки данных для последующего анализа является очень важным. Обычно

«сырые» данные содержат в себе различные шумы, за которыми трудно увидеть общую картину, а также аномалии – влияние случайно, либо редко происходивших событий. Очевидно, что влияние этих факторов на общую модель необходимо минимизировать, т.к. модель, учитывающая их, получится неадекватной.

Парциальная предобработка служит для восстановления пропущенных данных, редактирования аномальных значений и спектральной обработке данных (например, сглаживания данных). Именно этот шаг часто проводится в первую очередь.

Рассмотрим применение обработки на примере данных из файла

«TestData.txt». Он содержит таблицу со следующими полями:

«АРГУМЕНТ» – аргумент, «Функция» – значения гиперболического синуса аргумента (некоторые значения пустые), «АНОМАЛИИ» синус с выбросами, «БОЛЬШИЕ ШУМЫ» – значения синуса с большими шумами, «СРЕДНИЕ ШУМЫ» – значения синуса со средними шумами, «МАЛЫЕ ШУМЫ» – значения синуса с малыми шумами. Все данные можно увидеть на диаграмме после импорта из текстового файла.

Для запуска мастера необходимо выделит нужный сценарий и нажать F7, либо правый клик по необходимому сценарию откроет контекстное меню, где так же можно выбрать мастер обработки. Поскольку данные в исходном наборе упорядочены, на следующем шаге мастера обработки поставим галочку – «обрабатывать как упорядоченный набор» .



Рисунок 1.8 - Мастер обработки



Рис. 1.9 - Мастер заполнения пропусков
Далее следует выбрать необходимый столбец и метод заполнения, в данном случае интерполяция (рис. 1.14). Перейдя на страницу запуска процесса обработки, выполняем ее, нажав на пуск, и далее выбираем тип визуализации обработанных данных (как в примере импорта) (рис. 1.15).. После выполнения процесса обработки на диаграмме видно, что пропуски в данных исчезли, что и было необходимо сделать (рис. 1.16).



Рис.1.10 - Заполнение пропусков методом интерполяции


    1. Удаление аномалий на этапе предобработки данных


Аномалии встречаются в «сырых» данных не реже шумов. По существу, они вообще не должны оказывать никакого влияния на результат. Если же они присутствуют при построении модели, то оказывают на нее весьма большое влияние и их предварительно необходимо устранить. Также они портят статистическую картину распределения данных. К примеру, вот как выглядят данные с аномалиями, а также гистограмма их распределения (рис. 1.17).



Рис. 1.11 -Гистограмма с аномалиями

Очевидно, что аномалии не позволяют определить, как характер самих данных, так и статистическую картину. После устранения аномалий те же данные представляются как показано на рис. 1.12



Рис. 1.12 - Гистограмма без аномалий
Следует открыть мастер обработки и выбрать редактирование выбросов. Поставить галочку - «Обрабатывать как упорядоченный набор данных» .




Рис. 1.13 - Мастер редактирования выбросов



Рис. 1.14 - Настройки мастера редактирования выбросов
Далее нажать кнопку «Пуску» и выбрать данные для отображения как в предыдущих пунктах. После выполнения процесса обработки на диаграмме видно, что выбросы исчезли, остались лишь небольшие возмущения, которые легко сгладить при помощи спектральной обработки .



Рис. 1.15 - Диаграмма после удаления аномалий


    1. Сглаживания данных методом спектральной обработки


Сглаживание данных применяется для удаления шумов из исходного набора, а также для выделения тенденции, которая трудно видна в исходном наборе. Платформа Deductor Studio предлагает несколько видов спектральной обработки: сглаживание данных путем указания полосы пропускания, вычитание шума путем указания степени вычитания шума и вейвлет преобразование путем указания глубины разложения и порядка вейвлета.

Для выбора способа вейвлет преобразования открыть мастер обработки для сценария «Редактирование выбросов и экстремальных значений». В мастере следует выбрать пункт «спектральная обработка» (рис. 1.23)



Рис. 1.16 - Мастер обработки
В мастере спектральной обработки необходимо выбрать назначение используемое для столбца «Аномалии», и в качестве метода сглаживания данных выбрать вейвлет преобразование (рис. 1.24).




Рис. 1.17 - Мастер спектральной обработки

Далее выбрать визуализацию «Диаграмма» и столбец

«Аномалии». После обработки можно убедиться на диаграмме в отсутствии выбросов (рис. 1.25).


Рис. 1.18 - Диаграмма после применения спектральной обработки


    1. Удаление шумов на этапе предварительной обработке данных


Шумы в данных не только скрывают общую тенденцию, но и проявляют себя при построении модели прогноза. Из-за них модель может получиться с плохими обобщающими качествами.

В примере по парциальной обработке есть 3 столбца с шумами:

«БОЛЬШИЕ ШУМЫ», «СРЕДНИЕ ШУМЫ», и «МАЛЫЕ ШУМЫ» -

соответственно синус с большими, средними и малыми шумами. Ясно, что для дальнейшей работы с данными эти шумы необходимо устранить. Спектральная обработка позволяет сделать это с помощью указания для этих полей в качестве типа обработки «Вычитание шума». Настройки обладают определенной гибкостью. Так, существует большая, средняя и малая степень вычитания шума. Аналитик может подобрать степень, устраивающую его.

В мастере спектральной обработки (рис. 1.26) по очереди выбрать поля «БОЛЬШИЕ ШУМЫ», «СРЕДНИЕ ШУМЫ» и

«МАЛЫЕ ШУМЫ», задать тип обработки «Вычитание шума» и

указать степень подавления – «большая», «средняя» и «малая» соответственно. В некоторых случаях неплохие результаты удаления шумов дает вейвлет преобразование. Повысить качество сглаживания шумов таким способом можно, путем подбора удовлетворительных параметров обработки (рис. 1.27).




Рис. 1.19 - Настройки мастера спектральной обработки



Рис 1.20 - Диаграмма после применения спектральной обработки

    1. Возможности автоматического анализа качества импортируемых данных в DeductorAcademic


В мастере обработки выбрать пункт «качество данных» (рис. 1.28).




Рис. 1.21 - Мастер качества данных
После анализа мастер дает рекомендации к обработке данных и возможность автоматического исправления (рис. 1.29). Следует отметить, что автоматические исправление далеко не всегда дает желаемые результаты (рис. 1.30).



Рис. 1.22 - Результаты мастера качества до обработки данных



Рис. 1.23 - Вывод мастера после всех внесенных нами изменений

Контрольные вопросы


    1. Для чего служит программа DeductorAcademic?

DeductorAcademic служит для анализа, обработки данных, построения графика, удаления пропусков, снятие выбросов.

    1. Зачем нужна предобработка данных?

Предобработка позволяет оценить какие данные необходимо обработать.

    1. Что такое парциальная предобработка?

Парциальная обработка – обработка одного или нескольких столбцов таблицы.

    1. Что такое вейвлет?

Непрерывное преобразование в анализе информации.

    1. Какие данные можно импортировать в программу?

Данные .txt, .csv, .ded.


написать администратору сайта