Ответы к Лб1. Вопросы_Лб1. 1. Что представляет собой проект в платформе Deductor
Скачать 475.93 Kb.
|
1. Что представляет собой проект в платформе Deductor? Deductor – это аналитическая платформа класса KDD (Knowledge Discovery in Databases) и Data Mining, предназначенная для создания законченных прикладных решений в области анализа данных. Deductor – это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. В Deductor Studio ключевым понятием является проект. Это файл с расширением *.ded, по структуре соответствующий стандартному xml-файлу. Он хранит в себе: последовательности обработки данных (сценарии); настроенные визуализаторы; переменные проекта и служебную информацию. 2. Что такое сценарий? Какие инструменты используются для его создания? Обработка данных выполняется с помощью сценария (рис. 1.1). Это последовательность операций, представленная в виде иерархического дерева. В дереве каждая операция образует узел. Заголовок узла содержит: имя источника данных, наименование применяемого метода обработки, используемые при этом поля и т.д. Кроме этого, слева от наименования узла стоит значок, соответствующий типу операции. Сценарий состоит из ветвей. Deductor не имеет собственных средств ввода данных, поэтому сценарий всегда начинается с узла импорта данных из какого-либо источника. Любой вновь создаваемый узел импорта будет находиться на верхнем уровне (подчиненным главному узлу Сценарии). 3. Для чего предназначен конструктор Выражение? Как он применяется? Обработчик Калькулятор предназначен для добавления в набор данных новых полей, которые рассчитываются по определенным правилам на основе столбцов данных и встроенных функций (рис. 1.5). Обработчик Калькулятор находится в группе узлов Прочее мастера обработки. Вся настройка осуществляется в окне мастера Конструктор выражения. 2 – Формула, по которой будет рассчитываться выражение (окно выражения). 3 – Список всех существующих столбцов текущего набора данных, состоящих из имен и меток. Для каждого столбца показывается имя и метка. 4 – Открывает вкладку со списком встроенных функций. 5 – Открывает вкладку со списком доступных арифметических, логических и других операций. 4. Как осуществляется экспорт данных в Deductor? Какие типы входных файлов используются Deductor Academic? Экспорт данных выполняется в текстовый файл с разделителями при помощи мастера экспорта. Процедура содержит следующие шаги: настройка форматов экспорта; указание символа-разделителя столбцов; выбор экспортируемых полей; запуск процесса экспорта; выбор способа визуализации; задание сведений об узле. В Deductor Academic импорт данных реализован только из структурированных текстовых файлов с разделителями, которые имеют расширение *.txt или *.csv. В качестве разделителей столбцов данных можно использовать символы табуляции, пробела, точки с запятой и т.д. 5. Перечислите основные типы обработчиков. Обработчик Настройка набора данных Очистка данных, трансформация данных, Data Mining, Прочее 6. Перечислите основные визуализаторы. Визуализаторами в Deductor являются: Визуализатор Таблица. Стандартное табличное представление с возможностью фильтрации данных, сортировки и быстрого расчета статистики. В таблице каждое поле набора данных размещается в отдельном столбце. Столбцы озаглавлены метками полей, а если метка не была задана, то именами полей. Ширину и порядок столбцов можно менять при помощи мыши. Последовательное нажатие правой кнопкой мыши по таблице активирует панель инструментов, кнопки которой открывают доступ к следующим функциям Визуализатор Статистика служит для отображения основных статистических характеристик набора данных конкретного узла. Визуализатор Диаграмма показывает график изменения любого показателя. Имеется возможность выбора различных вариантов диаграмм: столбчатые, линейные, круговые и прочее. Визуализатор Многомерная диаграмма отображает данные в многомерном виде – поверхность или топографическим способом. Визуализатор Диаграмма размещения – показывает объекты, размещенные в пространстве. Визуализатор Гистограмма показывает график разброса показателей. Гистограмма предназначена для визуальной оценки распределения данных. Распределение данных оказывает значительное влияние на процесс построения модели. Кроме того, по гистограмме можно судить о величине отклонений различной степени (гистограмма распределения ошибок). 7. Что такое обработчик Скрипт и когда он используется? Скрипты предназначены для автоматизации процесса добавления в сценарий однотипных ветвей обработки. Это нужно в следующих случаях: требуется выполнить часть сценария (т.е. последовательность узлов) на другом наборе данных; требуется применить построенную модель на новых данных. Аналогом скрипта является функция или процедура в языках программирования. Ветвь обработки строится один раз, а затем скриптами она тиражируется в другие места сценария. Обработчик Скрипт находится в группе узлов Прочее. |