(Лаб.1)Базовые навыки работы в Deductor Studio 5.2. Практикум P. 002 Базовые навыки работы в Deductor Studio Базовые навыки работы в Deductor Studio 2
Скачать 1.76 Mb.
|
мастера обработки . Вызвать мастер можно следующими способами: § кнопка на панели инструментов закладки Сценарии; § клавиша F7; § контекстное меню Мастер обработки... Базовые навыки работы в Deductor Studio 5.2 12 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна При вызове мастера обработки откроется окно первого шага мастера. В нем все обработчики сгруппированы по следующим четырем категориям: § Очистка данных; § Трансформация данных; § Data Mining; § Прочее. Некоторые узлы могут отсутствовать в списке. Причины этого следующее: § версия Deductor; § отключена «видимость» объекта (или целой категории) объекта; § узел «устарел» и в текущей версии Deductor его создание невозможно (допускается только его чтение и настройка). Создание нового узла экспорта осуществляется с помощью мастера экспорта . Вызвать мастер можно следующими способами: § кнопка на панели инструментов закладки Сценар ии ; § клавиша F8; § контекстное меню Мастер экспо рта... В нем все приемники данных сгруппированы по следующим 5 категориям: § хранилища данных; § базы данных; § файлы; § Web-серверы; Базовые навыки работы в Deductor Studio 5.2 13 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна § прочее. Причины отсутствия некоторых объектов или категорий мастера экспорта аналогичны тем, что перечислены при описании мастера импорта. После узла экспорта невозможно добавить ни один узел. Базовые операции над узлами сценария Кроме команд вызова мастеров, к каждому узлу применимы базовые операции. Операции над узлами и ветками сценария можно выполнять следующими способами: § кнопки панели инструментов на закладке Сценар ии; § контекстное меню; § мышь. Список доступных операций. 1 Открытие узла – узел запускается на выполнение, причем выполняются все родительские узлы, а справа открываются визуализаторы, настроенные для данного узла. В интерактивном режиме для каждого узла должен быть настроен хотя бы один визуализатор, например, Таблица или Сведения. Операция вызывается: § двойной щелчок мышью на узле; § клавиши Ctrl+ Enter; § контекстное меню Открыть. 2 Настройка узла – вызывается мастер импорта, мастер обработки или мастер экспорта, в зависимости от типа узла, для изменения параметров обработки, производимой в узле. Операция вызывается: § кнопка ; § клавиши Alt+ Enter; § контекстное меню Настроить…. 3 Активация/деактивация узла – узел может быть либо активным, либо неактивным. Если узел неактивный, то, сделав его активным, выполнится сценарий для этого узла, но визуализаторы отображены не будут. Делая узел неактивным, закрываются все визуализаторы для него и для всех подчиненных узлов, а сам узел и подчиненные узлы превращаются в неактивные. Эта операция может быть использована для освобождения памяти. Операция активации/деактивации вызывается: § клавиши Shift+Enter; § контекстное меню Активный… 4 Перечитать данные узла – все узлы до корневого включительно будут закрыты, а затем выполнена ветка сценария от корневого до текущего узла. Операция вызывается: § контекстное меню Перечитать данны е… 5 Вырезать узел – удаляет текущий узел из сценария обработки. Все его потомки при этом перемещаются на один уровень вверх и начинают подчиняться родителю удаленного узла. Операция вызывается: § кнопка ; § контекстное меню Выр езать узел . 6 Вставить узел – вставляет перед текущим узлом сценария новый узел и вызывает для него мастер обработки. Вставить узел перед узлом импорта данных нельзя. Операция вызывается: Базовые навыки работы в Deductor Studio 5.2 14 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна § кнопка ; § контекстное меню Вставить узел . После вставки нового узла или удаления существующего узлы-потомки могут стать неработоспособными, в зависимости от обработки, выполняемой новым узлом. 7 Копировать ветвь – копирует ветвь сценария, начиная с текущего узла и включая все его потомки. Операция вызывается: § кнопка ; § контекстное меню Копировать ветвь; § при помощи механизма drag & drop – выделив узел, и, удерживая нажатой клавишу Ctrl, указать курсором мыши на новый узел, который должен стать родителем старого. При этом переносимая ветка целиком скопируется в новое место. 8 Удалить ветвь – удаляет узел сценария и все его подузлы. Удаленная ветвь восстановлению не подлежит, поэтому к данной операции необходимо подходить с осторожностью. Операция вызывается: § кнопка ; § клавиши Ctrl+Del; § контекстное меню Удалить ветвь. 9 Перенос ветви – переносит ветку сценария к новому узлу. Операция производится аналогично копированию ветви с помощью drag & drop без удерживания клавиши Ctrl. 10 Переименовать – позволяет изменить метку текущего узла. Операция вызывается: § клавиша F2; § контекстное меню Переименовать... 11 Сведения – открывает диалоговое окно Свед ения для текущего узла. В нем редактируется имя, метка и описание к узлу. Операция вызывается: § контекстное меню Свед ения ...; § открыв скрытую панель узла с помощью кнопки и нажать там одну из кнопок: Имя, Метка или Описание. Имя узла может быть задано только латинскими символами, тогда как метка – любыми. Кроме того, имя узла должно быть уникально в пределах одного сценария. Как правило, необходимости в переименовании имен узлов не возникает. 12 Статус пакетной обработки – устанавливает статус пакетной обработки для узла. 13 Добавить в Избранное – текущий узел добавляется в список избранных узлов. 14 Сохранение ветви – вызывается стандартный диалог Сохранение , в котором можно указать путь и имя файла для сохранения ветви сценария, начинающейся с текущего узла. Операция вызывается: § контекстное меню Сохранить ветвь. 15 Загрузка ветви – вызывает стандартный диалог Открытие файла , в котором можно указать путь и имя файла, хранящего ветвь сценария. Загруженная ветвь сценария станет потомком текущего узла. Ветвь, начинающаяся с узла импорта данных, будет добавлена в проект как новая корневая ветвь. Операция вызывается: § контекстное меню Загрузить ветвь. По умолчанию ветвь сценария имеет расширение *.deb. Базовые навыки работы в Deductor Studio 5.2 15 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна Взаимодействие узлов друг с другом В Deductor взаимодействие узлов друг с другом спроектировано на уровне программного ядра, поэтому принцип взаимодействия един и не зависит от типа узла. Каждый узел можно представить «черным ящиком», на вход которого подается структурированный набор данных с полями, а на выходе доступен один или несколько обработанных узлом наборов данных. Обработка может вестись любая – от простой сортировки до моделирования. Выходной набор, в свою очередь, можно снова подать на вход узла. Так конструируется сценарий. Но иногда на выходе узла может присутствовать не один набор, а несколько (на рисунке такой дополнительный набор данных обозначен пунктирной стрелкой). Например, в результате работы узла Линейная регрессия образуются два набора данных: один – таблица рассчитанных результатов, а другой – коэффициенты регрессии. Эти коэффициенты можно просмотреть в визуализаторе под таким же названием, но иногда нужно использовать коэффициенты в сценарии для дальнейшей обработки. Поэтому при добавлении любого узла появляется возможность «переключиться» на другой набор данных, если он присутствует в предыдущем узле. Вот как это выглядит в мастере обработки. Узел- обработчик 1 Набор данных 1 Набор данных 2 (Набор данных 3) Узел- обработчик 2 Узел- обработчик 3 Базовые навыки работы в Deductor Studio 5.2 16 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна В Deductor Studio 5.2 узлами, которые выдают на выходе более одного набора данных, являются: Линейная регрессия , Логистическая регрессия , Ассоциативные правила, Коррел яционный анализ . Импорт из текстовых файлов с разделителями Структурированный текстовый файл с разделителями – один из самых распространенных форматов хранения данных. Такой файл представляет собой обычный текстовый файл, столбцы данных в котором разделены однотипными символами-разделителями, например символами табуляции, пробела, точки с запятой и т.д. Процесс импорта данных из текстового с разделителями файла в мастере импорта (категория Т екстово й файл (Direct)) содержит следующие шаги: § указание имени файла; § настройка параметров импорта; § настройка импортируемых полей; § запуск процесса импорта; § выбор способа визуализации; § задание сведений об узле. На шаге Указ ание имени файла, нажав кнопку , необходимо выбрать имя текстового файла (расширения *.txt, *.csv), из которого следует выполнить импорт данных. После этого в поле «Имя файла» окна Мастера импорта появится имя выбранного файла и путь. Допускается вручную ввести путь к файлу в строке поля Имя файла Имеется возможность использовать как абсолютные, так и относительные пути для файлов. Они указываются относительно текущей директории Deductor . При открытии Deductor текущей директорией является директория файла проекта. Поэтому, если файл проекта и текстовые файлы располагаются в одной папке, то использование относительных путей в Мастере импорта позволит не перенастраивать узлы импорта при изменении расположения папки на жестком диске. Здесь также доступны настройки: § Начать импорт со строки – номер строки, начиная с которой будет делаться импорт данных из файла. Базовые навыки работы в Deductor Studio 5.2 17 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна § флаг Первая строка является заголовком – установка флажка означает, что узел будет импортировать данные с учетом того, что все записи первой строки являются заголовками столбцов. § Кодировка – ANSI (Windows) или ANCII (MS DOS) На шаге Настро йка параметров импорта нужно настроить параметры импорта данных из текстового файла, так как существует несколько форматов структурированных текстовых файлов. Доступные опции: § переключатель Фо рмат исходных данных, который определяет символ- разделитель в файле (например: символ табуляции, пробел, запятая). Разделитель чаще всего присутствует. Если же нет, то нужно выбрать переключатель Фиксированно й шири ны (поля имеют заданную шири ну), а позже установить ширину каждого поля. § Ограничитель строк – при задании данного параметра необходимо указать, какой именно ограничитель строкового значения нужно использовать при импорте данных из текстового файла. Обычно таким ограничителем является символ двойной кавычки ". § Разделитель дробной и целой части числа – при задании данного параметра необходимо указать символ, разделяющий дробную и целую части в числовых значениях, содержащихся в файле. § Разделитель компонентов даты – указывается символ, разделяющий компоненты даты в соответствующих значениях, содержащихся в файле. § Разделитель компонентов вр емени – указывается символ, разделяющий компоненты времени в соответствующих значениях, содержащихся в файле. § Фо рматы Даты/Времени – указываются форматы даты/времени, используемые в импортируемом файле. § Представление зна чений – опция для полей логического типа, которое может принимать одно из трех значений – истина ( true ), ложь ( false ) и пустое значение ( null ). Определяет регламент записи в эти значения. Так, при настройках по умолчанию для любого логического поля значение Да будет восприниматься как истина, Нет – как ложь. Базовые навыки работы в Deductor Studio 5.2 18 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна В качестве разделителей, представлений значений и форматов по умолчанию всегда предлагаются системные настройки операционной системы. Поэтому при импорте необходимо обращать внимание на их соответствие формату в импортируемом текстовом файле. Следующее окно мастера зависит от установленного переключателя в флажке Формат исхо дных данных. Если был выбран формат С разделителями, то появится вкладка, на которой нужно явно указать символ-разделитель (по умолчанию – табуляция ). Здесь же находится флаг Считать последовательные разд елители одним – в случае последовательно идущих символов-разделителей они будут восприниматься за один. Такое бывает, например, когда символом-разделителем выступают несколько пробелов. Предпросмотр текстового файла в виде таблицы внизу (загружаются только первые 10 строк) позволяет убедиться в корректности выбора настроек импорта даже не запуская его. Базовые навыки работы в Deductor Studio 5.2 19 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна Если был выбран флаг формат Фиксированно й ширины , то появится вкладка, на которой нужно задать границы каждого поля. Создание, как и удаление маркера границы производится одним щелчком мыши. Двигая маркеры границ столбцов, можно изменять их, если они расставлены неправильно. Данные, распределенные по столбцам, показываются в области предварительного просмотра. Базовые навыки работы в Deductor Studio 5.2 20 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна На шаге Настройка параметров столбцов нужно настроить следующие параметры столбцов импортируемых данных, указав соответствующие значения в полях. Имя столбца – указывается имя, которое будет служить идентификатором столбца в последующих узлах. По умолчанию предлагается заголовок столбца из текстового файла, если на предыдущем шаге был установлен флажок Первая стро ка является заг оловком . Иначе будут предложены имена типа COL1 , COL2 и т.д. Можно ввести любые имена, которые семантически отражают содержимое столбца, однако допускаются только латинские символы, и имя столбца должно быть уникальным в пределах всех столбцов импортируемого файла. Метка столбца – название, под которым данный столбец будет виден в визуализаторах. Допускаются любые символы, уникальность имен не обязательна. Тип данных – указывается тип данных, содержащихся в столбце. Тип выбирается из списка, открываемого щелчком по кнопке в правой части поля: Тип Описание логический данные в поле могут принимать только два значения – 0 или 1 дата/время поле содержит данные типа дата/время вещественный числа с плавающей точкой целый целые числа строковый строки символов Узел импорта всегда пытается автоматически распознать тип данных по первой строке файла (если имеются заголовки, то по второй строке ). Такой алгоритм срабатывает не всегда. К примеру, пусть в файле есть столбец Число иждивенцев , и в нем данные идут в следующем порядке: Базовые навыки работы в Deductor Studio 5.2 21 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна Иждивенцы 2 1 нет 2 более 2 Для данного поля автоматически определится тип – вещественный , но в реальности он строковый Вид данных – характер данных, содержащихся в столбце: Вид Описание непрерывный значения в столбце могут принимать любое значение в рамках своего типа дискретный данные в столбце могут принимать ограниченное число значений Непрерывными могут быть только числовые данные. Дискретный характер носят, как правило, строковые данные, но не всегда. Дискретными могут быть назначены в зависимости от контекста решаемой задачи данные целого типа, реже – вещественного. Вид данных столбца влияет на: § алгоритм расчета статистики по столбцу; § работу аналитических алгоритмов. Назначение – определяет порядок использования поля набора данных, полученного в результате импорта столбца (поля), при дальнейшей обработке импортированных данных: Базовые навыки работы в Deductor Studio 5.2 22 из 57 © 1995-2009 Компания BaseGroup™ Labs – При цитировании ссылка обязательна Назначение Описание первичный ключ поле будет использоваться в качестве первичного ключа входное поле набора данных, построенное на основе столбца, будет являться входным полем обработчика (нейронной сети, дерева решений и т.д.) выходное поле набора данных, построенное на основе столбца, будет являться выходным полем обработчика (например, целевым полем для обучения нейронной сети). информационное поле содержит вспомогательную информацию, которую часто полезно отображать, но не следует использовать при обработке измерение поле будет использоваться в качестве измерения в многомерной визуализации атрибут поле содержит описание свойств или параметров некоторого объекта факт значения поля будут использованы в качестве фактов в многомерной визуализации транзакция транзакция – поле, содержащее идентификатор событий, происходящих совместно (одновременно); например, номер чека, по которому приобретены товары элемент поле, содержащее элемент транзакции (событие). Изменить назначение группы столбцов одной операцией можно следующим образом: § удерживая клавишу |