комплекс лабораторных работ. Методические указания по выполнению лабораторных работ по дисциплине Модели и алгоритмы распознавания и обработки данных

Название	Методические указания по выполнению лабораторных работ по дисциплине Модели и алгоритмы распознавания и обработки данных
Анкор	комплекс лабораторных работ
Дата	29.03.2023
Размер	4.91 Mb.
Формат файла
Имя файла	Kompleks_laboratornykh_rabot_po_MAROD_red12__9_file__715_2661.pdf
Тип	Методические указания #1023217
страница	1 из 3

1 2 3

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ
И РАДИОЭЛЕКТРОНИКИ» (ТУСУР)
Кафедра автоматизации обработки информации (АОИ)
КОМПЛЕКС ЛАБОРАТОРНЫХ РАБОТ
Методические указания по выполнению лабораторных работ по дисциплине: «Модели и алгоритмы распознавания и обработки данных».
Уровень основной образовательной программы: магистратура подготовки магистра: Направление подготовки магистра 09.04.04 –
«Программная инженерия»
Магистерская программа: "Методы и технологии индустриального проектирования программного обеспечения»
Проф. каф. АОИ
Н.В. Замятин
Томск 2016

2
Содержание
Введение …………………………………………………………………...….…3
ЛР № 1. Знакомство с Аналитической Платформой “Deductor” (АП DD) .....4
ЛР № 2. Хранилища данных (Организация структуры) .…………………….11
ЛР № 3. Поиск ассоциативных правил……………………….……………… 18
ЛР № 4. Распознавание образов данных (НС Хемминга).................................30
ЛР № 5. Кластерная обработка данных (НС Кохонена) …...............................36
ЛР № 6. Классификация данных (НС с BP). ……………………......................43
ЛР № 7. Алгоритмы распознавания прецедентов.............................................46
ЛР № 8. Фильтрация данных (Фильтр Калмана) ……………..........................52
ЛР № 9. Парциальная обработка данных………………………………….......63
Список рекомендуемой литературы……………………………..……………..66

3
ВВЕДЕНИЕ
Методические указания к лабораторным работам (ЛР) по дисциплине "Модели и алгоритмы распознавания и обработки данных" представляют описание девяти четырехчасовых лабораторных работ, которые расположены последовательно, начиная от знакомства с аналитической платформой Deductor, выполнения исследований по распознаванию образов данных и их обработке с применением современных параллельных систем в виде нейронных сетей. В комплекс включены работы по предобработке данных, индуктивному обучению и поиску прецентов в данных фильтраци на основе алгоритма Кальмана.
Лабораторные работы ориентированы на использование IBM PC, совместимых ПЭВМ, реализованных на микропроцессорах семейства 8086.
Целью проведения лабораторных работ является закрепление прак- тических навыков распознавания и обработки данных путем программирования и визуального моделирования на аналитической платформе Deductor.
Организация и проведение лабораторных работ
Студенты обьединяются в группы из 2–3 человек, работающих на закрепленном компьютере. Каждый студент получает индивидуальное задание в соответствии с номером в журнале и оформляет отчет по лабо- раторной работе.
Выполнение лабораторной работы предполагает предварительное изучение соответствующего раздела дисциплины и методических указаний к очередной работе.
Для допуска к выполнению лабораторной работы студент должен ознакомиться с темами для проработки и предварительно подготовить план работ и текст программы в соответствии с индивидуальным заданием.
Текст программы составляется на одном из языков программирования по указанию преподавателя или желанию студента с учетом уровня знаний конкретного языка.
В ходе выполнения лабораторной работы студент должен ответить на контрольные вопросы по предыдущей лабораторной работе. К лабораторной работе не допускаются студенты, не сдавшие более двух лабораторных работ.
Пропущенные лабораторные работы выполняются в конце семестра.
В процессе выполнения лабораторных работ следует ограничить перемещения студентов в лаборатории.

4
Лабораторная работа № 1. Знакомство с Аналитической Платформой
«Deductor (АП DD)
Целью выполнения данной лабораторной работы является:
- получение первоначальных сведений о возможностях аналитической платформы;
- изучение основных модулей; работа с мастерами импорта, экспорта, обработки и визуализации данных.
Теоретическая часть
АП «Deductor» применима для решения задач распознавания и обработки данных, таких как парциальная обработка данных (подготовка к анализу) прогнозирование, поиск закономерностей и пр. Платформа применима в задачах, где требуется консолидация и отображение данных различными способами, построение моделей и последующее применение полученных моделей к новым данным.
Задачи, решаемые АП:
- Системы корпоративной отчетности. Готовое хранилище данных и гибкие механизмы предобработки, очистки, загрузки, визуализации позволяют быстро создавать законченные системы отчетности в сжатые сроки.
- Обработка нерегламентированных запросов. Конечный пользователь может получить ответ на вопросы типа "Сколько было продаж товара по группам за прошлый год с разбивкой по месяцам?" и просмотреть результаты наиболее удобным для него способом.
- Анализ тенденций и закономерностей, планирование, ранжирование.
Простота использования и интуитивно понятная модель данных позволяет вам проводить анализ по принципу «Что, если...?», соотносить ваши гипотезы со сведениями, хранящимися в базе данных, находить аномальные значения, оценивать последствия принятия бизнес-решений.
- Прогнозирование. Построив модель на исторических примерах, можно использовать ее для прогнозирования ситуации в будущем. По мере

5 изменения ситуации нет необходимости перестраивать все, необходимо всего лишь дообучить модель.
- Управление рисками. Реализованные в системе алгоритмы дают возможность достаточно точно определиться с тем, какие характеристики объектов и как влияют на риски, благодаря чему можно прогнозировать наступление рискового события и заблаговременно принимать необходимые меры к снижению размера возможных неблагоприятных последствий.
- Анализ данных маркетинговых и социологических исследований.
Анализируя сведения о потребителях, можно определить, кто является вашим клиентом и почему. Как изменяются их пристрастия в зависимости от возраста, образования, социального положения, материального состояния и множества других показателей.
- Диагностика. Механизмы анализа, имеющиеся в системе Deductor, с успехом применяются в медицинской диагностике и диагностике сложного оборудования. Например, можно построить модель на основе сведений об отказах. При ее помощи быстро локализовать проблемы и находить причины сбоев.
- Обнаружение объектов на основе нечетких критериев. Часто встречается ситуация, когда необходимо обнаружить объект, основываясь не на таких четких критериях, как стоимость, технические характеристики продукта, а на размытых формулировках, например, найти продукты, похожие на ваши с точки зрения потребителя.
Ход работы
После запуска «Deductor Studio Academic» появится главное окно программы. Главное окно после запуска программы Deductor Studio__

6
Главное окно после запуска программы Deductor Studio
Выполнив вышеуказанные действия по импорту данных, на панели «Сцена- рии» формируется новый узел, с заданными именем, меткой и описанием.
Пример создания сценария, вкладка «Статистика»
Для изучения возможности мастера обработки (кнопка в левой части главного окна либо клавиша F7). После запуска мастера обработки появится список возможных способов обработки данных.
Все способы разделены на четыре основные группы: очистка данных, трансформация данных, Data Mining, пр. Каждый способ обработки имеет название и краткое описание. Выбор способа зависит от целей обработки

7 данных (например, сортировка и фильтрация данных, построение дерева решений и пр.).
Мастер визуализации позволяет определить способ отображения данных, указать метки и добавить описание к проекту. Запустить его можно с помощью кнопки либо клавишей F5.
Список доступных способов обработки данных
Готовый проект можно экспортировать, воспользовавшись мастером экспорта (кнопка основного окна либо клавиша F8).
Указав параметры, проект можно перенести в один из доступных форматов.
Задание
1. Опишите назначение и возможности АП «Deductor».
2. Запустите программу «Deductor Studio Academic», ознакомьтесь с назначением кнопок и контекстным меню главного окна программы.
3. Воспользуйтесь мастером импорта данных (импортируйте файл с данными
Вашей предметной области или из C:\Program Files\ BaseGroup\
Deductor\Samples\ *.txt ), или из репозитория данных.
4. Ознакомьтесь с доступными способами обработки данных.

8 5. Изучите возможности мастера визуализации и экспорта.
Содержание отчета
1. Цель работы.
2. Краткое описание хода работы с описанием возможности Deductor дл распознавания и обработки данных и приведением скриншотов.
3. Ответы на вопросы.
Вопросы:

1. Какие существуют другие платформы для распознавания и обработки данных?
2. Какие возможности имеет АП Deductor для распознавания данных?

3. Какие возможности имеет АП Deductor для обработки данных?
4. Какие параметры доступны для мастера экспорта данных?

4. В чем заключается процедура визуализации данных?
ЛАБОРАТОРНАЯ РАБОТА №2.
ХРАНИЛИЩЕ
ДАННЫХ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ
DEDUCTOR.
Цель работы: изучить программную среду хранилища данных в
DeductorWarehouse, ознакомиться с архитектурой научиться создавать, и наполнять информацию из хранилища данных.
Ход работы:
1. Хранилище данных (ХД) DeductorWarehouse - это специально организованная база данных, ориентированная на решение задач анализа данных и поддержки принятия решений, обеспечивающая максимально быстрый и удобный доступ к информации. DeductorWarehouse 6 соответствует модели ROLAP (схема «снежинка»).
Хранилище данных DeductorWarehouse включает в себя потоки данных, поступающие из различных источников, и специальный семантический слой, содержащий так называемые метаданные (данные о данных). Семантический слой и сами данные хранятся в одной базе данных. Все данные в хранилище

9
DeductorWarehouse хранятся в структурах типа «снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем каждое измерение может ссылаться на другое измерение. Именно эта схема чаще всего встречается в хранилищах данных (рис.4.9.).
Объекты хранилища данных DeductorWarehouse следующие.
Измерение - это последовательность значений одного из анализируемых параметров. Например, для параметра «время» это последовательность календарных дней, для параметра «регион» - список городов. Каждое значение измерения может быть представлено координатой в многомерном пространстве процесса, например, Товар, Клиент, Дата.
Атрибут - это свойство измерения (т.е. точки в пространстве). Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. Например, для измерения Товар атрибутами могут выступать Цвет, Вес, Габариты.
Факт - значение, соответствующее измерению. Факты - это данные, отражающие сущность события. Как правило, фактами являются численные значения, например, сумма и количество отгруженного товара, скидка.
Ссылка на измерение - это установленная связь между двумя и более измерениями. Бизнес-понятия (соответствующие измерениям в хранилище данных) могут образовывать иерархии, например, Товары могут включать Продукты питания и Лекарственные препараты, которые, в свою очередь, подразделяются на группы продуктов и лекарств и т. д. В этом случае первое измерение содержит ссылку на второе, второе - на третье и т.д.
Процесс - совокупность измерений, фактов и атрибутов. По сути, процесс и есть «снежинка». Процесс описывает определенное действие, например, продажи товара, отгрузки, поступления денежных средств и прочее.
Атрибут процесса - свойство процесса. Атрибут процесса в отличие от измерения не определяет координату в многомерном пространстве. Это справочное значение, относящееся к процессу, например, № накладной,

10
Валюта документа и так далее. Значение атрибута процесса в отличие от измерения может быть не всегда определено.
В DeductorWarehouseможет одновременно храниться множество процессов, имеющих общие измерения, например, измерение Товар, фигурирующее в процессах Поступленияи Отгрузка.
Все загружаемые в ХД данные обязательно должны быть определены как измерение, атрибут либо факт. Принадлежность данных к типу (измерение, ссылка на измерение, атрибут или факт) содержится в семантическом слое хранилища. Обратим внимание на то, что:
■ таблицы измерений содержат только справочную информацию (коды, наименования и т.п.) и ссылки на другие измерения при необходимости;
■ таблица процесса содержит только факты и коды измерений (без их атрибутов).
Проектирования структуры ХД.
Имеется история продаж различных товаров по дням в нескольких торговых объектах. Товары объединены в группы. Требуется спроектировать структуру хранилища данных. Все данные представлены в 4 таблицах:
Товарные группы (groups.txt), Товары (produces.txt), Отделы (stores.txt),
Продажи (sales.txt). Архитектура хранилища данных и фрагменты этих таблиц приведены ниже (рис.1). Рис. 1. Пример схемы ХД «снежинка».

11
В таблице groups.txt Код группы является измерением, а Наименование
группы - его атрибутом.
В таблице produces.txt Код товара является измерением, а Наименование
товара - его атрибутом, а Код группы - ссылкой на одноименное измерение.
В таблице stores.txt Код отдела является измерением, а Наименование
отдела - его атрибутом.
В таблице sales.txt Дата является измерением, Отдел, Код товара и Код
группы как было сказано выше – измерения. Час покупки - измерение,
Количество и Сумма- факты, т.е. таблица sales.txt является описанием процесса продаж в трех аптеках.
2. Создание хранилища данных в DeductorWarehouse.
Откройте программу DeductorStudio, используя ярлык на рабочем столе или через кнопку Пуск.
Для создания нового хранилища данных или подключения к существующему в DeductorStudio необходимо перейти на закладку Подключения и запустить
Мастер подключений.
На экране появится первый шаг Мастера, в котором следует выбрать тип источника (приемника), к которому нужно подключиться. Выберите
DeductorWarehouseи нажмите кнопкуДалее.
На следующем шаге из единственно доступного в списке типа базы данных выберем Firebirdи перейдем на третий шаг мастера. В нем зададим параметры базы данных, в которой будет создана физическая и логическая структура хранилища данных (рис. 2), Нажмите Далее.
На следующей вкладке выберем последнюю версию для работы с ХД
DeductorWarehouse6 (предыдущие версии необходимы для совместимости с ранними версиями хранилищ).

12
На следующем шаге при нажатии на кнопку
По указанному ранее пути будет создан файл farma.gdb (появится сообщение об успешном создании). Это и есть пустое хранилище данных, готовое к работе.
На последних двух шагах осталось выбрать визуализатор для подключения
(здесь это Сведения и Метаданные) и задать имя, метку и описание для нового хранилища.

13
Рис.2. Установка параметров базы данных
После нажатия на кнопку Готово на дереве узлов подключений появится метка хранилища.
Если соединение по какой-либо причине установить не удалось, то будет выдано сообщение о ответствующей ошибке. В этом случае нужно проверить параметры подключения хранилища данных и при необходимости внести в них изменения (используйте для этого кнопку Настроить подключение.
Для проверки доступа к новому хранилищу данных воспользуйтесь кнопкой
Если спустя некоторое время появится сообщение «Тестирование соединения прошло успешно», то хранилище готово к работе.

14
Сохраните настройки подключений, нажав на кнопку сохранения .
После создания хранилища необходимо спроектировать его структуру, т.к. в пустом хранилище нет ни одного объекта (процессов, измерений, фактов).
Для этого предназначен «Редактор метаданных», который вызывается кнопкой на вкладке
Подключения.
Нажмите ее.
Для перехода в режим внесения изменений в структуру хранилища нажмем кнопку Разрешить редактировать.
Появится диалоговое окно с предупреждением. Нажмем Да и в открывшемся окне редактора метаданных, встав на узле Измерения, при помощью кнопки
Добавить добавим в метаданные первое измерение Код группы со следующими параметрами: имя – GR_ID; метка - Группа.Код; тип данных-целый.
Имя - это семантическое название объекта хранилища данных, которое увидит пользователь, работающий с ХД. (Эти параметры для таблицы
«Товарные группы»).
Выполните аналогичные действия для создания всех остальных измерений, взяв параметры из таблицы 1.

15
Таблица
1.
-
Параметры измерений
Измерение
Имя
Метка
Тип данных
Код группы
GR-ID
Группа.Код целый
Код товара
TV_ID
Товар.Код целый
Код отдела
PART_ID
Отдел.Код целый
Дата
S_DATE
Дата дата/время
Час покупки
S_HOUR
Час целый
В результате структура метаданных нашего хранилища будет содержать 5 измерений.
К каждому измерению, кроме Дата и Час, теперь добавим по текстовому атрибуту. Для этого в измерении «Группа.Код» правой кнопкой мыши откроем Атрибуты и справа в поле «Метка» введем название атрибута -
Группа.Наименование. Тип данных оставим строковым. Размер поля в строковых атрибутах предлагается равным 100, оставим это без изменений.
Аналогично введите названия атрибутов :для измерения Товар.Код -
Товар.Наименование, для измерения

16
Отдел.Код - Отдел.Наименование..
Каждое измерение может ссылаться на другое измерение, реализуя тем самым иерархию измерений (схема «снежинка»). В нашем случае измерение
Товар.Код ссылается на Группа.Код (см. табл. 1 и табл. 2). Эту ссылку и установим путем добавления объекта к измерению, для этого в измерении
«Товар.Код» правой кнопкой мыши откроем Измерение и выберем пункт
Добавить. Имя ссылки зададим GR_ID_1, а метку - Группа.Код. Ссылка на измерение отображается иконкой
После того как все измерения и ссылки на измерения созданы, приступают к формированию процесса. Назовем его Продажи и «соберем» его из 4 существующих измерений: Дата, Отдел.Код, Товар.Код, Час (кнопка ). Кроме них в нашем процессе присутствуют два факта: Количество и Сумма, причем первый - целочисленный, второй – вещественный. Результат представлен на рисунке 3.

17
На этом проектирование структуры и метаданных ХД закончено. Для того чтобы принять все изменения, нужно нажать кнопку Принять изменения
После этого закройте окно редактора. Структура хранилища данных готова.
Задание. Для выбранной предметной области сформировать хранилище данных, заполнить его. Привести примеры вывода данных.
Содержание отчета
1. Цель работы.
2. Ход работы.
3. Ответы на вопросы.
4. Листинг программы.
5. Заключение.
Вопросы

1 2 3