RapidMiner_ЛР_№2. Руководство по лабораторной работе Перетащите импортированный набор данных на поле
Скачать 159.16 Kb.
|
ФГБОУ BПO «Уфимский государственный авиационный технический университет» кафедра вычислительной математики и кибернетики Система интеллектуального анализа данных«RapidMiner» Лабораторная работа №2Цель и задачиЦель: приобрести навыки корреляционного анализа набора данных с помощью системы интеллектуального анализа данных RapidMiner. Задачи: Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы; Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы; Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению. Обучающее заданиеСоздайте новый проект и импортируйте файл LabO2DataSet.csv[сы.руководство по лабораторной работе № 1). Перетащите импортированный набор данных на поле Главный Пpoqecc, соедините его сплайном с портом результата и нажмите кнопку Запуск. В результате будет произведена аналитическая обработка выбранного набора данных в соответствии со структурой ГлавногоПроцессаи автоматически откроется окно РезультатыПроцесса(рис. 1).Result Overview I Example S et (R etrieve Lab0?DataSet) Data View • Meta Data View Plot View Advanced Charts Annotations
Example 3et (1 21 8 example s, 0 special attribute s. 6 re gular attributes) Рис. 1. Окно Результаты Процесса Набор данных содержит 1218 экземпляров и 6 атрибутов:Insulation -теплоизоляция дома по десятибалльной шкале, 1 — плохая теплоизоляция,..., 10 — отличная теплоизоляция. Temperature-среднегодовая температура за окнами дома в Фаренгейтах. Heating_Oil - количество приобретенных блоков нагревательного материала в течение года на один дом.Num_Occupants-количество жильцов в доме. Avg_Age-средний возраст жильцов в доме. Home_Size-размер дома по восьмибальной шкале, 1 — небольшой дом, ..., 8— огромный дом. Отсутствующих данных или данных, не соответствующих типу атрибута нет. Таким образом, набор данных готов к аналитической обработке. Произведите корреляционный анализ атрибутов набора данных. Для этого переключитесь на окно проекта. Во вкладке Операторы в строке поиска введите имя оператора CorrelationMatrix(Корреляционная Матрица). Перетащите найденный оператор на поле ГлавныйПроцессна сплайн, идущий к порту результата, внедряя его в существующий Главньш Процессаналитической обработки данных. Порт mat (МаТрица) операТОра /foppeяqпOHH‹2я МатрицаТаКже соедиНиТе спорТОМ реЗулЬТаТа Гл‹28НОзо Процесса. В реЗулЬТаТе поле ГлавНЬіО Процесс примеТ Bи,Q КаК На рисуНКе 2. Proess |XML i в$' • | .Process › РИС. 2. поле глаВНьІН процесс пocяеqобаВлеНип оператора КорреляцИОННая Матјэии,а НажмиТе KHonKy Janycu, и RapidMiner аВТОМаТичесКи OTKpoeT oKHO КорреляционнаяМатрица(pгiC. 3). Result Overview IË Correlation Matrix (Gorrelation Matrix) І ExampleSet (Retrieve Lab02DataSet)
/J.’ Table View /.' P airwise Tabie '/”'. Plot View './” Annotations Attributes Insulation Temperature Heating_OiI Num_Occupants Avg_Age Home_Size PгiC. 3. OKHO КоррелпцГіОННая MaTpиu,a Задача№1Обучающегозадания: проанализировать полученную КорреляционнуюМатрицу,описать взаимную связь изменения значений всех возможных пар атрибутов, сделать вывод о силе данной связи. Визуализируйте анализируемый набор данных, чтобы убедиться в правильности расчета КорреляционнойМатрицы.Для этого переключитесь на окно Результаты Процесса во вкладку PlotView(Визуализация) и настройте параметры визуализации в соответствии с рисунком 4. Result Overview Ё°§ С orrelation Matrix (Сorrelation Matrix) | ExanJpleSet (Retrieve Lab0?DataSet) Data View Meta Data View • Plot View Advanced Charts Annotations Plotter x-Axis @ Log Scale yAxis @ Log 3cale Color Column Home_S iz е 1.ОО0 tеј е Si @ Log Scale @ Rotate Labels lnsu Іиion Рис. 4. Визуализация набора данных Задание для самостоятельного выполнения Составьте отчет по результатам выполнения обучающего задания лабораторной работы, включая ответы на все задачи обучающего задания. Отчет должен быть выполнен по аналогии с настоящим руководством по лабораторным работам и содержать изображения всех промежуточных этапов работы с их подробным описанием. Сформируйте свой сsv-файл данных, содержащий минимум 60 наблюдений и минимум 8 атрибутов (все атрибуты должны быть численного типа). В качестве наблюдений набора данных используйте профессиональных спортсменов, в качестве атрибутов — их спортивные показатели. Например, при выборе в качестве спортсмена профессионального баскетболиста в качестве атрибутов можно использовать такие показатели, как: позиция, количество лет в профессионалах, рост, среднее количество очков за игру, среднее количество подборов за игру, годовая зарплата и т.д. Создайте новый проект, импортируйте сформированный сsv-файл. Опишите импортированный набор данных, включая полное описание всех атрибутов. Определите базовые статистические показатели всех атрибутов набора данных.Рассчитайте КорреляционнуюМатрицу,проанализируйте ее, опишите взаимную связь изменения значений всех возможных пар атрибутов, сделайте вывод о силе данной связи. Визуализируйте анализируемый набор данных. Покажите соответствие Корреляционной Матрицы результатам визуализации. Добавьте в отчет по результатам выполнения обучающего задания результаты выполнения самостоятельного задания. Отчет должен быть выполнен по аналогии с настоящим руководством по лабораторным работам и содержать изображения всех промежуточных этапов работы с их подробным описанием. Требования по оформлению отчета: Текст: шрифт — Calibri, размер - 12 pt., расстояние между строками множитель 1.15. Поля: верхнее — 2 см., нижнее — 2 см., левое — 3 см. правое — 1.5 см. Нумерация страниц: есть, в правом нижнем углу. Титульный лист: есть, без нумерации. |