Отчет по лабораторной работе 1 по курсу Специальные технологии обработки и анализа данных
Скачать 7.22 Mb.
|
МИНОБРНАУКИ РОССИИ РГУ нефти и газа (НИУ) имени И.М. Губкина
ОТЧЕТ ПО ЛАБОРАТОРНОЙ РАБОТЕ №1 по курсу «Специальные технологии обработки и анализа данных»
Содержание1.Постановка задачи 3 2.Выбор входных параметров 3 3.Моделирование 4 1)Анализ результатов 11 Основная часть Постановка задачиПровести классификацию данных о клиентах (таблица customers) методом Decision Tree на предмет выявления их семейного положения. Обосновать выбор полей, используемых для классификации. Классификация проводилась по данным таблицы SH.CUSTOMERS, атрибутами которой являются: CUST_ID CUST_FIRST_NAME CUST_LAST_NAME CUST_GENDER CUST_YEAR_OF_BIRTH CUST_MARITAL_STATUS CUST_STREET_ADDRESS CUST_POSTAL_CODE CUST_CITY CUST_CITY_ID CUST_STATE_PROVINCE CUST_STATE_PROVINCE_ID COUNTRY_ID CUST_MAIN_PHONE_NUMBER CUST_INCOME_LEVEL CUST_CREDIT_LIMIT CUST_EMAIL CUST_TOTAL CUST_TOTAL_ID CUST_SCR_ID CUST_EFF_FROM CUST_EFF_TO CUST_VALID В ходе лабораторной работы основными параметрами были выбраны: CUST_MARITAL_STATUS CUST_GENDER CUST_INCOME_LEVEL CUST_CREDIT_LIMIT Данные параметры присутствуют при построении каждой модели, что будет рассмотрено в следующей части работы. Эти атрибуты также дополняются другими для более качественного и точного анализа. Выбор полей обосновывается тем, что данные показатели напрямую влияют на определение семейного положения покупателей. Моделирование1) В первую очередь, для классификации необходимы данные, по которым она будет проводиться. Таким образом, мы добавляем DATA SOURSE на рабочую страницу. Затем выбираем ресурс, то есть таблицу SH.CUSTOMERS, и переносим в правую часть все доступные атрибуты (рис.1). Рисунок 1 – настройка DATA SOURСE 2) Далее необходимо добавить EXPLORE DATA для анализа данных. Соединяем DATA SOURСE с EXPLORE DATA. EXPLORE DATA предоставляет нам анализ данных по различным показателям (рис. 2). Рисунок 2 – настройка EXPLORE DATA Классификация В ходе лабораторной работы были созданы 8 классификаций (рис. 3) Рисунок 3- Модели Рассмотрим каждую подробнее. CLASS BUILD и CLASS BUILD 1 содержали одинаковые параметры за исключением того, что CLASS BUILD 1 содержала CASE_ID – CUST_ID (рис.4-5). Также во всех восьми классификациях в настройках модели было выбрано только Decision Tree. Рисунок 4 – настройка CLASS BUILD 1 Рисунок 5 – Параметры CLASS BUILD 1 Обе модели были соединены с DATA SOURСE, но ни одна из них не работает. Таким образом, был добавлен SQL QUERY для улучшения качества данных, то есть избавления данных от значения null. SQL QUERY был соединен с DATA SOURСE. Был написан запрос (рис. 6): SELECT "CUSTOMERS_N$10001"."COUNTRY_ID","CUSTOMERS_N$10001"."CUST_CITY","CUSTOMERS_N$10001"."CUST_CITY_ID","CUSTOMERS_N$10001"."CUST_CREDIT_LIMIT","CUSTOMERS_N$10001"."CUST_EFF_FROM","CUSTOMERS_N$10001"."CUST_EFF_TO","CUSTOMERS_N$10001"."CUST_EMAIL","CUSTOMERS_N$10001"."CUST_FIRST_NAME","CUSTOMERS_N$10001"."CUST_GENDER","CUSTOMERS_N$10001"."CUST_ID","CUSTOMERS_N$10001"."CUST_INCOME_LEVEL","CUSTOMERS_N$10001"."CUST_LAST_NAME","CUSTOMERS_N$10001"."CUST_MAIN_PHONE_NUMBER","CUSTOMERS_N$10001"."CUST_MARITAL_STATUS","CUSTOMERS_N$10001"."CUST_POSTAL_CODE","CUSTOMERS_N$10001"."CUST_SRC_ID","CUSTOMERS_N$10001"."CUST_STATE_PROVINCE","CUSTOMERS_N$10001"."CUST_STATE_PROVINCE_ID","CUSTOMERS_N$10001"."CUST_STREET_ADDRESS","CUSTOMERS_N$10001"."CUST_TOTAL","CUSTOMERS_N$10001"."CUST_TOTAL_ID","CUSTOMERS_N$10001"."CUST_VALID","CUSTOMERS_N$10001"."CUST_YEAR_OF_BIRTH" FROM "CUSTOMERS_N$10001" WHERE "CUSTOMERS_N$10001"."CUST_MARITAL_STATUS" IS NOT NULL Рисунок 6 – настройка SQL QUERY CLASS BUILD 2 не была подсоединена к DATA SOURСE и не работает. Рассмотрим CLASS BUILD 3 (рис. 7-8) Target – CUST_MARITAL_STATUS CASE ID – отсутствует На вход были выбраны 5 параметров, включая CUST_MARITAL_STATUS. Рисунок 7 -Настройка CLASS BUILD 3 Рисунок 8- параметры CLASS BUILD 3 Рассмотрим CLASS BUILD 4 (рис. 9-10) Target – CUST_MARITAL_STATUS CASE ID – отсутствует На вход были выбраны 7 параметров, включая CUST_MARITAL_STATUS. Рисунок 9 -Настройка CLASS BUILD 4 Рисунок 10 - параметры CLASS BUILD 4 Рассмотрим CLASS BUILD 5 (рис. 11) Target – CUST_MARITAL_STATUS, CASE ID – отсутствует (аналогично предыдущим моделям). На вход были выбраны 11 параметров, включая CUST_MARITAL_STATUS. Рисунок 11 - параметры CLASS BUILD 5 Рассмотрим CLASS BUILD 6 (рис. 12) Target – CUST_MARITAL_STATUS, CASE ID – отсутствует (аналогично предыдущим моделям). На вход были автоматически выбраны все параметры. Рисунок 12 - параметры CLASS BUILD 6 Рассмотрим CLASS BUILD 7 (рис. 13) Target – CUST_MARITAL_STATUS, CASE ID – отсутствует (аналогично предыдущим моделям). На вход были выбраны 9 параметров, включая CUST_MARITAL_STATUS. Рисунок 13 - параметры CLASS BUILD 7 Анализ результатовТак как модели CLASS BUILD, CLASS BUILD 1, CLASS BUILD 2 не работают, перейдем к результатам работающих классификаций. CLASS BUILD 3 и CLASS BUILD 4 выполнены на 24,4 % и 28,3% соответственно, то является довольно низкими показателями (рис. 14-15). Рисунок 14 - результаты CLASS BUILD 3 Рисунок 15 - результаты CLASS BUILD 4 В следующей модели CLASS BUILD 5 при добавлении параметров результат вырос и составил 37% (рис. 16). Рисунок 16 - результаты CLASS BUILD 5 CLASS BUILD 6 с использованием всех параметров (что делалось для проверки) показала результат ниже предыдущего, что говорит о излишке параметров, используемых для классификации (рис.17). Рисунок 17 - результаты CLASS BUILD 6 Наконец, 7 модель показала лучший результат, который составил 37,6847 % (рис.18-19). Рисунок 18 - результаты CLASS BUILD 7 Рисунок 19 - дерево CLASS BUILD 7 Таким образом, классификация по настройкам CLASS BUILD 7 является наиболее подходящей для решения задачи лабораторной работы. |