Главная страница
Навигация по странице:

  • Содержание

  • Отчет по лабораторной работе 1 по курсу Специальные технологии обработки и анализа данных


    Скачать 7.22 Mb.
    НазваниеОтчет по лабораторной работе 1 по курсу Специальные технологии обработки и анализа данных
    Анкорdata mining
    Дата06.03.2023
    Размер7.22 Mb.
    Формат файлаdocx
    Имя файлаLaboratornaya_1_data_mining.docx
    ТипОтчет
    #971328

    МИНОБРНАУКИ РОССИИ

    РГУ нефти и газа (НИУ) имени И.М. Губкина


    Факультет

    комплексной безопасности ТЭК


    ОТЧЕТ ПО ЛАБОРАТОРНОЙ РАБОТЕ №1

    по курсу «Специальные технологии обработки и анализа данных»








    ВЫПОЛНИЛ:










    Студент группы

    КЭ-18-02










    (номер группы)







    Гущина Анна Олеговна







    (фамилия, имя, отчество)













    Москва, 20

    21



    Содержание


    1.Постановка задачи 3

    2.Выбор входных параметров 3

    3.Моделирование 4

    1)Анализ результатов 11

    Основная часть
    1. Постановка задачи


    Провести классификацию данных о клиентах (таблица customers) методом Decision Tree на предмет выявления их семейного положения. Обосновать выбор полей, используемых для классификации.
    1. Выбор входных параметров


    Классификация проводилась по данным таблицы SH.CUSTOMERS, атрибутами которой являются:

    CUST_ID

    CUST_FIRST_NAME

    CUST_LAST_NAME

    CUST_GENDER

    CUST_YEAR_OF_BIRTH

    CUST_MARITAL_STATUS

    CUST_STREET_ADDRESS

    CUST_POSTAL_CODE

    CUST_CITY

    CUST_CITY_ID

    CUST_STATE_PROVINCE

    CUST_STATE_PROVINCE_ID

    COUNTRY_ID

    CUST_MAIN_PHONE_NUMBER

    CUST_INCOME_LEVEL

    CUST_CREDIT_LIMIT

    CUST_EMAIL

    CUST_TOTAL

    CUST_TOTAL_ID

    CUST_SCR_ID

    CUST_EFF_FROM

    CUST_EFF_TO

    CUST_VALID


    В ходе лабораторной работы основными параметрами были выбраны:

    CUST_MARITAL_STATUS

    CUST_GENDER

    CUST_INCOME_LEVEL

    CUST_CREDIT_LIMIT

    Данные параметры присутствуют при построении каждой модели, что будет рассмотрено в следующей части работы. Эти атрибуты также дополняются другими для более качественного и точного анализа. Выбор полей обосновывается тем, что данные показатели напрямую влияют на определение семейного положения покупателей.
    1. Моделирование


    1) В первую очередь, для классификации необходимы данные, по которым она будет проводиться. Таким образом, мы добавляем DATA SOURSE на рабочую страницу. Затем выбираем ресурс, то есть таблицу SH.CUSTOMERS, и переносим в правую часть все доступные атрибуты (рис.1).



    Рисунок 1 – настройка DATA SOURСE

    2) Далее необходимо добавить EXPLORE DATA для анализа данных. Соединяем DATA SOURСE с EXPLORE DATA. EXPLORE DATA предоставляет нам анализ данных по различным показателям (рис. 2).



    Рисунок 2 – настройка EXPLORE DATA

    1. Классификация

    В ходе лабораторной работы были созданы 8 классификаций (рис. 3)



    Рисунок 3- Модели

    Рассмотрим каждую подробнее.

    CLASS BUILD и CLASS BUILD 1 содержали одинаковые параметры за исключением того, что CLASS BUILD 1 содержала CASE_ID – CUST_ID (рис.4-5). Также во всех восьми классификациях в настройках модели было выбрано только Decision Tree.



    Рисунок 4 – настройка CLASS BUILD 1



    Рисунок 5 – Параметры CLASS BUILD 1

    Обе модели были соединены с DATA SOURСE, но ни одна из них не работает.

    Таким образом, был добавлен SQL QUERY для улучшения качества данных, то есть избавления данных от значения null. SQL QUERY был соединен с DATA SOURСE.

    Был написан запрос (рис. 6):

    SELECT "CUSTOMERS_N$10001"."COUNTRY_ID","CUSTOMERS_N$10001"."CUST_CITY","CUSTOMERS_N$10001"."CUST_CITY_ID","CUSTOMERS_N$10001"."CUST_CREDIT_LIMIT","CUSTOMERS_N$10001"."CUST_EFF_FROM","CUSTOMERS_N$10001"."CUST_EFF_TO","CUSTOMERS_N$10001"."CUST_EMAIL","CUSTOMERS_N$10001"."CUST_FIRST_NAME","CUSTOMERS_N$10001"."CUST_GENDER","CUSTOMERS_N$10001"."CUST_ID","CUSTOMERS_N$10001"."CUST_INCOME_LEVEL","CUSTOMERS_N$10001"."CUST_LAST_NAME","CUSTOMERS_N$10001"."CUST_MAIN_PHONE_NUMBER","CUSTOMERS_N$10001"."CUST_MARITAL_STATUS","CUSTOMERS_N$10001"."CUST_POSTAL_CODE","CUSTOMERS_N$10001"."CUST_SRC_ID","CUSTOMERS_N$10001"."CUST_STATE_PROVINCE","CUSTOMERS_N$10001"."CUST_STATE_PROVINCE_ID","CUSTOMERS_N$10001"."CUST_STREET_ADDRESS","CUSTOMERS_N$10001"."CUST_TOTAL","CUSTOMERS_N$10001"."CUST_TOTAL_ID","CUSTOMERS_N$10001"."CUST_VALID","CUSTOMERS_N$10001"."CUST_YEAR_OF_BIRTH"

    FROM "CUSTOMERS_N$10001"

    WHERE "CUSTOMERS_N$10001"."CUST_MARITAL_STATUS" IS NOT NULL



    Рисунок 6 – настройка SQL QUERY

    CLASS BUILD 2 не была подсоединена к DATA SOURСE и не работает.

    Рассмотрим CLASS BUILD 3 (рис. 7-8)

    Target – CUST_MARITAL_STATUS

    CASE ID – отсутствует

    На вход были выбраны 5 параметров, включая CUST_MARITAL_STATUS.



    Рисунок 7 -Настройка CLASS BUILD 3



    Рисунок 8- параметры CLASS BUILD 3

    Рассмотрим CLASS BUILD 4 (рис. 9-10)

    Target – CUST_MARITAL_STATUS

    CASE ID – отсутствует

    На вход были выбраны 7 параметров, включая CUST_MARITAL_STATUS.



    Рисунок 9 -Настройка CLASS BUILD 4


    Рисунок 10 - параметры CLASS BUILD 4

    Рассмотрим CLASS BUILD 5 (рис. 11)

    Target – CUST_MARITAL_STATUS, CASE ID – отсутствует (аналогично предыдущим моделям).

    На вход были выбраны 11 параметров, включая CUST_MARITAL_STATUS.



    Рисунок 11 - параметры CLASS BUILD 5

    Рассмотрим CLASS BUILD 6 (рис. 12)

    Target – CUST_MARITAL_STATUS, CASE ID – отсутствует (аналогично предыдущим моделям).

    На вход были автоматически выбраны все параметры.



    Рисунок 12 - параметры CLASS BUILD 6

    Рассмотрим CLASS BUILD 7 (рис. 13)

    Target – CUST_MARITAL_STATUS, CASE ID – отсутствует (аналогично предыдущим моделям).

    На вход были выбраны 9 параметров, включая CUST_MARITAL_STATUS.



    Рисунок 13 - параметры CLASS BUILD 7
    1. Анализ результатов


    Так как модели CLASS BUILD, CLASS BUILD 1, CLASS BUILD 2 не работают, перейдем к результатам работающих классификаций.

    CLASS BUILD 3 и CLASS BUILD 4 выполнены на 24,4 % и 28,3% соответственно, то является довольно низкими показателями (рис. 14-15).



    Рисунок 14 - результаты CLASS BUILD 3



    Рисунок 15 - результаты CLASS BUILD 4

    В следующей модели CLASS BUILD 5 при добавлении параметров результат вырос и составил 37% (рис. 16).



    Рисунок 16 - результаты CLASS BUILD 5

    CLASS BUILD 6 с использованием всех параметров (что делалось для проверки) показала результат ниже предыдущего, что говорит о излишке параметров, используемых для классификации (рис.17).



    Рисунок 17 - результаты CLASS BUILD 6

    Наконец, 7 модель показала лучший результат, который составил 37,6847 % (рис.18-19).



    Рисунок 18 - результаты CLASS BUILD 7



    Рисунок 19 - дерево CLASS BUILD 7

    Таким образом, классификация по настройкам CLASS BUILD 7 является наиболее подходящей для решения задачи лабораторной работы.


    написать администратору сайта