Главная страница
Навигация по странице:

  • А. Загрузка данных

  • В. Стандартизация данных

  • Примечание: вместо двух методов fit и transform можно использовать метод fit_transfrom, чтобы сразу настроить параметры и преобразовать данные.

  • преработка данных. Лабораторная работа 04. Предобработка чистых данных. Лабораторная работа 4 Предобработка неискажённых данных Цель Ознакомиться с методами предобработки данных из библиотеки Scikit Learn


    Скачать 441.41 Kb.
    НазваниеЛабораторная работа 4 Предобработка неискажённых данных Цель Ознакомиться с методами предобработки данных из библиотеки Scikit Learn
    Анкорпреработка данных
    Дата22.10.2022
    Размер441.41 Kb.
    Формат файлаpdf
    Имя файлаЛабораторная работа 04. Предобработка чистых данных.pdf
    ТипЛабораторная работа
    #748161

    Лабораторная работа №4
    Предобработка неискажённых данных
    Цель:
    Ознакомиться с методами предобработки данных из библиотеки Scikit Learn
    Выполнение:
    А. Загрузка данных
    1. Загрузить датасет из прилагаемого файла (Данные представлены в виде csv таблицы).
    Можно скачать отсюда https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data.
    2. Создать Python скрипт. Загрузить датасет в датафрейм, и исключить бинарные признаки и признак времени. Вывести датафрейм на консоль (простой print(df)).
    3. Построить гистограммы признаков
    4. На основании гистограмм определите диапазоны значений для каждого из признаков, а также возле какого значения лежит наибольшее количество наблюдений.
    5. Так как библиотека Sklearn работает с NumPy массива, то преобразуйте датафрейм к двумерному массиву NumPy, где строка соответствует наблюдению, а столбец признаку

    В. Стандартизация данных
    1. Подключите модуль Sklearn. Настройте стандартизацию на основе первых 150 наблюдений используя
    StandardScaler
    2. Стандартизуйте все данные
    3. Постройте гистограммы стандартизированных данных
    4. Сравните данные до и после стандартизации. Опишите, что изменилось и почему.
    5. Рассчитайте мат. ожидание и СКО до и после стандартизации. На основании этих значений выведите для каждого признака формулы по которым они стандартизировались.
    6. Сравните значений из формул с полями mean_ и var_ объекта scaler
    7. Проведите настройку стандартизации на всех данных и сравните с результатами настройки на основании 150 наблюдений
    Примечание: вместо двух методов fit и transform можно использовать метод
    fit_transfrom,
    чтобы сразу настроить параметры и преобразовать данные.
    1
    ].
    set_title
    (
    'creatinine_phosphokinase'
    )

    С. Приведение к диапазону
    1. Приведите данные к диапазону [0,1], используя
    MinMaxScaler
    2. Постройте гистограммы для признаков и сравните с исходными данными
    3. Через параметры MinMaxScaler определите минимальное и максимальное значение в данных для каждого признака
    4. Напишите функцию, которая приводит все данные к диапазону [-5 10]. Примените её и постройте гистограммы полученных данных.
    D.
    Нелинейные преобразования
    1. Приведите данные к равномерному распределению используя
    QuantileTransformer
    2. Постройте гистограммы и сравните с исходными данными
    3. Определите, как и на что влияет значение параметра n_quantiles
    4. Приведите данные к нормальному распределению передав в QuantileTransformer параметр
    output_distribution=‘normal’
    5. Постройте гистограммы и сравните с исходными данными
    6. Самостоятельно приведите данные к нормальному распределению используя
    PowerTransformer
    . Приведите скрипт операции и гистограммы полученных данных.
    E.
    Дискретизация признаков
    1. Проведите дискретизацию признаков, используя
    KBinsDiscretizer
    , на следующее количество диапазонов:
    age - 5
    creatinine_phosphokinase - 4
    ejection_fraction - 6
    platelets - 10
    serum_creatinine - 7
    serum_sodium - 4 2. Постройте гистограммы. Объясните полученные результаты
    3. Через параметр bin_edges_ выведите диапазоны каждого интервала для каждого признака


    написать администратору сайта