преработка данных. Лабораторная работа 04. Предобработка чистых данных. Лабораторная работа 4 Предобработка неискажённых данных Цель Ознакомиться с методами предобработки данных из библиотеки Scikit Learn
Скачать 441.41 Kb.
|
Лабораторная работа №4 Предобработка неискажённых данных Цель: Ознакомиться с методами предобработки данных из библиотеки Scikit Learn Выполнение: А. Загрузка данных 1. Загрузить датасет из прилагаемого файла (Данные представлены в виде csv таблицы). Можно скачать отсюда https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data. 2. Создать Python скрипт. Загрузить датасет в датафрейм, и исключить бинарные признаки и признак времени. Вывести датафрейм на консоль (простой print(df)). 3. Построить гистограммы признаков 4. На основании гистограмм определите диапазоны значений для каждого из признаков, а также возле какого значения лежит наибольшее количество наблюдений. 5. Так как библиотека Sklearn работает с NumPy массива, то преобразуйте датафрейм к двумерному массиву NumPy, где строка соответствует наблюдению, а столбец признаку В. Стандартизация данных 1. Подключите модуль Sklearn. Настройте стандартизацию на основе первых 150 наблюдений используя StandardScaler 2. Стандартизуйте все данные 3. Постройте гистограммы стандартизированных данных 4. Сравните данные до и после стандартизации. Опишите, что изменилось и почему. 5. Рассчитайте мат. ожидание и СКО до и после стандартизации. На основании этих значений выведите для каждого признака формулы по которым они стандартизировались. 6. Сравните значений из формул с полями mean_ и var_ объекта scaler 7. Проведите настройку стандартизации на всех данных и сравните с результатами настройки на основании 150 наблюдений Примечание: вместо двух методов fit и transform можно использовать метод fit_transfrom, чтобы сразу настроить параметры и преобразовать данные. 1 ]. set_title ( 'creatinine_phosphokinase' ) С. Приведение к диапазону 1. Приведите данные к диапазону [0,1], используя MinMaxScaler 2. Постройте гистограммы для признаков и сравните с исходными данными 3. Через параметры MinMaxScaler определите минимальное и максимальное значение в данных для каждого признака 4. Напишите функцию, которая приводит все данные к диапазону [-5 10]. Примените её и постройте гистограммы полученных данных. D. Нелинейные преобразования 1. Приведите данные к равномерному распределению используя QuantileTransformer 2. Постройте гистограммы и сравните с исходными данными 3. Определите, как и на что влияет значение параметра n_quantiles 4. Приведите данные к нормальному распределению передав в QuantileTransformer параметр output_distribution=‘normal’ 5. Постройте гистограммы и сравните с исходными данными 6. Самостоятельно приведите данные к нормальному распределению используя PowerTransformer . Приведите скрипт операции и гистограммы полученных данных. E. Дискретизация признаков 1. Проведите дискретизацию признаков, используя KBinsDiscretizer , на следующее количество диапазонов: age - 5 creatinine_phosphokinase - 4 ejection_fraction - 6 platelets - 10 serum_creatinine - 7 serum_sodium - 4 2. Постройте гистограммы. Объясните полученные результаты 3. Через параметр bin_edges_ выведите диапазоны каждого интервала для каждого признака |