Главная страница

отчет. Н. Ф. Гусарова, Н. В


Скачать 2.27 Mb.
НазваниеН. Ф. Гусарова, Н. В
Анкоротчет
Дата19.02.2022
Размер2.27 Mb.
Формат файлаdocx
Имя файла2536.docx
ТипДокументы
#367348
страница7 из 19
1   2   3   4   5   6   7   8   9   10   ...   19

ЦЕЛЬ РАБОТЫ



Реализовать алгоритм по отбору признаков на выбранном наборе данных.

ЗАДАНИЕ НА ПРАКТИЧЕСКУЮ РАБОТУ И ПОРЯДОК ВЫПОЛНЕНИЯ





  1. Выбрать предметную область и набор данных, согласовать выбор с пре- подавателем. Можно использовать репозиторий ресурса http://archive.ics.uci.edu/ml/.

  2. Выбрать алгоритм отбора признаков, согласовать выбор с преподавате- лем.

  3. Реализовать алгоритм по отбору признаков на выбранном наборе дан- ных. Выбор способа реализации алгоритма предоставляется студенту.

  4. Проверить качество реализованного отбора признаков с помощью од- ного из критериев.



ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ


Для выполнения лабораторной работы был выбран датасет, содержа- щий показатели исследуемых пациентов, у которых был диагностирован рак молочной железы. Датасет взят из архива UCI: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra#.

Описание отобранного датасета:

Существует 10 предикторов, все количественные, и бинарная зави- симая переменная, указывающая на наличие или отсутствие рака молочной железы. Предикторами являются антропометрические данные и параметры, которые могут быть собраны при анализе крови.

Атрибуты:

  1. Age (years) возраст.

  2. BMI (kg/m2) индекс массы тела.

  3. Glucose (mg/dL) уровень сахара в крови.

  4. Insulin (µU/mL) содержание инсулина в организме.

  5. HOMA индекс инсулинорезистентности.

  6. Leptin (ng/mL) содержание лептина в организме.

  7. Adiponectin (µg/mL) гормон адипонектин.

  8. Resistin (ng/mL) гормон резистин.

  9. MCP-1(pg/dL) содержание компонента MCP-1.

Рис. 2.1. Пример данных из датасета Импортируем необходимые модули и библиотеки:


Для работы с данными осуществим необходимые преобразования:
Отбор признаков будем осуществлять на основе их важности. Пер- вым методом выберем линейную регрессию. Используем функцию Line- arRegression. Для оценки точности алгоритма линейной регрессии будем ис- пользовать RMSE.


Полученный коэффициент точности равен 0,98614.

В результате проделанной работе получили следующий результат:




Самыми показательными параметрами получились содержание са- хара в крови и гормон резистин.В качестве второго метода для отбора при- знаков выберем метод случайного леса.

Ансамблевые алгоритмы на основе деревьев решений, такие как слу- чайный лес (random forest), позволяют оценить важность признаков.

В результате выявили два важных признака: резистин и содержание сахара в крови. Получили результат RMSE равный 0.6213, что намного меньше в сравнении с оценкой алгоритма линейной регрессии. Значит, ме- тод случайного леса является более точным для отбора признаков.

1   2   3   4   5   6   7   8   9   10   ...   19


написать администратору сайта