Главная страница

отчет. Н. Ф. Гусарова, Н. В


Скачать 2.27 Mb.
НазваниеН. Ф. Гусарова, Н. В
Анкоротчет
Дата19.02.2022
Размер2.27 Mb.
Формат файлаdocx
Имя файла2536.docx
ТипДокументы
#367348
страница5 из 19
1   2   3   4   5   6   7   8   9   ...   19

ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ



Цель работы: выделение наиболее показательных системных счёт- чиков, которые косвенно могут давать нам информацию об остальных пара- метрах системы.

Выполнение:


Для выполнения практической работы №1 мы используем программ- ное обеспечение Statsoft® STATISTICA, MS Excel. В качестве датасета будет использован датасет Absenteeism at work, взятый с сайта https://archive.ics.uci.edu/.

Датасет содержит следующие признаки:

  1. Individual identification (ID).

  2. Reason for absence (ICD).

  3. Month of absence.

  4. Day of the week (Monday (2), Tuesday (3), Wednesday (4), Thursday (5), Friday (6)).

  5. Seasons.

  6. Transportation expense.

  7. Distance from Residence to Work (kilometers).

  8. Service time.

  9. Age.

  10. Work load Average/day.

  11. Hit target.

  12. Disciplinary failure (yes=1; no=0).

  13. Education (high school (1), graduate (2), postgraduate (3), master and doctor (4)).

  14. Son (number of children).

  15. Social drinker (yes=1; no=0).

  16. Social smoker (yes=1; no=0).

  17. Pet (number of pet).

  18. Weight.

  19. Height.

  20. Body mass index.

  21. Absenteeism time in hours (target).


Все признаки датасета являются числовыми, поэтому не требует пре- образований. Рассчитав дисперсию в MS Excel мы не получили нулевых зна- чений, поэтому будем рассматривать все признаки.




Рис. 1.1 Скриншот исходных данных


Рис. 1.2. Корреляционная матрица

Построим корреляционную матрицу (рис.1.2.) и выделим наиболее значимые коэффициенты корреляции, проанализируем их значения. По мат- рице корреляции можно увидеть, что наиболее коррелирующие параметры:

  • Service time и Age (Стаж и Возраст).

  • Вес и Индекс Массы тела


Далее согласно условию построим График каменистой осыпи (рис.

1.3).




Рис. 1.3. График каменистой осыпи

Из полученного графика можно увидеть, что «перегиб» происходит на значении 4. Таким образом, можно выделить 4 фактора. Значит можно выделить 4 группы признаков.

Построим график нагрузок (рис. 1.4):


Рис. 1.4. График нагрузок
На графике отображены все параметры датасета. Мы видим, что они сгруппированы в разных областях. Из-за большого количества признаков сложно разобрать наименования параметров, а также непонятно, к какой об- ласти отнести тот или иной параметр, поэтому отобразим график нагрузок в формате 3D (рис. 1.5) и попробуем разметить группы признаков.




Рис. 1.5. График нагрузок в формате 3D

Таким образом, мы получили следующие группы признаков:

  • Reasons for absence, day of the week, distance from residence to work;

  • Month of absence, Seasons, Work load Average/day, Disciplinary failure, Son, Social smoker, Height, Absenteeism time in hours;

  • Service time, Age, Social drinker, weight, body mass index;

  • Transportation expense, Education, Pet.

Они формируются на основе того, что эти признаки взаимосвязаны, например, третья группа содержит индекс массы тела и вес - индекс массы тела вычисляется на основе веса, стаж работы зависит от возраста и к этим параметрам еще добавляется употребление алкоголя.

Попробуем уменьшить количество факторов, исключая те факторы, которые меньше всего влияют на целевой признак. Таким образом, полу- чаем следующий результат, целевой признак очень сильно зависит от веса работников (рис.1.6).



Рис. 1.6. Скриншот таблицы нагрузок

1   2   3   4   5   6   7   8   9   ...   19


написать администратору сайта