отчет. Н. Ф. Гусарова, Н. В
Скачать 2.27 Mb.
|
ЦЕЛЬ РАБОТЫРеализовать и сравнить два разных алгоритма деревьев решений. ЗАДАНИЕ НА ПРАКТИЧЕСКУЮ РАБОТУ И ПОРЯДОК ВЫПОЛНЕНИЯВыбрать статистический ряд, подходящий для построения дерева реше- ний, выделить на нем обучающую и контрольную выборку, согласовать с преподавателем. Реализовать алгоритм 2. В ходе реализации алгоритма выбрать способы решения проблем П1-П4, причем хотя бы одну из проблем решить двумя способами. ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫЦель работы: на выбранном наборе данных реализовать алгоритм случайного дерево и случайного леса, классифицировать важность влияния признаков на целевой признак. Сделать соответствующие выводы. Практическая работа выполнена на наборе данных Parkinson Dataset with replicated acoustic features Data Set. Ссылка: http://archive.ics.uci.edu/ml/datasets/Parkinson+Dataset+with+replicated+acous tic+features+ Аннотация: набор данных содержит акустические характеристики, извлеченные из 3-х голосовых записей, на которые записана непрерывная речь каждого из 80 объектов исследования (40 из которых имеют болезнь Паркинсона). Датасет содержит следующие признаки: ID: уникальный идентификатор объекта исследования. Recording: порядковый номер голосовой записи. Status: 0=здоров; 1= болезнь Паркинсона Gender: 0=муж; 1=жен Pitch local perturbation measures (фазовое дрожание цифрового сигнала данных): Relative jitter (Jitter_rel): средняя абсолютная разница между после- довательными периодами, деленная на средний период Absolute jitter (Jitter_abs): изменение основной частоты между цик- лами (средняя абсолютная разница между последовательными периодами). Relative average perturbation (Jitter_RAP): относительное среднее возмущение (средняя абсолютная разница между периодом и средним зна- чением для него и его двух соседей, деленная на средний период). Pitch perturbation quotient (Jitter_PPQ): коэффициент возмущения периода (средняя абсолютная разница между периодом и средним значе- нием, деленная на средний период). Amplitude perturbation measures:local shimmer (Shim_loc): средняя абсолютная разница между ампли- тудами двух последовательных периодов, деленных на среднюю амплитуду. 3,81% - предел обнаружения паталогий. shimmer in dB (Shim_dB): средняя абсолютная разница от ln разности между двумя последовательными периодами. Предел для обнаружения патологий составляет 0,350 дБ. 3-point amplitude perturbation quotient (Shim_APQ3): это трехточеч- ный коэффициент дрожания амплитуды, средняя абсолютная разница между амплитудой периода и средней амплитудой его соседей, деленная на среднюю амплитуду. 5-point amplitude perturbation quotient (Shim_APQ5): это коэффици- ент дрожания амплитуды из пяти точек, средняя абсолютная разница между амплитудой периода и средней амплитуды его и его четырех ближайших соседей, деленная на среднюю амплитуду. 11-point amplitude perturbation quotient (Shim_APQ11): это коэффи- циент дрожания амплитуды, равный 11 точкам, средняя абсолютная разница между амплитудой периода и средней амплитуды его и его десяти ближай- ших соседей, деленная на среднюю амплитуду. Параметр APQ и дает 3,070% в качестве порога для патологии. Harmonic-to-noise ratio measures: (отношение гармоник к шуму) in the frequency band 0-500 Hz (HNR05). in 0-1500 Hz (HNR15). in 0-2500 Hz (HNR25). in 0-3500 Hz (HNR35). in 0-3800 Hz (HNR38). Mel frequency cepstral coefficient-based spectral measures (еденица высоты тона) of order 0 to 12 (MFCC0 – MFCC12) and their derivatives (производные) (Delta0 – Delta12). Recurrence period density entropy (RPDE): энтропия плотности периода повторения. Detrended fluctuation analysis (DFA): метод Пенга или анализ отклоне- ния колебаний. Pitch period entropy (PPE): энтропия основного периода. Glottal-to-noise excitation ratio (GNE): соотношение возбуждения гор- тань-шум. Импортируем библиотеки, необходимые для выполнения практиче- ской работы: Укажем путь к датасету и импортируем его: Модифицируем датасет: Реализуем алгоритм «Случайное дерево». Реализуем алгоритм «Случайный лес». |