Главная страница

Курсовая. Шевченко Юрий Владимирович


Скачать 441.85 Kb.
НазваниеШевченко Юрий Владимирович
АнкорКурсовая
Дата16.03.2023
Размер441.85 Kb.
Формат файлаdocx
Имя файлаshevchenkouv.docx
ТипАвтореферат
#995831
страница4 из 5
1   2   3   4   5

Таблица 1. Процедуры заполнения пропущенных значений в зависимости от типа переменной.

Тип переменных

Метод заполнения пропущенных

значений

Непрерывные

С помощью линейной интерполяции

Дискретные

Наиболее часто встречающееся значение

Бинарные дискретные

(наличие/отсутствие признака)

Значение «нет признака»


На следующем этапе работы был произведен отбор переменных для включения в процесс построения моделей.

При отборе переменных с помощью оценки значимости различий в группах с гладким и осложненным течением послеоперационного периода для ретроспективного массива были отобраны 34 переменные, для которых p-значение не превышало 0,1. Для проспективного массива были отобраны 32 переменные.

Для выбора переменных с помощью многослойных нейронных сетей строились и обучались модели нейронных сетей на основе всего массива. Для каждого параметра рассчитывалась его значимость в модели (Importance). В связи с тем, что начальная карта весов в SPSS Neural Networks создается случайным образом, значимости параметров могут различаться в разных экспериментах. Для более точной оценки значимости параметров нейронная сеть на основе каждого набора параметров строилась многократно (от 2 до 10 раз) с целью установить параметры, для которых высокая значимость стабильна. Для ретроспективного массива были отобраны 10 переменных, для проспективного – 11 переменных.

Оценка переменных для использования в модели полносвязных нейронных сетей производилась с помощью сетей, построенных на обучающей выборке, включавшей весь массив данных. Модели состояли из разного количества нейронов – от 3 до 20. Для каждой переменной в обученной сети рассчитывались значимость в каждой сети, а также усредненная значимость для нескольких сетей. После обучения сетей и оценки значимости переменные ранжировались. Для ретроспективного массива были отобраны 23 переменные, для проспективного – 13 переменных.

Для достижения лучших результатов часть переменных была преобразована из непрерывных в дискретные. Для преобразования использовался анализ с помощью ROC-кривых. Сначала строилась ROC – кривая для определения влияния исследуемой переменной на значение выходной переменной (Рис. 2).


Рис. 2. ROC кривые для непрерывной и дискретизированной переменной

«резервный объем вдоха». (Кривая для дискретизированной переменной отмечена насыщенным цветом)
Затем визуально определялись точки перегиба ROC-кривой. Эти точки максимально отдалены от прямой y=x. По значениям чувствительности и специфичности определялись значения параметра в точке перегиба. Эти значения становились граничными для дискретизации.

Преобразование производилось в том случае, когда площадь под ROC- кривой увеличивалась более чем на 5% (Таблица 2) .

Таблица 2. Значения площади под ROC-кривой (auROC) и p-значения для непрерывных переменных и переменных, полученных с помощью ROC-анализа.


Переменная

auROC

p-значение

до преобра-

зования

после преобра- зования

до преобра-

зования

после преобра- зования

Резервный объем

вдоха, л

0,645

0,682

0,012

0,001

Минутная объемная скорость на 75%

выдоха, л/с


0,642


0,676


0,011


0,001

pH

0,604

0,647

0,049

0,003

Кальций плазмы,

мэкв/л

0,611

0,647

0,073

0,002

После отбора переменных строились модели на основе бинарной логистической регрессии и на основе искусственных нейронных сетей.

При построении моделей на основе бинарной логистической регрессии из отобранных переменных выбирались наборы, при которых модель имеет максимальный процент верных отнесений. Для этого использовались прямой и обратный пошаговые методы выбора. Прямой метод заключается в построении модели на основе наиболее значимой переменной и пошаговом добавлении других переменных. При обратном методе модель строится на основе всех переменных, а затем, исключая по одной переменной, определяется оптимальный набор.

В результате построения модели на основе ретроспективного массива была получена модель, которая имела процент верных отнесений 75%, наибольшее значение специфичности составило 0,88. Значение чувствительности не превышало 0,70. При проверке результатов с помощью скользящего экзамена лучшие результаты снижались до уровня 65%–70% верных отнесений. Недостаточно хорошие результаты, по нашему мнению, могли быть связаны с зашумленностью данных, возникшей в результате использования процедур автоматического заполнения пропусков.

При построении моделей на основе проспективного массива наиболее высокие результаты продемонстрировала модель, основанная на 8 параметрах:

  1. Интраоперационная кровопотеря.

  2. Резервный объем вдоха.

  3. Аспартатаминотрансфераза (АСТ).

  4. Мгновенная объемная скорость на 75% выдоха.

  5. Кальций плазмы при поступлении в ОАиР.

  6. Процент палочкоядерных лейкоцитов в лейкоцитарной формуле.

  7. Значение pH при поступлении в ОАиР.

  8. Наличие в анамнезе операций, требующих проведения общей анестезии.


Эта модель верно определяла тяжесть течения послеоперационного периода в 87,2% случаев, чувствительность для этой модели составила 0,85; специфичность

– 0,89. Площадь под ROC-кривой для этой модели составила 0,912 (Рис. 3). При оценке модели с помощью скользящего экзамена верно были распознаны 83,8% случаев при чувствительности 0,81 и специфичности 0,86 (Таблица 3.).

Таблица 3. Процент правильных отнесений (Perf), чувствительность (Se) и специфичность (Sp) моделей, полученных с помощью бинарной логистической регрессии. Проспективный массив.

Метод проверки качества

модели

Perf

Se

Sp

Тест на обучающей выборке

(весь массив)

87,2%

0,85

0,89

Скользящий экзамен

83,3%

0,81

0,86






Рис. 3. ROC-кривая для лучшей модели на основе бинарной логистической регрессии. Площадь под кривой равна 0,912.
Лучшая из моделей, построенных на основе многослойных нейронных сетей для ретроспективного массива, включала 10 переменных.

Модель содержала один скрытый слой из 7 нейронов. При обучении нейронной сети на всем массиве модель смогла верно распознать 86,5% случаев (чувствительность сети составила 0,79; специфичность 0,91). Для проверки устойчивости результата для ретроспективного массива использовались разделения массива на две выборки. В связи со случайным характером обучения нейронной сети для каждого разбиения обучение производилось несколько раз, после чего выбиралась модель с наибольшим процентом верных отнесений в тестовой выборке.

Результаты проверки на тестовой выборке оказались значительно ниже, чем при проверке на обучающей выборке. Лучший результат получился при разбиении 70%–обучающая выборка/30%–тестовая выборка. Эта модель правильно определила тяжесть течения послеоперационного периода для 75% пациентов из тестовой выборки (чувствительность и специфичность были равны 0,75). Для остальных разбиений результаты оказались ниже (Таблица 4).
Таблица 4. Процент правильных отнесений (Perf), чувствительность (Se) и специфичность (Sp) моделей при проверке разбиением массива на обучающую и тестовую выборки. Ретроспективный массив.

Размер обучающей выборки

Perf

Se

Sp

Весь массив

86,5%

0,79

0,91

50% массива

71%

0,56

0,81

60% массива

63%

0,42

0,82

70% массива

75%

0,75

0,75

80% массива

70%

0,58

0,77


Для проспективного массива лучшие результаты продемонстрировала многослойная нейронная сеть, основанная на списке параметров, содержащем 8 переменных:

  1. Интраоперационная кровопотеря.

  2. Резервный объем вдоха.

  3. АСТ.

  4. Мгновенная объемная скорость на 75% выдоха.

  5. Кальций плазмы при поступлении в ОАиР.

  6. Процент палочкоядерных лейкоцитов в лейкоцитарной формуле.

  7. Значение pH при поступлении в ОАиР.

  8. Цветовой показатель крови.


Этот набор переменных отличается от набора, использованного в лучшей модели бинарной логистической регрессии, на одну переменную (Цветовой показатель крови вместо параметра наличия/отсутствия операций в анамнезе).

Модель представляет собой нейронную сеть с тремя слоями, скрытый слой содержит 5 нейронов (Рис. 4).



Рис. 4. Схема многослойной искусственной нейронной сети. Входной слой имеет 8 нейронов соответственно 8 входным параметрам, скрытый слой содержит 5 нейронов (нейроны H) и выходной – 2 нейрона. Входной и скрытый слой имеют также по одному дополнительному нейрону – Bias (дополнительная константа).

Насыщенными линиями отмечены связи с отрицательным значением весовых коэффициентов.

Lf_04 – Процент палочкоядерных лейкоцитов в лейкоцитарной формуле; AST – Аспартатаминотрансфераза; mef75 Мгновенная объемная скорость на 75% выдоха; PH1 – Значение pH при поступлении в ОАиР; Ca_ – Кальций плазмы при поступлении в ОАиР; Blood – Интраоперационная кровопотеря; IRV – Резервный объем вдоха; Color – Цветовой показатель крови; ГТ – гладкое течение; ОТ – осложненное течение послеоперационного периода.

Функция активации нейронов скрытого слоя гиперболический тангенс. При обучении на всем массиве нейронная сеть правильно распознает все случаи. При проверке модели на тестовых выборках параметр чувствительности превышает 0,90 во всех случаях, кроме одного (Таблица 5).

Таблица 5. Процент правильных отнесений (Perf), чувствительность (Se) и специфичность (Sp) моделей при проверке разбиением массива на обучающую и тестовую выборки. Проспективный массив.

Размер обучающей выборки

Perf

Se

Sp

Весь массив

100%

1

1

50% массива

90%

0,93

0,88

60% массива

87%

0,88

0,87

70% массива

86%

0,94

0,83

80% массива

89%

0,93

0,86


Чувствительность моделей, построенных на основе полносвязных нейронных сетей для ретроспективного массива, не превышала 0,70. Для проспективного массива лучшие результаты были у модели, построенной на основе 8 переменных:

  1. Перенесенные операции в анамнезе.

  2. Процент палочкоядерных лейкоцитов в лейкоцитарной формуле.

  3. Процент сегментоядерных лейкоцитов в лейкоцитарной формуле.

  4. Резервный объем вдоха.

  5. Мгновенная объемная скорость на 75% выдоха.

  6. Давление на плато в дыхательном контуре аппарата ИВЛ в начале операции.

  7. Интраоперационная кровопотеря.

  8. Кальций плазмы при поступлении в ОАиР.


Из 8 переменных 6 содержались в списке переменных, использованных при построении моделей на основе бинарной логистической регрессии.

Модель, использующая эти параметры при проверке на различных тестовых выборках, имела процент верных отнесений выше 80%. Наиболее устойчивые результаты получились для модели, построенной на основе обучающей тестовой выборки, составившей 70% проспективного массива. Процент верных отнесений для модели составил 86%, чувствительность и специфичность 0,80 и 0,90 соответственно. Площадь под ROC-кривой при проверке на тестовой выборке составила 0,86 (Рис. 5).



Рис. 5. ROC-кривая для модели прогнозирования тяжести раннего послеоперационного периода на основе полносвязных нейронных сетей. Проспективный массив. Площадь под кривой равна 0,860.
На следующем этапе работы результаты оценки качества моделей были сопоставлены между собой.

Оценивались параметры чувствительности, специфичности, процента верных отнесений и площади под ROC-кривой при проверке на всей выборке и при проверке на тестовой выборке, составившей 30% массива. (Таблица 6).

Для всего проспективного массива лучшие результаты продемонстрировала модель многослойной нейронной сети, однако при проверке на тестовой выборке модель на основе бинарной логистической регрессии имела более высокие результаты.

Таблица 6.

Площадь под ROC-кривой (auROC), процент верных отнесений (Perf), чувствительность (Se) и специфичность (Sp) лучших моделей, построенных с помощью различных методов. Проспективный массив. Представлены результаты для моделей, построенных на всем массиве и на основе обучающей выборки, составившей 70% массива.

Наименование модели

auROC

Perf

Se

Sp

Бинарная логистическая регрессия

0,912

87,2%

0,85

0,89

Бинарная логистическая регрессия (70%)

0,946

89%

1

0,82

Многослойная нейронная сеть

1

100%

1

1

Многослойная нейронная сеть (70%)

0,92

86%

0,94

0,82

Полносвязная нейронная

сеть

0,96

96%

0,94

0,97

Полносвязная нейронная

сеть (70%)

0,86

86%

0,8

0,9


Для более объективного сравнения моделей, полученных на проспективном массиве, была проведена проверка их точности на вновь поступивших пациентах. За время, прошедшее с окончания набора данных для построения моделей, в отделении анестезиологии и реанимации РНЦРР находились 17 пациентов после радикальных операций по поводу рака легкого. Эксперт анестезиолог- реаниматолог оценил течение послеоперационного периода у 7 из этих пациентов как осложненное и у 10 как гладкое.

Все три модели верно распознали все 7 случаев осложненного течения послеоперационного периода. Для пациентов с гладким течением послеоперационного периода модели на основе бинарной логистической регрессии и многослойных нейронных сетей совершили по одной ошибке. Ошибка была совершена моделями для одного и того же случая. Модель на основе полносвязных нейронных сетей неправильно классифицировала 3 из 10 случаев, в том числе случай, ошибочно классифицированный другими моделями. Площади под ROC- кривыми составили по 0,986 для моделей бинарной логистической регрессии и многослойных нейронных сетей и 0,786 для модели на основе полносвязных нейронных сетей (Таблица 7, Рис. 6).

Таблица 7. Площадь под ROC-кривой (auROC), процент верных отнесений (Perf), чувствительность (Se) и специфичность (Sp) моделей, прогнозирующих тяжесть

течения послеоперационного периода, построенных с помощью различных методов.

Вновь поступившие пациенты.


Модель

auROC

Perf

Se

Sp

Бинарная логистическая

регрессия

0,986

94%

1

0,9

Многослойная нейронная

сеть

0,986

94%

1

0,9

Полносвязные нейронные

сети

0,786

82%

1

0,7


Результаты проверки моделей на проспективных данных показывают, что все три модели могут точно прогнозировать осложненное течение послеоперационного периода. Модель на основе полносвязных нейронных сетей совершает больше ошибок классификации для пациентов с гладким течением послеоперационного периода.



Рис. 6. ROC-кривые для результатов использования моделей на проспективных данных. Более насыщенная линия отражает результат модели на основе полносвязных нейронных сетей (AuROC = 0,786). Кривые для бинарной логистической регрессии и многослойных нейронных сетей совпадают (AuROC = 0,986).

Модели на основе бинарной логистической регрессии и многослойных нейронных сетей обеспечили правильный прогноз для 93% (16 из 17) вновь поступивших пациентов.

Для практического использования модели разработано программное средство прогнозирования тяжести течения послеоперационного периода на языке программирования Microsoft Visual Basic (Рис. 7). Основное окно программы позволяет вводить данные, необходимые для осуществления прогноза. Вводятся фактические значения каждого параметра, необходимые преобразования производятся с помощью специальной процедуры перед расчетом результата.

После ввода всех параметров и нажатия клавиши «Прогноз» производится расчет вероятности отнесения в группу с осложненным течением послеоперационного периода, и результат выводится на экран.



Рис. 7. Интерфейс программного модуля для прогноза тяжести протекания раннего послеоперационного периода.
Программное средство рассчитывает прогноз тяжести течения раннего послеоперационного периода с помощью трех моделей. Результат определяется голосованием. Существует три варианта прогноза: Осложненное течение послеоперационного периода (две или три модели прогнозируют осложненное течение), гладкое течение (все три модели прогнозируют гладкое течение) и гладкое течение неуверенный прогноз (две модели прогнозируют гладкое

течение и одна модель – осложненное течение). Окно результата имеет три цвета, соответственно трем вариантам прогноза (Рис. 8). Возможен вывод на экран прогнозов отдельных моделей и рассчитанных вероятностей.



Рис. 8. Окно результата прогнозирования тяжести послеоперационного периода у больных после радикальных операций по поводу рака легкого. Примеры интерфейса.
В настоящее время программа для прогнозирования течения раннего послеоперационного периода у больных с радикальными операциями по поводу рака легкого используется в рамках информационной системы «ИНТЕРИС» в повседневной клинической практике отделения ОАиР Российского Научного Центра Рентгенорадиологии.
1   2   3   4   5


написать администратору сайта