Прогнозирование клинически значимого ухудшения функционального статуса у носителей мутации болезни Гентингтона на основании данн. Игорь Медведев
Скачать 422.51 Kb.
|
Прогнозирование клинически значимого ухудшения функционального статуса у носителей мутации болезни Гентингтона на основании данных наблюдательного исследования Enroll-HD Игорь Медведев 1,2 , Артём Борзов 1,2 , Юрий Селивёрстов 4 , Михаил Беляев 3,1 1 Институт проблем передачи информации им. А.А.Харкевича РАН 2 Московский физико-технический институт (государственный университет) 3 Сколковский институт науки и технологий 4 Научный центр неврологии (ФГБНУ НЦН) medvedev.is@phystech.edu Аннотация В работе представлено решение задачи предсказания прогрессирования болезни Гентингтона по данным о состоянии боль- ного на текущий момент. Используемый нами алгоритм решения пра- вильно прогнозирует 69% людей, состояние которых ухудшится, и 86% людей, которые останутся на том же уровне. В ходе исследова- ния было выявлено, что для предсказания достаточно лишь призна- ка TFC score — важнейшей характеристики, оценивающей стадию болезни Гентингтона. Также были исследованы закономерности, на которые опирается алгоритм при прогнозировании. 1 Введение Болезнь Гентингтона (БГ) –– наследственное нейродегенеративное заболе- вание, развивающееся вследствие увеличения числа CAG-повторов в пер- вом экзоне гена гентингтина [1]. Возраст начала БГ варьирует в зависимо- сти от выраженности CAG-экспансии, а само заболевание характеризует- ся неуклонным прогрессированием с постепенной утратой функциональной независимости человека по мере нарастания у него выраженности двига- тельных, когнитивных и психопатологических нарушений. БГ является относительно редким заболеванием, в связи с чем недоста- точно внимания уделяется вопросам помощи таким пациентам и членам их семей. Между тем, нарастающая инвалидизация человека вследствие про- грессирования БГ требует адаптации или смены условий пребывания па- циента, а также обеспечения должного ухода за ним. Эти обстоятельства нередко сопряжены с затратами времени и материальных ресурсов семьи, что требует долгосрочного планирования. В этой связи представляется важ- ным заблаговременное прогнозирование ухудшения функционального ста- туса носителей мутации БГ. 99 В нашей работе мы поставили задачу разработать алгоритм прогнози- рования клинически значимого ухудшения функционального статуса носи- телей мутации БГ на основании текущих демографических и клинических характеристик человека. С этой целью мы обратились к данным крупнейше- го на сегодняшний день международного многоцентрового проспективного наблюдательного исследования БГ — Enroll-HD [2]. 2 Постановка задачи Обследование в рамках Enroll-HD подразумевает всестороннюю оценку де- мографических и клинических (двигательные, когнитивные, психопатоло- гические и иные нарушения) характеристик человека. Одним из основных инструментов оценки функционального статуса носителей мутации БГ яв- ляется подраздел TFC (Total Functional Capacity) шкалы UHDRS [3]. Оценка по TFC характеризует способности человека к трудовой деятельности, вы- полнению финансовых и домашних обязанностей и самообслуживанию. Эта величина может принимать значения от 0 до 13 баллов. Выделяют 5 стадий БГ, которые оцениваются по величине балла TFC. На стадиях 1 и 2 балл TFC принимает значения в интервалах 13-11 и 10-7 соответственно. Это ранние стадии, на которых у человека еще сохраня- ется относительная функциональная независимость. На стадиях 3, 4 и 5 балл TFC принимает значения 6-3, 2-1 и 0 соответственно. Переход в эти стадии сопряжен с прогрессирующей утратой человеком способности жить самостоятельно и необходимостью обеспечения специального ухода. В этой связи представляется целесообразным прогнозирование перехода человека из стадий 1 и 2 к стадиям 3, 4 и 5. Учитывая, что в Enroll-HD участники проходят регулярное обследование с частотой около раза в год, мы поставили задачу спрогнозировать на ос- новании данных текущего визита человека его функциональный статус на момент следующего визита. При этом мы также решили выяснить, какие признаки являются индикаторами изменения ухудшения функционального состояния пациента. Опишем формально нашу задачу. Условимся понимать под группой 1 людей, у которых TFC не меньше 7, а под группой 2 — тех, у кого он мень- ше 7. Обозначим людей из первой группы, которые к следующему визиту останутся в ней, меткой 0, а тех, кто перейдет из первой во вторую, меткой 1. Наша задача состоит в том, чтобы научиться предсказывать перейдет ли человек к следующему визиту из группы 1 в группу 2 или нет, основываясь на данных текущего посещения. 3 Данные Для экспериментов мы использовали данные исследования Enroll-HD, вклю- чающего информацию о более чем 8700 человек. В рамках Enroll-HD про- исходит систематический сбор данных как о носителях мутации БГ, так и о 100 людях без этой мутации, то есть контрольных субъектах. Для формирования выборки, которую мы использовали в нашей работе, мы выбрали людей, у которых доступно для анализа более одного посеще- ния. Мы отбросили те визиты, где не зафиксировано значение TFC, так как мы использовали эту характеристику, чтобы присвоить пациентам метку класса. Далее из оставшихся субъектов мы выбрали тех, кто находится в группе 1. После этого мы отобрали носителей мутации БГ, то есть тех, у кого число CAG-повторов в гене гентингтина составляет 36 и более. Если у человека были посещения с меткой 1, то мы выбирали первое из них. Если же все посещения имели метку 0, то мы выбирали случайныи образом одно из них. В конце концов, наша выборка составила 2848 человек. При этом баланс классов таков, что доли людей с метками 0 и 1 составляют 87.3% и 12.7% соответственно. Необходимо отметить, что данные содержат значи- тельное количество категориальных признаков и пропущенных значений, что усложняет работу с ними. Из всех представленных признаков мы выбрали те, которые использу- ются в работе [4], так как они в наибольшей степени характеризуют клини- ческое и функциональное состояние носителя мутации БГ. 4 Методы В качестве базового алгоритма предсказания мы выбрали градиентный бу- стинг над решающими деревьями. В нашей работе была использована его реализация в библиотеке XGBoost [5], [6]. Причина, по которой мы выбрали этот подход, состоит в том, что данная модель способна работать с катего- риалными признаками, а также с пропущенными значениями. Параметры для него подбираются автоматически при помощи функции GridSearch из библиотеки Scikit-Learn [7]. Для оценки качества алгоритма мы выбрали precision score, f1-score, sensitivity, specificity. Данные метрики являются стандартным выбором в задачах бинарной классификации на несбалансированных выборках. Так как размер нашей выборки мал, а классы несбалансированы, оценка одного классификатора является неустойчивой. По этой приине мы исполь- зуем метод агрегации алгоритмов – бэггинг. В данном разделе мы кратко опишем те методы, которые использовали в нашем исследовании. 4.1 Бэггинг Идея бэггинга алгоритма подробно изложенна в [8]. Мы постараемся сжато изложить принципы его работы при помощи псевдокода Algorithm 1. 4.2 Модификация Недостатком описанного метода является то, что необходимо задавать чис- ло итераций заранее. Часто бывает непонятно, как нужно подбирать этот 101 Algorithm 1 Алгоритм бэггинг 1: n — подаваемое на вход число итераций алгоритма. 2: data — наш набор данных. 3: person = choose_one(data) — выбранный из data человек, для которого мы хотим сделать предсказание. В обучении он участие не принимает. 4: labels[ ] — массив для сохранения меток для person в цикле. 5: for i = 0 to n do 6: cur _data = get_random_part(data, 4/5) — случайным образом выбираем подвыборку фиксированного размера рамера 4/5 от общего. 7: best _params = gridsearch(cur_dataf1 − score) — автоматический подбор параметров классификатора с оптимизацией f1-score. 8: label = predict(person, best _params) — предсказание на наилучших пара- метрах. 9: labels[i] = label — сохраняем метку, предсказанную на текущей итерации. 10: end for 11: prob = sum(labels)/n — искомая вероятность принадлежности person к классу. параметр, чтобы произвести устойчивую оценку вероятностей. Чтобы решить эту проблему мы воспользуемся идеей модификации бэг- гинга, которая предложена в [9]. Она основывается на том, что функция ве- роятности, описанная выше, сходится по параметру n. Представим ее крат- кое описание. Обозначим для фиксированного субъекта вероятность через n шагов p n , а предсказанную на i-м шаге метку класса y i Формула для p n имеет вид: p n = P n i=1 y i n (1) Формула для p n+1 имеет вид: p n+1 = P n+1 i=1 y i n + 1 = P n i=1 y i n + 1 + y n+1 n + 1 = p n n n + 1 + y n+1 n + 1 (2) Разница между вероятностями на шагах n и n + 1: |p n+1 − p n | = | p n n + 1 − y n+1 n + 1 | ≤ | p n n + 1 | + | y n+1 n + 1 | ≤ | 2 n + 1 | (3) Как видно из формулы 3, алгоритм достигает конечной точности оценки вероятности за конечное число шагов. После модификации алгоритма бэггинг у нас отпадает необходимость за- ранее зададвать число итераций. Вместо этого мы задаем точность, которой нам надо достигнуть для каждого человека. Описание модифицированного алгоритма представлено в Algorithm 2. Чтобы к началу работы модифицированной части у нас было некое зна- чение вероятности, от которой алгоритм может отталкиваться, мы исполь- зуем теплый старт. Если же отказаться от него, то модификация может работать некорректно. 102 Algorithm 2 Модицированный алгоритм 1: n — подаваемое на вход число итераций теплого старта 2: accuracy — подаваемое на вход значени точности, с которой должен сойтись алгоритм 3: data — наш набор данных 4: person = choose_one(data) — выбранный из data человек, за которым мы следим далее 5: labels[ ] — массив для сохранения меток для person в цикле 6: for i = 0 to n do Теплый старт: 7: Такой же цикл, как в Algorithm . 8: end for 9: cur_prob = sum(labels)/n — вероятность принадлежности к классу после n итераций теплого старта 10: repeat Модифицированная часть: 11: prev _prob = cur_prob — фиксируем вероятность из прошлой итерации 12: Такой же цикл, как в Algorithm — делаем предсказание метки для person 13: cur _prob = sum(labels)/(i + 1) — вероятность на текущем шаге 14: until prev_prob − cur_prob ≥ accuracy 15: cur_prob — искомое значение вероятности для person 5 Результаты 5.1 Предсказание на всем наборе признаков Свои опыты мы начинаем на всех предоставленных признаках. Как было отмечено выше, на каждой итерации бэггинга мы откладываем случайным образом выборку размера 4/5 от общего для обучения алгоритма. Подбор параметров происходит на ней автоматически с помощью GridSearch на пя- тифолдовой кросс-валидации с максимизацией f1-score. Метрика качества Результат F1-score 0.56 ± 0.04 Sensitivity 0.72 ± 0.10 Specificity 0.87 ± 0.02 Precsion score 0.45 ± 0.03 Таблица 1. Оценка качества алгоритма на всех принаках. Проанализируем результаты работы, представленные в Таблице 1. Вы- сокое значение Sensitivity, дает нам понимаение того, что мы с достаточно большой точностью предсказыеваем людей с меткой 1. А величина Specificity показывает, что мы выявляем почти всех людей с меткой 0. Таким образом, мы видим, что классификатор показывает хорошие результаты. Значения метрики precision близко к 0.5, то есть доля верных срабаты- ваний алгоритма. Выясним, почему эта велична имеет такое значение. Для 103 этого визуализируем распределение вероятностей для людей с меткой 0 и меткой 1 так, чтобы наглядно оценить предсказание (см. рис. 1). Рис. 1. Распределение вероятностей при предсказании на всех признаках. 5.2 Анализ признаков При анализе рисунка 1 мы видим, что гистограмма имеет довольно тяжелые хвосты. Разберемся, какие признаки вляют на их появление. Для поиска признаков, влияющих на качество классификации, введем некоторые определения. Плохо классифицируемыми людьми с меткой 0 счи- таем тех, у кого значение вероятности больше 0.66, хорошо классифициру- емыми — со значением меньше 0.33. Для людей с меткой 1 – обратно. Мы хотим сравнить признаки для этих групп. Чтобы выявить стати- стически значимые различия у хорошо и плохо классифицируемых людей, мы используем критерий Манна-Уитни [10] для непрерывных признаков и точный тест Фишера [11] для остальных. На выходе мы получаем набор зна- чений p-value для всего набора характеристик. После этого вносим поправку Холма [12], для исправления статистической ошибки множественного тести- рования. В нашей задаче число хорошо классифицируемых людей заметно превы- шает число плохо классифицируемых. Поэтому нам необходимо прибегнуть к андерсэмплингу, то есть отбрасыванию людей более численной группы, чтобы в сравниваемых подвыборках было одинаковое количество человек. Сэмплирование мы делаем 10 раз случайным образом для хорошо клас- сифицируемой группы. Для каждого раза делаем статистические тесты и усредняем результат. Таким образом, выбирая признаки, у которых p-value меньше 0.05, мы получаем набор характеристик, по которым статистически значимо отличаются группы хорошо и плохо классифицируемых людей. Список признаков, в которых есть статистически значимые различия в сравниваемых группах, представлен в Таблице 2. Он состоит по большей ча- 104 Люди с меткой 0 Люди с меткой 1 tfcscore, indepscl tfcscore, indepscl fascore, sdmt1, sit1 sdmt1, cognitive1 cognitive1, motscore verfct5, motscore verfct5, verflt05 sit1, verflt05 apathy, dis_duration caghigh, jobclas Таблица 2. Признаки, по которым различаются хорошо и плохо классифициру- емые люди с метками 0 и 1. сти из характеристик, от которых зависит значение балла TFC. Рассмотрим детальней эту характеристику. 5.3 Поиск различий в признаке TFC score Посмотрим на то, как влияет значение TFC на переход в другую группу. Для этого построим Таблицу 3 зависимости положения человека через год от текущего состояния. Останется в группе 1 Перейдет в группу 2 7 139 155 8 200 94 9 249 49 10 241 33 11 260 19 12 307 6 13 1090 6 Таблица 3. Зависимость функционального статуса носителя мутации БГ через год от текущего балла TFC (по вертикальной оси отложены значения TFC теку- щего визита, по горизотальной — состояние через год) Из Таблицы 3 видно, что наибольшее скопление людей с меткой 1 на- ходится у границы раздела второй и третьей стадии (балл TFC равняется 7-8). Для того, чтобы удостоверится в этом, вручную предскажем метки и сравним их с фактическими. Тем, у кого балл TFC на данный момент мень- ше 9, присвоим 1, а тем, у кого больше 8, соответственно — 0. Оценим ка- чество такого предсказания и отразим его в Таблице 4. При сравнении метрик sensitivity и specificity в таблицах 1 и 4 стано- вится понятно, что исходный алгоритм отмечает тех людей, у кого значение TFC близко к границе между первой и второй группами. 105 Метрика качества Результат F1-score 0.52 Sensitivity 0.69 Specificity 0.86 Precision 0.42 Таблица 4. Оценка качества алгоритма, построенного только на значении TFC 6 Заключение С помощью базы данных Enroll-HD мы научились с достаточно высокой точ- ностью предсказывать клинически значимое ухудшение функционального статуса носителей мутации БГ. По ходу опытов мы столкнулись с пробле- мой того, что данные несбалансированы и содержат множество пропусков. Несмотря на это, нам удалось получить хорошие оценки качества работы алгоритма. Также в ходе работы было обнаружено, что для предсказания доста- точно только значения TFC. Причина этого заключается в том, что та ин- формация, которую дают другие признаки для предсказания, косвенно уже содержится в TFC. По этой причине их добавление не дает прироста в каче- стве классификации. Также мы выяснили, что алгоритм определяет людей с меткой 1 по их близости к границе групп 1 и 2, а именно: относит к классу 1 в основном тех, у кого значение TFC составляет 7 или 8. Список литературы 1. The Huntington’s Disease Collaborative Research Group. A novel gene containing a trinucleotide repeat that is expanded and unstable on Huntington’s disease chromosomes. Cell, 72(6):971–983, 1993. 2. Enroll-HD. https://www.enroll-hd.org. 3. Starosta-Rubinstein S. Young A.B., Penney J.B. Pet scan investigations of huntington’s disease: cerebral metabolic correlates of neurological features and functional decline. Ann. Neurol. 20(3), pages 296—-303, 1986. 4. Юрий Селивёрстов Юлия Додонова Георг Бернхард Ландвермайер Ар- тём Борзов, Михаил Беляев. Предсказание развития суицидальных мыслей при болезни Гентингтона с помощью анализа данных многоцентрового наблю- дательного исследования enroll-hd. 2017. 5. Tianqi Chen and Carlos Guestrin. Xgboost: A scalable tree boosting system. arXiv preprint arXiv:1603.02754, 2016. 6. XGBoost. https://github.com/dmlc/xgboost. 7. Scikit-Learn. http://scikit-learn.org. 8. Leo Breiman. Bagging predictors. Technical Report No. 421, 1994. 9. Leo Breiman. Pasting small votes for classification in large databases and on-line. Machine Learning 36, pages 85–103, 1999. 106 10. Whitney D. R. Mann H. B. On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics. — № 18, pages 50–60, 1947. 11. R. A. Fisher. On the interpretation of 2 from contingency tables, and the calculation of p. Journal of the Royal Statistical Society 85(1), pages 87–94, 1922. 12. S. Holm. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6 (2), pages 65–70, 1979. 107 |