Интеллектуальные системы. Интеллектуальные информационные системы в медицинской диагностик. Интеллектуальные информационные системы в медицинской диагностике
Скачать 18.36 Kb.
|
Интеллектуальные информационные системы в медицинской диагностике Вступление ИИС (intelligent information system) – это информационная система, которая основана на концепции использования базы знаний для генерации алгоритмов решения задач различных классов в зависимости от конкретных информационных потребностей пользователей. Любая информационная система (ИС) выполняет следующие функции: воспринимает вводимые пользователем информационные запросы и необходимые исходные данные; обрабатывает введенные и хранимые в системе данные в соответствии с известным алгоритмом и формирует требуемую выходную информацию. Недавние разработки в области интеллектуальных систем значительно улучшили возможности и надежность различных методологий и методов компьютерной медицинской диагностики. Причина использования компьютера в основном заключается в случаях массовой профилактики таких заболеваний, как различные виды рака: рак молочной железы, меланома и т.д. Это дало большой толчок в лечении заболеваний подобного плана, ведь медикаментозное лечение эффективно только в тех случаях, когда заболевание выявляется на ранних стадиях. Сегодня доступно множество различных технологий, которые позволяют довольно точно и быстро поставить диагноз на основании многочисленных лабораторных исследований. С применением методов обучения, основанных на различных математических теориях, могут быть предприняты новые шаги в направлении компьютерной медицинской диагностики. Это может быть полезно, особенно в тех случаях, когда специалистов недостаточно и когда решающим фактором является немедленная компьютерная диагностика. В данной работе описан усовершенствованный метод классификации с возможностью управления случаями с небольшими наборами данных и нелинейными взаимосвязями. Основной алгоритм Идея алгоритма состоит в том, чтобы найти некоторое небольшое подмножество обучающих данных, называемых опорными векторами (SV), и найти для них оптимальное разделение, эквивалентное всему набору данных. Оптимальное разделение означает, что минимальное расстояние для ближайшей точки к разделяющей гиперплоскости является максимальным между двумя различными классами. Если гиперплоскость имеет уравнение y = XJ + b, то поиск оптимальной гиперплоскости означает минимизацию данных, полученных в результате выборки. Для нелинейных задач, таких как регрессия, идентификация, управление, моделирование нечетких систем, применяется нелинейный подход опорных векторов. Нелинейное отображение применяется для отображения данных в пространстве более высокой размерности, где возможна линейная регрессия. Это преобразование возможно при применении функций ядра. Данная теория основана на исследовании Давида Гильберта (Гильбертовы пространства). Применение в диагностике Эффективность описанного метода была проверена доктором Бояном Новаком на открытых базах данных по раку молочной железы, полученных из больниц Висконсинского университета (штат Мэдисон, США). В базе хранились 699 случаев и 10 описанных «паттернов» заболевания, а также атрибут раковой опухоли: доброкачественная или злокачественная. Проблема не является линейно разделимой, поэтому различные авторы широко изучили этот набор данных. В нашем случае рассматривались две разные проблемы. Из-за того, что для создания такой базы необходимо много лет, а в начале мы имеем всего несколько примеров, был поставлен вопрос в том, какой точности можно достичь в случае ограниченной выборки. Данные были разделены на три части: набор данных обучения, набор данных тестирования и набор данных проверки. В нашем случае в течение каждого года было доступно только около 50 примеров. Обычными процедурами проверки качества прогнозирования диагноза являются методы перекрестной валидации (кросс-валидация). Один цикл кросс-валидации включает разбиение набора данных на части, затем построение модели на одной части (называемой тренировочным набором), и валидация модели на другой части (называемой тестовым набором). Был проведен тест, взяв только первые 50 данных и построив обучающую машину в соответствии с принципом минимизации структурных рисков. В этом случае, без какой-либо перекрестной проверки (поскольку все данные использовались для обучения) была достигнута точность 90% для остальной части набора данных. Также был проведен эксперимент с 67% данных в обучающем наборе и протестирован на оставшихся данных без проверки ошибок валидации. Была показана точность 97%, которая оказалась даже немного лучше, чем обширная и трудоемкая перекрестная проверка. Заключение Недавние разработки в области интеллектуальных систем значительно улучшили возможности и надежность различных методологий и методов компьютерной медицинской диагностики. При этом приоритетным направлением остается нелинейное моделирование, для которого были разработаны различные методологии. Применение ANN (технологий машинного обучения и сбора данных) показало, что эти методы чувствительны к количеству и типам «нейронов» в слоях и инициализации веса. Кроме того, большой набор данных необходим для хорошей точности. В медицине это не часто доступно, потому что для создания большой базы данных может потребоваться много лет. Развитие теории обучения на небольших наборах данных в значительной степени преодолело эту проблему. Приводится краткое теоретическое описание. Его применимость представлена в хорошо известных базах данных по раку молочной железы, полученных из больниц Висконсинского университета в Мэдисоне. В первом тесте была проверена точность диагноза, основанная только на записях 50 пациентов. Такой небольшой набор данных создается за один год, и вопрос в том, какой точности можно ожидать. Обычной процедурой проверки качества прогнозирования диагноза являются методы перекрестной валидации. Данные разделены на три части: набор данных обучения, набор данных тестирования и набор данных проверки. Только 50 примеров недостаточно для перекрестной проверки. Для установления оптимальной структуры сети был применен метод минимизации структурных рисков. Тестирование проводилось на остальной части набора данных. |