отчет. Н. Ф. Гусарова, Н. В
Скачать 2.27 Mb.
|
ВыводНС довольно восприимчива к изменениям очертаний символов, осо- бенно на схожих цифрах (например 3, 8 и 9). Однако показывает хорошо на цифрах с более уникальными очертаниями (например 5, 1). Одинаково хо- рошие результаты получаются при повороте цифр, вплоть до 40 градусов в любую сторону цифры продолжают распознаваться. КОНТРОЛЬНЫЕ ВОПРОСЫНазовите основные достоинства и недостатки нейронных сетей? Какие практические задачи решаются с применением нейронных сетей? Назовите негативные последствия переобучения нейронной сети? Дайте характеристику основных этапов построения нейронной сети? ПРАКТИЧЕСКАЯ РАБОТА №5.АНАЛИЗМЕДИЦИНСКИХДАННЫХ ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯСовременные информационные системы позволяют накапливать большие объемы, в том числе и медицинских данных. В них содержаться знания, которые можно анализировать, выявлять и извлекать закономерно- сти. При этом размерность хранимых данных, определяемая числом различ- ных признаков, описывающих, например, состояние здоровья пациента, весьма велика и порой достигает нескольких десятков и сотен показателей. Поэтому задача снижения размерности признакового пространства и выделе- ния наиболее информативных признаков является весьма актуальной. Краулинг (crawling) – процесс сканирования огромного количества веб-страниц специализированными программами краулерами (спайдерами, пауками, сканерами), которые симулируют действия пользователя поиско- вой системы. Другими словами, краулеры загружают различные веб-стра- ницы, читают содержание, анализируют их на наличие требуемой информа- ции, которая копируется в соответствующее хранилище в случае обнаруже- ния и предоставляется другим частям поисковой системы. Например, у человека болит голова, он хочет узнать, в чем возмож- ные причины. Он вводит поисковый запрос, краулер загружает страницы, которые были прочитаны и проанализированы на наличие нужной инфор- мации. Краулеры также переходят по всем ссылкам, указанным на странице (на сайтах могут быть еще ссылки, ведущие на страницы с болями в спине), и процесс сканирования, анализа повторяется до тех пор, пока не будет про- анализировано требуемое число веб-страниц или пока не будет достигнута определенная цель. Веб-краулер в основном используется для создания ко- пий всех посещаемых страниц в Интернет-пространстве (посещаемые стра- ницы обычно отмечены другим цветом. Если человек не раз ищет причины головной боли в интернете, и он был не удовлетворён результатами поиска в прошлый раз, то на уже посещённые сайты он не зайдет), которые в после- дующем обрабатываются и индексируются поисковой системой, в резуль- тате чего пользователь имеет возможность осуществлять быстрый поиск ин- формации (например, с помощью истории браузера. Если наоборот была важная информация на сайте о головных болях, например, название лекар- ства, то в случае забытия этого названия, можно с помощью истории снова быстро зайти на страницу и вспомнить). Кроме того, краулеры могут ис- пользоваться для автоматизации работы по обслуживанию на веб-сайте: проверка ссылок, HTML-кода и т. д. Краулеры также применяются для сбора определенных типов информации из веб-страниц. Например, сбор электронных почтовых адресов для рассылки спама. Одной из наиболее перспективных и быстроразвивающихся плат- форм по анализу медицинских и биомедицинских текстов является система cTAKES [9]. Это модульная система с открытым исходным кодом, которая разрабатывается сообществом исследователей из разных институтов сов- местно с частной клиникой Mayo. Основное предназначение cTAKES за- ключается в создании основы для систем извлечения информации из клини- ческих текстов. Система реализована на платформе UIMA с применением фреймворка OpenNLP. cTAKES предоставляет набор программных моду- лей, которые используют наборы правил и модели машинного обучения, настроенные на анализ клинических текстов. Система позволяет проводить: 1) базовую обработку медицинских текстов, включая морфологический ана- лиз и различные виды синтаксического анализа; 2) извлечение именованных сущностей, определение их типа и характера упоминания их в тексте; 3) со- поставление терминов с концептами метатезауруса UMLS; 4) поверхност- ный семантический анализ (установление семантических ролей); 5) разре- шение кореференции; 6) извлечение семантических связей между сущно- стями. В системе также присутствуют готовые модули для решения при- кладных задач: извлечения названий лекарственных препаратов и определе- ния статуса пациента курящий/некурящий. Платформа интегрирует в себе большое число современных разработок в области анализа медицинских и биомедицинских текстов и продолжает развиваться. Заметим, что cTAKES ориентирована на обработку только английских текстов и на сегодняшний день не поддерживает другие языки. |