отчет. Н. Ф. Гусарова, Н. В
Скачать 2.27 Mb.
|
Перечень задач, решаемых на основе краулинга медицинских данных:Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. GoogleBot – самый известный из представ- ленных. Для медицинских исследований краулеры полезны тем, что уско- ряют и облегчают процесс исследования, спасая от мануального поиска и скачивания большого объема информации. Но у краулеров есть свое слабое место- многие сайты, включая facebook, не допускают роботов к информа- ции. Например, исследование «Understanding the patient perspective of epi- lepsy treatment through text mining of online patient support groups», использо- вало краулинг трех форумов, для выявления среди пользователей больных эпилепсией. Выделение медицинских данных является одной из задач выделения знаний из текста в целом. В современных системах используется двухфаз- ная технология аналитической обработки. В первой фазе (ETL) произво- дится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической инфор- мации. Во второй фазе (Text Mining, Data Mining etc.) — извлечение в опе- ративном режиме знаний из хранилища или из полученной по запросу под- борки документов. Первичная аналитическая обработка в фазе ETL: выполнение индексирования; построение семантической сети; построение рубрик; создание аннотации и ключевых тем; терминологические векторы документов; хранилище аналитических данных; база данных фактографической информации, объединенной в досье. В ходе аналитической обработки происходит выделение текста фак- тографической информации об объекте, причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте, в которых могут встречаться названия объекта, ссылки на него, а также обоб- щающие определения. Data mining (рус. интеллектуальный анализ данных) — собиратель- ное название, используемое для обозначения совокупности методов обнару- жения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. Основу методов data mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассо- циативной памяти, нечёткой логики. К методам data mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрес- сионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выжива- емости, анализ связей). Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получе- ние информации из коллекций текстовых документов, основываясь на при- менении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ тек- стов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных ме- тодах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов. |