отчет. Н. Ф. Гусарова, Н. В

Название	Н. Ф. Гусарова, Н. В
Анкор	отчет
Дата	19.02.2022
Размер	2.27 Mb.
Формат файла
Имя файла	2536.docx
Тип	Документы #367348
страница	17 из 19

1 ... 11 12 13 14 15 16 17 18 19

Перечень задач, решаемых на основе краулинга медицинских данных:

Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. GoogleBot – самый известный из представ- ленных. Для медицинских исследований краулеры полезны тем, что уско- ряют и облегчают процесс исследования, спасая от мануального поиска и скачивания большого объема информации. Но у краулеров есть свое слабое место- многие сайты, включая facebook, не допускают роботов к информа- ции.

Например, исследование «Understanding the patient perspective of epi- lepsy treatment through text mining of online patient support groups», использо- вало краулинг трех форумов, для выявления среди пользователей больных эпилепсией.

Выделение медицинских данных является одной из задач выделения знаний из текста в целом. В современных системах используется двухфаз- ная технология аналитической обработки. В первой фазе (ETL) произво- дится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической инфор- мации. Во второй фазе (Text Mining, Data Mining etc.) — извлечение в опе- ративном режиме знаний из хранилища или из полученной по запросу под- борки документов.

Первичная аналитическая обработка в фазе ETL:

выполнение индексирования;
построение семантической сети;
построение рубрик;
создание аннотации и ключевых тем;
терминологические векторы документов;
хранилище аналитических данных;
база данных фактографической информации, объединенной в досье. В ходе аналитической обработки происходит выделение текста фак-

тографической информации об объекте, причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте, в

которых могут встречаться названия объекта, ссылки на него, а также обоб- щающие определения.

Data mining (рус. интеллектуальный анализ данных) — собиратель- ное название, используемое для обозначения совокупности методов обнару- жения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. Основу методов data mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассо- циативной памяти, нечёткой логики. К методам data mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрес- сионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выжива- емости, анализ связей).

Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получе- ние информации из коллекций текстовых документов, основываясь на при- менении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ тек- стов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных ме- тодах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.

1 ... 11 12 13 14 15 16 17 18 19