Главная страница

отчет. Н. Ф. Гусарова, Н. В


Скачать 2.27 Mb.
НазваниеН. Ф. Гусарова, Н. В
Анкоротчет
Дата19.02.2022
Размер2.27 Mb.
Формат файлаdocx
Имя файла2536.docx
ТипДокументы
#367348
страница17 из 19
1   ...   11   12   13   14   15   16   17   18   19

Перечень задач, решаемых на основе краулинга медицинских данных:


Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. GoogleBot – самый известный из представ- ленных. Для медицинских исследований краулеры полезны тем, что уско- ряют и облегчают процесс исследования, спасая от мануального поиска и скачивания большого объема информации. Но у краулеров есть свое слабое место- многие сайты, включая facebook, не допускают роботов к информа- ции.

Например, исследование «Understanding the patient perspective of epi- lepsy treatment through text mining of online patient support groups», использо- вало краулинг трех форумов, для выявления среди пользователей больных эпилепсией.

Выделение медицинских данных является одной из задач выделения знаний из текста в целом. В современных системах используется двухфаз- ная технология аналитической обработки. В первой фазе (ETL) произво- дится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической инфор- мации. Во второй фазе (Text Mining, Data Mining etc.) — извлечение в опе- ративном режиме знаний из хранилища или из полученной по запросу под- борки документов.

Первичная аналитическая обработка в фазе ETL:

  • выполнение индексирования;

  • построение семантической сети;

  • построение рубрик;

  • создание аннотации и ключевых тем;

  • терминологические векторы документов;

  • хранилище аналитических данных;

  • база данных фактографической информации, объединенной в досье. В ходе аналитической обработки происходит выделение текста фак-

тографической информации об объекте, причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте, в

которых могут встречаться названия объекта, ссылки на него, а также обоб- щающие определения.

Data mining (рус. интеллектуальный анализ данных) — собиратель- ное название, используемое для обозначения совокупности методов обнару- жения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний. Основу методов data mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассо- циативной памяти, нечёткой логики. К методам data mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрес- сионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выжива- емости, анализ связей).

Интеллектуальный анализ текстов (ИАТ, англ. text mining) направление в искусственном интеллекте, целью которого является получе- ние информации из коллекций текстовых документов, основываясь на при- менении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ тек- стов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных ме- тодах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.
1   ...   11   12   13   14   15   16   17   18   19


написать администратору сайта