Эссе на тему «Общие проблемы семантического анализа и перспективы его использования». Эссе на тему «Общие проблемы семантического анализа и перспектив. Общие проблемы семантического анализа и перспективы его использования
Скачать 16.5 Kb.
|
Эссе на тему «Общие проблемы семантического анализа и перспективы его использования» Семантический анализ – важная подзадача обработки естественного языка (Natural language processing, NLP), этап в последовательности действий алгоритма автоматического понимания текстов, заключающийся в выделении семантических отношений, формировании семантического представления текстов. В общем случае семантическое представление является графом, семантической сетью, отражающей бинарные отношения между двумя узлами — смысловыми единицами текста. В ходе анализа текст проходит через несколько этапов обработки: токенизация для идентификации словоформ, морфологический, синтаксический анализ. Последним этапом идет вторичный семантический анализ (первичный анализ в основном происходит параллельно морфологическому), в ходе которого устанавливаются взаимосвязи между сущностями, происходит извлечение мнений и анализ тональности текста. Основной целью анализа тональности является не только определение настроений, но также уровень объективности высказывания. Семантический анализ применяется, например, для создания чат-ботов, поисковых систем и в задачах анализа тональности текста. В ходе семантического анализа с помощью векторного представления слов также может осуществляться поиск смысловых копий как между отдельными предложениями, так и между текстами. В стеке технологий ИИ анализ текста является одним из наиболее развитых направлений. Высокого уровня точности достигают классификаторы текста (фильтрация контента также может быть причислена к частному случаю классификации), современные модели генерируют текст приближенно к уровню естественного языка. Наиболее сложной является задача анализа тональности, особенно в части определения иронии и сарказма. Неоднозначные или ошибочные результаты работы модели могут быть вызваны необходимостью анализа контекста, а не только конкретного высказывания. Для автоматизированного анализа текстов используются как довольно простые регрессионные модели, так и последние разработки в сфере нейросетей. Крупные компании во всем мире создают собственные сервисы анализа текста, развивают собственные экосистемы. Среди опубликованных российских проектов следует отметить языковую модель RuBERT от DeepPavlov, которую использует большинство российских разработчиков, и проект RussianSuperGlue, предназначенный для тестирования русскоязычных моделей NLP. Также существуют закрытые решения от Яндекс, МРГ и других крупных игроков. Целью синтаксического анализа текста является обнаружение синтаксической структуры текста. В большинстве задач современной компьютерной лингвистики синтаксический анализ состоит из двух этапов — поверхностного, направленного на определение границ именных и глагольных групп, и глубинного, ориентированного на установление связей между именными группами. Одной из наиболее простых процедур поверхностного синтаксического анализа, также называемого чанкингом (от chunking — сегментирование), считается определение предложных групп. В совокупности с результатами семантического анализа анализ предложных групп способствует сокращению числа потенциальных объектов, подлежащих дальнейшему анализу. К этапу поверхностного синтаксического анализа относятся также процедуры определения числовых конструкций (например, 10 лет) и вводных конструкций. В большинстве случаев результатов поверхностного синтаксического анализа достаточно для эффективной работы системы автоматического извлечения мнений. При этом работа глубинно-синтаксического анализа заменяется набором правил, работающих с набором именных и глагольных групп. Глубинный синтаксический анализ направлен на выявление связей между именными и глагольными группами, а также между клаузами и несвободными оборотами. Для русского языка наибольшее распространение получило представление результатов синтаксического анализа в виде деревьев зависимостей. Ключевым компонентом автоматического синтаксического анализа является словарь моделей управления. Традиционно подобный словарь создается для глаголов. На практике возникает необходимость также и в словаре управления для отглагольных имен, а также правила преобразования моделей управления для причастий. Для автоматического извлечения мнений важным является не только идентификация зависимости элементов друг от друга, но и их семантическое наполнение. Учитывая текущее состояние синтаксического анализа текста на русском языке, восходящий синтаксический анализ лучше подходит для работы с нестандартными орфографическими и грамматическими вариантами. Несмотря на более низкую точность работы, восходящий анализ обеспечивает существенно большее покрытие синтаксических конструкций за счет связывания минимальных единиц. Семантический (смысловой) анализ текста — этап в последовательности действий алгоритма автоматического понимания текстов, заключающийся в выделении семантических отношений, формировании семантического представления текстов. Семантический анализ используется для выделения в тексте семантических единиц, т.н. сущностей. Сущности подразделяются на именованные и неименованные. Неименованными сущностями являются слова-идентификаторы классов. К именованным сущностям относятся имена собственные, которые могут включать в себя слова-идентификаторы класса. Неименованные сущности присваиваются леммам на основе информации из семантических словарей систем автоматической обработки текста. Для идентификации именованных сущностей применяется ряд методов, наиболее распространенными среди которых следует признать машинное обучение с учителем, онтологии и шаблоны. Первичный семантический анализ проводится при помощи семантического словаря и, реже, онтологий. Он проводится параллельно с морфологическим анализом. Его результат используется при вторичном семантическом анализе, который учитывает синтаксическую структуру предложения. Вторичный семантический анализ проводится с целью идентификации в тексте комплексных именованных сущностей. К комплексным сущностям относятся именованные сущности, обозначающие названия законов, предметов интеллектуальной собственности (например, книги и фильмы), названия некоторых событий (например, выставки, конференции и форумы) и ряд других. Результатом семантического анализа текста чаще всего является семантическая сеть. Для задач автоматического извлечения мнений достаточным является идентификация сущностей верхнего уровня (которые могут иметь вложенные сущности). Существует два способа задания семантики данных: посредством архитектуры системы, например, с помощью структуры таблиц базы данных или конфигурированием самих данных. То есть семантика данных либо жестко определяется структурой приложения, либо может быть независимой от приложения, вшитой в сами данные. Второй способ структурирования данных, когда модель данных определяется самими данными, называется семантическим. Основной отличительной чертой семантических систем является то, что алгоритмы обработки данных задаются не архитектурой приложения (структурой БД или программным кодом), а самими данными: значения данных, их типизация и логические отношения записываются в виде массива унифицированных по формату утверждений. То есть, с одной стороны, есть формат, с помощью которого данные описывают сами себя, свою семантику, а с другой, — универсальные приложения, которые обрабатывают данные произвольной семантики при условии, что они соответствуют формату. Семантическая разметка пока позволяет фиксировать только статическую структуру данных: описывать сущности, свойства, значения свойств сущностей, устанавливать отношения между сущностями, а также задавать правила вывода новых утверждений. То есть современная семантическая система — это универсальное хранилище данных с возможностью реализации сложного поиска и генерации новых данных, согласно содержащимся в самих данных аксиомам и правилам. Причем хранилище может быть, как распределенным (сетевым), так и локальным. Для работы с различными моделями данных в работающее приложение не требуется вносить какие-либо изменения, необходимо только с помощью специальных языков описать структуру предметной области, то есть создать ее онтологию, и загрузить онтологию вместе с фактическими данными в приложение. Причем структура данных в любой момент может свободно модифицироваться, дополняться новыми концептами, отношениями, правилами. Благодаря универсальному формату описания данных появляется возможность свободного взаимодействия независимых приложений. Для полноценной реализации этой возможности необходимо соблюсти два условия: использование приложениями единых словарей, содержащих определения сущностей, и поддержка приложениями уникальной идентификации сущностей, предотвращающей коллизии. Словари должны быть составлены в формате семантических данных, и их элементы также должны иметь уникальные идентификаторы. В результате появляется возможность коллективного использования онтологий и свободного (без API) обмена данными. Давыдова Лиана, Б-ЯРЯ-21 |