испанский корпус. Т. Н. Хомутова автоматизация извлечения именных словосочетаний на материале испанского языка

Название	Т. Н. Хомутова автоматизация извлечения именных словосочетаний на материале испанского языка
Дата	14.02.2022
Размер	1.67 Mb.
Формат файла
Имя файла	испанский корпус.pdf
Тип	Документы #361096
страница	3 из 5

1 2 3 4 5

capital riesgo);
2) Прилагательные (рус интересный сюжет, исп sector puntero);

26 3) Местоимения (рус мой рюкзак исп gato mío);
4) Порядковые числительные (рус четвертый курс исп día cuatro);
5) Причастие (рус проверенный тест исп ventana cerrada);
6) Наречия (рус яйца всмятку исп muy rapido);
7) Инфинитив (рус желание спать, умение петь.
1.2.4 Семантическая близость и сочетаемость слов в словосочетании При семантической сочетаемости учитывается способность слова сочетаться с другими группами слов, при этом связанных с ним некой общностью смысла. В 1998 году В.Г. Гак отметил, что Основной закон сочетания слов сводится к тому, что для того, чтобы два слова составили правильное сочетание, они должны иметь, помимо специфических сем, одну общую сему [38]. Французские лингвисты обозначали эту сему
«классемой». Она может быть выражена любой семой и не всегда заключать в себе первостепенное значение суждения. В лингвистике принято считать закон семантического согласования
В.Г. Гака классическим для определения характеристики сочетаемости. Отечественный лингвист В.В. Морковкин считает, что семантическая сочетаемость обязательно должна содержать в себе указание на сему, которая должна присутствовать в значении всех слов, заполняющих соответствующую синтактико-семантическую позицию [39]. До сих пор открыт вопрос о дифференциации семантической и лексической сочетаемости. Ю.Д. Апресян описал, что в случае семантической сочетаемости ограничение на сочетаемость задаются указанием на семантический признака в случае лексической сочетаемости
– только списком слов, с которыми может сочетаться данное слов лексическая сочетаемость – оказать услугу, ноне оказать заботу семантическая сочетаемость – птицы вылетели из гнезда) [40]. При семантическом согласовании все компоненты сочетания не должны иметь противоречащих сем, иначе происходит нарушение языковой нормы, либо переосмысление одного из компонентов суждения.

27 Дистрибутивная семантика занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуции (на изучении окружения отдельных единиц в тексте) в больших массивах данных [41]. Выводы по главе 1 Отечественные лингвисты по-разному определяет понятие слово. Природа слова остается малоизученной и актуальной. Слово обладает лексическим значением и грамматическим значением. Исследованием природы лексического значения слова занимаются лексическая семасиология и лексикология.Грамматическое значение выражается морфологически. Слово – двусторонне, обладает планом выражения и планом содержания. Оно семантически, фонетически и морфологически мотивированно. Деривационный и способ словосложения в испанском языке являются ведущими способами формирования слов. Изучение научных работ
Ф.Ф. Фортунатова,
В.Н. Ярцевой, ГА. Золотовой, В.В. Виноградова, по проблеме определения термина словосочетание выявило противоречия в его трактовке, а также неоднозначность подходов к его выявлению в контексте. Словосочетание основано на одном из трех (согласование, управление, примыкание) видов подчинительной грамматической связи. В нём могут возникать смысловые отношения между компонентами атрибутивные, объектные, субъектные, обстоятельственные и комплетивные. Отношения между компонентами СС зависят не только от принадлежности их к той или другой части речи, но и от лексических значений как главного слова, таки подчиненного. По ПА. Леканту выделяются четыре типа именных словосочетаний, в зависимости от принадлежности вершинного словак определенной части речи субстантивные, адъективные, прономинальные и нумеративные.

28 ГЛАВА 2 АВТОМАТИЗАЦИЯ ИЗВЛЕЧЕНИЯ ИМЕННЫХ СЛОВОСОЧЕТАНИЙ В ИСПАНСКОМ КОРПУСЕ
2.1 Теория конечных автоматов и регулярные выражения Конечный автомат – абстрактный автомат безвыходного потока, число возможных состояний которого конечно. Результат работы автомата определяется по его конечному состоянию [42]. Существует два типа автоматов

29 1) Детерминированный конечный автомат (ДКА) (англ. deterministic finite automaton (DFA)) – набор из пяти элементов
(∑, Q, s Є Q, T C Q, ∂ : Q X ∑ → Q), где ∑ – алфавит (англ. alphabet), Q – множество состояний (англ. finite set of states), s – начальное (стартовое) состояние (англ. start state), T – множество допускающих состояний англ. set of accept states),∂ – функция переходов (англ. transition function);
2) Недетерминированный конечный автомат
(НКА) является обобщением детерминированного. Для представления конечного автомата составляют расширенную таблицу переходов (таблицу значений функции переходов δ, первая строка которой соответствует начальному состоянию, а заключительные состояния помечены единицами в дополнительном столбце) (Рисунок 2.1) или диаграмму переходов (ориентированный граф, вершины которого – состояния автомата, а дуги помечены элементами алфавита) (см. Рисунок
2.1). На автомат можно смотреть как на физическое устройство, состоящее из устройства управления и входной ленты. Конечные автоматы широко используются на практике, например в синтаксических, лексических анализаторах, и тестировании программного обеспечения на основе моделей. Для работы с ДКА активно используют регулярные выражения формальный язык поиска и осуществления манипуляций с подстроками в

30 тексте, основанный на использовании метасимволов (символов-джокеров, англ. wildcard characters) [43]. Рисунок 2.1 – Автомат для поиска образца в тексте для строки abbab Рисунок 2.2 – Расширенные таблицы переходов автоматов А (а, А (б, А (в) Сейчас регулярные выражения используются многими текстовыми редакторами и утилитами для поиска и изменения текста на основе выбранных правил. Многие языки программирования уже поддерживают регулярные выражения для работы со строками. Например, Perl и Tcl имеют встроенный в их синтаксис механизм обработки регулярных выражений. Набор утилит (включая редактор sed и фильтр grep), поставляемых в дистрибутивах Unix, одним из первых способствовал популяризации понятия регулярных выражений [44]. Регулярные выражения используются для сжатого описания некоторого множества строк с помощью шаблонов, без необходимости перечисления всех элементов этого множества. При составлении шаблонов используется специальный синтаксис, поддерживающий обычно такие операции как перечисление, группировка, квантификация. Синтаксис регулярных выражений вместе с метасимволами приведен в приложении 1.

31
2.2 Морфологический анализ и частеречная разметка Морфологический анализ стал особой формой лингвистического исследования лишь с х годов нашего века. Значимость морфологического анализа заключена в определении морфологической структуры слова, те. его строение, описанное в терминах данного уровня. В отличие от морфемного анализа, целью которого является вычленение морфем, составляющих данное слово, и их структурная и функциональная классификация, в задачи морфологического анализа входит вся область изучения структуры слова в ее грамматическом аспекте [45]. Основной задачей морфологического анализа является выявление поданной словоформе её первоначальную нормальную форму, от которой и было произведено данное слово, а также указание набора параметров. В результате анализа одной заданной словоформе может быть сопоставлено несколько таких пар. Под морфологическим параметром понимают такие особенности как род, число, склонение, время, краткость формы прилагательного и другие признаки, свойственные анализируемому языку [46]. С развитием автоматической обработки текста морфологическая разметка приобретает широкую популярность при работе с корпусами текстов и большими массивами данных. На её фоне появляется частеречная разметка, которая также носит название POS tagging или part-of-speech tagging. Теперь перед частеречной разметкой стоит задача не только в определении части речи и грамматических характеристик слов в тексте или корпусе, но и присвоение им свойственных тегов. POS tagging считается одним из первых этапов компьютерного анализа текста, который используется при составлении морфологических анализаторов. Морфологическая разметка составляет основу для последующих этапов лексического анализа – семантического и синтаксического. Каждая автоматизированная частеречная разметка должна обязательно базироваться на определенных правилах и тегах, которые хранятся в

32 схематичном виде. Каждому тегу прилагается его описание (расшифровка. Как правило размер и количество тегов может варьироваться в зависимости оттого какую задачу выполняет морфологический анализатор, и что на выходе хочет получить пользователь. В последнее время из-за активно развивающейся корпусной лингвистики наметилась тенденция к сокращению количества морфологических тегов (помет) для ускорения анализа текстовых массивов и выполнения строго структурированных задач
[47].
2.3 Методы и способы автоматизации извлечения именных словосочетаний
Из-за значительных затрат при разработке, полный синтаксический и семантический анализ текста по-прежнему недоступен для большинства исследователей. Если этап полного анализа текста пройден, то встаёт задача извлечения целевой информации из результатов анализа. В системах автоматического анализа текстов предпочтение отдается подходам, основанным на частичном синтаксическом анализе, который позволяет решать довольно большой спектр практических задач по извлечению и поиску информации [48].
Из-за своей гибкости работы модуля анализа текста, частичный синтаксический анализ позволяет в полной мере обработать входной текст, следуя конкретной задачи исследователя. Выделение именных групп (NP- chunking) является одной из значимых составляющих частичного анализа текста. Выделение именных словосочетаний является необходимым при автоматическом выявлении фактов, анализе медицинской и технической документации, при извлечении информации об отношениях [49]. В испанском языке именное словосочетание представляет сложный объект изучения. Есть необходимость в разработке корректного локального понимания входного текста ЭВМ для распознавания именной группы из-за таких лингвистических особенностей, как стирание склонений имен существительных и прилагательных, согласование по грамматическим

33 признакам, а также унификации множественного числа посредством окончания –s в испанском языке. В настоящее время выделяется 2 основных подхода для извлечения информации из текстов, в частности именных словосочетаний
1) Рационалистический подходили инженерный (rule-based) – базируется на составлении шаблонов с учетом лингвистических особенностей именных групп в обрабатываемом тексте, содержит правила, основывается на регулярных выражениях. Инженерный подход опирается на тот факт, что извлекаемая информация употребляется в рамках определённых языковых конструкций (напр название города пишется с большой буквы и нередко предваряется словами город, гор. или г. Подобная лингвистическая информация обычно вручную описывается в виде формальных шаблонов распознаваемых конструкций и правил их обработки. Затем правила применяются системой к анализируемому тексту в нем ищутся описанные шаблонами фрагменты, из которых извлекается искомая информация.
2) Машинное обучение (machine learning) – подход, основанный на самообучающейся системе. Несмотря на свою прозрачность, выходные данные сложно поддаются лингвистической интерпретации и практически не учитывают лингвистические особенности именной группы. Машинное обучение включает в себя методы обучения с учителем (supervised), методы обучения без учителя (unsupervised), методы частичного обучения с учителем (bootstrapping). Чаще всего применяется обучение с учителем, которое подразумевает построение математической и программной модели, которая умеет отличать искомые данные от всех остальных. Построение такого машинного классификатора (те. обучение модели) происходит на специально размеченном вручную текстовом корпусе (обучающей выборке, в котором значимым объектам, их атрибутам, отношениям, фактам приписаны соответствующие метки. Метки кодируют признаки для распознавания этих

34 данных. Для вышеприведенного примера для извлечения названия города в качестве признаков могут выступать регистр (верхний) первой буквы слова, конкретные слова, стоящие передним (город, город-курорт, город- музей, город-герой, гор. или га также признаки последующих слов (для выявления многословных названий, таких как Нижний Тагил. В последнее время появляется все больше гибридных методов, сочетающих в себе достоинство рационалистического и инженерного подхода. Гибридный подход СО. Шереметьева опирается на базе знаний стоп- слов, учитывающих их позицию при обработке входного текста. В базу включены особые словоформы с установленными правилами на запрет их расположения вначале, середине или конце именной группы. Первые системы были построены в рамках инженерного подхода, наиболее известной из них была AutoSlog. Среди первых отечественных разработок стоит упомянуть семейство мультиязычных систем извлечения информации из деловых текстов OntosMiner, которые обеспечивали переход от неструктурированной информации к ее семантическому представлению в формате онтологий предметных областей, заложенных в систему (бизнес-события, судебная тематика и полицейские отчёты). Разработка прикладных систем является сложными трудоемким процессом, существенную помощь в котором могут оказать инструментальные системы, включающие стандартные модули анализа текста и даже средства сборки и отладки приложений. Инструментальные системы, предназначенные для разработки приложений в рамках инженерного подхода, имеют обычно встроенный формальный язык для задания лингвистических правили шаблонов — сих помощью стандартные программные модули настраиваются на решение конкретной прикладной задачи.
2.4 Корпус и инструменты для машинного анализа

35 Для машинного анализа был собран корпус фармацевтических рецептов с испанского сайта www.doctoralia.es. Предварительно корпус был очищен от лишних элементов (html теги, нумерация страниц, ссылки на вопросы и форум. В постобработонном виде корпус содержит 1538045 слов, объемом 7,4 мб в формате .txt. Для более продуктивного анализа и оценки выходных результатов, автоматический поиск именных словосочетаний был разбит на несколько этапов с учетом части речи вершинного слова нумеративные, прономинальные, адъективные и субстантивные. Перед процедурой создания шаблонов на языке регулярных выражений были составлены правила для каждой группы (см. Приложение 2). Количество правил, как и количество шаблонов – бесконечно. Они строятся под определенные задачи и обладают вариативностью. Обработка корпуса выполнялась в операционной системе Ubuntu 14.04
LTS, с поддержкой графической оболочки UNIX. UNIX содержит встроенную командный интерпретатор (терминал, позволяющий работать с открытыми исходными кодами и запускать командные скрипты, что позволяет произвести быстрый автоматический анализ текста при работе с массивными базами данных. Для автоматического поиска использовалась утилита командной строки
«Grep», которая полностью отвечает заданному регулярному выражению и выводит строки, содержащие заданный поисковый элемент. Инструмент
Grep позволяет реализовать подход основанный на правилах с использованием регулярных выражений. Для выделения именных групп применялись как морфологические, таки грамматические признаки вершинной части речи словосочетания, способные охарактеризовать искомый элемент в целом. В нескольких случаях поисковый шаблон включал в себя детерминанты и морфологические признаки зависимого

36 слова, что позволило создать наиболее точный поисковый шаблон, базирующийся на признаках составляющих его словоформ. Для оценки качества работы предложенной модели по извлечению именных словосочетаний и составленной базы знаний были использованы следующие метрики точность (Precision) как количество правильных ответов, делённое на количество всех найденных ответов и полнота (Recall)
— как количество правильных ответов, делённое на общее число правильных ответов.
2.5 Автоматизированный поиск нумеративных словосочетаний Для эксперимента мы взяли количественные от 2 до 30. Первые 15 были представлены в своей полной форме, остальные имеют в составе одинаковый элемент dieci– и veinti– (кроме числа 20 veinte). Согласно правилам испанской грамматики, если имя числительное возглавляет словосочетание, то зависимое слово или группа слов строго следует за ним. Шаблон «\<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|
catorce|quince|veinte)\>\s\w*|\<(dieci*|veinti*)\w*\s\w*». На выходе из поискового шаблона было получено 575 образований. Из них двухкомпонентными цельнооформленными словосочетаниями являются
501 (см. рисунок 2.3). Кроме них поисковый шаблон выдает конструкции с числительными последующим предлогом или союзом, что указывает на незаконченность синтаксических отношений (явное начало именной группы) и на неточность построения поискового шаблона (см. таблицу 2.1). Необходимо изменить поисковый шаблон с учетом всех исключений. Мы прибегнем к контексту для анализа структуры именной группы, в дальнейшем это поможет создать максимально точный поисковый шаблон.

37 Рисунок 2.3 – Фрагмент текста для поиска нумеративной ИГ Таблица 2.1 – Примеры предложных конструкций с числительным tres o
dos por dos al
dos a
Nueve en
dos sin Конструкции с сочинительными союзом о и предлогом dos o más
mucosas; tres o más años; dos o tres días; dos o tres días de tratamiento. Наличие предлога «de» указывает на то, что элемент является составляющим компонентом более крупной именной группы и его следует рассматривать как отдельную смысловую единицу текста, его включение в поисковый шаблон необязательно, но возможно. Шаблон для поиска узкой
ИГ с союзом о
«\<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|
quince|veinte)\>\so\s\w*\s\w*|\<(dieci*|veinti*)\so\s\w*\s\w*». Найдено 44
ИГ - среди них такие словосочетания как tres o más bebidas, dos o tres tomas, dos o más mucosas . Шаблон для поиска расширенной ИГ с предлогом «de» и союзом о
1 2 3 4 5