испанский корпус. Т. Н. Хомутова автоматизация извлечения именных словосочетаний на материале испанского языка
Скачать 1.67 Mb.
|
ИГ, без предварительно составленных списков стоп-слов. Для проведения такой обработки необходимо наличие интернета на ЭВМ и API любой электронный словарной базы на оригинальном языке корпуса с тегами (с пометами частей речи) (см. рисунок 2.24). Рисунок 2.24 – Блок-схема алгоритма постобработки текста В приложении со внутренним кодом API посылается запрос на поиск в базе зависимого компонента ИГ и установление его части речи. Предварительно необходимо задать определенные параметры для анализируемого зависимого компонента (указать определенную часть речи. После анализа, скрипт выдает готовый обработанный зависимый 53 компонент будущей ИГ, полностью удовлетворяющий первоначально заявленному поисковому параметру. Например, после поиска по шаблону $ grep -E '\<(el|la|los|las|un|una|unos|unas)\>\s\w*\s\w*', было обнаружено, что существительное следующее за артиклем может иметь за собой глагол (el antibiótico deberá, las quinolonas pueden, el médico realizará, el paciente sufría), что непосредственно указывает на выявление грамматической основы, а не именную группу. После обращения к скрипту си установкой запрета на глагол, данная выявленная конструкция будет удалена из текста и на выходе получены полноценные именные словосочетания без нарушения структуры. Данная процедура будет проведена и со всеми закрытыми частями речи. Метод также может быть применен для распознавания ИГ определенной структуры при задании определенных параметров. Выводы по главе 2 В главе был представлен детерминированный конечный автомат, который позволяет рассматривать различные варианты алгоритмов для построения правил по извлечению именных словосочетаний. Входе работы нами были созданы 14 правили шаблона в терминах регулярных выражений для извлечения именных словосочетаний. На экспертном корпусе мы апробировали составленную базу знаний шаблонов и лексических единиц. Входе апробации точность реализованной модели составила 67%, а полнота 44%, результаты представлены в форме таблицы в приложении Для повышения точности мы предложили алгоритм с возможностью фильтрации и последующей обработки выходного материала. ЗАКЛЮЧЕНИЕ 54 В данной дипломной работе были рассмотрены различные лингвистические подходы в определении сущности словосочетания, которые показывают неоднозначность понимания синтаксической группы как отдельной синтаксической единицы. Словосочетание является достаточно сложным объектом для машинного анализа в испанском языке. Входе исследования, мы выяснили, что рационалистический подход подход основанный на правилах с использованием регулярных выражений) не позволяет создать точную модель поиска и выделения именных словосочетаний в корпусах испанского языка. В-основном, это обусловлено флективностью языка и особенностями выбранного метода. Основываясь наконечном детерминированном автомате появляется возможность создания различных алгоритмов и поисковых вариантов для выявления именных словосочетаний в текстовых корпусах. Входе практической работы нами были выявлены 14 правил, составленных с опорой на классификацию ПА. Леканта, для извлечения именных словосочетаний. Входе работы мы выяснили, что большинство поисковых шаблонов имеют низкую точность определения именных словосочетаний. Это связанно стем, что предварительно нами небыли составлены списки стоп- слов (закрытые части речи, союзы, артикли и предлоги, списки глагольных форм (отсутствовали инициальный и финальный список, не учтены признаки вхождения искомого элемента в состав более крупной именной группы (напр. Наличие предлога «de» или союза а. Входе работы была разработана модель для извлечения именных словосочетаний, включающая в себя 11 правили шаблона в терминах регулярных выражений. Модель реализована в форме базы знаний, состоящей из правил, шаблонов и списка лексических единиц. Входе апробации мы получили достаточно высокие показатели точности, которые указывают на то, что при 55 составлении шаблонов была максимальна учтена структура именного словосочетания, а также грамматические показатели стержневого компонента. Мы имеем средний уровень полноты, который указывает на то, что выбранные варианты шаблонов не покрывают всевозможные вариации именных словосочетаний и требуют дальнейшей разработки и пополнения базы знаний. При обработке достаточно весомого корпуса была достигнута высокая скорость извлечения, что указывает на возможность обработки массивных корпусов данных на современных компьютерных устройствах даже вне лаборатории. БИБЛИОГРАФИЧЕСКИЙ СПИСОК 1. Маслов, ЮС. Введение в языкознание Текст / ЮС. Маслов. – Москва Изд-во Высшая школа, 1987. – 272 с. 56 2. Виноградов, В. В. Русский язык Текст / В. В. Виноградов. – Москва Изд-во Высшая школа, 1972. – 478 с. 3. Noreen, A. O. О словах и классах слов Текст / A. O. Noreen. – Nordisk Tidskrift, 1879. – 136 c. 4. Сепир, Э. Язык. Введение в изучение речи Текст / Э. Сепир. – Москва Изд-во Прогресс, 1993. – 656 с. 5. Ганеев, Б. Т. Язык Текст / Б. Т. Ганеев. – Москва Изд-во Академия, 2004. – 368 с. 6. Ярцева, В. Н. Лингвистический энциклопедический словарь Текст / В. Н. Ярцева. – Москва Изд-во Советская энциклопедия, 1990. – 342 с. 7. Ефремова, Т. Ф. Современный словарь русского языка три водном орфографический, словообразовательный, морфемный около 20 000 слов, около 1200 словообразовательных единиц Текст / Т. Ф. Ефремова. – Москва Изд-во АСТ, 2010. – 699 с. 8. Ушаков, ДН. Электронное издание. Толковый словарь русского языка Ушакова Текст / ДН. Ушаков. – Москва Изд-во ЭТС, 1999. – 734 с. 9. Смирницкий, АИ. Лексикология английского языка Текст / АИ. Смирницкий. – Москва Изд-во Московский Государственный Университет, 1956. – 260 с. 10. Слово Электронный ресурс – URL: http://tapemark.narod.ru/les/ 464c.html (дата обращения 05.11.2017). – Загл. с экрана. 11. Виноградов, В. ВО формах слова Текст / В. В. Виноградов. – СССР Изд-во Язык, 1944. – 248 с. 12. Шмелёв, ДН. Проблемы семантического анализа лексики Текст / ДН. Шмелёв. – Москва Изд-во Аскмо, 1973. – 62 с. 13. Вандриес, Ж. Язык. Лингвистическое введение в историю Текст / Ж. Вандриес. – Москва Изд-во Высшая школа, 1937. – 178 с. 14. Ярцева, В. Н. Лингвистический энциклопедический словарь Текст / В. Н. Ярцева. – Москва Изд-во Советская энциклопедия, 1990. – 342 с. 57 15. Зализняк, А. А. Русское именное словоизменение с приложением избранных работ по современному русскому языку и общему языкознанию Текст / А. А Зализняк. – Москва Изд-во Языки славянской культуры, 2002. – 372 с. 16. Шмелёв, ДН. Избранные труды по русскому языку Текст / ДН. Шмелёв. – Москва Изд-во Академия, 2008. – 154 с. 17. Стернин, И. А. Лексическое значение слова и его компоненты Текст / И. А. Стернин. – Воронеж Изд-во Воронежский университет, 1985. – 137 с. 18. Шмелёв, ДН. Избранные труды по русскому языку Текст / ДН. Шмелёв. – Москва Изд-во Аскмо, 1973. –184 с. 19. Фортунатов, Ф.Ф. О преподавании грамматики русского языка в средней школе Текст / Ф.Ф. Фортунатов // Избранные труды. – Т. – Москва Изд-во Высшая школа, 1957. – 247 с. 20. Жеребило, Т. В. Словарь лингвистических терминов Текст / Т. В. Жеребило. – Назрань Изд-во Пилигрим, 2010. – 293 с. 21. Шахматов, А. А. Синтаксис русского языка Текст / А. А. Шахматов. – Л, 1941. – 214 с. 22. Виноградов, В. В. Русский язык Текст / В. В. Виноградов. – е изд. – Мс. Белошапкова, В. А. Современный русский язык Текст / В. А. Белошапкова. – М Высш.шк., 1989. – 800 с. 24. Тестелец, ЯГ. Введение в общий синтаксис Текст / ЯГ. Тестелец. – Мс. Розенталь, Д. Э Словарь-справочник лингвистических терминов Текст / Д. Э. Розенталь, МА. Теленкова. – Москва Изд-во Просвещение, 1976. – 457 с. 26. Ярцева, В. Н. Лингвистический энциклопедический словарь Текст / В. Н. Ярцева. – Москва Изд-во Советская энциклопедия, 1990. – 342 с. 58 27. Тестелец, ЯГ. Введение в общий синтаксис Текст / ЯГ. Тестелец. – Мс. Золотова, ГА. Очерк функционального синтаксиса русского язык Текст / ГА. Золотова. – Москва Изд-во Наука, 1973. – 32 с. 29. Мельчук, И. А. Курс общей морфологии Текст / И. А. Мельчук. – Т. – Вена Изд-во Прогресс 1997. – 339 с. 30. Белошапкова, В. А. Современный русский язык Текст / В. А. Белошапкова. – Москва Изд-во Высш.шк., 1989. – 800 с. 31. Левитан, КМ. Юридический перевод основы теории и практики. Текст учебное пособие / КМ. Левитан. – Москва Изд-во Проспект, 2005. – 103 с. 32. Синтаксическая связь в словосочетании Электронный ресурс – URL: дата обращения 15.04.2018). – Загл. с экрана. 33. Шуба, П. П. Современный русский язык. Синтаксис. Пунктуация. Стилистика. Текст учебное пособие / П. П. Шуба. – Минск Изд-во Поппури, 1998. – 68 с. 34. Шведова, НЮ. Грамматика современного русского литературного языка Текст / НЮ. Шведова. – Москва Изд-во Наука, 1970. – 478 с. 35. Валгина, НС. Современный русский язык Текст учебное пособие / НС. Валгина, Д. Э. Розенталь, МИ. Фомина. – Москва Изд-во Логос, 2002. – 432 с. 36. Казанцева, ЯН. Теоретическая грамматика английского языка Текст учебное пособие / ЯН. Казанцева, Н. В. Немчинова, Е. В. Семенова. – Красноярск Изд-во Сибирский федеральный университет, 2015. – 135 с. 37. Розенталь, Д. Э. Словарь-справочник лингвистических терминов Текст / Д. Э. Розенталь, МА. Теленкова. – Москва Изд-во Просвещение, 1976. – 457 с. 59 38. Семантическая сочетаемость Электронный ресурс – URL: http://studbooks.net/777372/literatura/semanticheskaya_sochetaemost дата обращения 20.01.2018). – Загл. с экрана. 39. Морковин, В. В. Основы теории учебной лексикографии Текст / В.В. Морковин. Смоленск Изд-во Концепт, 1990. – 169 с. 40. Апресян, Ю. Д. Лексическая семантика Текст / Ю. Д. Апресян. – Москва Изд-во Восточная литература, 1974. – 287 с. 41. Жеребило, Т. В. Словарь лингвистических терминов Текст / Т.В.Жеребило. – Назрань Изд-во Пилигрим, 2010. –593 с. 42. Гуренко, В. В. Введение в теорию автоматов Текст / В. В. Гуренко. – Москва Изд-во МГТУ им. Н. Э. Баумана, 2013. –154 с. 43. Форта, Б. Регулярные выражения за 10 минут Текст / Б. Форта. – Москва Изд-во Вильямс, 2017. –184 с. 44. Кубрякова, Е. С. Основы морфологического анализа Текст / Е. С. Кубрякова – Москва Изд-во Наука, 1974. –136 с. 45. Клышинский, Э. С. Начальные этапы анализа текста Текст учебное пособие / Э. С. Клышинский. – Киев Изд-во Вища шк, 1983. – 112 с. 46. Захаров, В. П. Корпусная лингвистика Текст учебное пособие / В. П. Захаров. – Иркутск Изд-во ИГЛУ, 2005. – 160 с. 47. Sahlgren, M. The Word-Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high- dimensional vector spaces Текст – M. Sahlegen. – Stockholm: Изд-во Stockholm University Department of Linguistics, 2006. – 156 с. 48. Abney, S. Parsing by chunks. Principle-based parsing Текст / S. Abney. – Kluwer: Изд-во Academic Publishers, 1991. – 278 c. 49. Schütze, H. Automatic word sense discrimination. Computational Linguistics Текст / Н. Schütze – USA: Изд-во MIT Press Cambridge, 1998. – 123 с. 50. Salton, G. Introduction to modern information retrieval Текст / G. Salton, M. McGill – New York: Изд-во McGraw-Hill, 1986. – 448 с. 60 ПРИЛОЖЕНИЕ 1 61 ПРИЛОЖЕНИЕ 2 Правила для субстантивных словосочетаний 1) Для двухкомпонентного словосочетания с зависимым числительным 2) Для двухкомпонентного словосочетания с зависимым местоимением 3) Двухкомпонентное словосочетание с детерминантом, определяющим стержневой компонент выраженный именем существительным 4) Двухкомпонентное словосочетание с детерминантом и предложной группой 62 5) Двухкомпонентное словосочетание, заданное на основе морфологического признака Правила для прономинальных словосочетаний 6) Двухкомпонентное словосочетание с личным местоимением 7) Двухкомпонентное словосочетание с выраженными морфологическими признаками у прилагательного зависимого компонента) Правила для адъективных словосочетаний 8) Двухкомпонентное словосочетание с прилагательным в сравнительной степени 63 Правила для нумеративных словосочетаний 9) Для ИС, где стрежневой компонент может задаваться лексически 10) Для сложных порядковых числительных с одинаковыми уникальными приставками (числительные от 20 до 99) 11) Для расширенной х компонентной ИГ с союзом о 12) Для х компонентного предложного словосочетания 13) Для х компонентных нумеративных сочетаний с предлогом у при согласовании породу) Для расширенного ИС с предлогом аи перед зависимым компонентом Условные обозначения 65 ПРИЛОЖЕНИЕ 3 Таблица 1 – Перечень артиклей Неопределенный артикль Определенный артикль Единственное число Множественное число Единственное число Множественное число Мужской род un unos el los Женский род una unas la las Таблица 2 – Формы личных местоимений и соответствующих им притяжательных местоимений Единственное число Множественное число yo tu èl ella usted nosotros(as) vosotros(as) ellos ellas ustedes Мужской род (el) mìo (el) tuyo (el) suyo (el) nuestro (el) vuestro (el) suyo Женский род (la) mìa (la) tuya (la) suya (la) nuestra (la) vuestra (la) suya Мужской род (los) mìos (los) tuyos (los) suyos (los) nuestros (los) vuestros (los) suyos Женский род (las) mìas (las) tuyas (las) suyas (las) nuestras (las) vuestras (las) suyas 66 Таблица 3 – Формы указательных местоимений в испанском языке Число Род este (этот) ese (этот) aquel (тот) Единственное мужской este ese aquel женский esta esa aquella средний esto eso aquello Множественное мужской estos esos aquellos женский estas esas aquellas Таблица 4 – Относительные местоимения в испанском языке единственное число множественное число Перевод (русский) que – который(-ая, -ое) quien quienes кто, который (-ая) cual cuales тот/та или который/которая cuyo/cuya cuyos/cuyas чей, который cuanto/cuanta cuantos/cuantas столько, сколько Таблица 5 – Отрицательные местоимения в испанском языке единственное число множественное число ningún/ninguna ningunos/ningunas nada – nadie – 67 ПРИЛОЖЕНИЕ 4 Испанские порядковые числительные 68 ПРИЛОЖЕНИЕ 5 Двузначные числительные в испанском языке 69 ПРИЛОЖЕНИЕ 6 Количественные числительные в испанском языке 70 71 ПРИЛОЖЕНИЕ 7 Шаблоны по группам Точность Полнота Нумеративные 81,5 33,6 \<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|quince|veinte) \>\s\w*|\<(dieci*|veinti*)\w*\s\w* 0,87 0,69 \<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce| quince|veinte)\>\so\s\w*\s\w*|\<(dieci*|veinti*)\so\s\w*\s\w* 1 0,20 \<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|quince)\>\so\s \w*\s\w*\sde{0,1}\s\w*|\<(dieci*|veinti*)\so\s\w*\s\w*\sde{0,1}\s\w* 1 0,03 \<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|quince|veinte) \>\s(sin|al|en|por)\s\ w* 1 0,05 \<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|quince|veinte) \>\sa\s\w*\s\w* 1 0,66 \<(dos|tresdos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce| quince|veinte)\>\sa\s\w*\s\w*\sde\s\w*\s\w* 1 0,28 \w*(cientos|cientas)\sy\s\w*\s\w* 1 0,1 \w*(cientos|cientas)\s\w*\sy\s\w*\s\w*. 0 0 72 \Wcien\s\w* 1 1 \Wmil|millónes\W\s\w* 0,28 0,35 Субстантивные 0,66 0,42 \<(el|la|los|las|un|una|unos|unas)\>\s\w*\s\w* 0,62 0,12 \<(el|la|los|las|un|una|unos|unas)\>\s\w*\s(a|o|y)\s\w*\s\w* 0,71 0,34 с 0,77 0,52 \<(primer|segund|tercer|cuart|quint)\s\w* 0,80 0,29 \<(mis?|tus?|su?|nuestros?|nuestras?|vuestros?|vuestras?)\>\s\w* 0,9 0,58 \<(ese|esas?|esos|aquel|aquella|aquellos|aquellas)\>\s\w* 0,69 0,215 \w*\<(cuyo|cuya|cuyos|cuyas)\>\s\w* 0,68 0,93 \w*\<(algunos|algunas?|algún|todo|todas?|todos|otros?|otras|mismos?|mismas?|vari es|varias|cualquiera?)\>\s\ w* 0,38 0,14 \w*\<(ningún|ningun(a|o)?)\>\s\w* 0,78 0,16 \w*\s(\<(dentro|arriba|detrás|fuera|lejos)\>) 0,48 0,84 \w*(mente)\>\s\w* 0,73 0,72 Прономинальные 1,01 1,07 73 (\<(yo|tú|él|ella|usted|nosotros|nosotras|vosotros|vosotras|ellos|ellas|ustedes)\>)\s\w 0,8 0,6 (\<(usted|ustedes)\>)\s(\w*((ico|ada)\>)|mayor) 0,21 0,47 Адъективные 0,37 0,24 (\<(mas)\>)\s\w* 0,37 0,24 Общее 67,49% 44,78% |