испанский корпус. Т. Н. Хомутова автоматизация извлечения именных словосочетаний на материале испанского языка
Скачать 1.67 Mb.
|
1 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего образования «Южно-Уральский государственный университет национальный исследовательский университет Институт лингвистики и международных коммуникаций Кафедра лингвистики и перевода ДОПУСТИТЬ К ЗАЩИТЕ Заведующий кафедрой, д.филол.н., доцент ________________ /Т.Н. Хомутова/ АВТОМАТИЗАЦИЯ ИЗВЛЕЧЕНИЯ ИМЕННЫХ СЛОВОСОЧЕТАНИЙ НА МАТЕРИАЛЕ ИСПАНСКОГО ЯЗЫКА) ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА ЮУрГУ – 45 .03.03 .20 18 286 .ВКР Руководитель, к.филол.н., доцент _______________ /О.И. Бабина/ «____» ________________ 2018 г. Автор студент группы ЛМ- 436 ________________ / Д.Д. Сарасек / «____» ________________ 2018 г. Нормоконтролер, к.филол.н., доцент _________________ /О.И. Бабина/ «____» ________________ 2018 г. Работа защищена с оценкой _____________________________ «____» ________________ 2018 г. Челябинск 2018 2 ОГЛАВЛЕНИЕ Введение. 4 Глава 1 Именное словосочетание в испанском языке. 8 1.1 Слово. 8 1.1.1 Понятие Слово 1.1.2 Лексическое и грамматическое значения слова Двусторонняя сущность слова 1.1.4 Мотивация слова 1.1.5 Словообразование в испанском языке 1.2 Словосочетание 1.2.1 Понятие Словосочетание 1.2.2 Смысловые отношения в словосочетании 1.2.3 Именное словосочетание 1.2.4 Семантическая близость и сочетаемость …….……...........26 Выводы по главе 1........................................................................................ 27 Глава 2 Автоматизация извлечения именных словосочетаний в испанском корпусе. 29 2.1 Теория конечных автоматов и регулярные выражения 2.2 Морфологический анализ и частеречная разметка 2.3 Методы и способы автоматизации извлечения именных словосочетаний 2.4 Корпус и инструменты для машинного анализа 2.5 Автоматизированный поиск нумеративных словосочетаний 2.6 Автоматизированный поиск субстантивных словосочетаний 2.7 Автоматизированный поиск прономинальных словосочетаний 2.8 Автоматизированный поиск адъективных словосочетаний 2.9 Алгоритм постобработки ……………………………………..........52 Выводы по главе 2........................................................................................ 53 Заключение Библиографический список 3 Приложение 1…………...............................................................................61 Приложение 2…………...............................................................................62 Приложение 3…………...............................................................................66 Приложение 4…………...............................................................................68 Приложение 5…………...............................................................................69 Приложение 6…………...............................................................................70 Приложение 7…………...............................................................................72 4 ВВЕДЕНИЕ В эпоху технического прогресса активно растет количество текстовой информации. Современные компьютерные технологии позволяют ускорить процессе обработки, сделать его качественными удобным для пользователя. Выделение именных словосочетаний является одной из значимых составляющих частичного анализа текста. Оно является необходимым при автоматическом выявлении фактов, анализе медицинской и технической документации, при извлечении информации об отношениях. Aктуальность данного исследования заключается в необходимости создания автоматизированных шаблонов для поиска именных словосочетаний в текстовых корпусах. Объектом исследования выступают именные словосочетания. Предметом исследования является автоматизация процессов извлечения именных словосочетаний из корпуса текста. Цель настоящего исследования заключается в разработке автоматизированных поисковых шаблонов для выявления именных словосочетаний, их тестирование и анализ устойчивости в корпусе фармацевтических рецептов на испанском языке. Для достижения поставленной цели необходимо решить следующие задачи 1) Рассмотреть понятие именное словосочетание 2) Выделить критерии и лингвистические особенности для составления правил 3) Разработать модель извлечения именных словосочетаний на испанском языке 5 4) Составить базу знаний, включающую шаблоны для извлечения именных словосочетаний из корпуса на испанском языке 5) Апробировать составленные шаблоны на экспериментальном корпусе, проанализировать их точность и полноту отбора на основе составленной базы знаний. Для решения поставленных задач были использованы следующие методы исследования – описательный с использованием приемов обобщения анализируемого материала – сплошной выборки – корпусный анализ – моделирование – инструментальный – экспериментальный. Теоретико-методологической базой исследования послужили работы отечественных и зарубежных лингвистов, педагогов, посвященных – проблеме определения термина словосочетания (В.Н. Ярцевой, Ф.Ф. Фортунатова, В.В. Виноградова, НС. Валгина, Д.Э. Розенталь, НЮ. Шведова); – компьютерной лингвистике и анализу текста (Б.Ю.Городецкий, В.Ю. Захаров, Э.С. Клышинский). Достоверность и обоснованность результатов исследования обеспечивается – использованием адекватных методов исследования – результатами эксперемента. Научная новизна исследования обусловлена тем, что в нем разработаны шаблоны для автоматизированного поиска именных словосочетаний в испанском языке на базе операционной системы UNIX и утилиты Grep, а также предложен метод последующего анализа 6 извлеченных конструкций для улучшения точности выявления именных словосочетаний в постобработанном материале на основе корпуса. Теоретическая значимость исследования заключается в том, что модель расширяет теорию прикладной лингвистики в области извлечения информации из текста при проведении корпусных исследований. Практическая ценность исследования заключается в том, что разработанная база знаний может быть использована при создании реальных систем по обработке текста представленная модель найдет применение при автоматизация извлечения именных словосочетаний для процедуры составления специализированных словарей и баз данных результаты могут быть применены при обучении студентов в таких областях как корпусная и прикладная лингвистика. Апробация и внедрение результатов работы проводилось на экспериментальном корпусе. Цель и задачи исследования определили его структуру и объем. Данная работа состоит из введения, двух глав, заключения библиографического списка и 4 приложений. Во введении дается обоснование актуальности и выбора темы исследования, определяются объект, предмет, цель, задачи и методы исследования, а также его научная новизна, теоретическая и практическая значимость формулируются основные положения, выносимые на защиту. Основная часть исследования, представленная двумя главами, посвящена последовательному решению поставленных задач. Первая глава состоит из двух разделов, включающих в себя девять подразделов и посвящена трактовке понятий слова и словосочетание, словообразовательным моделям в испанском языке, семантическому единству и сочетаемости двух слов. В результате рассмотрения теоретических основ тестирования лингвистически ориентированных электронных учебных ресурсов в 7 выводах по первой главе сформулированы теоретические принципы, положенные в основу исследования. Во второй главе приведены правила и поисковые шаблоны на инструменте Grep для выявления именных словосочетаний в испанском фармацевтическом корпусе, описан механизм работы составленной базы знаний, проведен анализ устойчивости выявленных именных словосочетаний и предложен метод их постобработки. В заключении подводятся основные итоги проведенного исследования, формулируются общие выводы, намечаются перспективы дальнейшего исследования в этой области. Библиографический список представлен 50 наименованиями. В качестве приложений включена лексическая база знаний использованная в эксперименте, таблица с регулярными выражениями, а также графически представленные правила алгоритмов для построения поисковых шаблонов в терминах регулярных выражений. 8 ГЛАВА 1 ИМЕННОЕ СЛОВОСОЧЕТАНИЕ В ИСПАНСКОМ ЯЗЫКЕ 1.1 Слово 1.1.1 Понятие Слово Вовсе времена перед лингвистами стояла проблема формального определения понятия слово, что порождало дискуссии и неоднозначные взгляды на его природу. Л.В.Щерба писал В самом деле, что такое слово Мне думается, что в разных языках это будет по-разному. Из этого, собственно, следует, что понятия слово вообще не существует. ЮС. Маслов, считает что слово, является неопределенной единицей, как сточки зрения структурного аспекта и формальных признаков, таки сточки зрения смыслового содержания, как в пределах одного языка, таки при проведении сравнительного анализа разных естественных языков [1]. В.В. Виноградов, также указывал на недостаток прочных теоретических основ в современной грамматике, в отсутствии определения или точного описания основных грамматических понятий, особенно понятий слова и предложения [2]. В различные исторические эпохи, определение понятия слова менялось. Так, в 19 веке, А.Г. Нурен определял слово как независимая морфема (un morphème indépendant), которую наше языковое чутье воспринимает как целое по звуку и значению, так что она или ощущается неразложимой на более мелкие морфемы (например, здесь, почти, там, или – в случае, если это можно сделать, – она воспринимается независимо от значения этих более мелких, составляющих ее морфем [3]. Для Э. Сепира слово есть один из мельчайших вполне самодовлеющих кусочков изолированного смысла, к которому сводится предложение [4]. 9 Б.Т. Ганеев определяет слово, как минимально значащую единицу языка, которая может быть предложением или членом предложения [5]. В словаре В.Н. Ярцевой, понятие слово, трактуется как – основная структурно-семантическая единица языка, служащая для именования предметов и их свойств, явлений, отношений действительности, обладающая совокупностью семантических, фонетических и грамматических признаков, специфичных для каждого языка [6]. Т.Ф. Ефремова трактует слово, как единицу речи, представляющую собою звуковое выражение отдельного предмета [7]. Название понятия в отличие от самого понятия. По ДН. Ушакову, слово – единица речи, представляющая сою звуковое выражение отдельного предмета мысли [8]. Трудность в определении понятия слово, сподвигла многих лингвистов отказаться от введения данного понятия и рассматривать вместо него термины с условным более узким значением (напр словема, лексема, вокабула, словоформа, лексико-семантический вариант. АИ. Смирницкий писал В одних языках. слова выделяются более или менее четкими фонетическими признаками (ударение, сингармонизм, законы конца слова и пр в других, напротив, фонетические признаки слова совпадают стем, что мы находим у других образований (например, у морфем или, напротив, целых словосочетаний. Все многообразие особенностей отдельных языков может, однако, нисколько не препятствовать определению слова вообще, поскольку в этом многообразии выделяются и общие черты, выступающие как наиболее существенные признаки слова, при всех возможных отклонениях от типичных случаев [9]. В.Н. Ярцева выделяет следующие характерные признаки для вычленения слова 1) Цельность (воспроизводимость слова в его фонетическом и морфологическом единстве, типологическая черта флективных языков цельность флективного слова поддерживается единым ударением, 10 фузионной связью основы и аффикса, несамостоятельностью основы и фонетическим отличием аффиксов от служебных слов 2) Выделимость (наличие морфологического оформления 3) Свободная воспроизводимость в речи [10]. В истории языкознания было выдвинуто свыше семидесяти различных критериев определения слова, в их основе лежали фонетические, грамматические, структурные, фонетические, синтаксические, семантические и системные принципы [11]. В представлении американского философа Ч.У. Морриса, значение слова составляют три базовых компонента прагматический, семантический, синтаксический, каждый из которых специфичен и обладает неразрывной связью с другими. НМ. Шанский, считает, что в определении слова стоит отразить, его наиболее существенные признаки. По его мнению, основными признаками слова как лингвистической единицы в целом являются фонетическая оформленность, семантическая валентность, непроницаемость, недвуударность, лексико-грамматическая отнесенность, постоянство звучания и значения, воспроизводимость, цельность и единнооформленность, преимущественное употребление в сочетаниях слов, изолируемость, номинативность, фразеологичность [12]. В.В. Виноградов, отмечает, что существуют слова, которые являются только морфемами, и морфемы, которые иногда являются словами. Слово может выражать и единичное понятие, конкретное, абстрактное, и общую идею отношения (напр предлоги от, обили союз и, и законченную мысль например, афоризм Козьмы Пруткова: Бди) [13]. Однако В.В. Виноградов подмечает глубокую разницу между словами и морфемами, так как лишь слово свободно перемещаться в пределах предложения, а морфемы, входящие в состав слова – неподвижны. 1.1.2 Лексическое и грамматическое значения слова 11 Содержательная (внутренняя) сторона слова представляет собой сложный, многогранный феномен. Традиционно в языкознании выделяется два значения слова лексическое и грамматическое. В истории языка грамматическое и лексическое значение органически связаны и подвержены влиянию друг друга. Изучение грамматического строя языка невозможно без учета взаимодействия грамматических и лексических значений. В словаре В.Н. Ярцевой под лексическим значением понимается содержание слова, отображающее в сознании и закрепляющее в нём представление о предмете, свойстве, процесс, явлений, а под грамматическим значением – обобщённое, отвлечённое языковое значение, присущее ряду слов, словоформ, синтаксических конструкций и находящее в языке своё регулярное (стандартное) выражение [14]. Грамматические значения слова характеризуются своей не универсальностью и образуют четкий структурированный класс. А.А.Зализняк, понимал под грамматическим значением – значение, выражение которого обязательно для всех словоформ данного класса лексем [15]. ДН. Шмелев, пишет, что собственное лексическое значение слова определяется не только его непосредственным предметным содержанием, но и семантической соотнесенностью с рядом других слов [16]. Лексическое значение не изменяется во всех грамматических формах слова, в том числе и аналитических. Оно принадлежит к неопределенной словоформе, а лексеме в целом. Исследованием природы лексического значения слова занимаются лексическая семасиология и лексикология. В лингвистике нет четкого взгляда на определение лексического значения у служебных слов. ЮС. Маслов считает, что служебные слова функционируют в предложении как выразители тех или иных грамматических значений отдельных слови тех или иных смысловых и формальных связей между словами грамматическое значение в их содержании представляется основным, если не единственным в своем роде. 12 И.А. Стернин выделяет лексическое значение (закрепленное словом отражения языковой реальности) и структурное-языковое значение информация о признаках слова как функциональной единицы языкато есть отражение в значении языковой действительности) [17]. ДН. Шмелев в лексическом значении выделяет денотативный макрокомпонент (основной компонент, указывающий на свойства, признаки предмета номинации передает коммуникативно значимую информацию) и коннотативный макрокомпонент выражает эмоционально-оценочное отношение говорящего к денотату слова, несет дополнительную информацию) [18]. Концептуальное значение слова отображает денотат (класс денотатов). В состав лексического значения слова входят ядро и коннотации эмоциональные, стилистические, экспрессивные добавочные элементы, придающие свойственную слову эмоциональную окраску. Отнесенность лексического значения характеризуют 1) предметная отнесенность слова (отношение к денотату); 2) понятийная отнесенность (отношение к категориям логики 3) значимость (отношение к концептуальными коннотативным значениям других слов. 1.1.3 Двусторонняя сущность слова Слово является сложной двусторонней единицей языка. Ему присуще план выражения (форма) и план содержания (значение) (Рисунок 1.1). ЮС. Маслов определяет план выражения как звуковую материальную сторону слова, воспринимаемую слухом (на письме – буквенное обозначение, а план содержания как заключенную в слове мысль, передающую ту или иную информацию и те или иные сопровождающие эту информацию эмоциональные моменты. 13 Рисунок 1.1 – Схема представления слова как двусторонней единицы языка Многие лингвисты именуют план выражения – лексемой (абстрактной единицей, представляющей слово в совокупности всех его форм, и значений. В речи лексема воспроизводится в определенных словоформах или лексах (единицы речи. Лексемы могут быть представлены, как водной словоформе (кофе, визави, таки в нескольких (стол, столом, стулу и т.д.). План содержания слова составляют его лексическое и грамматическое значение. Лексическому значению свойственно выражение в слове того или иного явления действительности, а также конкретность и индивидуальность. Грамматическое значение определяет принадлежность словак определенной части речи. На уровне лингвистического анализа план содержания слова также именуют «семемой» (компоненты значения слова. Семема – высшая единица плана содержания, которая включает в себя саму сему или их совокупность (напр соседка состоит из сем человек + женский пол + живущий по соседству. В семантических полях встречается два вида сем интегрирующие способные объединяться в одну группу) и дифференциальные семы отличающие члены семантического поля друг от друга. Грамматическое значение отражается морфологически. 14 Рисунок 1.2 – Схема описания структуры слова стул 1.1.4 Мотивация слова Каждому предмету или явлению в реальности присущи некие признаки, но при именовании выбирается лишь один из них – самый заметный и необязательно существенный, который в дальнейшем и представляет его в целом (напр. кукушка – по характерному крику el corte (порез) – по длине раны. Мотивация слова – выражение в слове одного или нескольких признаков называемого предмета, используемое в качестве названия данного предмета в целом (ЮС. Маслов). Е.А. Земская под мотивацией понимает отношения между морфологической и фонетической структурой слова с одной стороны, и его значением с другой. Выделяют три типа мотивации 1) Фонетическая мотивация имеет место при естественной связи между значением слова и его звучанием (cuckoo, splash, purr, buzz, bubble); 2) Морфологическая мотивация строится по имеющимся в естественном языке моделям из существующих морфем (extranumerario: extra – сверх, numerar – штат, io – признак (сверхштатный superabundancia: super – лишние, abundancia – обилие (изобилие. Морфологически мотивированное 15 слово сформировано из компонентов, несущих в себе определенное значение. Проведя морфологический анализ испанского слова electroencefalografista, можно выделить в нём следующие компоненты electro (корень) + encefalo (корень) + graf (корень) + ista (суффикс имени существительного 3) Семантическая мотивация опирается на связи между первичными вторичным значением слова, изменяются значение и функция слова (sable – соболь (зверь, sable – соболь (мех, azafata – служанка королевы, помощница, azafata – стюардесса. Слова, основанные на семантической мотивации, часто носят образный характер. Глубина мотивации может быть различной ярко выраженной (белошапка, старорусский, стертой (волейбол, жимолость, утраченной дом, парашют. |