Главная страница
Навигация по странице:

  • \ |ocho|nueve|diez|once|doce|trece|catorce|quince|veinte)\>\s(sin|al|en|por)\s\ w*»

  • «\ veinte)\>\sa\s\w*\s\w*».

  • «\ | quince|veinte)\>\sa\s\w*\s\w*\sde\s\w*\s\w*

  • \w*(cientos|cientas)\sy\s\w*\s\w*»

  • \w*(cientos|cientas)\s\w*\sy\s\w*\s\w*

  • \ \s\w*\s\w*»

  • «\ \s\w*\s(a|o|y)\s\w*\s\w*»

  • \s\ \s\w*»

  • «\ \s\w*»

  • «\w*\ \s\w*»

  • «\w*\ |otros|otras|mismos|mismas|varies|varias|cualquiera)\>\s\ w*»

  • «\w*\s(\ )»

  • (\ vosotras|ellos|ellas|ustedes)\>)\s\w*»

  • «(\ )\s(\w*((ico|ada)\>)|mayor)»

  • 2.8 Автоматизированный поиск адъективных словосочетаний Для поиска прилагательного в сравнительной степени, с наречием más более) мы использовали шаблон (\ )\s\w*

  • испанский корпус. Т. Н. Хомутова автоматизация извлечения именных словосочетаний на материале испанского языка


    Скачать 1.67 Mb.
    НазваниеТ. Н. Хомутова автоматизация извлечения именных словосочетаний на материале испанского языка
    Дата14.02.2022
    Размер1.67 Mb.
    Формат файлаpdf
    Имя файлаиспанский корпус.pdf
    ТипДокументы
    #361096
    страница4 из 5
    1   2   3   4   5
    «\<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|quince)
    \>\so\s\w*\s\w*\sde{0,1}\s\w*|\<(dieci*|veinti*)\so\s\w*\s\w*\sde{0,1}\s\w*». В корпусе имеется лишь одно словосочетание с расширенной ИГ: dos o tres días de tratamiento (два или три дня лечения. Конструкции с предлогами «por», «a», «al», «en»: dos por codeína cuya frecuencia; máximo dos al día;nueve en niños, dos sin problemas. Структура

    38 именной группы с предлогами включает в себя один или более зависимых элементов, также встречаются расширенные именные группы. Шаблон для поиска узкой
    ИГ:
    «\<(dos|tres|cuatro|cinco|siete
    |ocho|nueve|diez|once|doce|trece|catorce|quince|veinte)\>\s(sin|al|en|por)\s\
    w*». Найдено 4 словосочетания данного типа (см. рисунок 2.4). Рисунок 2.4 – Шаблонный поиск ИГ с предлогами «por», «a», «al», «en» Предложные словосочетания с предлогом «a»: tres a cinco días de tratamiento, dos a cuatro semanas, dos a siete dias. Особенность контекста фармацевтического корпуса заключается в том, что предлог «a» требует за собой постановку ещё одного количественного числительного. Данную особенность необходимо учитывать при составлении поискового шаблона. Шаблон для поиска
    ИГ с предлогом а
    «\<(dos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce|quince|
    veinte)\>\sa\s\w*\s\w*». Всего обнаружено 8 словосочетаний данного типа, 2 из которых повторяются несколько раз на протяжении всего текста (см. рисунок 2.5). Рисунок 2.5 – Шаблонный поиск ИГ с предлогом а После операции поиска по расширенному шаблону
    «\<(dos|tresdos|tres|cuatro|cinco|siete|ocho|nueve|diez|once|doce|trece|catorce
    | quince|veinte)\>\sa\s\w*\s\w*\sde\s\w*\s\w*». Выяснилось, что среди 8

    39 словосочетаний присутствует 2 расширенных с предлогом «de» (см. рисунок 2.6). Рисунок 2.6 – Результаты поиска расширенных ИГ с предлогом а Раннее мы не брали во внимание количественные числительные от 200 до 900 для которых характерно согласование породу, они попадают под исключения в испанском языке. Также необходимо учитывать и то, что многие числительные являются составными. Грамматической особенностью таких числительных является наличие союза «y» между составляющими компонентами (напр doscientos treinta y seis gatos). Для поиска составных нумеративных словосочетаний (3 компонента с союзом y): «\w*(cientos|cientas)\sy\s\w*\s\w*». В результате обработки была выявлена 1 ИГ (см. рисунок 2.7). Рисунок 2.7 – Результат поиска составной нумеративной ИГ Для поиска составных нумеративных словосочетаний (4 вершинных компонента с союзом y): '\w*(cientos|cientas)\s\w*\sy\s\w*\s\w*'. В нашем корпусе не содержатся ИГ данного типа. Особенностью числа 100 в испанском языке является потеря окончания
    –to перед существительным. Мы не учитывали этот фактор в предыдущем шаблоне. Шаблон для поиска '\Wcien\s\w*'. Результаты поиска (см. рисунок 2.6). Рисунок 2.8 – Результат поиска ИС по схеме количественное числительное
    (100) и существительное

    40 Выявление порядковых числительных тысяча (mil) и миллион (millón), которые при образовании словосочетания могут иметь в составе более одного вершинного слова, затруднено без анализа контекста. Однако, мы можем с точностью говорить о наличии как менее одного порядкового числительного до слова mil или millón (к примеру nueve mil gatos, doscientos millónes). Шаблон для поиска ИГ с вершинным элементом mil или millón(es): $
    grep -E '\Wmil|millónes\W\s\w*'. Всего найдено 7 образований, из которых лишь 1 представляет полную ИГ (diez mil pacientes), и 1 входит в состав расширенной
    ИГ с предлогом
    «de» см. рисунок Рисунок 2.9 – Результат поиска ИГ с mil При построении шаблона не была учтена многозначность слова mil и наличие графических знаков в предложении. В результате, при анализе выходных данных, было обнаружено наличие лишь одной полной нумеративной ИГ: mil pacientes (тысяча пациентов. Данный поисковый шаблон показал крайне малую вероятность, всего 1 кили. Автоматизированный поиск субстантивных словосочетаний Согласно классической грамматике большинство субстантивных ИГ содержат детерминат перед стержневым компонентом. Можно составить шаблон с опорой на артикли, так как они неизменно находятся в предпозиции к вершине ИГ.
    Шаблон «\<(el|la|los|las|un|una|unos|unas)\>\s\w*\s\w*». В корпусе всего было найдено 30686 образований данного типа. Среди них были найдены как трехкомпонентые субстантивные ИГ, таки лишь начальные фрагменты ИГ с предлогами и союзами con, de, y, del, en, para, sin, o, que, a, no – указывающими на расширенную ИГ. Также по шаблону

    41 нашлись полные грамматические основы (el antibiótico deberá, las quinolonas pueden, el médico realizará, el paciente sufría) (см. рисунок 2.10). Рисунок 2.10 – Фрагмент поиска с использованием артиклей Для более точного выявления субстантивных ИГ необходимо учитывать связь компонентов с предлогами и артиклями и последующие элементы конструкции. Словосочетания с союзами и сочинительными предлогами «y», «o» и а требуют после себя дополнительный компонент. Шаблон для поиска субстантивного именного словосочетания с y, o, a:
    «\<(el|la|los|las|un|una|unos|unas)\>\s\w*\s(a|o|y)\s\w*\s\w*». В результате мы получили 4670 образований данного типа (см. рисунок
    2.11). После анализа исходного материала, оказалось что на 100 образований, приходится лишь
    48 полных самостоятельных словосочетаний, в остальных случаях за предлогами следовали и такие части речи как глаголы (la cabeza o ha tenido, el periodo o tenerlo de, los impulsos a consumir cocaína и т.д.) или ИГ являлась лишь частью более крупной группы (la conducción o al manejo de herramientas o máquinas, la sensibilidad a la luz y al ruido, la piel o urticaria en cualquier parte del cuerpo). Вероятность точного нахождения ИГ поданному шаблону составляет всего лишь 0,48 к 1. Для поиска субстантивной ИГ си необходимо учитывать также что перед вторым компонентом может возникать артикль. Шаблон для поиска субстантивной ИГ в случае наличия артикля после
    «de» или с с)

    42
    \s\<(el|la|los|las|un|una|unos|unas)\>\s\w*». По поисковому шаблону было обнаружено 3592 словосочетания (см. рисунок 2.12). Рисунок 2.11 – Фрагмент выходного текста после работы шаблона для
    ИС с предлогами a, o, y Некоторые из них справа имели предлог «de», что указывало на продолжение ИГ и вложенность конструкции (пример el aumento de los niveles de hormona tiroide A, el tratamiento de la obesidad con pastillas como
    MySimba, el blanco de los ojos a amarillo, el mantenimiento de la abstinencia del alcohol). Рисунок 2.12 – Фрагмент извлечения ИГ с артиклем и de или con Также шаблон не учитывает наличие прилагательного после последнего слова справа, что существенно влияет на последующие этапы обработки текста и его перевод на другие языки (пример una evaluación de la función

    43 visual, un incremento de los enzimas hepáticos, la valoración de los efectos adversos). Для поиска ИГ, где вершиной является имя существительное, а зависимым компонентом выступает порядковое числительное необходима предварительна составленная база знаний порядковых числительных. Так как порядковые числительные согласуются вроде и числе, необходимо учитывать все типы окончаний при составлении поискового шаблона, а также их предпозицию по отношению к существительному (segundo chico, segunda chica, segundos chicos, segundas chucas). Для эксперимента мы взяли первые 5 порядковых числительных
    «\<(primer|segund|tercer|cuart|quint)\s\w*». По шаблону было найдено 364 совпадений (см. рисунок 2.13). Большинство из них, а именно 293 являются полностью самостоятельными двухкомпонентными ИС. Остальные же исключения – 71 образование – представляют сочетание порядкового числительного и предлога или союза (primer y, tercer o). Для полноты поиска необходимо в дальнейшей учитывать данные образования и включить в регулярное выражение под знаком исключения. Рисунок 2.13 – Результаты поиска по шаблону числительных В некоторых случаях местоимение является зависимым элементом в субстантивной ИГ. Они находятся в предпозиции к существительному стержневому слову.

    44 Для поиска ИГ с притяжательными местоимениями (mi, mis, tu, tus, su, sus, nuestro(s), nuestra(s), vuestro(a,as), мы составили шаблон
    «\<(mis?|tus?|su?|nuestros?|nuestras?|vuestros?|vuestras?)\>\s\w*». Всего было найдено 10758 образований данного типа. Среди них, наиболее часто употребительная форма с местоимением su (Ваш/Вашего) (su sangre – вашей крови, su médico – вашего медика, su reacción - вашу реакцию, su bebé - ваш ребенок, su estómago - ваш желудок, кроме них также встречаются словосочетания с местоимениями tu (tu psiquiatra – твой психиатр, tu enfermedad – твоё заболевание, nuestros (nuestros pacientes – наши пациенты, nuestro (nuestro pais – нашей страны) (см. рисунок 2.14). Во всех случаях была полностью выдержена структура ИГ притяжательное местоимение + имя существительное. В некоторых случаях найденная ИГ входила в состав более расширенной ИГ с предлогом
    «de» (a su médico de que está tomando Zytram, su centro de salud). Рисунок 2.14 – Фрагмента поиска ИГ по сх по схеме притяжательное местоимение + имя существительное Поисковая точность данного шаблона описывается тем, что притяжательные местоимения всегда находятся в предпозиции по отношению к существительному и согласуются с ним вроде и числе, также при наличии притяжательного местоимения артикль перед именем существительным опускается. В испанском языке насчитывается всего три основных указательных местоимения, которые согласуются с существительному вроде и числе
    (este – esta – estos – estas; ese – esa – esos – esas; aquel – aquella – aquellos –

    45 aquellas). Для поиска словосочетаний с указательными местоимениями, имеющими близкое значение к артиклю и также находящиеся в предпозиции к имени существительному, был создан поисковый шаблон следующего типа «\<(ese|esas?|esos|aquel|aquella|aquellos|aquellas)\>\s\w*». Всего было найдено 310 образований в составе которых входит притяжательное местоимение (см. рисунок 2.15). 215 из них являются полноценными ИГ (esas horas, ese problema, aquellos medicamentos , aquellas mujeres , ese día, esos casos,esos vasos). Поисковый шаблон работает в вероятностью 0,69. Среди, конструкций не попадающих под ИГ есть указательные местоимения с предлогами, союзами (aquellos con, aquellos en, aquellos que, aquellas para, aquellos sin). Рисунок 2.15 – Фрагмент работы поискового шаблона с указательными местоимениями При сочетании с существительным относительные местоимения (Cuyo – cuya – cuyos – cuyas – чей, чья, чьи который (–ая, –ые)) могут быть показателями придаточных предложений. Таким образом местоимение сuуо выполняет две функции относительного местоимения и притяжательного- прилагательного. Оно связывает два имени, одно из которых всегда называет лицо (или предмет, обладающее чем-либо, а другое – предмет обладания Шаблон для поиска «\w*\<(cuyo|cuya|cuyos|cuyas)\>\s\w*». Всего было выявлено 135 конструкций (см. рисунок 2.16).

    46 Большинство из них, а именно 93 имеют перед указательным местоимением существительное, согласующееся с придаточным предложением (gástricas cuyos síntomas, medicamentos cuya acción, adversos cuya frecuencia, niños cuyas madres). Рисунок 2.16 – Шаблон поиска относительных местоимений Неопределенные местоимения-прилагательные также являются одним из показателей ИГ. Они всегда занимают предпозицию относительно существительного. Для поиска мы отобрали наиболее распространенные из них (alguno,todo, otro, mismo, varies, cualquier). Поисковый шаблон «\w*\<(algunos|algunas?|algún|todo|todas?|todos
    |otros?|otras|mismos?|mismas?|varies|varias|cualquiera?)\>\s\ w*». Всего найдено 10285 конструкций (см. рисунок 2.16). На 100 единиц выявленных сущностей, приходится лишь 57 полноценных ИС (пример alguna enfermedad, otras causas, mismo tiempo, otros antisépticos, cualquier origen, algunas personas). Среди остальных обработанных конструкции встречались неопределенные местоимения с артиклями (todos los, todas las); с предлогом «de», что указывало на незавершенность ИГ (alguna de, cualquiera de); c различными союзами и предлогами (mismo o, todo en, cualquier otra, mismo que, algún otro). Вероятность выявления ИС с неопределенным местоимение, даже без предварительно включенных стоп- слов в шаблон, достаточна высока 0,57 к 1.

    47 Рисунок 2.17 – Фрагмент текста по поисковому шаблону с неопределенным местоимением Предыдущие наши шаблоны не включали в себя отрицательные местоимения ningún, ninguna(o). Шаблон для поиска ИГ с отрицательными местоимениями
    «\w*\<(ningún|ningun(a|o)?)\>\s\w*». Обнаружено 215 образований (м. рисунок 2.17). При этом все конструкции с ningún являются полноценными
    ИГ (пример ningún componente , ningún problema , ningún efecto , ningún país). А среди конструкций си был выявлен признак предлог «de») расширенной именной групп. Из 215 наименований лишь
    168 являются полноценными ИГ (ninguna reacción, ninguna temperatura, ninguna herramienta). Поисковый шаблон работает с точностью 0,78 . Наречие также может быть зависимым словом в субстантивной ИГ. Для эксперимента были отобраны 5 самых распространенных наречий места в испанском языке (dentro – внутри, arriba – вверху, detrás – позади, fuera – снаружи, lejos – далеко. Поисковый шаблон «\w*\s(\<(dentro|arriba|detrás| fuera|lejos)\>)». По поисковому шаблону нашлось 174 конструкции (см. рисунок 2.18). Полными самостоятельными именными словосочетаниями среди них являются 84 конструкции (producto dentro, debilidad fuera, inyección dentro, lesión dentro, medicamentos arriba).

    48 Рисунок 2.18 – Фрагмент работы поискового шаблона с отрицательными местоимениями Также по шаблону были найдены наречия с союзом si (si fuera), c предлогом por (por dentro, por fuera), c наречием más (más arriba) и другие фрагменты конструкций (que fuera ,así fuera, o dentro). Особенностью некоторых испанских наречий, является наличие суффикса -mente. Построим шаблон для поиса ИС с наречием на -mente:
    «\w*(mente)\>\s\w*». В корпусе было обнаружено 6179 конструкции с наречиями на –mente см. рисунок 2.19). На 100 конструкций приходится всего 35 полноценных
    ИГ (наречие + существительное) (пример esporádicamente niveles, recientemente alcohol, estrechamente relacionados, predominantemente hematomas, previamente pensamientos, generalmente diarrea, habitualmente alcohol, conjuntamente medicamentos). Среди остальных были найдены сочетания наречия с артиклем (mensualmente el), с местоимениями
    (normalmente su), c предлогами и союзами (especialmente en, especialmente de , habitualmente y, únicamente para) и с другими служебными частями речи
    (recientemente otros, periódicamente ya, adicionalmente si ).

    49 Рисунок 2.19 – Поиск ИГ с наречиями на –mente в корпусе
    2.7 Автоматизированный поиск прономинальных словосочетаний Особенностью фармацевтических рецептов является употребление вежливых местоимений. Рецепты не изобилируют ИГ содержащие прилагательные. Проверим наличие личных местоимений в обрабатываемом корпусе. Шаблон для поиска «(\<(yo|tú|él|ella|usted|nosotros|nosotras|vosotros|
    vosotras|ellos|ellas|ustedes)\>)\s\w*». В результате поиска были выявлены конструкции содержащие лишь местоимение usted (см. рисунок 2.20). Остальные местоимения можно исключить из последующих поисковых шаблонов. Рисунок 2.20 – Фрагмент поиска местоимений в корпусе Анализ найденных конструкций, показал что для нашего корпуса характерно наличие прилагательных, описывающих состояние больного. Данные прилагательные оканчиваются одинаково, что можно использовать

    50 для дальнейшего их нахождения в корпусе (usted embarazada, usted alérgico,
    usted anciano ) (см. рисунок 2.21). Данная особенность поможет отделить прилагательные от других частей речи, которые следуют за usted и обнаружить полную ИГ. Кроме того, в корпусе также содержатся ИГ содержащие в себе прилагательное mayor (usted mayor – вы старший старше. Рисунок 2.21 – Фрагмент поиска сочетания с личным местоимением usted Шаблон для поиска прономинальных словосочетаний с прилагательными
    «(\<(usted|ustedes)\>)\s(\w*((ico|ada)\>)|mayor)». В корпусе нашлась 131 конструкция (см. рисунок 2.22). Все из них являются полноценными прономинальными словосочетаниями (usted alérgico, usted diabético, usted epiléptico, usted asmático, usted embarazada , usted mayor).

    51 Рисунок 2.22 – Фрагмент поиска словосочетания с прилагательными
    2.8 Автоматизированный поиск адъективных словосочетаний Для поиска прилагательного в сравнительной степени, с наречием más более) мы использовали шаблон '(\<(mas)\>)\s\w*'. Как оказалось, в корпусе содержится 37 конструкций, удовлетворяющих поисковому шаблону. Большинство из них построено по принципу наречие más и существительное (más datos, más informacíon, más picor), глагол (más ser ), с предлогом «de» (más de 2 semanas, más de lo normal) (см. рисунок
    2.23). Настоящими двухсоставными ИГ среди выявленных конструкций является 24 элемента, среди них más eficaz, más definitivos, más sensible, más complejas, más despierto, más difícil, más baja, más adecuado, más fáciles, más altas. Точность поискового шаблона можно оценить в 0,64. Рисунок 2.23 – Фрагмент поиска адъективного словосочетания с наречием más Особенностью собранного фармацевтического корпуса рецептов

    52 является не распространенность имен прилагательных и отсутствие адъективных именных групп.
    2.9 Алгоритм постобработки для повышения точности Большинство поисковых шаблонов имеют низкую точность определения
    ИГ. Это связанно стем, что предварительно небыли составлены списки стоп-слов, включающие закрытые части речи, союзы, артикли и предлоги. Составление поисковых шаблонов проводилось без учета глагольных форм отсутствовали инициальный и финальный список, и признаков вхождения искомого элемента в состав более крупной именной группы (напр. Наличие предлога «de» или союза а. Имея в наличии извлеченные фрагменты текстов из обрабатываемого корпуса с искомыми конструкциями, можно провести постанализ и избавиться от нерелевантных частей речи, неудовлетворяющих структуре
    1   2   3   4   5


    написать администратору сайта