Главная страница
Навигация по странице:

  • 8.2. Тема 2. Этапы автоматической обработки текста. Платформы обработки есте- ственного языка Домашнее задание 2

  • 8.3. Тема 3. Регулярные выражения. Гигакорпуса Arranea Поиск в корпусе. Квантиа- тивные характеристики языковых единиц (4 часа)

  • 8.4. Тема 4. Разметка собственного корпуса (4 часа)

  • Раздел 2. Первичная обработка текста

  • Тема 6. Индекс. Обратный индекс. Конкорданс

  • 8.7. Расстояние Левенштейна. Спеллчекер

  • 8.8. Распознаватель языка / спелл-чеккер / токенизатор (отчет по проекту)

  • 8.10. Конечные автоматы

  • 8.12. Методы дизамбигуации (машинное обучение: rule-induction, HMM, МaxЕnt, CRF).

  • 8.13. Оценка качества морфологических анализаторов

  • Ресурсы и библиотеки для реализации FSA и FST

  • Справочные материалы по FST

  • Программа дисциплины "Компьютерная лингвистика"


    Скачать 0.69 Mb.
    НазваниеПрограмма дисциплины "Компьютерная лингвистика"
    Дата22.06.2020
    Размер0.69 Mb.
    Формат файлаpdf
    Имя файлаprogram-1517781792-gNukgv5sb9.pdf
    ТипПрограмма дисциплины
    #132113
    страница2 из 4
    1   2   3   4

    Тема 1. Введение в автоматическую обработку текста
    Лекция 1
    Компьютерная лингвистика: три направления. Лексикографические ресурсы. Формальные мо- дели. Задачи инженерной лингвистики. Лингвистические системы. Этапы автоматической об- работки текста.
    Домашнее задание
    Рассмотреть

    Яндекс https://www.yandex.ru/

    система Start http://start.csail.mit.edu/index.php

    система Pullenti http://www.pullenti.ru/DemoPage.aspx

    Национальный исследовательский университет «Высшая школа экономики»
    Программа дисциплины “Компьютерная лингвистика” для направления
    45.04.03 «Компьютерная лингвистика» подготовки бакалавра

    система OpenCalais http://www.opencalais.com/opencalais-demo

    https://visl.sdu.dk/
    ;

    http://siberian-lang.srcc.msu.ru/ru/sintaksichyeskiy_proyekt_RFFI

    Ответить на вопросы:

    какие типы лингвистических электронных ресурсов необходимы в лингвистических исследованиях

    какие типы лексикографических ресурсов используются в изучении и исследовании языка
    Домашнее задание:
    Чтение литературы:
    [J&M], статья из списка на выбор: выписать три термина из статьи (русский и английский вариант), привести его краткое определение, привести пример
    8.2.
    Тема 2. Этапы автоматической обработки текста. Платформы обработки есте-
    ственного языка
    Домашнее задание 2
    Рассмотреть поисковик Яндекс (
    https://www.yandex.ru/
    ) и Яндекс-новости (news.yandex.ru).
    На основе тестирования систем
    (а) сформулировать основные задачи обработки контента;
    (б) перечислить основные лингвистические задачи, которые решают системы.
    Литература
    1. Прикладная лингвистика. // Статья в энциклопедии «Фонд знаний «Ломоносов»». URL: http://www.lomonosov-fund.ru/enc/ru/encyclopedia:01206:article
    2. [J&M] - Introduction // Daniel Jurafsky & James H. Martin. Speech and Language Processing:
    An introduction to natural language processing, computational linguistics, and speech recogni- tion. Second edition. 2009. http://stp.lingfil.uu.se/

    santinim/ml/2014/JurafskyMartinSpeechAndLanguageProcessing2ed_d raft%202007.pdf
    3. Большакова и др. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : Часть 2, глава 5-6.
    Дополнительная литература
    Генерация текстов
    Соколова Е.Г.,
    Болдасов М.
    Автоматическая генерация текстов на
    ЕЯ
    (портрет направления)
    http://www.dialog-21.ru/Archive/2004/Sokolova.htm
    Ehud Reiter. Has a Consensus NL Generation Structure Appeared, and is it Psycholinguistically Plausible?
    — 7th International Generation Workshop (Kennebunkport, Maine). URL: http://www.aclweb.org/anthology/W/W94/W94-0319.pdf
    Машинный перевод
    Лекция Л.Л.Иомдина “Машинный перевод: успехи, неудачи, надежды”. Лекторий Политехнического музея. Видео. Доступно с URL http://rutube.ru/video/828268c50a49b876a6f4676b839fa745/
    дата обращения 20.01.2014)
    Brown P. F. et al. The mathematics of statistical machine translation: Parameter estimation //Computational linguistics. – 1993. – Т. 19. – №. 2. – С. 263-311. http://acl.ldc.upenn.edu/J/J93/J93-2003.pdf
    Text mining (классификация, кластеризация, реферирование). На примере анализа новостного
    потока
    Кондратьев М. Е. Анализ методов кластеризации новостного потока //Тр. Восьмой Всерос. науч. конф.«Электронные библиотеки: перспективные методы и технологии, электронные коллекции»(RCDL’2006).—Ярославль. – 2006. – С. 108-114.rcdl.ru/doc/2006/paper_92_v1.pdf

    Национальный исследовательский университет «Высшая школа экономики»
    Программа дисциплины “Компьютерная лингвистика” для направления
    45.04.03 «Компьютерная лингвистика» подготовки бакалавра
    Распознавание речи
    Speech recognition. http://en.wikipedia.org/wiki/Speech_recognition
    В. Н. Сорокин, Синтез речи. М., 1992.,
    D. Childers, Speech Processing, John Wiley and Sons, Inc., все издания, начиная с 1999
    Диалоговые системы. Говорящие роботы
    Filipe P. P., Morgado L., Mamede N. J. An Adaptive Domain Knowledge Manager for Dialogue Systems
    //ICEIS (5). – 2007. – С. 45-52.
    http://www.inesc-id.pt/pt/indicadores/Ficheiros/3983.pdf
    Bermúdez M. G., Vila M. G. Dialogue Management for multilingual communication through different channels.
    Извлечение информации из текста: извлечение именованных сущностей, отношений и фактов
    Nadeau D. and Sekine S. A survey of named entity recognition and classification, Linguisticae
    Investigationes, Amsterdam, Netherlands: John Benjamins Publishing Company, 1: Vol. 30. pp. 3-26.
    Brykina M., Toldova S.Yu., Faynveyts A. V. Dictionary-based ambiguity resolution in Russian named- entities recognition. A case study. P. 163-177. Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции “Диалог” 2013. Вып. 12(19). М.: РГГУ,
    2013. URL: http://www.dialog-21.ru/digests/dialog2013/materials/pdf/BrykinaMM.pdf
    8.3.
    Тема 3. Регулярные выражения. Гигакорпуса Arranea Поиск в корпусе. Квантиа-
    тивные характеристики языковых единиц (4 часа)
    Лексикографические ресурсы. Корпуса. Программы обработки текста. NoSketchEngine. Корпу- са. История корпусов. Основные принципы создания корпусов. Поиск в корпусе.
    (
    http://unesco.uniba.sk/guest/index.html
    )
    Домашнее задание 3.
    Используя NoSketchEngine, осуществить поиск в корпусе русского языка по следующим типам запросов: найти словоформу, найти лемму, найти конструкцию, найти коллокации по заданным параметрам
    Используя регулярные выражения, разметить в тексте (1) все даты; (2) глаголы речи и маркеры чужой речи
    8.4.
    Тема 4. Разметка собственного корпуса (4 часа)
    Работа в программе UAM Corpus Tools http://www.corpustool.com/
    . Осуществить загрузку соб- ственного корпуса, разбить на предложения. Вручную отредактировать ошибочное разбиение.
    Осуществить разметку по частям речи. Составить схему разметки. Разметить несколько сегмен- тов в соответствии со схемой разметки.
    Домашнее задание 4.
    Разметить свой исследовательский корпус: 200 предложений. Схема разметки должна содер- жать две системы и не менее 4 признаков. Осуществить поиск примеров по параметрам размет- ки. Сохранить результаты разметки в xml формате. Сравнить разметку двух разметчиков по па- раметрам.
    Раздел 2. Первичная обработка текста
    8.5.
    Тема 5. Предварительная обработка текста. Графематический анализ.
    Сегментация текста. Создание собственного корпуса текстов. Очистка текста. Графематический анализ. Признаки токенов. Адрес токена (смещение). Распознавание языка. Сегментация тек- стов в беспробельных языках. Индекс. Обратный индекс. Конкорданс. Первичная обработка текста. Методы идентификации языка. Методы и проблемы сегментации. Методы сегментации беспробельных языков.

    Национальный исследовательский университет «Высшая школа экономики»
    Программа дисциплины “Компьютерная лингвистика” для направления
    45.04.03 «Компьютерная лингвистика» подготовки бакалавра
    Домашнее задание.
    Часть 1.
    Каждая группа получает фрагмент текста на русском / тайском языке.
    Разбить текст на токены. Выписать случаи, которые вызвали вопросы. Предложить необходи- мые компоненты сегментации текста (например, отдельный модуль для обработки адресов веб- страниц). По результатам анализа токенизации и сегментации на предложения. Сравнить результаты разбиения текста в группе
    Домашние упражнения
    1) Проанализировать текст с точки зрения задач препроцессинга. Сформулировать правила обработки буквенно-цифровых комплексов, сокращений, слов с дефисом.
    2) Разбить на токены предложение на китайском языке, предложить алгоритм разбиения
    3) Выбрать одну из статей. Подготовить по ней презентацию, краткое резюме, выбрать три- пять терминов из статьи, привести переводные эквиваленты и определения.
    Статьи для чтения:
    [1]
    M. Aulbach, S. Evert, and B. Schrader
    , “Requirements for and design of a flexible tokenization system,” 2006.
    [2]
    B. Habert, G. Ad da, P. B. De Mar, S. Ferrari, O. Ferret, G. Illouz, P. Paroubek, and F.-O. Cedex, “Towards
    Tokenization Evaluation.”
    [3]
    L. Karttunen, J.-P. Chanod
    , G. Grefenstette, and A. Schille, “Regular expressions for language engineering,” Nat. Lang.
    Eng., vol. 2, no. 4, pp. 305–328, Dec. 1996.
    [4]
    Y. Liu and E. Shriberg, “Comparing Evaluation Metrics for Sentence Boundary Detection,” Acoust. Speech Signal
    Process. 2007. ICASSP 2007. IEEE Int. Conf., vol. 4, pp. 451–458, 2007.
    [5]
    M. Stevenson and R. Gaizauskas
    , “Experiments on sentence boundary detection,” Proc. sixth Conf. Appl. Nat. Lang.
    Process. -, pp. 84–89, 2000.
    [6]
    С. В. Алексеева, Д. В. Грановский, Н. А. Остапук, М. Е. Степанова, and А. В. Суриков
    , “Сегментация текста в проекте « Открытый корпус » Text segmentation in opencorpora project.”
    [8]
    В. В. Бочаров and Д. В. Грановский
    , “Вероятностная модель токенизации в проекте Открытый корпус,” Новые информационные технологии в автоматизированных системах материалы пятнадцатого научно-практического семинара, pp. 1–8, 2012.
    [9]
    “АОТ
    :: Технологии :: Графематика: программный интерфейс.” [Online]. Availa- ble: http://aot.ru/docs/graphan.html. [Accessed: 24-Sep-2014].
    [10]
    G. Laboreiro, L. Sarmento, J. Teixeira, and E. Oliveira
    , “Tokenizing micro-blogging messages using a text classification approach,” Proc. fourth Work. Anal. noisy unstructured text data - ’10, p. 81, 2010.
    8.6.
    Тема 6. Индекс. Обратный индекс. Конкорданс

    Частотное распределение лексики в языке. Закон Ципфа. Доля hapax legomena. Скорость ро- ста словаря. Меры лексического разнообразия и их применимость. Распределение лексики в текстах коллекции. Взвешенная частотность. TF-IDF. Прочие меры лексической дисперсии.
    Мера отклонения пропорций DP и DPnorm. N-грамы. Построение частотного списка. ПО для построения частотных списков лексики: AntConc
    (
    http://www.laurenceanthony.net/software/antconc/
    ). Лексический состав вершины, середины, хвоста частотного списка. Контрастный анализ корпусов на основании частотных списков.

    Вычисление tf.idf с использованием корпуса со снятой омонимии Национального корпуса русского языка (НКРЯ).
    Понятие релевантности документа, точности и полноты информационного поиска
    Домашнее задание

    Выбрать коллекцию текстов в подкорпусе со снятой омонимией НКРЯ. Выбрать 8 слов (2
    «тематических», 2 общеупотребительных из средней части частотного списка, 2 высокочастотных общеупотребительных, 2 редких). Используя статистику НКРЯ, вычислить tf.idf, упорядочить слова по убыванию tf.idf. Результат проанализировать.
    Чтение
    [Маннинг&Рагхаван&Шютце] 6.2.
    8.7.
    Расстояние Левенштейна. Спеллчекер

    Национальный исследовательский университет «Высшая школа экономики»
    Программа дисциплины “Компьютерная лингвистика” для направления
    45.04.03 «Компьютерная лингвистика» подготовки бакалавра
    Операции: замена, вставка, удаление. Расстояния между строками. Алгоритм вычисления расстояния. Взвешивание расстояний.
    Домашнее задание 7
    Вычислить расстояние Левенштейна между токеном с опечаткой и 4-мя вариантами слово- форм
    Литература
    [J&M] Chapter 5. Probabilistic Models of Pronunciation and Spelling. PP. 139-187.
    8.8.
    Распознаватель языка / спелл-чеккер / токенизатор (отчет по проекту)
    Практическое занятие 8
    Соревнование токенизаторов и сплиттеров. Сравнение качества. Доклады по проектам.
    Литература к разделу
    Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск.: Пер. с англ. – М.: ООО «Вильямс»,
    2011. 6.2 Частота термина и взвешивание; 6.4 Варианты функций tf-idf.
    M. Baroni
    Distributions in text
    . In Anke Lüdeling and Merja Kytö (eds.), Corpus Linguistics: An International Handbook.
    Berlin: Mouton de Gruyter, 2008.
    Сегалович "Как работают поисковые системы" http://download.yandex.ru/company/iworld-3.pdf
    Ch 3. Sec. 3.9 Jurafsky and Martin, Speech and Language Processing
    , 2nd Edition (2009)
    Christopher Potts
    . Sentiment Symposium Tutorial: Tokenizing. http://sentiment.christopherpotts.net/tokenizing.html
    Автоматическая обработка текста. Графематика. http://www.aot.ru/docs/graphan.html
    Урюпина, О. Автоматическое разбиение текста на предложения для русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–
    8 июня 2008 г.). Вып. 7 (14). – М.: РГГУ, 2008, с. 539–544.
    http://www.dialog-
    21.ru/digests/dialog2008/materials/html/83.htm
    Раздел 3. Автоматический морфологический анализ
    8.9.
    Тема 9. Автоматический морфологический анализ. Введение
    Основные задачи и этапы морфологического анализа. Нормализация (стемминг и лемматиза- ция); грамматическое аннотирование; морфологический парсинг; дизамбигуация; морфологи- ческий анализ незнакомых слов. Основные формализмы для моделирования морфологии. Ме- тоды дизамбигуации.
    Домашнее задание
    1) Учебник [J&M]. Ch. 3. Words. Pp. 57-91.
    2) Упражнение по формальному описанию морфологических явлений на разных языках.
    Предложить два различных формальных описания глагольного словоизменения (разные спосо- бы разбиения на основу и окончание, + способы описания морфонологических чередований)
    8.10. Конечные автоматы
    Конечные автоматы и конечные преобразователи в морфологическом анализе. Моделирование морфонологических процессов: конечные преобразователи / суффиксные деревья. Сегментная и автосегментная морфология.
    Семинарское занятие (10)
    Понятие конечного автомата и конечного преобразователя. Моделирование морфонологиче- ских чередований. Построение конечных автоматов, распознающих словоформы, в которых произошли морфонологические чередования при присоединении словоизменительных морфем
    Построение конечных преобразователей для описания всех форм глаголов в английском
    Построение конечного преобразователя для описания замены –y (try -> tries) при в английском

    Национальный исследовательский университет «Высшая школа экономики»
    Программа дисциплины “Компьютерная лингвистика” для направления
    45.04.03 «Компьютерная лингвистика» подготовки бакалавра
    Разбор различных способов представления данных для морфологического анализа:
    (а) существительные с беглыми гласными в русском языке: сколько парадигм необходимо для их описания
    (б) описание морфонологических чередований
    (в) порядок морфем
    Домашние упражнения
    Построить конечный автомат, допускающий только правильные словоформы (словоформы, при построении которых были правильно применены правила сингармонизма / морфонологических чередований)
    Построить конечный преобразователь для описания сингармонизма в одном из тюркских язы- ков
    8.11. Тема 11.
    Практическое занятие (11)
    Модель фрагмента морфологии языка Х с использованием одной из платформ для реализации конечных преобразователей. Отчет по проекту: рассказ о реализации фрагмента морфологии в одной из сред
    Проектное задание
    Реализовать фрагмент морфологии одного из тюркских, финно-угорских или семитских языков в среде Unitex (FOMA / Xerox Finite-State Tool)
    8.12. Методы дизамбигуации (машинное обучение: rule-induction, HMM, МaxЕnt, CRF).
    Методы снятия морфологической омонимии. Извлечение правил. Понятие марковской модели.
    Понятие скрытой марковской модели. Основные допущения при применении скрытой марков- ской модели к частеречной обработке. Метод максимальной энтропии.
    Домашнее задание
    Упр.1. Знакомство со скрытыми марковскими моделями и их применением к дизамбигуации.
    Вычисление условной вероятности частеречных тегов, вычисление лексической вероятности тегов.
    Упр. 2. Реализовать алгоритм Витерби
    Проектное задание
    Реализация одного из методов машинного обучения для автоматической морфологической ан- нотации текстов на русском языке. Оценка качества
    8.13. Оценка качества морфологических анализаторов
    Инструменты морфологического анализа для русского языка. TreeTagger. TnT. FreeLing. Паке- ты для машинного обучения: ScikitLearn.
    Семинарские занятия 15-16.
    Защита проекта оценки качества морфологического. Сдача отчета по тестированию одного из морфологических тагера с дизамбигуацией: TreeTagger, TnT, FreeLing и собственного тагера.
    Литература к разделу
    Jurafsky D., James H. Speech and language processing an introduction to natural language processing, computational linguistics, and speech. – 2000. Ch. 2. Regular Expressions and Automata. http://people.mokk.bme.hu/kornai/termeszetes/3.pdf

    Национальный исследовательский университет «Высшая школа экономики»
    Программа дисциплины “Компьютерная лингвистика” для направления
    45.04.03 «Компьютерная лингвистика» подготовки бакалавра
    Jurafsky D., James H. Speech and language processing an introduction to natural language processing, computational linguistics, and speech.

    2000.
    Ch. 3.
    Words and transduc- ers http://people.mokk.bme.hu/kornai/termeszetes/3.pdf
    Коваль С.А. Лингвистические проблемы компьютерной морфологии. СПб., 2005.
    Дополнительная литература
    Ю.Г. Зеленков, И.В. Сегалович, В. А. Т. (2005). Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов. Retrieved from http://www.dialog-21.ru/Archive/2005/Zelenkov
    Segalovich/Zelenkov_Segalovich.htm
    Сокирко, А. В., & Толдова, С. Ю. (2004). Сравнение эффективности двух методик снятия лек- сической и морфологической неоднозначности для русского языка ( скрытая модель Маркова и синтаксический анализатор именных групп ), (http://www.aot.ru/docs/RusCorporaHMM.htm).
    Ляшевская О. Н., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В.,
    Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С.
    "Оценка методов автоматического анализа текста: морфологические парсеры русского язы- ка". // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной
    Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). М.: Изд-во
    РГГУ, 2010.
    Используемые для выполнения заданий ресурсы и системы
    Морфологические частеречные разметчики

    FreeLing http://nlp.lsi.upc.edu/freeling/

    Stanford Log-linear Part-Of-Speech Tagger http://nlp.stanford.edu/software/tagger.shtml

    TreeTagger http://corpus.leeds.ac.uk/mocky/

    FreeLing: http://nlp.lsi.upc.edu/freeling/index.php?option=com_content&task=view&id=18&It emid=47
    Ресурсы и библиотеки для реализации FSA и FST
    1) PC-Kimmo - http://www-01.sil.org/pckimmo/
    2) foma - https://code.google.com/p/foma/
    3) Xerox Finite-State Tool (Lauri Karttunen, Tamás Gaál, and André Kempe) - http://www.cis.upenn.edu/cis639/docs/xfst.html
    Справочные материалы по FST
    FST Morphology - http://web.stanford.edu/laurik/fsmbook/home.html
    1   2   3   4


    написать администратору сайта