Программа дисциплины "Компьютерная лингвистика"
Скачать 0.69 Mb.
|
Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики" Факультет гуманитарных наук Школа лингвистики Рабочая программа дисциплины Компьютерная лингвистика для образовательной программы 45.04.03 «Компьютерная лингвистика» подготовки магистра Разработчик(и) программы Толдова С.Ю, к.ф.н., stoldova@hse.ru Одобрена на заседании Школы лингвистики ФГН «30» мая 2016 г. Руководитель Школы лингвистики Е.В. Рахилина ________ [подпись] Рекомендована Академическим советом образовательной программы «06» июня 2016 г., Протокол № 7 Утверждена «06» июня 2016 г. Академический руководитель образовательной программы Бонч-Осмоловская А. А. ___________ [подпись] Москва, 2016 Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения подразделения-разработчика программы. Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра 1 Область применения и нормативные ссылки Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и результатам обучения студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих дисциплину Компьютерная лингвист- ка, учебных ассистентов и магистров направления подготовки направления, обучающихся по образовательной программе «Фундаментальная и прикладная лингвистика». Программа учебной дисциплины разработана в соответствии с: Образовательным стандартом НИУ ВШЭ; Образовательной программой направления подготовки 45.04.03. "Компьютерная лингвистика"; Объединенным учебным планом университета по образовательной программе «Фун- даментальная и прикладная лингвистика», утвержденным в 2016 г. 2 Цели освоения дисциплины Целями освоения дисциплины “Компьютерная лингвистика” являются знакомство с основными проблемами в области компьютерной лингвистики, базовыми алгоритмами, математическими методами моделирования языковых феноменов, основными инструментами и технологиями в области автоматической обработки естественного языка, умение представлять в алгоритмиче- ском виде процессы анализа и синтеза текста. 3 Компетенции обучающегося, формируемые в результате освоения дисциплины [Компетенции для программы учебной дисциплины берутся из стандартов: ФГОС/ ОС НИУ ВШЭ для соответствующего уровня и направления подготовки и из числа закрепленных за дисциплиной в матрице компетенций образовательной программы] Уровни формирования компетенций: РБ — ресурсная база, в основном теоретические и предметные основы (знания, умения); СД – способы деятельности, составляющие практическое ядро данной компетенции; МЦ – мотивационно-ценностная составляющая, отражает степень осознания ценности компетенции человеком и готовность ее использовать В результате освоения дисциплины студент осваивает компетенции: Компетенция Код по ОС ВШЭ Уров ень фор миро вани я комп етен ции Дескрипторы – основные признаки освоения (показатели достижения результата) Формы и методы обучения, способствую щие формировани ю и развитию компетенции Форма контрол я уровня сформи рованно сти компете нции Способен рефлекси- ровать (оценивать и перерабатывать) осво- енные научные мето- ды* и способы дея- тельности** СК- 1 РБ СД МЦ [Применяет аналитический науч- ный аппарат для оценки досто- инств и недостатков, изучаемых в рамках курса методов. Распознает проблемные и непоследовательные места в описании данных, оцени- Чтение учеб- ника и науч- ных статей, в которых опи- саны базовые методы Выопл- нение домаш- них упраж- нений, Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра Компетенция Код по ОС ВШЭ Уров ень фор миро вани я комп етен ции Дескрипторы – основные признаки освоения (показатели достижения результата) Формы и методы обучения, способствую щие формировани ю и развитию компетенции Форма контрол я уровня сформи рованно сти компете нции вает недостатки того или иного метода, оценивает последствия применения метода, описанного в научной литературе] 1 тест по прочи- танной литера- туре Способен предлагать концепции*, модели, изобретать и апроби- ровать способы и ин- струменты професси- ональной деятельно- сти** СК-2 РБ СД МЦ Предлагает усовершенствования для существующих базовых мето- дов в изучаемой области, приме- няет современные инструменты решения задач в области. Реализация проектов по тестированию существую- щих систем и разработка собственных проекта, по применению модели, по усовершен- ствованию модели Проект: отчет по про- екту Способен совершен- ствовать и развивать свой интеллектуаль- ный и культурный уровень, строить тра- екторию профессио- нального развития и карьеры СК-4 РБ СД МЦ Для выполнения проектов осваи- вает и применяет алгоритмы и ме- тоды, описанные в научных стать- ях в изучаемой области. Резюми- рует статьи в изучаемой области, выявляет постановку задачи, пре- имущества предлагаемого в статье метода 2 Подготовка докладов по новой теме, которая не обсуждалась на занятиях Краткое резюме статьи и пре- зента- ция по теме Способен анализиро- вать, верифицировать, оценивать полноту информации в ходе профессиональной деятельности, при необходимости вос- полнять и синтезиро- вать недостающую информацию и рабо- тать в условиях не- определенности СК-6 РБ СД МЦ Участвует в проектах, требующих расширения и преодоления недо- статков базовых методов. Предла- гает методы анализа нестандарт- ных данных. Выполнение проекта Отчет по про- екту, вклю- чаю- щий анали- тиче- скую запис- ку, раз- работку и те- стиро- вание Способен произвести углубленный анализ ПК-5 РБ СД Дает определения основным поня- тиям автоматической обработки Тест, провер- 1 В шаблоне дан неполный перечень глаголов – подсказок. Возможно использование и других формулировок де- скрипторов. 2 В шаблоне дан неполный перечень глаголов – подсказок. Возможно использование и других формулировок де- скрипторов. Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра Компетенция Код по ОС ВШЭ Уров ень фор миро вани я комп етен ции Дескрипторы – основные признаки освоения (показатели достижения результата) Формы и методы обучения, способствую щие формировани ю и развитию компетенции Форма контрол я уровня сформи рованно сти компете нции проблем, постановку и обоснование проект- ных задач, связанных с лингвистической текста, воспроизводит базовые ал- горитмы, используемы в автома- тической обработке текста, ис- пользует основные пакеты морфо- логической обработки текста, де- монстрирует знание базовых алго- ритмов, владеет, использует со- временные методы тестирова- ния качества, применяет совре- менные подходы к решению задач в области компьютерной лингвистики , интерпретирует ре- зультаты базовых алгоритмов] 3 ка дз, сдача проекта Способен самостоя- тельно разработать методический ин- струментарий для осуществления ис- следовательской и проектной деятель- ности в области фундаментальной и прикладной лингви- стики ПК-6 РБ СД дает определения основным фор- мальным системам, используемым при разработке алгоритмов по морфологическому анализу текста, дает определения основным эта- пам синтаксического и морфоло- гического анализа, воспроизводит различные алгоритмы синтаксиче- ского разбора, распознает основ- ные типы ошибок автоматического и морфологического автоматиче- ского анализа, применяет кванти- тативные подходы к обработке текста и выделению ключевых слов в тексте Проект по разработке системы сегментации текстов на незнакомых языках Защита проек- та Способен анализи- ровать языковые данные с примене- нием качественных и количественных методов, различных инструментальных средств ПК-10 РБ, СД знает основные лингвистические ресурсы, владеет методами разметки корпусов и составлением частотных списков практически е занятия по созданию языковых ресурсов и лингвистиче ских компонентов обзор и рефераты существующ их разработок Практи ческие заняти, выполн ение упраже ний, работа с ресурс ами на практи ческих заняти х 3 В шаблоне дан неполный перечень глаголов – подсказок. Возможно использование и других формулировок дескрипторов. Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра Компетенция Код по ОС ВШЭ Уров ень фор миро вани я комп етен ции Дескрипторы – основные признаки освоения (показатели достижения результата) Формы и методы обучения, способствую щие формировани ю и развитию компетенции Форма контрол я уровня сформи рованно сти компете нции Способен осуществ- лять лингвистиче- скую обработку тек- стов в производ- ственно- практических целях ПК-17 РБ СД МЦ Знает наиболее известные доступные для свободного использования компоненты автоматического анализа, умеет использовать соответствующие модули в различных приложениях, в том числе синтаксические и морфологические парсеры, создавать модули первичной обработки текста Практически е задания, выполнение проекта в группах Способен разраба- тывать и совершен- ствовать электрон- ные языковые ре- сурсы, лингвистиче- ские компоненты информационных систем, лингвисти- ческие модули ком- пьютерных систем обучения ПК-18 РБ СД МЦ Выполняет проект по созданию собственного электронного корпуса для обучения систем автоматического морфологиче- ского анализа Сбор соб- ственного корпуса, его разметка и анализ сложностей и ошибок разметки: Защита проек- та: часть по описа- нию обуча- ющих и те- стовых данных Способен разраба- тывать методики и алгоритмы дигита- лизации гуманитар- ного наследия, в том числе специальные языковые разметки корпусов ПК-20 РБ СД МЦ Знаком с основными принци- пами разметки корпусов, вы- полняет задания по морфологи- ческой и синтаксической раз- метке корпуса Осуществ- ляет размет- ку золотого стандарта в ходе выпол- нения кур- сового про- екта Вы- полне- ние домаш- маш- него зада- ния по анали- зу раз- метки и вы- числе- ния согла- сия ан- нота- торов Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра 4 Место дисциплины в структуре образовательной программы Для ОС НИУ НИУ: Настоящая дисциплина относится к профессиональному блоку дисциплин «Компьютерная лингвистика». Для специализаций Фундаментальная и компьютерная лингвистика профиля компьютерная лингвистика настоящая дисциплина является базовой. Изучение данной дисциплины базируется на следующих дисциплинах: Введение в лингвистику (первый и второй курс) программы подготовки бакалавра Теория языка Линейная алгебра и математический анализ программы подготовки бакалавра Программирование и компьютерные инструменты лингвистического исследования программы подготовки бакалавра Дискретная математика программы подготовки бакалавра Программирование и компьютерные инструменты лингвистического исследования программы подготовки бакалавра Иностранный язык Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: владеть базовыми представлениями о грамматических категориях и анализе языковых единиц; владеть базовыми знаниями в области теории алгоритмов и основ математики владеть базовыми знаниями в области теории вероятностей и статистики; уметь читать научные работы и технические описания на английском языке. Основные положения дисциплины должны быть использованы в дальнейшем при изучении дисциплин: компьютерной лингвистики программы подготовки магистров второго курса научно-исследовательский семинар программирование для лингвистов машинное обучение производственная практика по специальности подготовка и защита выпускной квалификационной работы 5 Тематический план учебной дисциплины [Тематический план отражает содержание дисциплины (перечень разделов), структурированное по видам учебных занятий с указанием их объемов в соответствии с ОУП] № Название раздела Всего часов Аудиторные часы Самостоя- тельная работа Лекции Семинар ы Практическ ие занятия Другие виды работы 4 1 Введение. Компьютерная лингвистика. Основ- ные направления и задачи. Компьютер- ные ресурсы 28 2 10 16 2 Первичная обработка 70 2 10 58 4 Указать другие виды аудиторной работы студентов, если они применяются при изучении данной дисциплины. Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра текста. Методы иден- тификации языка. Ме- тоды и проблемы сег- ментации. Методы сегментации беспро- бельных языков. 3 Автоматический мор- фологический анализ. Методы морфологи- ческого членения не- знакомых языков. Ме- тоды машинного обу- чения при разработке систем дизамбигуации 66 4 16 46 4 Автоматический син- таксический анализ. Анализ в терминах зависимостей. 64 4 16 44 6 Итого 228 12 52 164 6 Формы контроля знаний студентов Тип контроля Форма контроля Параметры ** 1 2 3 Текущий Домашнее задание * Выполнение проекта. Проект выполняется в группах по 2-3 человека в течение модуля. Сдача проекта включает: (1) защиту проекта с презентацией, отчет по выполнению проек- та (4-6 стр.), включающий аналитически- обзорную часть, описание архитектуры си- стемы, описание процедуру тестирования. Требования к отчету регламентируются опи- санием требований к отчету по проекту. Домашнее задание * Выполнение проекта. Проект выполняется в группах по 2-3 человека в течение модуля. Сдача проекта включает: (1) защиту проекта с презентацией, отчет по выполнению проек- та (4-6 стр.), включающий аналитически- обзорную часть, описание архитектуры си- стемы, описание процедуру тестирования. Отчет по выполнению задания, требования к отчету регламентируются описанием требо- ваний к отчету по проекту Итоговый Экзамен * Включает письменный тест по теоретическим вопросам (40 минут) и устную защиту прак- тических заданий. ** В графе Параметры указывается регламент (cвод постоянных или временных правил, регу- лирующих внутреннюю организацию и формы деятельности) проведения контроля (заполняет- ся для каждого контроля соответственно): формат работы (письменная, устная, тест, тест в ком- пьютерной программе и другое), время, отведенное на аудиторные работы, количество дней проведения контроля, количество дней оценки результатов контроля (только для итогового Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра контроля), объем письменных работ для домашних работ, сроки сдачи письменных работ (чис- ло), время на самостоятельную подготовку письменных работ и другая информация, носящая регламентирующий характер.] 7 Критерии оценки знаний, навыков Данный курс в качестве текущего контроля предполагает выполнение практических заданий на семинарах и практических занятиях, а также двух домашних практических задания, результаты которых представляются студентами в виде проектов на языке Python, а также технических от- четов. Кроме того, на практических занятиях осуществляется постоянный текущий контроль в форме заданий, тестов, а также обсуждения текущих домашних упражнений. При выполнении домашнего задания студент должен продемонстрировать знание основных проблем и принципов первичной обработки текста, распознавания языка, на котором написан текст, методов разбиение текста на слова в беспробельных языках, умение работать с основны- ми корпусами текстов на русском языке, знание основных свободно-распространяемых систем морфологического анализа текста, умение запускать одну из систем, знание основных принци- пов анализа результатов морфологического анализа и принципов оценки качества морфологи- ческого анализа, умение анализировать результаты морфологического анализа, знание методов автоматического синтаксического анализа. При выполнении тестового задания на экзамене студенты должны продемонстрировать знание классификации основных задач компьютерной лингвистики, знание основных моделей и алго- ритмов автоматического морфологического и синтаксического анализа текста, решать простые упражнения на применение базовых алгоритмов, быть в состоянии протестировать и оценивать работу отдельных модулей АОТ. Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. Домашнее задание по подготовке корпуса, разработке программы предобработки тек- ста/распознавания языка/исправления опечаток, разработке морфологических анализаторов яв- ляются групповыми проектами с индивидуальными заданиями, выполняемыми в рамках проек- тов. программы предварительного анализа текста и морфологических анализаторов проходит в формате Форума по оценке систем автоматической обработке текста. Командам выдается тестовый и эталонный корпус. Каждая команда проводит оценку точности и полноты, а также функциональное тестирование соответствующей программы. Сдача заданий и проверка происходят через github и гуглформы. Задания выполняются в фор- мате тестов и проектов на github и через гугл-формы. 8 Содержание дисциплины Раздел представляется в удобной форме (список, таблица). Изложение строится по разделам и темам. Содержание темы может распределяться по лекционным и практическим занятиям. Лекции Семина- ры Самостоятель- ная работа Раздел1. Введение. Основные задачи компьютерной лингвистики 1. Введение в компьютерную лингвистику. Задачи ком- пьютерной лингвистики. Лингвистические системы. Этапы автоматической обработки текста. Поиск, ин- дексация, оценка качества. 2 2 2 2. Регулярные выражения. Гигакорпуса Arranea Поиск в корпусе. Квантитативные характеристики языковых единиц 4 8 3. Разметка собственного корпуса 4 8 2 10 16 Национальный исследовательский университет «Высшая школа экономики» Программа дисциплины “Компьютерная лингвистика” для направления 45.04.03 «Компьютерная лингвистика» подготовки бакалавра Раздел 2. Первичная обработка текста. 4. Первичная обработка текста. Методы идентификации языка. Методы и проблемы сегментации. Методы сегментации беспробельных языков. 2 16 5. Частотный анализ лексики и ключевые слова. N- грамы. Методы автоматического определения языков 4 10 6. Расстояние Левенштейна. Спеллчекер 2 8 7. Проект по распознаванию языка / исправлению оши- бок / вычислению ключевых слов в тексте / токениза- ции беспробельных языков 4 16 2 10 58 Раздел 3. Автоматический морфологический анализ 8. Автоматический морфологический анализ. Введение. 4 4 9. Конечные автоматы и конечные преобразователи в морфологическом анализе. Моделирование морфоно- логических процессов: конечные преобразователи / суффиксные деревья. Сегментная и автосегментная морфология. 4 8 10. Модель фрагмента морфологии языка Х с использо- ванием одной из платформ лдя реализации конечных перобразователей 4 16 11. Методы дизамбигуации. 4 8 12. Оценка различных методов дизамбигуации. Соревно- вание морфологических тагеров для русского языка 4 10 4 16 46 Раздел 4. Автоматический синтаксический анализ 16. Формализмы и методы автоматического синтаксиче- ского анализа 2 2 4 17. Унификационные грамматики 2 8 18. Лексикализованные и вероятностные грамматики 2 4 19. Синтаксический анализ в терминах деревьев зависи- мостей 2 20. Алгоритмы анализа в терминах деревьев зависимо- стей 4 6 21. Проект Universal Dependencies 2 6 22. Проект «Автоматический синтаксический анализ» 4 16 4 16 44 Итого 12 32 218 Раздел1. Введение. Основные задачи компьютерной лингвистики 8.1. |