Практическая работа Задание Знакомство с работой программы Wordstat
Скачать 405.52 Kb.
|
Практическое задание № 8 Лингвистические информационные ресурсы. Корпусная лингвистика Задание 1 - Откройте веб-страницу Русского национального корпуса (РНК) (www.ruscorpora.ru), Корпуса русского литературного языка (КРЛЯ) (https://narusco.ru/) и Британского национального корпуса (БНК) (www.natcorp.ox.ac.uk). Введите в строку поиска этих корпусов слово русский /Russian. Заполните таблицу.
Как вы можете прокомментировать полученные результаты? Русский национальный корпус (РНК) по введенному в строку поиска слова русский нашел наибольшее количество вхождений (35146), а Корпус русского литературного языка (КРЛЯ) нашел наименьшее количество вхождений для этого же слова – 94. Поиск слова в литературном аспекте сузил количество вхождений, в то время как национальный язык отобразил гораздо большее количество вхождений, а, значит, он гораздо более объемный. Задание 2. - Выпишите 3 любых контекста использования слова русский / Russian в трех рассмотренных корпусах. Укажите источник каждого примера
Задание 3. - Сравните морфологические характеристики выписанных слов (существительное/прилагательное).
Задание 4. - Сравните значение выписанных слов. Для этого посетите веб-страницы толковых словарей www.gramota.ru/slovari и http://oxforddictionaries.com. Определите, в каком значении рассматриваемое слово встречается в контекстах. Впишите результат в таблицу.
Задание 5. - К каким выводам вы пришли при сравнении морфологической и лексической характеристики одного и того же слова, включенного в разные корпусы? В действительности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа – синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически размечать корпусы больших размеров. Однако автоматический анализ естественного языка небезошибочен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автоматические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автоматическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов При морфологическом синтезе исходными данными являются лексема и конкретные морфологические характеристики запрашиваемой словоформы данной лексемы, возможен и запрос на синтез всех форм заданной лексемы (так называемой парадигмы слова). Задание 6. - Как можно использовать рассмотренные корпусы в лингвистическом исследовании? Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую очередь, лингвисты. Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям. Корпусы являются богатым источником данных для исследований по лексикографии и грамматике. С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу. Лингвисты-теоретики используют корпусы в качестве экспериментальной базы для проверки гипотез и доказательства своих теорий. Прикладные лингвисты (преподаватели, переводчики и т.п.) используют компьютерные корпусы при обучении языкам и для решения своих профессиональных задач. Особый класс пользователей представляют компьютерные лингвисты: они пытаются выявить и использовать статистические и лингвистические закономерности, присутствующие в текстах, для создания компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы) также в ряде случаев могут получить ответы на интересующие их вопросы, обратившись к корпусу. Специалисты по общественным наукам (историки, социологи) также могут изучать свои объекты через язык, используя такие параметры текстов, как период, автор или жанр. Литературоведы используют корпусы для стилеметрических исследований. Наконец, корпусы используются для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск). Практическое задание № 9 Электронные словари Задание 1. - Посетите сайт www.rvb.ru/soft/catalogue/index.html. В разделе 7 – словари и тезаурусы — выберите «Словарь сокращений русского языка». Протестируйте предлагаемый онлайн-словарь, введя любое сокращение русского языка. Представьте результаты работы в таблице.
Задание 2. Посетите сайт www.merriam-webster.com. Введите слово culture в строку поиска. Определите зоны словарной статьи для этого слова в словаре Merriam Webster и представьте результаты вашего анализа в таблице.
Задание 3. Посетите сайт www.ozhegov.org. Введите слово культура в строку поиска. Определите зоны словарной статьи для этого слова в электронной версии словаря Ожегова и представьте результаты вашего анализа в таблице.
|