Главная страница
Навигация по странице:

  • «МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ»

  • ВЫПОЛНЕНИЕ ПРАКТИЧЕСКИХ ЗАДАНИЙ ПО ДИСЦИПЛИНЕ Информационные технологии в лингвистике

  • Подмассив

  • Лемматизация

  • Корпус- менеджер

  • практика информацционые технологии в лингвистике. Задание 1. Определите статистические показатели приведенного ниже текста смешанного языкового типа только статистическая обработка текста, можно воспользоваться разделом Статистика в word иили httpstextis


    Скачать 21.4 Kb.
    НазваниеЗадание 1. Определите статистические показатели приведенного ниже текста смешанного языкового типа только статистическая обработка текста, можно воспользоваться разделом Статистика в word иили httpstextis
    Дата15.02.2022
    Размер21.4 Kb.
    Формат файлаdocx
    Имя файлапрактика информацционые технологии в лингвистике.docx
    ТипДокументы
    #362981

    Автономная некоммерческая организация высшего образования

    «МОСКОВСКИЙ МЕЖДУНАРОДНЫЙ УНИВЕРСИТЕТ»


    Кафедра лингвистика
    Форма обучения: заочная



    ВЫПОЛНЕНИЕ

    ПРАКТИЧЕСКИХ ЗАДАНИЙ

    ПО ДИСЦИПЛИНЕ

    Информационные технологии в лингвистике



    Группа Го19Л111
    Студент
    Пряничников А.Р.


    МОСКВА 2022г.

    Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике»

    Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/). «Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris».



    Слов


    64

    Символов (без пробелов)

    473

    Символов (с пробелами)

    535

    Символов в латинской графике




    Чисел




    Средняя длина слов


    7,4



    Практическая работа №2 по теме 2 «Области применения информационных технологий в лингвистике»

    Задание №1 «Области применения информационных технологий в лингвистике»

    Слово

    Машинная основа

    Слово

    Машинная основа

    Семья

    семь

    окружать

    окружа

    весна

    весна

    сидеть

    сиде

    дело

    дел

    друг

    друг

    пианино

    пианино

    ты

    т

    стремительный

    стремительн

    желтый

    желт

    развивать

    разви

    петь

    пе














    Практическая работа №3 по теме 3 «Прикладные разделы компьютерной лингвистики»

    Задание 1. Составьте глоссарий по теме «Корпусная лингвистика». Используйте для этого рекомендуемые источники литературы и сетевые ресурсы. Включите в глоссарий определения следующих понятий: конкорданс, рандомизация, коллокация, подмассив, парсинг, лемматизация, корпус-менеджер. Воспользуйтесь следующими программами: https://tatoeba.org/rus http://www.ruscorpora.ru/new/ http://www.helsinki.fi/varieng/CoRD/


    слово

    значение

    конкорданс -

    Рандомизация - процедура случайного выбора элементов статистической совокупности при проведении выборочного исследования

    алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления; тип словаря, представленный в таком виде.

    +Коллокация -

    в корпусной лингвистике под коллокацией понимается последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления.

    Подмассив -

    это любая последовательность чисел в массиве (непрырывная)

    Парсинг -

    это синтаксический анализ, который автоматически производится парсером – специальной программой или скриптом.

    Лемматизация -

    процесс привода словоформы к лемме — её нормальной (словарной) форме. Примеры кошками → кошка бежал → бежать боязненных → боязненный

    Корпус- менеджер - 


    программное обеспечение для корпусакотороеподсчитывает конкретные словоформы, группы словосочетаний и также может выводить результаты статистики, представить в виде диаграммы.


    написать администратору сайта