Практическое занятие 1 к теме 1 (pdf.io). Занятие к теме 1 Основные понятия ит в лингвистике
Скачать 57 Kb.
|
Практическое занятие к теме 1 «Основные понятия ИТ в лингвистике» Задание №1. Определите статистические показатели приведенного ниже текста смешанного языкового типа (только статистическая обработка текста, можно воспользоваться разделом «Статистика» в word и/или https://textis.ru/podschet-simvolov-onlayn/ ). Слов Символов (без пробелов) Символов (с пробелами) Символов в латинской графике Чисел Средняя длина слов «Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris». Задание 2. Какому языку соответствует средняя длина слов текста смешанного типа? Для выполнения задания вычислите среднюю длину слов русского языка из приведенного текста и среднюю длину слов в латинской графике. Можно воспользоваться, например ресурсом https://textis.ru/podschet-simvolov-onlayn/). Параметр Значение Средняя длина слов русского языка Средняя длина слов в латинской графике Вывод Средняя длина слов текста соответствует «Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.» Задание 3. Создайте диагностический словарь для определения языка на материале текстов на двух разных языках (на ваш выбор). Для этого заполните следующую таблицу, указав в заголовках столбцов названия сравниваемых языков. Можно воспользоваться ресурсами: https://textis.ru/podschet-simvolov-onlayn/ , http://aot.ru/onlinedemo.html Критерий Язык 1: Язык 2: Типичные артикли Указательные местоимения Местоимения 3-го лица Отдельные формы вспомогательных глаголов Основные предлоги и союзы Другие частотные слова Задание 4. Определите, к какому виду прикладных программ относятся перечисленные ниже программные продукты. 1) Текстовые редакторы 2) Графические редакторы 3) Электронные таблицы 4) Веб-редакторы 5) Веб-браузеры Opera, MS Excel, MS FrontPage, Adobe Photoshop, Corel WordPerfect Задание 5. Найдите лишнее в приведенном ниже списке. Решите данную задачу с точки зрения компьютерной семантики и компьютерной грамматики. (http://www.aot.ru/onlinedemo.html) Ландыш, левкой, лаватера, лютик, люпин, ромашка, липа Задание 6. Выполните поиск с подстановочными знаками по тексту Alice's Adventures in Wonderland. Внесите результаты поиска в таблицу. Down the Rabbit-Hole Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, “and what is the use of a book,” thought Alice “without pictures or conversations?” So she was considering in her own mind (as well as she could, for the hot day made her feel very sleepy and stupid), whether the pleasure of making a daisy-chain would be worth the trouble of getting up and picking the daisies, when suddenly a White Rabbit with pink eyes ran close by her. There was nothing so very remarkable in that; nor did Alice think it so very much out of the way to hear the Rabbit say to itself, “Oh dear! Oh dear! I shall be late!” (when she thought it over afterwards, it occurred to her that she ought to have wondered at this, but at the time it all seemed quite natural); but when the Rabbit actually took a watch out of its waistcoat-pocket, and looked at it, and then hurried on, Alice started to her feet, for it flashed across her mind that she had never before seen a rabbit with either a waistcoat-pocket, or a watch to take out of it, and burning with curiosity, she ran across the field after it, and fortunately was just in time to see it pop down a large rabbit-hole under the hedge. Задание Формула поиска Ответ 1. Найдите в тексте первые пять слов, состоящих из пяти букв 2. Сколько в тексте шестибуквенных слов, начинающихся на букву s и заканчивающиеся на букву г? 3. Найдите в тексте первые пять трёхбуквенных слов, начинающиеся на гласную букву 4. Сколько в тексте слов, состоящих из двенадцати букв? По каким формальным признакам их можно сгруппировать? Приведите пример из каждой группы слов Ответ: Группы: 5. Сколько в тексте слов с суффиксом -tion? Приведите пример использования такого слова в контексте Ответ: Пример: 6. Есть ли в тексте слова, включающие четыре согласные буквы подряд? 7. Сколько раз в тексте встречаются пассивные конструкции единственного числа прошедшего времени Разъяснения: Использование подстановочных знаков при поиске текста Групповые символы, или метки-заполнители, используются для поиска неуказанных или неотображаемых символов. При поиске и замене текста в документе можно использовать подстановочные знаки. Например, при вводе выражения "с.н" будут найдены слова "сын" и "сон". Выберите Правка - Поиск и замена. Для расширения диалогового окна нажмите Дополнительные параметры. Установите флажок Регулярные выражения. В поле Найти введите искомое понятие и групповой(ые) символ(ы), который требуется использовать при поиске. Нажмите Найти или Найти все. Примеры регулярных выражений Подстановочным знаком для одного символа является точка (.). Подстановочным знаком для любого числа вхождений предыдущего символа является звездочка (*). Например, при вводе выражения "123*" будут найдены числа 12, 123 и 1233. Сочетанием подстановочных знаков для любого числа вхождений любого символа являются точка и звездочка (.*) Подстановочным знаком для конца абзаца является знак доллара ($). Сочетанием подстановочных знаков для начала абзаца являются знак вставки и точка (^.). Групповой символ для символа табуляции – \t.t. Note.png Поиск с использованием регулярного выражения работает только внутри абзаца. Для поиска с использованием регулярного выражения по нескольким абзацам выполните поиск в каждом абзаце отдельно. |