Главная страница
Навигация по странице:

  • Параметр Google Рамблер

  • Формирование отчета для защиты лабораторной работы

  • Лабораторная работа по дисциплине Информационные технологии в ли. Лабораторная работа Задание Компьютерная терминография


    Скачать 327.9 Kb.
    НазваниеЛабораторная работа Задание Компьютерная терминография
    Дата19.01.2022
    Размер327.9 Kb.
    Формат файлаpdf
    Имя файлаЛабораторная работа по дисциплине Информационные технологии в ли.pdf
    ТипЛабораторная работа
    #336155

    Лабораторная работа 1.
    Задание 1.Компьютерная терминография.
    Одним из перспективных направлений компьютерной лексикографиии прикладной лингвистики в целом является работа над электронными терминологическими словарями и банками данных.
    Построением специальных терминологических словарей занимается терминография, представляющая собой особый раздел лексикографии. В то же время терминография тесно связана с терминоведением - наукой о терминах. Соответственно, компьютерная терминография - это наука о составлении электронных терминологических словарей. Принципы компьютерной терминографии в общем и целом те же, что и рассмотренные выше принципы компьютерной лексикографии. Их отличия связаны только с основным объектом словарного описания: в лексикографии это обычное слово или другие языковые единицы
    (морфема, словосочетание, предложение и т.п.), а в терминографии - термин.
    Термин - это слово (словосочетание) метаязыка науки или области практической деятельности человека, имеющее четкое и (по возможности) однозначное определение, требующее специальных знаний из соответствующей профессиональной сферы. Так, слово «Интернет» для обычного человека выступает общеупотребительным, а знакомство с соответствующим понятием ограничивается теми манипуляциями, которые человек производит с Интернетом (выбор провайдера услуг, тарифа, настройка подключения и некоторые другие).
    Современные компьютерные технологии позволяют обрабатывать и сохранять большие массивы терминов по различным областям знания.
    Такие массивы терминов называются терминологическими базами
    (банками) данных (ТБД). По количеству задействованных в базе данных
    языков различаются переводческие (многоязычные) и информационно- нормативные (одно-язычные) ТБД. Кроме того, термины определенной предметной области собираются и описываются в словарях специальных терминов. Эти словари могут быть дескриптивными и нормативными, общими и частными, толковыми и переводными, алфавитными и тезаурусными. Большинство электронных терминологических словарей носит дескриптивный характер и представляет термины отдельной отрасли знания. При этом востребованы и толковые (одноязычные), и переводные
    (двуязычные или многоязычные) словари.
    Порядок выполнения.
    1. Откройте главную страницу Европейского интерактивного терминологического банка данных IATE (http://iate.europa.eu). Введите в строку поиска аббревиатуру NLP.
    Рисунок 1 2. Выберите исходный язык (Source language) English, языки перевода (Target languages) — немецкий (de) и французский (fr). В дополнительных опциях выберите раздел 3236-Information technology and data processing:
    далее раскрывающийся список
    3. В открывшемся окне нажмите на и на надпись «Полная информация» {Full entry) первого значения. Результаты поиска скопируйте в таблицу
    Язык
    Зоны словарной статьи
    Definition
    Term
    Term
    Abbreviation en — English de — Deutsch fr — Francais

    Как вы можете прокомментировать возможности данного терминологического банка данных? Для каких целей и кем он может быть использован?
    4. Ознакомьтесь с двумя множествами терминов: прилагательными и существительными
    Прилагательные
    Существительные информационный мультимедийньш цифровой электронный ресурс технология средства платформа
    5. Скомбинируйте перечисленные выше существительные и прилагательные с целью создания терминологических сочетаний, например: информационная платформа. Перечислите все получившиеся терминологические словосочетания в таблице
    Термин
    Словосочетания с данным термином ресурс технология средства платформа
    6. С помощью систем поиска (google.ru, yandex.ru и т.п.) напишите словарную статью для одного из получившихся терминов по вашему выбору. Статья должна включать следующие обязательные зоны: лексический вход, определение, примеры использования, источники.
    Кроме того, включите в описание термина еще две зоны словарной статьи на ваш выбор. Результат внесите в таблицу.
    Зоны словарной статьи
    Описание
    Лексический вход

    Определение
    Примеры
    Источники
    Задание 2. Информационно-поисковые системы.
    В современном мире, который буквально пронизан постоянно нарастающими объемами информации, для человека, использующего эту информацию с целью ее превращения в знания, встает проблема ориентации. Чтобы не захлебнуться в информационном потоке, нам нужны техники отбора, фильтрации и оценки [10, 18]. Традиционными способами фильтрации и отбора информации человеком являются: поиск «сверху» (по оглавлению);
    • поиск «снизу» (с помощью различных указателей);
    • поиск с помощью гипертекстовых связей (перекрестных ссылок);
    • полнотекстовый поиск путем просмотра всего текста.
    Последний вид поиска является наиболее точным, но и наиболее трудоемким, требующим больше всего времени и усилий.
    Организация поиска предполагает следующие составляющие и этапы:
    1) множество документов (текстов или их фрагментов), по которым следует производить поиск;
    2) коммуникативная потребность в информации, выражающаяся в информационном запросе пользователя;
    3) удовлетворение коммуникативной потребности, состоящее в выборе той части текстов исходного массива, которая соответствует информационному запросу [4, 197].
    Упорядоченная совокупность документов и информационных технологий, предназначенных для хранения и поиска информации,
    представленной в виде текстов или их частей (фактов), получила название информационно-поисковой системы (ИПС).
    Для экономии усилий человека с 1950-х годов осуществляются попытки создания автоматизированных ИПС. При этом в первых ИПС анализ и описание содержания документов (индексирование) выполнялись вручную, а поиски по этим документам проводились автоматически.
    Сегодня с развитием компьютерной техники и созданием высокоскоростных телекоммуникационных сетей в деле автоматизации поиска достигнуты значительные успехи, кратко и емко выразившиеся в знаменитой формуле Б. Гейтса «информация на кончиках пальцев»
    (information at your fingertips). Данное выражение можно понимать таким образом: информация всегда находится в распоряжении человека, нужно лишь сделать несколько нажатий клавиш, чтобы получить доступ к ней.
    Так, для поиска информации в Интернете служат различные классы поисковых средств:
    • каталоги (directories):
    • подборки ссылок (bookmarks):
    • поисковые машины (search engines):
    • базы данных адресов электронной почты и т.д.
    Каждый вид поискового средства имеет свои особенности, так, если человек имеет недостаточно точное представление о цели поиска, ему целесообразнее использовать каталоги веб-ресурсов. Применение поисковых машин эффективно, если пользователь представляет, какие ключевые слова характеризуют нужные ему ресурсы.
    Каталог веб-ресурсов — это постоянно обновляемая и пополняемая система ссылок на ресурсы, распределенные по иерархической структуре категорий. На верхнем уровне каталога представлены самые общие категории (рубрики), например «наука», «бизнес», «развлечения» и т.д. На нижележащих уровнях рубрики имеют более частный характер. Например,
    рубрика «наука» может делиться на категории «точные науки»,
    «естественные науки» и «гуманитарные науки», последние — на философию, социологию, психологию, педагогику и т.д. Русскоязычный каталог сайтов можно найти, например, по адресу www.ru.
    Коллекция ссылок представляет собой еще один способ организации информации во Всемирной паутине. Такая коллекция обычно составляется специалистом в определенной теме, постоянно обновляется и не содержит ненужной информации. Печатный аналог такой коллекции ссылок по использованию информационных технологий в лингвистике можно найти после библиографического списка в нашем пособии. Некоторые примеры коллекций ссылок по обучению английскому языку приводит СВ. Титова.
    Поисковые машины (или поисковые системы) — это специальные веб-страницы, позволяющие находить веб-ресурсы, текстовое содержание которых соответствует запросу пользователя. В Международном каталоге поисковых машин (www.searchenginecolossus.com) зарегистрировано свыше 2300 поисковых систем из 232 стран. По данным этого каталога, каждый день выполняется до 450 млн поисковых запросов.
    К наиболее известным поисковым машинам относятся:
    • AltaVista (www.altavista.com);
    • Excite (www.excite.com);
    • Yahoo! (www.yahoo.com);
    • AOL (http://search.aol.com);
    • MSN (http://search.msn.com);
    • Google (www.google.ru);
    • Япс1ех (www.yandex.ru);
    • Rambler (www.rambler.ru);
    • Апорт (www.aport.ru).
    Рассмотрим, как осуществляется поиск в поисковой системе.
    Пользователь вводит свой поисковый запрос в специальную строку. Этот
    запрос, сформулированный на естественном языке, программой поиска преобразуется в информационно-поисковый язык (ИПЯ) — формальный язык, предназначенный для описания содержания документов, хранящихся в ИПС, и запроса. Информационно поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. О специфике ИПЯ каждой поисковой системы, особенно о его «синтаксисе» (т.е. о правилах сочетания ключевых слов, вводимых в строку поиска) можно узнать на отдельных вкладках соответствующей поисковой системы. Например, в Яндекс такая вкладка называется «Помощь — Как искать».
    Процедура описания документа на
    ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание — поисковый образ документа.
    Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание.
    Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса.
    Степень соответствия документа запросу задается категорией релевантности. При этом в процессе информационного поиска можно получить в выдаче значительный информационный шум — множество документов, формально релевантных, но не являющихся релевантными по смыслу.
    Чтобы получить меньше информационного шума, пользователю следует уточнять свой запрос, используя для этого дополнительные настройки поисковой системы. Так, в Google, нажав вкладку
    «Расширенный поиск», можно задать поиск целых словосочетаний (а не отдельных составляющих их слов), ограничить язык выдачи, дату создания документа, часть документа, в которой используется слово, формат
    документа и т.д. Такие манипуляции увеличивают вероятность нахождения нужной информации уже в самом начале выдаваемого списка.
    Результаты поиска могут характеризоваться с двух точек зрения: полноты и точности. Полнотой поиска (англ. Recall) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве. Точность поиска (англ. Precision) — это отношение количества выданных релевантных документов к общему числу документов в выдаче.
    Составить представление о полноте и точности поиска можно, сравнивая выдачи разных поисковых систем. При четком определении ключевых слов запроса и их синтаксической связи значения полноты и точности поиска будут стремиться к единице, т.е. к минимуму релевантных документов, что облегчает выбор человеком нужного результата поиска.
    Итак, информация не просто дается человеку «на кончиках пальцев», а предполагает сложные и трудоемкие процессы сортировки и отбора. С этими задачами в значительной степени помогают справиться современные автоматические информационно-поисковые системы, в частности поисковые системы Всемирной паутины
    Порядок выполнения
    1. Ознакомьтесь с информационно-поисковым языком двух поисковых систем: Google и Рамблер.
    2. Используя сведения об особенностях ИПЯ каждой поисковой системы, сформулируйте запрос, по которому вы сможете найти информацию, где и когда появился термин «лингвистика». Сравните информационно-поисковые системы по качеству поиска.

    Параметр
    Google
    Рамблер
    Поисковый запрос
    Поисковый
    запрос

    это
    последовательность
    символов,
    которую пользователь вводит в
    поисковую строку, чтобы найти
    интересующую его информацию
    Документ, отвечающий результатам запроса (url)
    Указывается ссылка
    Номер этого документа в списке результатов
    Информационный шум
    Информационный
    шум

    это
    количество нерелевантных ссылок
    Полнота
    Полнота поиска, это количественная
    характеристика,
    которая
    определяется
    путем
    деления
    количества выданных в результате
    выполнения поиска релевантных.
    Точность
    Точность,
    это
    мера
    качества
    выданных
    результатов.
    Она
    вычисляется
    как
    количество
    релевантных страниц в общем объеме
    того, что выдал нам поисковик.
    Выводы
    Приводятся результаты какой ИПС

    были более полными и точными, где
    было меньше информационного шума,
    синтаксис
    какой
    ИПС
    более
    комплексный, простой, удобный
    Формирование отчета для защиты лабораторной работы
    В рамках лабораторных работ студент выполняет задания, которые являются обязательными для получения положительной оценки по дисциплине.
    1.
    Задания рекомендуется выполнять в течение всего учебного семестра до окончания срока представления лабораторных работ (сроки см. в графике работы в семестре);
    2.
    Выполнение заданий оформляется в письменном виде
    (текстовый файл с титульным листом (см. бланк титульного листа на странице дисциплины)) - отчетный документ;
    3.
    Файл необходимо загружать в соответствующий раздел дисциплины. По примеру курсовой работы.
    4.
    Выполнение заданий оценивается преподавателем
    «Выполнено/Не выполнено» в течение всего семестра;
    5.
    Возврат файла на доработку возможен только 1 раз в сроки загрузки лабораторных работ;
    6.
    Для получения отметки
    «Выполнено» по данной лабораторной работе необходимо выполнить одно из двух заданий, результаты оформить в одном файле с титульным листом.


    написать администратору сайта