Лабораторная работа по дисциплине Информационные технологии в ли. Лабораторная работа Задание Компьютерная терминография
Скачать 327.9 Kb.
|
Лабораторная работа 1. Задание 1.Компьютерная терминография. Одним из перспективных направлений компьютерной лексикографиии прикладной лингвистики в целом является работа над электронными терминологическими словарями и банками данных. Построением специальных терминологических словарей занимается терминография, представляющая собой особый раздел лексикографии. В то же время терминография тесно связана с терминоведением - наукой о терминах. Соответственно, компьютерная терминография - это наука о составлении электронных терминологических словарей. Принципы компьютерной терминографии в общем и целом те же, что и рассмотренные выше принципы компьютерной лексикографии. Их отличия связаны только с основным объектом словарного описания: в лексикографии это обычное слово или другие языковые единицы (морфема, словосочетание, предложение и т.п.), а в терминографии - термин. Термин - это слово (словосочетание) метаязыка науки или области практической деятельности человека, имеющее четкое и (по возможности) однозначное определение, требующее специальных знаний из соответствующей профессиональной сферы. Так, слово «Интернет» для обычного человека выступает общеупотребительным, а знакомство с соответствующим понятием ограничивается теми манипуляциями, которые человек производит с Интернетом (выбор провайдера услуг, тарифа, настройка подключения и некоторые другие). Современные компьютерные технологии позволяют обрабатывать и сохранять большие массивы терминов по различным областям знания. Такие массивы терминов называются терминологическими базами (банками) данных (ТБД). По количеству задействованных в базе данных языков различаются переводческие (многоязычные) и информационно- нормативные (одно-язычные) ТБД. Кроме того, термины определенной предметной области собираются и описываются в словарях специальных терминов. Эти словари могут быть дескриптивными и нормативными, общими и частными, толковыми и переводными, алфавитными и тезаурусными. Большинство электронных терминологических словарей носит дескриптивный характер и представляет термины отдельной отрасли знания. При этом востребованы и толковые (одноязычные), и переводные (двуязычные или многоязычные) словари. Порядок выполнения. 1. Откройте главную страницу Европейского интерактивного терминологического банка данных IATE (http://iate.europa.eu). Введите в строку поиска аббревиатуру NLP. Рисунок 1 2. Выберите исходный язык (Source language) English, языки перевода (Target languages) — немецкий (de) и французский (fr). В дополнительных опциях выберите раздел 3236-Information technology and data processing: далее раскрывающийся список 3. В открывшемся окне нажмите на и на надпись «Полная информация» {Full entry) первого значения. Результаты поиска скопируйте в таблицу Язык Зоны словарной статьи Definition Term Term Abbreviation en — English de — Deutsch fr — Francais Как вы можете прокомментировать возможности данного терминологического банка данных? Для каких целей и кем он может быть использован? 4. Ознакомьтесь с двумя множествами терминов: прилагательными и существительными Прилагательные Существительные информационный мультимедийньш цифровой электронный ресурс технология средства платформа 5. Скомбинируйте перечисленные выше существительные и прилагательные с целью создания терминологических сочетаний, например: информационная платформа. Перечислите все получившиеся терминологические словосочетания в таблице Термин Словосочетания с данным термином ресурс технология средства платформа 6. С помощью систем поиска (google.ru, yandex.ru и т.п.) напишите словарную статью для одного из получившихся терминов по вашему выбору. Статья должна включать следующие обязательные зоны: лексический вход, определение, примеры использования, источники. Кроме того, включите в описание термина еще две зоны словарной статьи на ваш выбор. Результат внесите в таблицу. Зоны словарной статьи Описание Лексический вход Определение Примеры Источники Задание 2. Информационно-поисковые системы. В современном мире, который буквально пронизан постоянно нарастающими объемами информации, для человека, использующего эту информацию с целью ее превращения в знания, встает проблема ориентации. Чтобы не захлебнуться в информационном потоке, нам нужны техники отбора, фильтрации и оценки [10, 18]. Традиционными способами фильтрации и отбора информации человеком являются: поиск «сверху» (по оглавлению); • поиск «снизу» (с помощью различных указателей); • поиск с помощью гипертекстовых связей (перекрестных ссылок); • полнотекстовый поиск путем просмотра всего текста. Последний вид поиска является наиболее точным, но и наиболее трудоемким, требующим больше всего времени и усилий. Организация поиска предполагает следующие составляющие и этапы: 1) множество документов (текстов или их фрагментов), по которым следует производить поиск; 2) коммуникативная потребность в информации, выражающаяся в информационном запросе пользователя; 3) удовлетворение коммуникативной потребности, состоящее в выборе той части текстов исходного массива, которая соответствует информационному запросу [4, 197]. Упорядоченная совокупность документов и информационных технологий, предназначенных для хранения и поиска информации, представленной в виде текстов или их частей (фактов), получила название информационно-поисковой системы (ИПС). Для экономии усилий человека с 1950-х годов осуществляются попытки создания автоматизированных ИПС. При этом в первых ИПС анализ и описание содержания документов (индексирование) выполнялись вручную, а поиски по этим документам проводились автоматически. Сегодня с развитием компьютерной техники и созданием высокоскоростных телекоммуникационных сетей в деле автоматизации поиска достигнуты значительные успехи, кратко и емко выразившиеся в знаменитой формуле Б. Гейтса «информация на кончиках пальцев» (information at your fingertips). Данное выражение можно понимать таким образом: информация всегда находится в распоряжении человека, нужно лишь сделать несколько нажатий клавиш, чтобы получить доступ к ней. Так, для поиска информации в Интернете служат различные классы поисковых средств: • каталоги (directories): • подборки ссылок (bookmarks): • поисковые машины (search engines): • базы данных адресов электронной почты и т.д. Каждый вид поискового средства имеет свои особенности, так, если человек имеет недостаточно точное представление о цели поиска, ему целесообразнее использовать каталоги веб-ресурсов. Применение поисковых машин эффективно, если пользователь представляет, какие ключевые слова характеризуют нужные ему ресурсы. Каталог веб-ресурсов — это постоянно обновляемая и пополняемая система ссылок на ресурсы, распределенные по иерархической структуре категорий. На верхнем уровне каталога представлены самые общие категории (рубрики), например «наука», «бизнес», «развлечения» и т.д. На нижележащих уровнях рубрики имеют более частный характер. Например, рубрика «наука» может делиться на категории «точные науки», «естественные науки» и «гуманитарные науки», последние — на философию, социологию, психологию, педагогику и т.д. Русскоязычный каталог сайтов можно найти, например, по адресу www.ru. Коллекция ссылок представляет собой еще один способ организации информации во Всемирной паутине. Такая коллекция обычно составляется специалистом в определенной теме, постоянно обновляется и не содержит ненужной информации. Печатный аналог такой коллекции ссылок по использованию информационных технологий в лингвистике можно найти после библиографического списка в нашем пособии. Некоторые примеры коллекций ссылок по обучению английскому языку приводит СВ. Титова. Поисковые машины (или поисковые системы) — это специальные веб-страницы, позволяющие находить веб-ресурсы, текстовое содержание которых соответствует запросу пользователя. В Международном каталоге поисковых машин (www.searchenginecolossus.com) зарегистрировано свыше 2300 поисковых систем из 232 стран. По данным этого каталога, каждый день выполняется до 450 млн поисковых запросов. К наиболее известным поисковым машинам относятся: • AltaVista (www.altavista.com); • Excite (www.excite.com); • Yahoo! (www.yahoo.com); • AOL (http://search.aol.com); • MSN (http://search.msn.com); • Google (www.google.ru); • Япс1ех (www.yandex.ru); • Rambler (www.rambler.ru); • Апорт (www.aport.ru). Рассмотрим, как осуществляется поиск в поисковой системе. Пользователь вводит свой поисковый запрос в специальную строку. Этот запрос, сформулированный на естественном языке, программой поиска преобразуется в информационно-поисковый язык (ИПЯ) — формальный язык, предназначенный для описания содержания документов, хранящихся в ИПС, и запроса. Информационно поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. О специфике ИПЯ каждой поисковой системы, особенно о его «синтаксисе» (т.е. о правилах сочетания ключевых слов, вводимых в строку поиска) можно узнать на отдельных вкладках соответствующей поисковой системы. Например, в Яндекс такая вкладка называется «Помощь — Как искать». Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Степень соответствия документа запросу задается категорией релевантности. При этом в процессе информационного поиска можно получить в выдаче значительный информационный шум — множество документов, формально релевантных, но не являющихся релевантными по смыслу. Чтобы получить меньше информационного шума, пользователю следует уточнять свой запрос, используя для этого дополнительные настройки поисковой системы. Так, в Google, нажав вкладку «Расширенный поиск», можно задать поиск целых словосочетаний (а не отдельных составляющих их слов), ограничить язык выдачи, дату создания документа, часть документа, в которой используется слово, формат документа и т.д. Такие манипуляции увеличивают вероятность нахождения нужной информации уже в самом начале выдаваемого списка. Результаты поиска могут характеризоваться с двух точек зрения: полноты и точности. Полнотой поиска (англ. Recall) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве. Точность поиска (англ. Precision) — это отношение количества выданных релевантных документов к общему числу документов в выдаче. Составить представление о полноте и точности поиска можно, сравнивая выдачи разных поисковых систем. При четком определении ключевых слов запроса и их синтаксической связи значения полноты и точности поиска будут стремиться к единице, т.е. к минимуму релевантных документов, что облегчает выбор человеком нужного результата поиска. Итак, информация не просто дается человеку «на кончиках пальцев», а предполагает сложные и трудоемкие процессы сортировки и отбора. С этими задачами в значительной степени помогают справиться современные автоматические информационно-поисковые системы, в частности поисковые системы Всемирной паутины Порядок выполнения 1. Ознакомьтесь с информационно-поисковым языком двух поисковых систем: Google и Рамблер. 2. Используя сведения об особенностях ИПЯ каждой поисковой системы, сформулируйте запрос, по которому вы сможете найти информацию, где и когда появился термин «лингвистика». Сравните информационно-поисковые системы по качеству поиска. Параметр Рамблер Поисковый запрос Поисковый запрос — это последовательность символов, которую пользователь вводит в поисковую строку, чтобы найти интересующую его информацию Документ, отвечающий результатам запроса (url) Указывается ссылка Номер этого документа в списке результатов Информационный шум Информационный шум – это количество нерелевантных ссылок Полнота Полнота поиска, это количественная характеристика, которая определяется путем деления количества выданных в результате выполнения поиска релевантных. Точность Точность, это мера качества выданных результатов. Она вычисляется как количество релевантных страниц в общем объеме того, что выдал нам поисковик. Выводы Приводятся результаты какой ИПС были более полными и точными, где было меньше информационного шума, синтаксис какой ИПС более комплексный, простой, удобный Формирование отчета для защиты лабораторной работы В рамках лабораторных работ студент выполняет задания, которые являются обязательными для получения положительной оценки по дисциплине. 1. Задания рекомендуется выполнять в течение всего учебного семестра до окончания срока представления лабораторных работ (сроки см. в графике работы в семестре); 2. Выполнение заданий оформляется в письменном виде (текстовый файл с титульным листом (см. бланк титульного листа на странице дисциплины)) - отчетный документ; 3. Файл необходимо загружать в соответствующий раздел дисциплины. По примеру курсовой работы. 4. Выполнение заданий оценивается преподавателем «Выполнено/Не выполнено» в течение всего семестра; 5. Возврат файла на доработку возможен только 1 раз в сроки загрузки лабораторных работ; 6. Для получения отметки «Выполнено» по данной лабораторной работе необходимо выполнить одно из двух заданий, результаты оформить в одном файле с титульным листом. |