Технология создания и обработки тектовой информации. 17. Технология создания и обработки текстовой информации
Скачать 460.34 Kb.
|
§17. Технология создания и обработки текстовой информации Создание и обработка текста выполняется с помощью текстовых редакторов, а также систем распознавания текста и автоматического перевода текста с одного языка на другой. Текстовые редакторы используют для подготовки самых разнообразных документов. В зависимости от выполняемых задач их можно разделить на: редакторы текстов; редакторы документов; издательские системы; редакторы научных текстов; редакторы текстов программ; Web-редакторы. Редакторы текстов предназначены для создания и редактирования только текстов. Это, например, такие программы, как Notepad, MultiEdit, Norton Editor и др. Редакторы документов предназначены для работы с текстами, имеющими структуру документа, и состоят из разделов, страниц, абзацев, предложений, слов и т. д. Такие редакторы чаще называют текстовыми процессорами, так как они позволяют использовать различные шрифты, изменять размер шрифта, задавать произвольные межстрочные интервалы, выравнивать абзацы, создавать таблицы, строить диаграммы, создавать и редактировать графические объекты, осуществлять проверку правописания и др. Редакторы документов - это наиболее широко используемый вид прикладных программ, среди которых можно выделить Лексикон, Мiсrоsоft Word, Writer (OpenOffice.org) и др. Издательские системы применяются при создании больших сложных документов (книги, альбомы, журналы, газеты, справочники и т. д.). Их используют прежде всего для верстки, т. е. распределения текста по страницам, вставки рисунков, оформления текста разными шрифтами и т. д. В качестве примеров издательских систем можно назвать PageMaker, Corel Ventura Publisher, QuarkXPress. Для подготовки небольших по объему материалов можно использовать Мiсrоsоft Publisher, входящий в пакет MS Office. Следует отметить, что работа с издательскими системами предполагает Использование на первом этапе редакторов документов, а затем уже осуществляется непосредственно сама верстка. Редакторы научных документов позволяют создавать документы с математическими и химическими формулами, а также с другими специальными символами, строить сложные графики и диаграммы. Наиболее известными редакторами научных текстов являются системы ТЕХ и Mathor. Данные системы целесообразно использовать, когда тексты содержат большое число формул и графиков. Редакторы текстов программ рассчитаны на написание и редактирование программ на различных языках программирования. Часто они встроены в среду программирования, непосредственно из которой можно запускать программы на выполнение. Например, редакторы, встроенные в системы программирования Basic, Turbo Pascal, Delphi, Visual Studio и др., выполняют редактирование строк программы; копирование и перенос блоков текста; поиск и замену подстрок текста; автоматический поиск строки, содержащей ошибку; распечатку программы или ее части; проверку синтаксической правильности программы; выделение синтаксической структуры текста программы и т. д. Web-редакторы предназначены для создания Web-страниц. Все Web-редакторы можно разделить на визуальные редакторы (WISIWIG-редакторы) и НТМL-редакторы. Web- редактор, работающий по принципу WYSIWYG (What Уои See Is What Уои Get - «что ты видишь, ТО ты и получишь») позволяет пользователю сразу увидеть результаты своей работы, как, например, при работе в Word. Типичными представителями таких редакторов являются Froпt Page, Macromedia Dreamweaver, Netscape Composer и др. НТМL-редакторы используются при создании Web-страниц непосредственно с помощью НТМL-кода. Такие редакторы пользуются популярностью у многих Web-мастеров, так как позволяют автоматизировать выполнение некоторых задач, умеют подсвечивать синтаксис языков программирования (помимо HTML, еще JavaScript, Perl, РНР и другие) и т. д. Существует довольно большое количество НТМL-редакторов, например HomeSite, который считается одним из лучших, HTML-Kit, HTML Writer и др. Системы распознавания текста позволяют получить электронную версию документа (книга, статья и др.) на основе твердой копии на бумаге или пленке. Для обработки текстов после сканирования необходимо воспользоваться системой оптического распознавания текстов (OCR Optical Character Recogпitioп), чтобы перевести его в формат текстового документа. Полученный в результате текст можно затем обрабатывать, используя текстовые редакторы. Существует множество программ данного типа. Так, некоторые из них входят в состав программного обеспечения сканера и офисных пакетов. Программные продукты российских компаний ABBYY Software Ноusе - Fine Reader и Cognitive Technologies - Cunei Form являются наиболее качественными. Так, программный продукт фирмы Cogпitive Techпologies входит в комплект реализации сканеров таких производителей, как Сапоп, Hewlett-Packard, OKI, Seiko Ерsоп, Olivetti. Сам процесс распознавания текста включает следующие этапы. 1. Сканирование документа. 2. Выбор языка и выделение блоков для распознавания. 3. Распознавание. 4. Сохранение результатов распознавания в другом приложении (например, в Word). Системы перевода и проверки текста. Системы перевода предназначены для автоматизированного перевода слов/ текстов с одного языка на другой. Эти системы можно разделить на программы-словари, представляю щи е собой электронные версии обычных словарей с некоторыми дополнительными возможностями, и программы- переводчики, которые позволяют переводить большие тексты с одного языка На другой. Среди программ-словарей можно отметить такие программные продукты, как ABBYY Lingvo, МультиЛекс, КОНТЕКСТ и др. Современные программы-переводчики стали более «интеллектуальными », так как с помощью лингвистического редактора можно просматривать варианты перевода, подключая различные словари, а использование ТМ-технологии (Translation Memory) позволяет запоминать и сохранять в базе знаний выполненные переводы. Таким образом, Формируется большое хранилище моделей перевода. Данная технология показала себя достаточно эффективной и широко используется профессиональными переводчиками. К таким программам относятся, например, программы-переводчики компании ПРОМТ. Для проверки текста документа lia предмет правописания используются специальные программы или средства встроенные в текстовые процессоры, как, например, в Word. Специальные программы по сравнению с встроенными средствами обладают большими возможностями: проверка орфографии, грамматическая и стилистическая проверка, словарь синонимов, антонимов и родственных слов, полная расстановка пере носов, показ всех форм заданного слова и его грамматических характеристик. Так, например, программа ОРФО содержит справочник по русскому языку, в котором имеется свод правил русской орфографии и пунктуации. С помощью данной программы можно осуществлять проверку правописания в Мiсrоsоft Office 97,2000,XP,2003, Adobe PageMaker 6.х 7.0. QuarkXPress 4.x,5.x и во многих других популярных приложениях. Создание и редактирование текстовых документов в Word Основные понятия и приемы по созданию и редактированию текстовых документов рассмотрим на примере текстового процессора Word XP, 2003, который входит в состав интегрированного пакета Мiсrоsоft Office ХР , 2003. Перечислим основные возможности и средства, которыми обладает Word. Наличие разнообразных средств форматирования абзацев, символов и страниц, а также форматирование документа на основе стилей. Построение и редактирование таблиц, а также выполнение в них вычислений. Создание формул с помощью встроенного Редактора формул. Внедрение и связывание графических объектов с использованием технологии OLE. Создание рисунков средствами самого Word, а также редактирование других рисунков, созданных в векторной графике. Контроль грамматической правильности текста. Средства поиска и замены в тексте. возможность создания гиперссылок. Создание и просмотр Web-страниц. Построение графиков. После запуска текстового процессора Word открывается программное окно и создается новый документ. Создание нового документа в Word всегда опирается на шаблон. Шаблон - это файл, содержащий образец документа с определенными для данного документа параметрами форматирования и оформления Файл шаблона имеет расширение .dot. Шаблон может включать текст, рисунки, диаграммы, стили и т.д. Шаблоны используются для упрощения подготовки документов определенного типа, например, брошюр, факсов, деловых писем, объявлений и '1'. д. Категории шаблонов представлены в диалоговом окне Шаблоны соответствующими вкладками: Общие, Письма и факсы, Публикации и т. д. При создании нового документа (файл с расширением .doc) на основе любого шаблона все содержание и структура шаблона переносятся в новый документ, а сам шаблон остается без изменений. Новый шаблон можно создать на основе уже существующего шаблона или документа. С понятием шаблона тесно связано понятие стиля. Стиль содержит набор параметров для форматирования текста, и ему присваивается имя. Стиль - это набор форматирующих команд, сохраняемый под своим именем для многократного использования. word обладает большим количеством встроенных стилей, на Основе которых можно создавать новые стили. Для создания нового стиля из меню Формат выбирается команда СТИЛИ и форматирование, а затем - Создать стиль. В диалоговом окне Создание стиля задается имя стиля и параметры Форматирования для шрифта, абзаца, табуляции, границ и т. д. После создания стиля в документе или шаблоне его и: добавляется в список стилей на панели инструментов форматирование. Форматирование документа. Для того чтобы придать документу определенный вид, выполняется форматирование. Форматирование документа включает форматирование страницы, символов, абзацев. Форматирование страницы выполняется в самом начале при создании документа и включает установку полей, размера бумаги, ориентацию страницы, создание колонтиту- лов. Для установки параметров страницы используется диалоговое окно Параметры Страницы, в котором задаются поля, размер бумаги, ориентация. Поля - это область между краем бумаги и основным текстом Для создания колонтитула надо выполнить команду меню Вид - Колонтитулы при этом выводится панель инструментов Колонтитулы. колонтитул - это область страницы, размещение в которой текста или рисунка позволяет повторить их на каждой странице раздела или всего Документа. Обычно верхний колонтитул располагается в верхнем поле, а нижний в нижнем поле. Однако колонтитулы могут быть размещены на странице, если их увеличить до соответ- ствующих размеров. Например, так поступают для создания эффекта водяных знаков в документе. В колонтитулы можно включать графику, номера страниц, дату и время, символы и т. д. Форматирование страницы устанавливается для всех страниц раздела или всего документа. Текст документа обычно представляет собой набор некоторых символов. Для форматирования символов используется диалоговое окно Шрифт, которое содержит три вкладки: Шрифт, Интервал, Анимация. Форматирование символов включает установку таких параметров, как гарнитура шрифта, размер шрифта, начертание, цвет текста, подчеркивание, интервалы между словами и анимационные эффекты. Для форматирования абзаца используется диалоговое окно Абзац, в котором устанавливаются параметры форматирования: выравнивание, отступы, позиции табуляции, междустрочные интервалы, интервалы перед абзацем и после, первая строка. Абзац - это фрагмент текста который завершен нажатием клавиши Enter. Для установки некоторых параметров форматирования символов и абзаца может использоваться горизонтальная линейка и кнопки на панели инструментов Формат. Создание разделов. При создании нового документа как правило, он состоит из одного раздела. Разделом может быть одна или несколько страниц, а также определенная часть страницы, т. е. страница может содержать несколько разделов. Разделы - это части документа, которые могут быть отформатированы независимо друг от друга. Так как разделы выступают как независимые части одного документа, это позволяет устанавливать для них различные колонтитулы, ориентацию листа, нумерацию страниц, создавать многоколоночные тексты. Для создания нового раздела необходимо в диалоговом окне Разрыв в группе Новый раздел установить переключатель на одном из вариантов: со следующей страницы, на текущей странице, с четной странницы, с нечетной страницы. Чтобы определить, сколько разделов в документе, его надо просмотреть в режиме Колонтитулы, при этом в колонтитулах отображается номер раздела. Создание списков. Списки, создаваемые в Word, бывают трех типов: маркированные, нумерованные и многоуровневые. Список представляет собой набор абзацев - элементов списка, отформатированных особым образом и снабженных номерами или специальными маркерами. Создать список можно одним из двух способов. Первый способ: в список преобразуется набранный текст. Второй способ: выбирается тип списка и создаются элементы списка. Независимо от способа создания списка необходимо вызвать диалоговое окно Список, в котором выбирается тип списка и устанавливаются его параметры. Многоуровневый список представляет собой несколько вложенных друг в друга нумерованных или маркированных списков. Многоуровневый список может состоять максимум из 9 уровней. При работе с таким списком требуется изменять уровень текущего элемента списка. Для изменения уровней вложенности используются кнопки: - уменьшить отступ и - увели чить о т ступ на панели инструментов Формат или соответственно клавиша <Таb> и комбинация клавиш Создание таблиц. Word обладает большими возможностями по созданию, редактированию и форматированию таблиц. Таблица состоит из строк и столбцов, на пересечении которых находится ячейка. Ячейки могут содержать текст, числа и графические изображения. Таблицы удобно использовать для представления хорошо структурированной информации: различных списков, расписаний финансовой информации и т. д. Таблицы позволяют легко и быстро форматировать содержащиеся в них данные, сортировать их и выполнять несложные вычисления. С помощью таблиц текст можно разместить в нескольких колонках, изменить направление текста, выровнять абзацы текста и рисунки. Структура таблицы в общем случае может быть сколь угодно сложной, и при этом совершенно не обязательно чтобы она имела прямоугольную структуру. Создать таблицу можно: - с помощью команды меню Таблица - Вставить - Таблица; - с помощью кнопки,,, Добавить таблицу; - с помощью команды меню Таблица …. Нарисовать таблицу. Изменить структуру таблицы можно путем вставки и удаления столбцов, строк, ячеек, а также объединением и разбивкой ячеек. Меню Таблица содержит команды, которые позволяют изменять структуру таблицы. Для выполнения простых расчетов используется панель Формула. Формула начинается со знака равенства и может включать числа функции , адреса ячеек и знаки арифметических операций. Адрес ячейки состоит из названия столбца и номера строки - первый столбец А, второй В и т. д., а нумерация строк начинается с первой строки таблицы. Если значения в ячейках таблицы были изменены, то для обновления результата формулы курсор необходимо установить в ячейку с формулой и нажать клавишу Создание и обработка графических объектов. Word располагает простым и вместе с тем мощными средствами для создания рисунков различной степени сложности: от элементарных геометрических фигур до сложных объемных фигур. Для создания рисунков используются инструменты панели Рисование. Так, например, средство Автофигуры позволяет использовать при создании рисунка различные встроенные фигуры. С помощью инструментов панели рисование создаются рисунки векторной графики. Такие рисунки, как правило, состоят из простых геометрических фигур - примитивов (линия, овал, прямоугольник). После создания рисунка его элементы обычно группируются, образуя тем самым единый объект. Если необходимо редактировать такой рисунок, то его надо разгруппировать. Таким образом, картинки или рисунки, созданные в векторной графике, можно редактировать средствами Word. В векторной графике изменение формы линии выполняется через узлы, с помощью которых линию можно разделить на отрезки. Местоположение узлов можно менять, что приводит к изменению формы линии. Благодаря команде контекстного меню Начать изменение узлов становятся доступны команды для редактирования линии: Добавить узел, Удалить узел и т. д. Word предоставляет возможность создавать и редактировать также и растровые изображения с помощью имеющегося графического редактора, например Paint. Для создания рисунка непосредственно в окне Вставка объекта выбирают тип объекта Bitmap Image, а для вставки уже существующего графического файла переходят на вкладку Создание файла и с помощью кнопки Обзор устанавливают путь к файлу. Нарисованные или вставленные объекты растровой графики можно в последующем отредактировать. Для этого из контекстного меню выбирают команду Объект Bitmap Image → Edit или дважды щелкают на рисунке, после чего загружается графический редактор. У каждого документа Word существует три основных слоя: слой текста и два гра- фических слоя - под текстом и над текстом. Поэтому в зависимости от того, в каком слое размещается рисунок, они делятся на встроенные и перемещаемые. Встроенный рисунок вставляется непосредственно в позицию курсора и ведет себя как обычный текстовый символ. Он требует для своего размещения отдельного места в текстовом пространстве. Перемещаемые рисунки располагаются в графическом слое и не требуют для себя отдельного места в текстовом пространстве. Встроенные рисунки могут преобразовываться в перемещаемые рисунки и наоборот. Такие преобразования выполняются в диалоговом окне Формат автофигуры на вкладке Положение. Создание формул. Довольно часто возникает необходимость добавить в создаваемый документ математические формулы. Однако Word не имеет собственных средств для создания математических формул, поэтому используется приложение Equation Editor (Редактор формул) и созданные формулы вставляются в документ как объекты. Редактор формул входит в состав пакета Мiсrоsоft Office. Он позволяет вводить в документ и редактировать математические символы и операторы, такие как дроби, интегралы, матрицы и т. д. Формула может быть вставлена в любое место документа и впоследствии отредактирована или отформатирована при помощи Редактора формул. Для вставки формулы в документ с помощью команды Вставка → Объект вызывается диалоговое окно Вставка объекта и из списка выбирается Мiсrоsоft Equation 3.0. Для вызова Редактора формул можно добавить соответствующую кнопку на панель инструментов. После выбора открывается окно Редактора формул. В Рабочей области окна выводится панель инструментов Equation и рамка объекта, внутри которой содержится пустой слот. Слот - это поле, в которое вводятся символы формулы и шаблон; Шаблон - это готовая структура, состоящая из символов и слотов. Панель инструментов включает две строки кнопок: верхняя - доступ к палитрам символов, нижняя - доступ к палитрам шаблонов. Формула формируется последовательным вводом символов, выбором и вставкой шаблонов, которые также заполняются символами. Шаблоны, по сути, являются заготовками и позволяют задать форму математического выражения (дроби, степени, индекса, матрицы и т. п.). При наборе формулы курсор ввода имеет форму прямого угла, размер которого в формуле меняется в зависимости от линии ввода. Например, размер курсора при записи числителя дроби будет меньше, чем курсор для всей дроби. Размещение формулы в документе аналогично созданию графического объекта. Иными словами, в документе формула представлена как вставленный или перемещаемый объект. Для выхода из редактора формул необходимо щелкнуть кнопкой мыши вне формулы либо нажать клавишу Создание электронной формы. Электронная форма является аналогом бумажного бланка, однако она заполняется на компьютере. Ее удобство заключается в том, что такую формулу можно легко распространить в Сети или отправить по электронной почте. Как правило, электронная форма - это шаблон, который содержит поля формы - места, в которых помещается определенная информация. Различают следующие виды полей: поля для ввода данных, поля со списком для выбора значении и флажки. Любая электронная форма содержит две части: изменяемую и неизменяемую. Неизменяемая часть - это текст или графические элементы, которые не могут быть изменены при заполнении формы. Изменяемая часть - это поля, в которые вводятся данные. В разработке электронной формы можно выделить три этапа. 1. Создание шаблона формы и разработка ее структуры. 2. Добавление полей в шаблон формы. 3. 3ащита и сохранение формы. Создание шаблона формы ничем не отличается от создания обычного шаблона. Разработка структуры формы, добавление полей, и защита формы выполняется с помощью панели инструментов Формы. Создание документа путем слияния. В тех случаях, когда надо напечатать несколько однотипных документов, которые отличаются, например, только адресом, именем, фамилией и т. д., используется слияние документов. В создании документа путем слияния выделяются следующие этапы. 1. Создание основного документа без полей слияния. 2. Создание документа источника. 3. Вставка полей слияния в основной документ. 4. Объединение основного документа и источника с последующим сохранением как документа или распечаткой. Процесс создания документа путем слияния выполняется в пошаговом режиме с помощью Мастера слияния (Сервис → Письма и рассылки → Мастер слияния). Создание оглавления и указателей. Составление оглавления, предметного указателя, списков таблиц и иллюстраций вручную в больших документах дело очень трудоемкое. В Word имеея возможность автоматически создать оглавление, предметный указатель, список иллюстраций. Оглавление представляет собой список заголовков документа с указанием номера страницы, где эти заголовки располагаются. Для создания оглавления в автоматическом режиме необходимо чтобы заголовкам были назначены стили. Перед созданием предметного указателя необходимо отметить будущие элементы указателя - слово или фразу, которые следует включить в указатель. Для этого нужно выделить элемент и нажать комбинацию клавиш Сборка оглавления, предметного указателя, списка иллюстраций выполняются в диалоговом окне Оглавление и указатели. Вопросы и задания 1. Как можно классифицировать текстовые редакторы по выполняемым функциям? 2. Для чего предназначены системы распознавания текста? 3. Какие системы применяются при переводе текстов? 4. Назовите основные возможности текстового процессора MS Word. 5. Что такое шаблон в MS Word? 6. Что понимается под стилями и с какой целью они используются? 7. Что включает в себя форматирование документа? 8. Что такое колонтитул? Где он может располагаться? 9. Что понимается под разделом? Как его можно создать? 10. Какие типы списков можно создавать в MS Word? 11. Как выполняются и обновляются вычисления в таблицах? 12. Можно ли в Word создавать и редактировать рисунки векторной и растровой графики? 13. Для чего используется Редактор математических формул? 14. В каких целях используют электронные формы? 15. Как создать документ путем слияния? 16. Как автоматически создать оглавление, предметный указатель, список иллюстраций? |