Главная страница
Навигация по странице:

  • Практическое занятие Упражнение Сканирование документа

  • Упражнение 17.2. Преобразование изображения в текстовый документ мин

  • 4 9 7 Упражнение 17.3. Ручная сегментация изображения мин

  • Упражнение 17.4. Корректировка текста отсканированного документа 30 мин

  • Автоматизированный перевод документов

  • Работа с программой PROMT XT

  • Контроль качества перевода

  • Работа со словарями.

  • Учебник Информатика. Базовый курс. Симонович С.В.. С. В. Симоновичаинформатикабазовый курс2е издание


    Скачать 17.96 Mb.
    НазваниеС. В. Симоновичаинформатикабазовый курс2е издание
    АнкорУчебник Информатика. Базовый курс. Симонович С.В..pdf
    Дата28.01.2017
    Размер17.96 Mb.
    Формат файлаpdf
    Имя файлаУчебник Информатика. Базовый курс. Симонович С.В..pdf
    ТипКнига
    #56
    КатегорияИнформатика. Вычислительная техника
    страница62 из 76
    1   ...   58   59   60   61   62   63   64   65   ...   76
    распознавания
    Выбор символа
    Рис, 17.3. Ручное
    механизма распознавания текста

    Практическое занятие
    495
    Редактирование документа. Когда распознавание данной страницы завершается,
    полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоми- нающих текстовый редактор WordPad (панель для форматирования открывается при помощи команды Вид • Панель инструментов • Форматирование). Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Про- верить на панели инструментов Scan&Read. Информация о возможных ошибках и неоднозначностях отображается в диалоговом окне Проверка (рис. 17.4).
    Фрагмент оригинала —
    Распознанный текст
    Варианты замены
    17.4. Проверка правильности текста с учетом трудностей распознавания
    и правил правописания
    Сохранение документа. По щелчку на кнопке Сохранить на панели инструментов
    Scan&Read запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft
    Word) для последующей обработки.
    Практическое занятие
    Упражнение
    Сканирование документа
    1. Включите сканер.
    2. Запустите программу Paint (Пуск • Программы • Стандартные • Paint).
    3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,
    закройте крышку.
    4. Дайте команду Файл Со сканера или камеры.
    5. Средствами открывшегося диалогового окна драйвера TWAIN проведите пред- варительное сканирование документа.
    6. Средствами диалогового окна драйвера TWAIN выделите на документе область,
    подлежащую сканированию.
    мин

    4 9 6 Глава
    Автоматизация обработки документов
    7. Средствами диалогового окна драйвера TWAIN задайте черно-белый режим и разрешение сканирования. Для обычных текстовых документов наиболее эффективное разрешение составляет 300 dpi.
    8. Средствами диалогового окна драйвера TWAIN проведите сканирование.
    9. Закройте диалоговое окно драйвера
    Ознакомьтесь с тем, как выглядит отсканированный мас- штаб изображения, чтобы оценить качество воспроизведения отдельных сим- волов.
    Сохраните отсканированный документ в формате
    для использования в сле- дующем упражнении.
    Мы научились выполнять сканирование документов из приложений через драйвер
    Это наиболее универсальный метод, применимый во всех приложениях, кото- рые допускают использование сканера.
    Упражнение 17.2. Преобразование изображения
    в текстовый документ
    мин
    1. Включите сканер.
    2. Запустите программу FineReader (Пуск • Программы • ABBYY FineReader 6.0
    Professional).
    3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,
    закройте крышку сканера.
    4. Щелкните на кнопке Сканировать на панели инструментов Scan&Read.
    5. Дождитесь окончания сканирования. Обратите внимание на появление значка отсканированного документа на панели Пакет и в окне Изображение.
    6. Щелкните на кнопке Распознать. Изучите результат автоматической сегмента- ции в окне Изображение. Ознакомьтесь с распознанным текстом в окне Текст.
    7. Сохраните распознанный текст в виде текстового файла.
    8. Откройте текстовый файл в программе Блокнот и еще раз убедитесь в пра- вильности распознавания. Закройте программу Блокнот.
    9. Дайте команду Файл • Открыть изображение и выберите изображение, создан- ное в предыдущем упражнении.
    10. Выберите это изображение в окне Пакет и проведите его распознавание в соот- ветствии с пп. 6-8 данного упражнения.
    Сравните результаты распознавания при сканировании через и в обход его. Сравните трудоемкость этих операций.
    Мы научились преобразовывать бумажные документы в электронную форму при помощи программы FineReader. Мы познакомились с возможностью работы с пакетом страниц. Мы также выяснили преимущества методов сканирования с использованием вера и в обход его.

    Практическое занятие 4 9 7
    Упражнение 17.3. Ручная сегментация изображения
    мин
    1. Включите сканер.
    2. Запустите программу FineReader (Пуск • Программы • ABBYY FineReader
    Professional).
    3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,
    закройте крышку.
    4. Щелкните на кнопке Сканировать на панели инструментов Scan&Read и дожди- тесь окончания сканирования.
    5. Щелкните на кнопке Распознать на панели инструментов Scan&Read. Ознакомь- тесь с тем, как проведено упорядочение распознанного текста в соответствии с автоматической сегментацией. Оцените пригодность полученного документа.
    7. Сохраните полученный документ для последующего сравнения.
    8. Щелкните в окне Изображение правой кнопкой мыши и выберите в контекст- ном меню команду Удалить блоки и текст.
    9. Щелкните на кнопке Выделить текстовый блок на панели инструментов Изобра- жение. Сформируйте блоки вручную, выделяя отдельные элементы документа.
    10. Чтобы блоки, содержащие иллюстрации, не распознавались как текст, щелк- ните на каждом из них правой кнопкой мыши и выберите в контекстном меню команду Тип блока • Картинка.
    Щелкните на кнопке Перенумеровать блоки на панели Изображение. Задайте последовательность блоков, щелкая на них в том порядке, в каком их содержи- мое должно включаться в окончательный документ.
    12. Щелкните на кнопке Распознать на панели инструментов Scan&Read. Сохра- ните полученный документ.
    13. Сравните документы, полученные в результате автоматической и ручной сег- ментации.
    Мы научились производить ручную сегментацию изображения для распознавания и узнали, в каких случаях ее следует производить. Мы также узнали, как задается тип блоков и порядок блоков, чтобы полученный документ наилучшим образом соответ- ствовал оригиналу.
    Упражнение 17.4. Корректировка текста отсканированного
    документа
    30 мин
    1. Включите сканер.
    2. Запустите программу FineReader (Пуск • Программы • ABBYY FineReader 6.0
    Professional).
    3. Откройте крышку сканера, положите документ на окно сканера текстом вниз,
    закройте крышку.

    4 9 8 Глава
    Автоматизация обработки документов
    4. Дайте команду Файл • Новый Пакет.
    5. Задайте имя пакета и место его размещения, после чего щелкните на кнопке
    Создать.
    6. Щелкните на кнопке Сканировать, чтобы выполнить сканирование документа.
    7. Щелкните на кнопке Распознать, чтобы программа выполнила сегментацию и распознавание текста автоматически.
    8. Щелкните на кнопке Проверить, чтобы начать проверку распознанного текста.
    9. В диалоговом окне Проверка выбирайте необходимые действия для корректи- ровки ошибок распознавания.
    Обращайте также внимание на ошибки, которые программа FineReader может пропустить: ошибки при распознавании знаков препинания, пропуски строк при низком качестве отсканированного текста, дефекты сканирования, которые не могут быть исправлены автоматически.
    Сохраните полученный документ.
    Мы научились улучшать качество электронного документа путем полуавтоматической обработки результатов распознавания. Мы также узнали, какие ошибки наиболее ха- рактерны для систем распознавания.
    Автоматизированный перевод документов
    К средствам автоматизации перевода можно отнести два вида программ: элект- ронные словари и программы перевода. Электронные словари представляют собой средства для перевода отдельных слов, отображаемых на экране или имеющихся в документе. Удобство их использования состоит в возможности немедленно полу- чить перевод неизвестного слова без поиска его в отдельном толстом томе. Про-
    граммы перевода получают на входе текст, выполненный на одном языке, и выда- ют текст на другом языке, то есть автоматизируют перевод текста.
    Электронные словари удобны для профессиональных переводчиков, которые выполняют большую часть работы по переводу вручную. Их также могут исполь- зовать лица, в целом знающие иностранный язык, если надо не обеспечить перевод документа, а просто ознакомиться с его содержанием.
    Надежный и качественный автоматический перевод документов с одного языка на другой (мы будем говорить в основном о переводе с английского на русский)
    пока остается недостижимым идеалом. Причин для этого множество, и главная из них состоит в том, что перевод текста не сводится к переводу отдельных лексиче- ских единиц. Преодолеть этот барьер современные программы автоматического перевода пока не могут.
    Тем не менее, современные средства автоматизации перевода достигли того уровня,
    который позволяет эффективно их на практике. Дело в том, что тех-
    нический текст, в отличие от художественного, использует ограниченное число языковых конструкций и более ориентирован на однозначную интерпретацию.

    Автоматизированный перевод документов 4 9 9
    Среди используемых лексических единиц встречается большое число технических
    терминов, имеющих совершенно определенный смысл в рамках данной научной или технической дисциплины. Это значительно упрощает процесс перевода и позволяет в отдельных случаях автоматически получать текст, близкий к резуль- тату ручного подстрочного перевода.
    Программы автоматического перевода имеет смысл использовать для перевода технических текстов в следующих случаях:
    • при абсолютном незнании иностранного языка;
    • при необходимости получить перевод быстро, даже ценой его каче- ства (например, это относится к переводу Шей-документов);
    • для перевода на иностранный язык (умения читать иноязычные тексты недо- статочно, чтобы научиться объясняться на иностранном языке);
    • для быстрого создания первоначального черновика («подстрочника»), исполь- зуемого в ходе подготовки полноценного перевода.
    Работа с программой PROMT XT
    Для автоматизированного перевода технических текстов можно, например, исполь- зовать разные программы семейства PROMT. Они позволяют переводить докумен- ты с английского языка на русский и с русского на английский. Чтобы обеспечить правильный перевод терминов, относящихся к определенной научной дисциплине,
    используют специализированные словари, в которых для слов, используемых как термины, предлагается в качестве перевода не «обиходное», а специальное значение.
    Если необходимость в переводе документов возникает часто и обрабатывать прихо- дится документы разных форматов, удобно использовать один из вариантов пакета
    PROMT XT. Если необходимость перевода возникает от случая к случаю и прихо- дится иметь дела с неформатированными текстами (например, сообщениями элек- тронной почты) и короткими отрывками, можно воспользоваться более простой программой которая также
    В этом пособии мы рассмотрим работу с использованием пакета PROMT XT.
    Если программа PROMT
    установлена на компьютере, для ее запуска можно использовать Главное меню (Пуск • Программы • PROMT XT Family PROMT).
    Одновременно для обработки может быть открыто несколько документов. Окна документов имеют необычный вид (рис. 17.5). Они разбиваются на три отдельные области: две из них предназначены для отображения оригинала текста и сформиро- ванного перевода, а третья представляет собой информационную панель, предназна- ченную для вывода информации о переводимом документе и специальных настройках.
    Чтобы произвести перевод документа с использованием заданных по умолчанию настроек, применяют следующий порядок действий.
    1. Сначала необходимо открыть документ на языке оригинала (кнопка Открыть на панели инструментов Основная). Нужный документ выбирают в диалоговом окне Выберите документ. Формат открываемого файла выбирают в раскрыва- ющемся списке Тип файлов.

    500
    Глава
    Автоматизация обработки документов
    Панель исходного Панель текста
    Основная
    Панель
    Перевод
    Панель перевода
    Формат
    Информационная панель
    Рис.
    Рабочее окно системы автоматизированного перевода PROMT XT
    2. После выбора файла появляется диалоговое окно Конвертировать файл. В нем можно уточнить реальный формат документа, хранящегося в файле, если он не соответствует типу файла или тип файла может соответствовать нескольким разным форматам документа.
    3. Документ загружается и отображается в области исходного текста. При верти- кальном разбиении окна документа эта область располагается слева. Если пред- полагается длительная работа над переводом текста, его сохраняют как доку- мент программы с расширением .STD).
    4. Определение языков оригинала и перевода рассматривается как направление
    перевода. Чтобы выбрать направление перевода, используют кнопку Направ- ление перевода на панели инструментов Перевод.
    5. Чтобы перевести весь текст целиком, используют кнопку Перевести весь текст на панели инструментов Перевод. В ходе выполнения перевода на экране отоб- ражается диалоговое окно Перевод текста с индикатором хода работы. Перевод текста помещается (при вертикальном разбиении окна) в правую область. Для удобства последующего редактирования перевод снабжается цветовой размет- кой: неизвестные программе слова подчеркиваются красным, а зарезервиро-

    Автоматизированный перевод документов 5 0 1
    ванные слова, которые не надо переводить, — зеленым. Другие типы маркировки и подчеркивания показывают, из какого словаря взят перевод указанного слова.
    Текст, помещенный в областях окна программы PROMT XT, можно редактиро- вать (и оригинал, и перевод). Чтобы заново перевести отредактированный абзац, используют кнопку Перевести текущий абзац на панели инструментов
    Перевод. Текущий абзац — это абзац, в котором располагается текстовый кур- сор. Он выделяется голубой полосой вдоль левого края.
    6. После того как работа с документом в программе PROMT XT завершена, его сохраняют в одном из общепринятых форматов. Для сохранения только ори- гинала (возможно, отредактированного) служит команда Файл • Сохранить •
    Исходный текст. Чтобы сохранить переведенный текст, применяют команду
    Файл • Сохранить • Перевод. В обоих случаях можно сохранять как содержи- мое документа, так и его элементы форматирования, сохраняющие, по возможности, оформление оригинала.
    Чтобы продолжить работу с текстом позднее, удобнее сохранить его двуязыч- ный вариант, так называемую билингву (Файл • Сохранить • Билингву как спи- сок абзацев или Билингву как таблицу). В первом случае сохраняется сплошной поток текста, причем абзацы оригинала и перевода чередуются. Во втором слу- чае документ сохраняется как таблица с двумя столбцами. Каждая ячейка содер- жит один абзац, причем в левом столбце отображается оригинал, а в правом —
    соответствующий перевод.
    Контроль качества перевода
    Качество перевода определяется полнотой используемых словарей и учетом грам- матических правил. При переводе можно как применять стандартные ресурсы про- граммы, так и добавлять собственные.
    Работа со словарями. Правила перевода отдельных слов (терминов) определяются использованием словарей. Для каждого переводимого документа задается набор
    применяемых словарей. Словари просматриваются в определенном порядке, и, как только переводимое слово обнаружено в каком-то из словарей, дальнейший про- смотр прекращается. Программа при переводе сло- варей.
    Генеральный словарь содержит общеупотребительную лексику и бытовые зна- чения слов. Он используется всегда и притом самым последним, если слово не найдено ни в одном из других словарей. Изменение этого словаря невозможно.
    Специализированные словари содержат термины из различных областей знаний,
    причем значение переводимого термина выбирается в соответствии со специа- лизацией словаря. Одни и те же слова могут иметь совершенно разный смысл в разных технических дисциплинах, так что выбор нужного словаря обеспечи- вает правильное использование специальной терминологии в переводе. Редак- тирование специализированных словарей не допускается, но их можно подклю- чать или отключать при переводе документа.

    5 0 2 Глава
    Автоматизация обработки документов
    Пользовательский словарь формируется пользователем вручную. В него можно включить слова, отсутствующие в других словарях, или представить более точ- ный перевод каких-то из терминов. Пользовательские словари можно произ- вольно создавать и редактировать. Применяют пользовательские словари обычно в первую очередь, до специализированных и генерального.
    Узнать, какие словари используются при переводе, можно на вкладке Словари на информационной панели. Подключенные словари отмечаются установленным флажком. Порядок перечисленных словарей соответствует порядку их использо- вания. Генеральный словарь в этом списке не указывается. Чтобы изменить порядок использования словарей, следует щелкнуть на словаре, положение которого в списке надо изменить, правой кнопкой мыши и выбрать в контекстном меню команду Вверх
    Транслитерация и резервирование. Не все слова требуют перевода. Обычно без изменений оставляют имена собственные. Иногда при этом используют трансли-
    терацию — запись, использующую другой алфавит, но соответствующую написа- нию или произношению слова на исходном языке. В частности, транслитерация повсеместно используется при передаче иностранных имен и фамилий. Трансли- терация не считается переводом.
    Иногда необходимо отказаться от перевода целых абзацев. Например, нелепый результат даст попытка перевода исходных текстов программ. То же самое можно сказать и обо всех других случаях, где используются не значения слов, а сами сло- ва как ключевые.
    Чтобы зарезервировать слово, его надо выделить и щелкнуть на кнопке Зарезер- вировать слово на панели инструментов Перевод. В открывшемся диалоговом окне
    Зарезервировать слово можно уточнить написание, указать смысловую категорию,
    к которой относится данный термин, а также установить флажок Транслитериро- вать, если нужна транслитерация. Все зарезервированные слова заносятся в список на вкладке Зарезервированные слова на информационной панели, а в самом доку- менте выделяются зеленым цветом.
    Чтобы указать на то, что абзац не требует перевода, надо установить текстовый курсор внутрь данного абзаца и щелкнуть на кнопке Оставить абзац без перевода на панели инструментов Перевод. Зарезервированный абзац также отображается зеленым цветом. Если резервирование слов или абзацев произведено после выпол- нения перевода, то для того, чтобы данные настройки вступили в силу, надо произ- вести перевод соответствующих абзацев заново.
    Если приходится работать с тематически связанными документами или докумен- том, разбитым на несколько отдельных файлов, следует использовать общий список зарезервированных слов. Чтобы сохранить список зарезервированных слов в отдельном файле, следует щелкнуть на вкладке Зарезервированные слова инфор- мационной панели правой кнопкой мыши и выбрать в контекстном меню пункт
    Сохранить список. Для загрузки такого автономного списка в документ использу- ется команда Загрузить список из этого же контекстного меню.

    Автоматизированный перевод документов
    503
    Пополнение словаря. При автоматическом переводе реальных документов часто приходится сталкиваться со словами, которые программа перевода не смогла найти ни в одном из допустимых словарей. Эти слова заносятся в список на вкладке Незна- комые слова на информационной панели и выделяются в тексте документа красным цветом.
    Слова могут быть неопознаны по разным причинам. В число их могут входить:
    • опечатки в оригинале документа;
    • ошибки распознавания (для документов, преобразованных в электронную фор- му);
    • собственные имена, требующие резервирования;
    • слова, отсутствующие в словарях.
    В первых двух случаях необходимо отредактировать исходный текст, в третьем —
    зарезервировать слово и только в последнем случае необходимо занести слово в пользовательский словарь. При этом кроме собственно значения слова в переводе необходимо задать грамматические правила изменения форм этого слова и его соче- тания с другими словами. В самом простом режиме работы (Начинающий) программа автоматически добавляет недостающие формы слова по заданному
    Для того чтобы внести слово в словарь, надо выделить его и щелкнуть на кнопке
    Словарная статья на панели инструментов Перевод. В диалоговом окне Открыть словарную статью нужно указать начальную форму слова и выбрать словарь, в кото- рый будет внесено это слово. После этого в окне Новая словарная статья надо ука- зать, какой частью речи является данное слово. Откроется диалоговое окно Сло- варная статья, используемое для добавления слова (рис.
    Рис. 17.6. Средство пополнения пользовательского словаря

    504
    Глава
    Автоматизация обработки документов
    Установите переключатели, описывающие свойства данного слова, и щелкните на кнопке Добавить. В диалоговом окне Перевод укажите перевод слова, также в начальной форме. Если откроется диалоговое окно Тип словоизменения, надо щелк- нуть на имеющейся в нем кнопке (для глаголов она называется Спряжение) и ука- зать, как выглядят запрашиваемые формы слова. В заключение может быть задан вопрос о том, для каких форм исходного слова применим данный перевод и как
    Имеющиеся словари можно также просматривать и редактировать. Для этого надо дважды щелкнуть на названии словаря на вкладке Используемые словари на инфор- мационной панели. Словарь открывается, и на экран выводится список включен- ных в него слов. Дважды щелкнув на любом слове, можно отредактировать соответ- ствующую словарную статью. Результаты такого редактирования всегда заносятся только в пользовательский словарь.
    1   ...   58   59   60   61   62   63   64   65   ...   76


    написать администратору сайта