Распозование текста. Распознование текста и 7 класс. Распознавание текста и системы компьютерного перевода
Скачать 20.36 Kb.
|
УРОК НА ТЕМУ «Распознавание текста и системы компьютерного перевода». в 7 классе. (Учебник 7 класса. Авторы Л. Л. Босова, А. Ю. Босова. –М: БИНОМ. Лаборатория знаний, 2017 г.) Дата проведения « __» __________ 20__ г. Учитель Каипова Д.М. Тема урока: «Распознавание текста и системы компьютерного перевода» Тип урока: Урок изучения нового материала. ТДЦ урока: Образовательная: Дать представление о системах распознавания и перевода текста, сформировать навыки перевода текста при помощи e-mail. Развивающая: Развивать познавательный интерес, внимание, самоконтроль. Воспитательная: Воспитывать информационную культуру, усидчивость. Ход урока: Организационный момент Актуализация Основной этап Практический этап Рефлексия Домашнее задание Организационный момент Здравствуйте! Кто сегодня отсутствует? Актуализация Знание хотя бы одного иностранного языка необходимо сегодня всем. В особенности пользователям компьютеров: ведь избежать столкновения с английским языком при работе на компьютере, увы, невозможно. Неудобно, если вы не знаете иностранного языка... Однако отчасти вам может помочь установка на компьютер одной из специализированных программ-переводчиков. При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. Итак, сегодня мы узнаем о системах перевода и распознавания текста. Основной этап Компьютерные словари. Словари необходимы для перевода текстов с одного языка на другой. Первые словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части. В одной части записывалось слово на шумерском языке, а в другой — аналогичное по значению слово на другом языке, иногда с краткими пояснениями. Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц. Как вы думаете, удобно ли это? Если нет, то чем удобней пользоваться? Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Во-первых, компьютерные словари могут являться многоязычными, так как дают пользователю возможность выбрать языки и направление перевода (например, англо-русский, испано-русский и так далее). Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.). В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др. В-четвертых, компьютерные словари могут являться мультимедийными, то есть предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка. Системы машинного перевода. Происходящая в настоящее время глобализация нашего мира приводит к необходимости обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках. В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществить немедленно, и нет возможности и времени пригласить переводчика. Системы машинного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду) и, с другой стороны, переводить Web-страницы «на лету», в режиме реального времени. Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ». Системы машинного перевода осуществляют перевод текстов, основываясь на формальном «знании» языка (синтаксиса языка — правил построения предложений, правил словообразования) и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке. Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они неприменимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека. Системы распознавания текста. С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов. Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, очень плохое. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Так же не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word. Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций. Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек. При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу. Какие вы знаете системы оптического распознавания текста? Наиболее распространенные системы оптического распознавания символов: FineReader, CuneiForm, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают. Практический этап Вам необходимо перевести предложения, написанные в документе, на иностранные языки и отправить результат мне на e-mail. Адрес моей почты .........@mail.ru. Рефлексия Сегодня на уроке мы познакомились с системами перевода и распознавания текста. Для чего используются системы перевода текста? Перечислите дополнительные возможности компьютерного словаря. Как называются лучшие российские системы машинного перевода? В каких ситуациях систему машинного перевода лучше не применять? Как сокращенно называют специальные программы распознавания текста? Что должны уметь современные OCR? Назовите более распространенные системы оптического распознавания текстов. Что-то новое сегодня узнали на уроке? Все было понятным? Вопросы есть? Домашнее задание § 4.5 - №4, №7 |