БИ ОСНОВЫ ИНФОРМАТИКИ. БИ_курс лекций. Р. С. Гиляревский основы информатики курс лекций
Скачать 1.65 Mb.
|
Системы машинного перевода В современную эпоху научно-технической революции и инфор- матизации общества возросла интенсивность общения между народами и странами. Однако этот процесс в значительной мере тормозится язы- ковыми барьерами. Обучение иностранным языкам и переводческая деятельность в какой-то мере смягчают остроту проблемы, но полно- стью ее не решают. Более радикальным решением является создание систем автоматического перевода текстов с одних естественных язы- ков на другие. Такие системы создаются во многих развитых странах мира, однако качество автоматического перевода оставляет желать лучшего. 1 S m i t h K. E. Hypertext – linking to the future // Online. – 1988. – Vol. 12, N 2. – P. 32–40; Гиляревский Р. С., Субботин М. М. О возможностях оценки перспектив- ности новых информационных технологий (на примере гипертекстовой технологии) // Научно-техническая информация. – 1988. – Сер. 2, № 12. – С. 2–5. 170 Многие выдающиеся лингвисты вообще ставили под сомнение – и не без основания – возможность адекватного перевода текстов с од- ного естественного языка на другой, как это ни парадоксально звучит в эпоху интенсивной переводческой деятельности. Для получения на практике адекватного перевода необходимо использование экстралин- гвистической информации, т. е. такой, которая не содержится в пере- водимом тексте, но существует в виде накопленного общественного знания. Это и служит основным препятствием для полностью автома- тического (т. е. осуществляемого без участия человека) перевода с од- ного языка на другой. Поэтому, говоря о машинном переводе, мы под- разумеваем лишь частично автоматизируемую деятельность, в которой на разных ее этапах участвует человек. Поскольку перевод специаль- ных текстов при помощи компьютера может быть значительно облег- чен и ускорен, системы машинного перевода стали полезным инстру- ментом в работе переводчика и важным фактором снижения затрат в этой области. Человеческий перевод текстов с одних естественных языков на другие – это сложный мыслительный процесс. Он осуществляется на основе восприятия исходного текста и последующей передачи его смысла средствами выходного языка. При этом переводятся не слова и их последовательности, а понятия и мыслительные образы, порождае- мые в сознании переводчика под их воздействием. Системы машинно- го перевода текстов предназначены для моделирования работы челове- ка-переводчика. Но если моделировать эту работу в полном объеме пока не представляется возможным, то нужно, по крайней мере, стре- миться при машинном переводе оперировать теми единицами языка и речи, которые позволяют наиболее точно передавать содержание тек- ста, написанного на одном языке, средствами другого языка. Такими единицами являются, прежде всего, фразеологические обороты и тер- минологические словосочетания и, во вторую очередь, отдельные сло- ва. Поэтому перспективные системы машинного перевода должны опираться на фразеологическое богатство естественных языков. Они должны быть системами фразеологического перевода. Концепция фразеологического машинного перевода была впер- вые четко сформулирована профессором Г. Г. Белоноговым в 1975 г. Далее она была развита и в настоящее время реализована в ВИНИТИ в виде двух систем: системы русско-английского перевода (RETRANS) и 171 систем англо-русского перевода (ERTRANS) 1 Как уже было указано, система RETRANS предназначена для перевода текстов с русского языка на английский. Тематика переводи- мых текстов включает широкий спектр предметных областей: эконо- мику, коммерческую деятельность, машиностроение, электротехнику, энергетику, транспорт, аэронавтику, космонавтику, биологию, меди- цину, экологию, сельское хозяйство, математику, физику, химию, ав- томатику и радиоэлектронику, вычислительную технику, информатику, астрономию, геофизику, геологию, горное дело, металлургию, полити- ку, законодательство и другие дисциплины. Словарь системы содержит около миллиона словарных статей и обеспечивает покрытие политема- тических текстов на 97–99 %. Это самый большой в мире русско- английский машинный словарь. Доля словосочетаний и фразеологиче- ских оборотов в словаре – около 80 %. . Если в других системах перевода в качестве основной минимальной единицы смысла, пред- ставляемой в машинных словарях, рассматривается слово и их можно охарактеризовать как системы преимущественно пословного семанти- ко-синтаксического перевода, то в системах фразеологического пере- вода в качестве основной единицы смысла считаются фразеологиче- ские словосочетания, выражающие понятия, отношения между поня- тиями и ситуации. Это позволяет точнее передавать смысл переводи- мых текстов. Система реализована на персональных компьютерах типа IBM РС/АТ. Скорость перевода текстов в автоматическом режиме – не ме- нее 10–30 слов/сек. и зависит от быстродействия машины. Предусмот- рена возможность работы в интерактивном режиме (с целью повыше- ния качества перевода). Есть также возможность дополнительной на- стройки системы на конкретного пользователя. Для функционирования системы необходим объем оперативной памяти не менее 600 Кбайт и объем дисковой памяти не менее 20 Мбайт. Система работала под управлением операционной системы MS DOS 6.0 и выше. Теперь она работает под Windows 2000, встраивается в Word и доступна в Интер- нете на сайте ВИНИТИ. Система англо-русского перевода (ERTRANS) имеет характеристики, аналогичные системе RETRANS. 1 Белоногов Г. Г. и др. Интерактивная система русско-английского и англо- русского машинного перевода политематических научно-технических текстов // Научно- техническая информация. – 1993. – Сер. 2, № 3. – С. 20–26; Белоногов Г. Г., Зеленков Ю. Г. Еще раз о принципе аналогии в морфологии // Научно-техническая информация. – 1995. – Сер. 2, № 3. – С. 29–32. 172 Одной из важнейших проблем, стоящих перед переводом, явля- ется частое и не всегда сразу заметное изменение значений слов. Сло- вари не всегда успевают отразить эти изменения в научно-технической терминологии. В одном из докладов на международной конференции переводчиков приводились интересные примеры из вычислительной техники. Слово «компьютер» во времена Шекспира обозначало чело- века, выполняющего арифметические вычисления. В наше время по- добное изменение претерпело слово «редактор», которым все больше обозначают программу обработки текста. Английские же слова word processor , первоначально употреблявшиеся в значении компьютера для обработки текста, а затем – и соответствующей программы, претерпе- ло обратное изменение: теперь они часто применяются к людям и ука- зывают на специалистов, поддерживающих работу этих программ. С точки зрения пользователя системы машинного перевода мо- гут подразделяться на три основных типа: Информативные, предназначенные для помощи тем, кому ну- жен доступ к информации на иностранном языке и кто готов пользо- ваться «грубым», но достаточно понятным переводом. Такие системы, как правило, имеют словари большого объема, но не опираются на но- вейшие достижения в лингвистике и программировании. Профессиональные, которые дают лишь черновые наброски пе- ревода для профессиональных переводчиков и тем освобождают их от черновой работы. Такие системы теперь используются все реже, – как правило, при большом объеме текущей переводческой работы, выпол- няемой одновременно многими специалистами в одной предметной области. Чаще в этих ситуациях переводчиков снабжают автоматиче- скими словарями, тезаурусами с интерактивным доступом или систе- мами, получившими название «памяти переводчика». Персональные – для авторов, желающих перевести свои статьи на иностранный язык, которым они не вполне владеют. Такие системы обычно работают в диалоге с пользователем и могут давать удовлетво- рительный перевод (качество которого все же зависит от того, на- сколько автор владеет выходным языком). По применяемым лингвистическим методам системы машинно- го перевода можно разделить также на три типа: Системы прямого перевода – наиболее многочисленные, по- скольку начали создаваться еще в 50–60-е годы для фиксированных пар языков. В этих системах словарь и синтаксис входного языка ана- лизируются лишь в той мере, в какой это необходимо для идентифика- 173 ции правильных выражений выходного языка и порядка слов. В начале своего развития эти системы выдавали пословные переводы и лишь позднее – переводы, основанные на анализе предложений входного языка. Системы перевода с использованием языка-посредника, служа- щего для отображения «смысла» входного текста, который преобразу- ется в семантические и синтаксические представления, общие для не- скольких выходных языков. Этот метод применяется обычно при не- обходимости перевода исходного текста на несколько языков (в пере- водческих центрах Европейского сообщества, например). Системы перевода с трансфером более сложны, нежели пре- дыдущие типы, поскольку языки-посредники применяются дважды – первый раз при переводе с входного языка, второй – при переводе на выходной язык. В этом случае становится необходимым дополнитель- ный этап перевода – с языка-посредника входного языка на язык- посредник выходного языка. За этот счет достигается более глубокий лингвистический анализ и синтез. В последние годы все большее применение в машинном перево- де находят методы искусственного интеллекта, которые при перево- де учитывают семантику текста. Это означает, что они опираются не столько на грамматические, сколько на семантико-синтаксические ка- тегории. Обычные для лингвистических методов многочисленные не- однозначности и неясности устраняются за счет внеязыковой базы данных. Это означает, что система пытается «понять» текст на входном языке до его перевода. Однако и методы искусственного интеллекта пока не дают всей информации, необходимой для полноценного ма- шинного перевода. В частности, проблемы возникают при переводе с английского языка на японский. «Понимание» английского текста не дает достаточной информации о состоянии пишущего и читающего, необходимой для адекватного перевода на японский язык. Несмотря на все оговорки, связанные с несовершенством систем машинного перевода, существуют уже сотни достаточно широко ис- пользуемых систем такого рода. 174 Информационная технология О понятии информационной технологии Слово "технология" имеет в русском языке два значения. В со- ответствии с толковым словарем оно означает совокупность процессов обработки или переработки материалов в определенной отрасли, а также научное описание способов производства. В каком-то смысле оно противопоставляется слову "техника", которое означает совокуп- ность средств труда и приемов, служащих для создания материальных ценностей, а также употребляется собирательно вместо слов "маши- ны", "орудия", "устройства". В английском языке слово technology оз- начает технические науки и часто употребляется в значении, которое на русский язык должно переводиться словом "техника", хотя обычно калькируется как "технология". Вот почему термин "информационная технология", пришедший к нам из английского языка, часто трактуется расширительно и охва- тывает не только процессы и методы обработки информации, но и тех- нические средства их осуществления. Это обстоятельство наложило некоторый отпечаток на содержание данной лекции, так как трудно говорить о собственно технологии без учета быстрого развития техни- ческих средств. Однако сведения об основной технике – вычислитель- ных машинах и их программировании вынесены в отдельные лекции, чтобы здесь акцентировать внимание на электронных информацион- ных технологиях, их применении и социальных последствиях их вне- дрения. Информационные технологии не являются самоцелью: их раз- работка и внедрение служат основой информатизации общества как один из главных факторов научно-технической революции. Новые и перспективные информационные технологии, в свою очередь, созда- ются на основе новейших технических средств, высокопроизводи- тельных вычислительных машин, внешних запоминающих устройств 175 сверхбольшой емкости, информационно-вычислительных сетей, элек- тронных средств коммуникации и печати. Информационная технология нередко включается в более широ- кое понятие информационной сферы, которая представляет собой со- вокупность общенациональных, отраслевых и региональных информа- ционных структур, в составе которых находятся и библиотеки. Инфор- мационные технологии удовлетворяют их потребности не только при помощи технических средств, но и социальных институтов и дейст- вующих норм. Хотя термин "технология" и трактуется нами расшири- тельно и охватывает не только и не столько процессы и методы обра- ботки информации, сколько технические средства их осуществления, однако нельзя сводить информационную технологию к технике, только к вычислительным машинам и их периферийным устройствам. Она определяется, в первую очередь, видом перерабатываемой информа- ции, производимым продуктом или предоставляемой услугой, а также информационной структурой, которая использует данную технологию. Примерами информационных технологий могут служить: − автоматизированное проектирование и производство, − телеобработка данных, − автоматическая обработка текстов и изображений, − поиск информации в базах данных, − системы мониторинга окружающей среды, − системы технической диагностики и контроля, − экспертные, обучающие и роботизированные системы, − гибкие автоматизированные производства, − видеотекс и телетекст, − электронная полиграфия, − моделирование сложных научно-технических процессов в реальном масштабе времени и многое другое. Обо всем этом следовало сказать, чтобы не создалось обманчи- вое представление о том, что в сфере науки используется весь совре- менный арсенал электронной технологии, вся совокупность ее методов и средств. Пока мы освоили лишь незначительную ее часть, связанную, главным образом, с обработкой информации и ее поиском. Западные специалисты считают, что можно выделить три стадии усвоения обществом той или иной технологии: − улучшение и ускорение привычно выполняемой работы, 176 − появление под влиянием технологических изменений новых проблем, задач и целей, ранее не возникавших, − изменения в самом обществе, его институтах и образе жизни его членов в связи с технологическими достижениями. В развитых странах уже не первое десятилетие решается вопрос информатизации общества, что соответствует третьей стадии усвоения электронной информационной технологии. Традиционная информационная технология тесно связана с процессами письма и чтения, редактирования и издания, которые осу- ществляются "естественным" интеллектом человека и на протяжении нынешнего тысячелетия предполагали использование бумаги. Поэтому процессы автоматического представления и сканирования текста, ав- томатизированной переработки информации, осуществляемые при по- мощи "искусственного" интеллекта в процессоре ЭВМ, часто называ- ют "безбумажными". Сначала специалисты по обработке данных писали о безбумаж- ных информационных системах, о безбумажной информатике, а затем социологи начали говорить о безбумажном обществе. Концепция без- бумажного общества есть не что иное, как представление о воздейст- вии новой информационной технологии на те сферы жизни людей, ко- торые ближе всего соприкасаются с научной или, шире, с семантиче- ской информацией. В нашу специальную литературу термин "безбумажная инфор- матика" вошел как синоним новой информационной технологии вме- сте с книгой В. М. Глушкова (1923–1981) "Основы безбумажной ин- форматики", вышедшей в 1982 г. Во введении к ней значение элек- тронной технологии обработки информации обосновывалось следую- щим образом: "Задача накопления, обработки и распространения (об- мена) информации стояла перед человечеством на всех этапах его раз- вития. В течение долгого времени основными инструментами для ее решения были мозг, язык и слух человека... Поскольку в эпоху книго- печатания основным носителем накапливаемой информации стала бу- мага, технологию накопления и распространения информации естест- венно называть бумажной информатикой. Следует подчеркнуть, что революция в информатике, связанная со становлением письменности и книгопечатания, практически не затронула область переработки ин- формации. Положение в корне изменилось с появлением электронных вычислительных машин (ЭВМ). Подобно тому, как изобретение меха- нического двигателя открыло эру комплексной механизации и автома- 177 тизации физического труда, изобретение ЭВМ сделало то же самое в отношении труда умственного" 1 Тенденции развития информационных технологий Если посмотреть на процесс внедрения новой информационной технологии в информационное дело не с узко технологических пози- ций, а в более широком социологическом аспекте, то нельзя абстраги- роваться от общих тенденций развития информационной коммуника- ции и ее инфраструктуры. К этой инфраструктуре помимо библиотек относятся издательства и типографии, система книготорговли и рас- пространения литературы, средства связи (почта, телеграф, телефон, радио и телевидение, телефакс, видеотекс, сети передачи данных), спе- циализированные информационные центры. В обобщенном виде эти тенденции таковы. Увеличение числа полнотекстовых баз данных и расширение производства оптических дисков углубляет процесс сращивания библиотечно-информационной деятельности с редакционно-издательским делом и полиграфией. Рас- пространение микроЭВМ и персональных компьютеров ведет к созда- нию в центрах информации и у пользователей на дому автоматизиро- ванных рабочих мест, связанных в локальные информационные сети с выходом в глобальные. По этим сетям пользователи могут выходить в мощные национальные и международные центры поиска информации и копирования первоисточников (в некоторых системах копии пересы- лаются по каналам электросвязи и даже через искусственные спутники Земли). Таким образом, специалисты могут формировать собственные базы данных, получая исходную информацию из разных источников, включая и приобретение компактных оптических дисков с текстами монографий, статей, библиографических указателей, каталогов, спра- вочников. Все шире распространяются программные системы, позво- ляющие ученым и специалистам осуществлять поиск и переработку информации самостоятельно, без посредников (экспертные системы, гипертекстовые, системы обработки текста и изображений, электрон- ного редактирования, автоматического индексирования, машинного перевода и т. п.). Все более широкое применение находят настольные издательские системы (персональный компьютер + лазерный принтер), электронная почта, телеконференции. Наконец, самое главное, вся эта 1 Глушков В. М. Основы безбумажной информатики. – М.: Наука, 1982. – С. 9. 178 деятельность осуществляется на прибыльной коммерческой основе, так как необходимая для нее совершенная техника, хотя она довольно быстро дешевеет, требует затраты значительных материальных средств. Возможно, что именно последней из названных тенденций объ- ясняется то, что библиотеки пока еще не играют заметной роли в обес- печении своих читателей электронной информацией. Чтобы не воз- вращаться к этому принципиальному моменту, требующему специаль- ного обсуждения, хочу сразу высказать свое к нему отношение. Бес- платность библиотечного обслуживания явилась исторически важным этическим принципом. Но он давно уже на практике оказался размы- тым. Ведь предоставление копий во всем мире является платным, хотя в большинстве стран – на бесприбыльной основе. Все электронные информационные услуги как в информационных центрах, так и в биб- лиотеках тоже предоставляются за плату. Так как же быть с принципом бесплатности? Считаю, что общество не может снять с себя ответственность за осуществление права каждого гражданина быть информированным на некотором базовом уровне. Этот уровень предполагает, что любой по- тенциальный читатель должен иметь доступ ко всей опубликованной информации при некотором минимуме усилий и в разумные сроки. Поэтому традиционное библиотечно-библиографическое обслу- живание должно оставаться бесплатным, а, скажем, цены на библио- графические указатели, реферативные журналы, другие информацион- ные издания, а также на копии первоисточников – доступными (на уровне подписных цен на массовые издания). Весь же информацион- ный сервис на базе новой информационной технологии неизбежно яв- ляется и останется платным. При этом по мере возрастания интеллек- туальной сложности информационных услуг цены на них будут также расти. Любопытно проследить и за судьбой давней дискуссии по не менее принципиальному для данной темы вопросу о том, прекратился ли информационный взрыв и сохраняются ли прежние темпы прироста информации, по крайней мере, научно-технической. В 1973 г. профес- сор Сорбонны Ж. Андерла в исследовании, озаглавленном "Информа- ция в 1985 году", утверждал, что к этому времени прирост недубли- руемой информации составит 12 млн. единиц в год, увеличение темпов роста 12–13 %, доля машиночитаемой информации в автоматизиро- ванных системах 25 %, а темпы ее роста 35–40 % в год. Ему возражали 179 ведущие американские специалисты В. Коч (Институт физиков, Ва- шингтон), К. Херринг ("Белл Телефон") и Д. Прайс (Йельский универ- ситет) на семинаре Национального научного Фонда США в 1974 г. Они проявили скептицизм в отношении оценок количественного роста информации и высказались за то, что в течение полувека ежегодный информации сохранится на уровне 7–8 %. В 1985 г. Ж. Андерла проанализировал, в какой мере сбылись его прогнозы. Он отметил, что не предвидел микропроцессорной рево- люции и распространения персональных компьютеров, влияния евро- пейских правительств на развитие информационной индустрии и по- этому предсказанные им изменения в информационной технологии наступили на пятилетие раньше предсказанного срока, хотя в начале 70- х годов были восприняты как утопические. До настоящего времени учет единиц машиночитаемой информации не налажен в той мере, в какой он ведется для традиционно издаваемой литературы. Поэтому точно подсчитать, насколько сбылись прогнозы роста информации, пока невозможно. Но приблизительные оценки, основанные на учете баз данных М. Вильямс, показывают, что в споре с американскими учеными правота была на стороне Ж. Андерла. Электронная информа- ционная технология не сдерживает, а, наоборот, стимулирует рост ин- формации, в том числе и научно-технической. Только происходит это в нетрадиционных формах, которые мы не очень умеем и не торопимся учитывать. В начале 90-х гг. проводилось много исследований с целью оце- нить степень распространения информационной технологии в библио- теках и информационных службах в 1995–2010 гг. Эксперты не ошиб- лись в том, что в этот период от половины до трех четвертей потреби- телей будут иметь собственные телефаксы и широко использовать электронную почту. Видеотекс во французском варианте может сыг- рать определенную роль в межбиблиотечных связях, но его широкое распространение маловероятно из-за конкуренции компьютерных се- тей. До 90 % научно-технической информации может издаваться в электронной форме, при этом в цифровом виде будет храниться значи- тельная часть изобразительной и звуковой информации. Использование экспертных систем, считали эксперты, позволит улучшить результаты информационного поиска. Произойдут измене- ния в системе МБА: тексты и изображения будут передаваться по ка- налам связи и выводиться на терминалы потребителей. Каталоги будут во все большей степени становиться сводными и, возможно, наряду с 180 библиографической информацией, классификационными индексами и шифрами хранения содержать изображения титульных листов. Как в большинстве прогнозных исследований последних полу- тора десятилетий эксперты подчеркнули, что внедрение новой инфор- мационной технологии зависит от экономических факторов не в мень- шей степени, чем от технических достижений. Хотя период, на кото- рый были рассчитаны эти прогнозы, еще не закончился, можно конста- тировать, что они реализуются с опережением. При этом прогнозы развития техники и технологии оказываются слишком осторожными, а прогнозы достижений в фундаментальных науках – слишком оптими- стичными. |