Главная страница
Навигация по странице:

  • Электронная книга Новая концепция книги

  • БИ ОСНОВЫ ИНФОРМАТИКИ. БИ_курс лекций. Р. С. Гиляревский основы информатики курс лекций


    Скачать 1.65 Mb.
    НазваниеР. С. Гиляревский основы информатики курс лекций
    АнкорБИ ОСНОВЫ ИНФОРМАТИКИ
    Дата07.04.2021
    Размер1.65 Mb.
    Формат файлаpdf
    Имя файлаБИ_курс лекций.pdf
    ТипКурс лекций
    #192133
    страница20 из 26
    1   ...   16   17   18   19   20   21   22   23   ...   26
    "Понимание" текста на естественном языке
    Многие процессы информационной деятельности: поиск инфор- мации, ее отбор, аналитико-синтетическая переработка, распростра- нение – все это процессы, связанные с чтением, пониманием (из- влечением смысла) и формулированием текста на естественном языке.
    Вот почему автоматизация этих процессов занимает важное место при разработке новых информационных технологий. Впервые информа- ционные работники вплотную столкнулись с этой проблемой, когда в начале 50-х годов начались интенсивные эксперименты по машинному переводу. По этому поводу существуют разные мнения, о чем гово- рилось в лекции об информационных системах.
    Моя позиция заключается в том, что адекватный перевод тек- стов с одного естественного языка на другой – задача, не имеющая од- нозначного решения. Всегда можно получить несколько разных пере-
    1
    Буквы славянского алфавита скорее всего изобрел не Кирилл, а Мефодий, а начертание большинства букв, которыми мы пользуемся отличны от славянских и были выбраны собственноручно Петром I.

    216 водов одного и того же текста, в отношении которых допустимо гово- рить, что они достаточно близки к оригиналу и стилистически кор- ректны, причем степень того и другого не поддается измерению. Под- тверждение этой мысли можно найти, если рассматривать эти перево- ды в диахронии, т. е. на протяжении некоторого времени. Оригинал художественного произведения всегда остается неизменным, а перевод быстро устаревает и нуждается в обновлении. А раз так, то и формали- зовать эту задачу для ее машинного решения можно лишь в зависимо- сти от формализованности оригинального текста.
    Обсуждая возможность адекватного перевода, полезно пред- ставить мысленно некоторую шкалу, на которой расположены разные типы текстов различной степени переводимости. На левом краю шка- лы находятся поэтические тексты, в отношении которых термин "пере- вод" применяется условно, поскольку здесь речь идет о переложении поэтических образов, т. е. о сочинении новой поэзии. Продвигаясь по шкале вправо, мы последовательно встретимся с художественной про- зой, научными и деловыми бумагами, личной и ведомственной пере- пиской. Наконец, на правом краю шкалы мы найдем некоторые типы текстов, однозначно передающихся из одного естественного языка в другой. Это различного рода юридические формулы (включая патент- ные), номенклатурные перечни, транскрибируемые или транслитери- руемые названия и имена. Очевидно, что возможность автоматизации перевода и вообще переработки текста будет возрастать по этой шкале слева направо.
    Нас, в данном случае, интересуют те типы текстов, которые за- нимают довольно большое пространство в центре шкалы и которые по меткому выражению покойного академика А. П. Ершова называют "деловой прозой". Он считал, что деловая проза отражает производст- венные отношения людей и является таким фрагментом естественного языка, который может быть "воспринят" компьютером.
    Это убеждение он основывал на том, что данные отношения людей более строго регламентированы, чем другие, что деловая проза используется в модельных ситуациях, которые ведут к ее формализа- ции. "Стихийно реализуемая, – писал он, – но властно диктуемая сутью дела потребность обеспечить быстрое и точное взаимопонимание на- градила деловую прозу жесткими средствами выражения, эко- номичностью и другими полезными для человека и машины свой- ствами". Ясно, что большая часть публицистики, научных и ад- министративных документов написана деловой прозой.

    217
    В последние десятилетия успехи лингвистики и логики во мно- гом продвинули наше понимание сложностей машинного перевода, а достижения электронной техники сделали возможными практические системы, которые работают в промышленном режиме (обычно с пред- варительной подготовкой оригинального текста и последующим ре- дактированием машинного перевода человеком).
    Но все же камнем преткновения автоматизированной обработки текста, которая лежит в основе диалога человека с компьютером на естественном языке, является необходимость для понимания этого тек- ста владеть определенными знаниями экстралингвистической (т. е. не содержащейся в тексте) информацией и логическим мышлением (т. е. способностью к логическому выводу и правдоподобным рассуждени- ям).
    Мы уже говорили, что пятое поколение вычислительных машин, с внедрением которых связывали новые революционные изменения в информационной технологии, авторы проекта представляли как ком- пьютеры, ведущие диалог на естественном языке. Многие лингвисты сомневаются в правомерности такой формулировки. Не входя слиш- ком глубоко в существо проблемы, попытаемся вникнуть в представ- ления специалистов о тех видах лингвистического анализа, которые, собственно, и являются машинным "пониманием" естественного язы- ка. Одна из первых трудностей заключается в неоднозначности многих его выражений, даже когда речь идет о языке деловой прозы.
    Выделяют пять типов такой неоднозначности: лексическую, структурную, "глубинную", семантическую и прагматическую.
    Лексическая неоднозначность возникает из-за полисемии боль- шого числа слов, включая специальные термины. Нам удается устра- нять эту неоднозначность на уровне человеческого интеллекта, так как, зная контекст, всегда понимаешь, идет ли речь о ключе гаечном, от двери или том, который бьет из-под земли. При информационном по- иске нам помогает в этом тезаурус, где слова с разными значениями маркируются. Однако для различения этих значений в машине часто приходится прибегать к трудоемким (и не всегда дающим правильный результат) статистическим процедурам.
    Структурная неоднозначность – это, прежде всего, возмож- ность разного синтаксического членения предложения. Например, фразу "Наблюдения над языком маленьких детей" можно понять двоя- ко: кто-то наблюдает за языком детей или дети ведут наблюдения над языком, в зависимости от того, относится ли слово "детей" к слову

    218
    "язык" или к слову "наблюдения".
    Неоднозначность на уровне глубинной структуры содержится во фразе "Этот текст улучшить нельзя": либо потому, что он совер- шенен, либо потому, что безнадежно плох (примеры Ю. Д. Апресяна).
    Сравнивая две фразы "Каша готова к обеду" и "Цыплята готовы к
    обеду", мы усматриваем двусмысленность второй из них, поскольку знаем, что цыплят можно и кормить и есть.
    Семантическая неоднозначность в речи часто возникает из-за незнания ситуации. Вам говорят: "Купите автомобиль", и это может означать, что вы выбираете между автомобилем и мотоциклом, а мо- жет быть просто не знаете, куда потратить деньги. "Человек упал, раз-
    бил окно, повредил себе руку" – все эти действия могли быть и нечаян- ными и намеренными. В зависимости от этого перевод фразы на дру- гой язык и представление ее в машине будут разными.
    Прагматическая неоднозначность иллюстрируется фразой "Он
    уронил карандаш на стол и сломал его". Для человеческого опыта в ней нет неясности, поскольку мы понимаем, что сломался карандаш, но машине это не очевидно. При переводе на другие языки "карандаш" и "стол" могут оказаться словами разного грамматического рода (на- пример, в испанском и французском первое мужского рода, а второе женского), и это окажется существенным.
    Для иллюстрации лингвистического и логического анализа, не- обходимого при машинном «понимании» языка, воспользуемся моде- лью американского филолога Т. Винограда (Стэнфордский универси- тет),на идеях которого основывается наше изложение. Реализация этой модели (рис. 14 ) требует сложных компьютерных программ баз дан- ных и баз знаний, содержащих различные словари и правила. Предпо- ложим, что в машину введена фраза: Технологии будут развиваться по
    законам, которые мы поняли очень давно. Если она введена с голоса, то для нее должен быть выполнен фонетический анализ, если же вво- дится письменный текст (с клавиатуры или сканера), то программа на- чинается с морфологического анализа. Целью первого является распо- знавание и идентификация фонем, целью второго – установление ос- новных форм слов и их флексий. На третьем этапе проводится лекси- ческий анализ, в результате которого образуется последовательность слов, соотнесенных с частями речи и их морфологическими характе- ристиками (число, падеж и т. п.). На четвертом этапе осуществляется синтаксический анализ фразы – грамматический разбор предложе- ния, – который дает синтаксическую ее структуру (на рисунке она по-

    219 казана в виде дерева). Однако эта поверхностная структура не всегда однозначна, как мы уже убедились на примерах. Поэтому требуется еще анализ глубинной структуры (на рисунке не показанный).
    Дальнейшие этапы машинного понимания текста переводят его синтаксическую структуру в логическую, которая позволяет применить процедуры логического вывода и рассуждений. Существуют различ- ные формы семантических анализаторов для кодирования смысла язы- ковых выражений. В данной модели используется исчисление преди- катов.
    После семантического анализа логическая структура предложе- ния записывается цепочкой логических символов, которые могут быть прочитаны следующим образом:
    Существуют такие x, y, z, t
    0
    , t
    1
    , t
    2
    ,
    что x есть технология,
    y есть закон,
    z
    есть произносящий фразу, который понял y в момент t
    2
    ,
    t
    0 есть момент произнесения,
    t
    1
    наступит после момента произнесения t
    0
    ,
    x
    развивается по y в момент t
    1
    ,
    t
    2
    был задолго до t
    0
    В ходе прагматического анализа определяется, в частности, что именно известно о переменных. Например, x – связанная квантором переменная. Она утверждает существование чего-то, но не указывает на определенный объект. Другими словами, технологии в данном слу- чае это технологии вообще, а не какие-либо конкретные технологии.
    Точно так же переменная y есть неопределенный объект, задаваемый контекстом. Переменная z тоже остается не полностью определенной, поскольку местоимение мы может означать авторов высказывания, авторов и читателей, профессионалов данной области, вообще людей данного поколения. Целью машинного понимания языка является воз- можность диалога с машиной, в ходе которого компьютер мог бы да- вать логически осмысленные ответы на вопросы пользователя или же преобразовывать команды в определенные действия, учитывающие реальность. Эту задачу решает последний этап анализа, обозначенный на рис. 14 как
    «Рассуждения».

    220

    221
    Каким образом, например, машина, воспринявшая нашу фразу, будет отвечать на вопрос: «Понимаем ли мы законы, по которым будет развиваться реферирование?» Для того, чтобы ответить на этот вопрос, компьютер должен знать, что реферирование есть процесс, относя- щийся к информационной технологии. Такое знание можно изобразить формулой исчисления предикатов: «Все, что есть реферирование, есть
    технология».
    Есть и другие достаточно эффективные способы введения зна- ний в машину, такие как семантические сети, фреймы. Можно, напри- мер, ввести в машину семантическую сеть, в которой все виды техно- логий, включая и информационную, и все их разновидности будут свя- заны определенными отношениями (род–вид, часть–целое и т. п.). По такой сети можно автоматически определить, что реферирование есть часть, или вернее, один из процессов информационной технологии.
    Таким образом, в данной ситуации компьютер сможет дать правиль- ный ответ на заданный ему вопрос.
    Однако трудность реального представления знаний в машине заключается в многообразии конкретных ситуаций, от которых зависит понимание человеком текстов на естественном языке. В нашем приме- ре из контекста нельзя понять, что означает выражение «очень давно», хотя информационные работники знают, что понимание некоторых законов информационной технологии пришло благодаря интенсивным исследованиям научных коммуникаций в середине 60-х гг. ХХ в.
    Подобным же образом и выражение «будут развиваться» озна- чает не столько будущее время, сколько продолженное действие.
    Можно привести много других примеров, когда фраза на естествен- ном языке, вполне понятная человеку в конкретной ситуации, требует специальных приемов интерпретации для ее машинного понимания.
    Во многих научных коллективах разрабатываются методы пере- вода с естественного языка на язык математической логики. Они необ- ходимы для глубокого семантического анализа во многих автоматизи- рованных информационных системах.
    В проведении исследований важное место занимает анализатор, осуществляющий перевод синтаксического «дерева» в формулы ин- формационно-логического языка. На каждом шаге его работы исход- ная синтаксическая структура приближается к логической формуле при помощи трансформаций-разверток до тех пор, пока формула не будет выражать смысл фразы. При этом, если исходная фраза неоднозначна,

    222 система в режиме диалога предлагает пользователю уточнить, какой из найденных машиной вариантов понимания он имел в виду.
    Если подытожить сказанное, то суть проблемы заключается в том, что никакая, даже самая совершенная машина не может «пони- мать» текст на естественном языке так, как его понимает человек. Но она может однозначно воспринимать формулы математической логи- ки. Поэтому задача формализации текста состоит в том, чтобы нау- читься устранять неопределенность и многозначность текстов на есте- ственном языке при их переводе на формальный язык логики.
    Разумеется, это один из многих путей, которым исследователи пытаются обучить компьютер пониманию естественного языка.

    223
    Электронная книга
    Новая концепция книги
    Новые условия для одного из основных явлений человеческой культуры – книги – заключаются в появлении ее необычной физиче- ской формы – электронной. Во многих научных дисциплинах, связан- ных с созданием, распространением и использованием книги, разрабо- таны собственные концепции книги. Это книго-, библиотеко-, библио- графо-, архиво-, документоведение, журналистика, полиграфия, ин- форматика и другие. Концепция электронной книги в каждой из этих дисциплин пока еще разрабатывается. Не исключено, что она будет более или менее общей для них.
    В самом широком (общем) смысле книгой часто называется фи- зическая форма законченного и единого произведения печати или письменности. Под произведением при этом понимают результат це- ленаправленной познавательной деятельности, имеющий определен- ную логическую взаимосвязь частей, завершенность в целом, и изло- женный в письменном виде. Самая узкая концепция книги бытует в статистике печати, где книгой считается непериодическое многостра- ничное произведение печати объемом не менее 49 страниц, не считая обложки и титульного листа. Понятно, что при разработке концепции электронной книги руководствуются самым широким и общим ее по- ниманием.
    С точки зрения физической формы любой компьютерный файл является программой, записанной в определенном формате. В двоич- ных кодах в памяти компьютера записаны команды управления самой машиной, обработкой данных, а также монографии, статьи, изображе- ния, звуки, видео- и кинофильмы. Они могут быть записаны на маг- нитной ленте, без затруднений переписываться с одного носителя на другой. Их передают по различного рода сетям и каналам связи, в том числе и телефонным. Любой пользователь может создать любой файл

    224 и поместить его на свою страницу в Интернете для всеобщего обозре- ния.
    Важное для книги понятие тиража в данном случае теряет смысл. По всей вероятности, искать опору в выявлении этого произ- водного для книги понятия следует в наличии регистрации данной программы, пакета программ, баз данных или, другими словами, про- изведений в электронной форме. Помимо этого, во всех странах из- дающие и предоставляющие услуги по копированию учреждения ли- цензируются, и указание на лицензию также может служить признаком издания, отличающим его от произведения, выпущенного частным об- разом и прежде считавшегося рукописью.
    Другой не праздный вопрос заключается в том, целесообразно ли называть электронной книгой некоторые виды изданий или произ- ведений в электронной форме. На самом деле они давно уже так назы- ваются (ведь почти вся терминология метафорична), но многие книго- веды возражают против этого. По их мнению, книга должна быть пор- тативной и не требовать специальных устройств для использования, а эти условия в электронной книге не выполняются. Однако вся история книги свидетельствует о том, что ее развитие сопровождалась сменой носителей информации и способов производства книги. Клинописные глиняные таблетки (плитки) сменялись папирусными свитками, за ни- ми последовали пергаментные и бумажные кодексы.
    Последняя смена происходила в связи с изобретением и распро- странением книгопечатания. Промежутки времени между этими сме- нами сокращались от тысячелетий до столетий. Ускорение темпов раз- вития информационной технологии привело к тому, что уже на памяти одного поколения мы обсуждали вопрос о том, являются ли книгой или вернее микрокнигой микрофильмы и микрокарты (микрофиши).
    Теперь настала очередь электронной книги. Смены материальных форм книги вызывались общественной потребностью в упрощении доступа к информации, появлением новых технологий ее производства и всегда приводили к ее удешевлению, новым возможностям ее ис- пользования и выполнению ею новых функций. Все это происходит и при внедрении электронной книги. Достаточно упомянуть среди об- стоятельств ее появления экологическую опасность дальнейшего уве- личения числа бумажных книг – вырубку лесов и изменение состава атмосферы.
    По нашему мнению, электронную книгу целесообразно рас- сматривать именно в книговедческом аспекте, поскольку книгоиздание

    225 во всех развитых странах уже перешло на электронный набор. При этом, к сожалению, многовековой опыт книжной культуры, сложив- шийся под влиянием психофизиологических особенностей восприятия текста человеком, далеко не всегда используется. Чтобы не потерять эту культуру, нужно внедрять лучшее из накопленного опыта в новую информационную технологию. А кто же сделает это лучше, чем редак- торы и издатели? С другой стороны, возможности компьютера видо- изменяют методы общения человека с книгой, ведут к созданию ново- го типа книги, которая, по-видимому, станет кумулятивной с функцио- нальной точки зрения и заменит некоторые виды печатной книги, на- пример, словари, справочники, учебники, библиографические указате- ли, реферативные журналы и т. п. Очевидно, что электронное издание позволяет обновлять и дополнять их данные без повторного набора всего текста.
    1   ...   16   17   18   19   20   21   22   23   ...   26


    написать администратору сайта