Главная страница
Навигация по странице:

  • Кафедра АПУ Реферат

  • ЗАДАНИЕ на реферат

  • 1.2. Текстовые процессоры Текстовый процессор

  • 2.1. История возникновения компьютерной лингвистики

  • 2.2. Инструменты компьютерной лингвистики

  • 2.3 Приложения компьютерной лингвистики Машинный перевод

  • классификации и кластеризации

  • Философия реферат. Средства обработки текстов в компьютере. Методы компьютерной лингвистики Студент гр


    Скачать 118 Kb.
    НазваниеСредства обработки текстов в компьютере. Методы компьютерной лингвистики Студент гр
    АнкорФилософия реферат
    Дата02.03.2022
    Размер118 Kb.
    Формат файлаdoc
    Имя файлаreferat.doc
    ТипРеферат
    #380458


    МИНОБРНАУКИ РОССИИ

    Санкт-Петербургский государственный

    электротехнический университет

    «ЛЭТИ» им. В.И. Ульянова (Ленина)

    Кафедра АПУ


    Реферат

    по дисциплине «Информатика»

    Тема: Средства обработки текстов в компьютере. Методы компьютерной лингвистики



    Студент гр.







    Студент гр.







    Преподаватель









    Санкт-Петербург

    2021

    ЗАДАНИЕ

    на реферат


    Студент Болонин О.П.

    Студент Михайлов Д.А.

    Группа 1371

    Тема реферата: Средства обработки текстов в компьютере. Методы компьютерной лингвистики


    Исходные данные:

    1. Титульный лист
    2. Представлено содержание
    3. Информация логически структурирована
    4. Проведен анализ проблемы (темы)
    5. Указаны ссылки на литературу или ссылки на эл. источники информации
    по тексту реферата
    6. Сделан собственный вывод по теме (заключение)
    7. Наличие перечня источников в конце реферата
    8. Реферат сдан в установленный срок
    9. Выдержан объем (5-15 листов)
    10. Презентация в PowerPoint (7-15 слайдов)
    11. Устное сообщение по теме

    Предполагаемый объем реферата:

    Не менее 5 страниц (обязательны разделы «Содержание», «Заключение», «Список использованных источников»).

    Дата выдачи задания: 17.09.2021

    Дата сдачи реферата: 22.10.2021

    Дата защиты реферата: 22.10.2021




    Студент




    Михайлов Д.А.

    Студент




    Болонин О.П.

    Преподаватель




    Котова Е.Е.



    содержание





    Введение

    5

    1.

    Средства обработки текстов в компьютере

    6

    1.1.

    Текстовые редакторы

    6

    1.2.

    Текстовые процессоры

    7

    2.

    Компьютерная лингвистика

    8

    2.1.

    История возникновения компьютерной лингвистики

    8

    2.2.

    Инструменты компьютерной лингвистики

    9

    2.3

    Приложения компьютерной лингвистики

    10




    Заключение

    13




    Список использованных источников

    14


    введение
    Несмотря на широкие возможности использования компьютеров для обработки самой разной информации, самыми популярными по-прежнему остаются программы, предназначенные для работы с текстом. Программы, предназначенные для обработки текстовой информации, называют текстовыми редакторами или процессорами. Текстовый процессор предоставляет обширные возможности редактирования и создания текстовых документов.

    Основными функциями текстовых редакторов и процессоров являются такие функции как ввод и редактирование символов текста, возможность использования различных шрифтов и символов, копирование и перенос части текста с одного места на другое, автоматическую нумерацию страниц, проверка орфографии и подбор синонимов, построение оглавлений, печать готового текста на принтере и другие.

    Сегодня практически все флагманские текстовые редакторы входят в состав интегрированных программных пакетов, предназначенных для нужд современного офиса.

    Для создания на компьютере документов с использованием текстового редактора необходимо овладеть навыками обработки информации.

    Цель работы состоит в том, чтобы показать основные средства и технологии обработки текстовой информации.

    1. Средства обработки текстов в компьютере
    1.1. Текстовые редакторы

    Текстовый редактор - это инструментальное программное средство, предназначенное для создания и редактирования текстов, не содержащих сложных структур (параграфов, глав и др.), и имеющее малое количество функций.

    К текстовым редакторам следует отнести редакторы текстов программ (встроены в языки программирования и поддерживают их синтаксис) и собственно редакторы текстов.

    Основные функции:

    1. Просмотр и редактирование простейших текстов (ReadMe файлы, описания и т.д.).

    2. Редактирования исходных текстов программ.

    3. Редактирование конфигурационных и настроечных файлов Windows.

    4. Работа с HTML – файлами (источниками).

    Тестовый файл может использовать ряд тестовых кодировок.

    Каждый символ кодируется последовательностью битов. Обычно на каждый символ отводится байт, т.е. 8 битов. Однако же биты и байты - вещи довольно абстрактные и трактовать их можно по-разному. Кодировка представляет собой таблицу символов, где каждой букве алфавита (а также цифрам и специальным знакам) присвоен свой уникальный номер - код символа.

    Стандартизирована только половина таблицы, т.н. ASCII-код - первые 128 символов, которые включают в себя буквы латинского алфавита. И с ними никогда не бывает проблем. Вторая же половина таблицы (а всего в ней 256 символов - по количеству состояний, который может принять один байт) отдана под национальные символы, и в каждой стране эта часть различна.

    ASCII (American Standard Code for Information Interchange - Американский стандартный код для обмена информацией). Напомним, что этот формат оперирует с 256 численными кодами, имеющими значения от 0 до 255. В соответствие каждому коду ставится определенный символ (буква, цифра, знак препинания, математический символ или символ псевдографики). Это соответствие задается с помощью стандартных кодовых таблиц с различными номерами (например, таблица 866 предназначена для русскоязычных пользователей). Не содержит форматирования текста, поэтому является переносимым между различными операционными системами и программами. ANSI (American National Standard Interface) – кодировка в среде Windows. У этих кодировок совпадают те части, которые относятся к латинскому алфавиту, специальным символам, цифрам, знакам препинания и математическим операциям, а различаются — относящиеся к другим алфавитам и псевдографике В России умудрились придумать целых 5 различных кодировок: KOI-8 – возникла первой, для Unix-систем;

    DOS-кодировка (или 866 кодовая страница). В ней были введены спецсимволы для рисования рамок (символы псевдографики); Win-кодировка (или кодовая страница 1251); ISO-8859-5 - ISO - международная организация по стандартам. Сейчас идет работа над созданием новой универсальной кодировки (UNICODE), в которой предполагается в одну кодовую таблицу запихнуть все языки мира. Тогда точно проблем не будет. Для этого на каждый символ отвели 2 байта. Таким образом, максимальное количество знаков в таблице расширилось до 65535.

    1.2. Текстовые процессоры

    Текстовый процессор - это инструментальное программное средство, предназначенное для создания и редактирования текстов сложной структуры и имеющее широкое функциональное наполнение. Чаще всего различают текстовые процессоры общего и специального назначения. Отличительной особенностью текстовых процессоров является возможность обрабатывать такие регулярные структуры документа, как абзац, параграф, страница и др.

    В мире существует сотни текстовых процессоров, различных по своему функциональному наполнению. Чем больше функций реализует тот или иной процессор, тем он более сложен для освоения. Среди наиболее распространенных - текстовые процессоры общего назначения: Multe-Edit, Xy Write, Microsoft Wоrd, Word Perfect. Проводя сравнительную характеристику текстовых процессоров, оценивают, как правило, следующие их функции: редактирование, форматирование, слияние файлов, настольное издательство, печать и такую характеристику, как быстродействие.

    Рассматривая функцию редактирования, особое внимание уделялось таким возможностям, как: максимальное количество окон, наличие команды Undo (откатки); поиск опечаток; использование перекрестных ссылок; обработка структурированных текстов; режим, редактор и язык программирования макрокоманд. Функция форматирования оценивается в зависимости от наличия следующих возможностей: контроль за висячими заголовками; управление заголовками, многоколонковый набор, задание таблицы стиля. Под слиянием файлов подразумевается возможность считывания файлов, подготовленных в системах Lotus 1-2-3, dBASE: считывание ASCII- файлов; возможность использования условного оператора и математики; создание табличной формы.

    Важнейшими возможностями настольного издательства, которые чаще всего реализованы в текстовых процессорах - это импорт графики, предварительный просмотр страниц, размещение текста вокруг графики, рисование линий или прямоугольников с текстом. При оценке функции печати рассматривают возможность организации пропорциональной разрядки, постановки документов в очередь на печать, фоновой печати и поддержки языка PostScript.

    2. кОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

    КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА - это направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке.
    2.1. История возникновения компьютерной лингвистики

    Процесс становления и формирования современной лингвистики как науки о естественном языке представляет собой длительное историческое развитие лингвистического знания. В основе лингвистического знания лежат элементы, формирование которых происходило в процессе деятельности, неразрывно связанной с освоением структуры устной речи, появлением, дальнейшим развитием и совершенствованием письма, обучением письму, а также толкованием и расшифровкой текстов.

    Естественный язык как объект лингвистики занимает центральное место в этой науки. В процессе развития языка менялись и представления о нем. Если раньше не придавалось особого значения внутренней организации языка, и он рассматривался, прежде всего, в контексте взаимосвязи с внешним миром, то, начиная с конца XIX - начала XX вв., особая роль отводится внутреннему формальному строению языка. Именно в этот период известным швейцарским лингвистом Фердинандом де Соссюром были разработаны основы таких наук, как семиология и структурная лингвистика.

    Ученому принадлежит идея рассмотрения языка как единого механизма, целостной системы знаков, что в свою очередь дает возможность описать язык математически. Соссюр первым предложил структурный подход к языку, а именно: описание языка посредством изучения соотношений между его единицами. Под единицами, или «знаками» он понимал слово, которое объединяет в себе и смысл, и звучание. В основе концепции, предложенной швейцарским ученым, лежит теория языка как системы знаков, состоящей из трех частей:

    В 50-е годы XX века на стыке таких наук, как математика, лингвистика, информатика и искусственный интеллект, возникло новое направление науки - компьютерная лингвистика (известной также под названием машинная лингвистика или автоматическая обработка текстов на естественном языке). Основные этапы развития этого направления происходили на фоне эволюции методов искусственного интеллекта. Мощным толчком к развитию компьютерной лингвистики послужило создание первых ЭВМ.

    Первые эксперименты и первые разработки в компьютерной лингвистике относятся к созданию систем машинного перевода, а также систем, моделирующих языковые способности человека. В конце 80-х годов с появлением и активным развитием сети Интернет произошел бурной рост объемов текстовой информации, доступной в электронном виде. Это привело к тому, что технологии информационного поиска перешли на качественно новую ступень своего развития. Возникла необходимость автоматической обработки текстов на естественном языке, появились совершенно новые задачи и технологии. Ученые столкнулись с такой проблемой, как быстрая обработка огромного потока неструктурированных данных. С целью найти решение для данной проблемы большое значение стало уделяться разработке и применению статистических методов в области автоматической обработки текстов. Именно с их помощью оказалось возможным решение таких задач, как разбиение текстов на кластеры, объединенные общей тематикой, выделение в тексте определенных фрагментов и т.д. Кроме этого, применение методов математической статистики и машинного обучения позволило решить задачи распознавания речи и создания поисковых систем.

    Ученые не останавливались на достигнутых результатах: они продолжали ставить перед собой все новые цели и задачи, разрабатывать новые приемы и методы исследования. Все это привело к тому, что языкознание стало выступать в качестве прикладной науки, объединяющей в себе ряд других наук, ведущая роль среди которых принадлежала математике с ее многообразием количественных методов и возможностью их применять для более глубокого осмысления изучаемых явлений. Так начала свое формирование и развитие математическая лингвистика. На данный момент — это достаточно «молодая» наука (существует около пятидесяти лет), однако, несмотря на свой весьма «юный возраст», она представляет собой уже сложившуюся область научных знаний с множеством успешных достижений.
    2.2. Инструменты компьютерной лингвистики

    Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.

    Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.
    2.3 Приложения компьютерной лингвистики

    Машинный перевод– самое раннее приложение КЛ, вместе с которым возникла и развивалась сама эта область. Первые программы перевода были построены более 50 лет назад и были основаны на простейшей стратегии пословного перевода. Однако довольно быстро было осознано, что машинный перевод требует полной лингвистической модели, учитывающей все уровни языка, вплоть до семантики и прагматики, что неоднократно тормозило развитие этого направления. Достаточно полная модель использована в отечественной системе ЭТАП, выполняющей перевод научных текстов с французского на русский язык.

    Заметим, однако, что в случае перевода на родственный язык, например, при переводе с испанского на португальский или же с русского на украинский (у которых много общего в синтаксисе и морфологии), процессор может быть реализован на основе упрощенной модели, например, на основе все той же стратегией пословного перевода.

    Еще одно довольно старое приложение компьютерной лингвистики – это информационный поиск и связанные с ним задачи индексирования, реферирования, классификации и рубрикации документов.

    Полнотекстовый поиск документов в больших базах документов (в первую очередь – научно-технических, деловых), проводится обычно на основе их поисковых образов, под которыми понимается набор ключевых слов – слов, отражающих основную тему документа.

    Запрос на поиск также представлялся в виде набора слов, подходящие (релевантные) документы определялись на основе похожести запроса и поискового образа документа. Создание поискового образа документа предполагает индексирование его текста, т. е. выделение в нем ключевых слов. Поскольку очень часто гораздо точнее тему и содержание документа отображают не отдельные слова, а словосочетания, в качестве ключевых слов стали рассматриваться словосочетания. Это существенно усложнило процедуру индексирования документов, поскольку для отбора значимых словосочетаний текста потребовалось использовать различные комбинации статистических и лингвистических критериев.

    По сути, в информационном поиске в основном используется векторная модель текста (называемая иногда bag of words – мешок слов), при которой документ представляется вектором (набором) своих ключевых слов. Современные интернет-поисковики также используют эту модель, выполняя индексирование текстов по употребляемым в них словам (в то же время для выдачи релевантных документов они используют весьма изощренные процедуры ранжирования).

    Указанная модель текста (с некоторыми усложнениями) применяется и в рассматриваемых ниже смежных задачах информационного поиска.

    Реферирование текста – сокращение его объема и получение его краткого изложения – реферата (свернутого содержания), что делает более быстрым поиск в коллекциях документов. Общий реферат может составляться также для нескольких близких по теме документов.

    Основным методом автоматического реферирования до сих пор является отбор наиболее значимых предложений реферируемого текста, для чего обычно сначала вычисляются ключевые слова текста и рассчитывается коэффициент значимости предложений текста. Выбор значимых предложений осложняется анафорическими связями предложений, разрыв которых нежелателен – для решения этой проблемы разрабатываются определенные стратегии отбора предложений.

    Близкая к реферированию задача – аннотирование текста документа, т. е. составление его аннотации. В простейшей форме аннотация представляет собой перечень основных тем текста, для выделения которых могут использоваться процедуры индексирования.

    При создании больших коллекций документов актуальны задачи классификации и кластеризации текстов с целью создания классов близких по теме документов. Классификация означает отнесение каждого документа к определенному классу с заранее известными параметрами, а кластеризация – разбиение множества документов на кластеры, т. е. подмножества тематически близких документов. Для решения этих задач применяются методы машинного обучения, в связи с чем эти прикладные задачи называют Text Mining и относят к научному направлению, известному как Data Mining, или интеллектуальный анализ данных.

    Еще одна относительно новая задача, связанная с информационным поиском – формирование ответов на вопросы (Question Answering). Эта задача решается путем определения типа вопроса, поиском текстов, потенциально содержащих ответ на этот вопрос, и извлечением ответа из этих текстов.

    Совершенно иное прикладное направление, которое развивается хотя и медленно, но устойчиво – это автоматизация подготовки и редактирования текстов на ЕЯ. Одним из первых приложений в этом направлении были программы автоматической определения переносов слов и программы орфографической проверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простоту задачи переносов, ее корректное решение для многих ЕЯ (например, английского) требует знания морфемной структуры слов соответствующего языка, а значит, соответствующего словаря.

    Близкой к поддержке подготовки текстов прикладной задачей является обучение естественному языку, в рамках этого направления часто разрабатываются компьютерные системы обучения языку – английскому, русскому и др. (подобные системы можно найти в Интернете). Обычно эти системы поддерживают изучение отдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются на соответствующие модели, например, модель морфологии.

    Следующее прикладное направление – это автоматическая генерация текстов на ЕЯ. В принципе, эту задачу можно считать подзадачей уже рассмотренной выше задачи машинного перевода, однако в рамках направления есть ряд специфических задач. Такой задачей является многоязыковая генерация, т. е. автоматическое построение на нескольких языках специальных документов – патентных формул, инструкций по эксплуатации технических изделий или программных систем, исходя из их спецификации на формальном языке. Для решения этой задачи применяются довольно подробные модели языка.

    Все более актуальная прикладная задача, часто относимая к направлению Text Mining – это извлечение информации из текстов, или Information Extraction, что требуется при решении задач экономической и производственной аналитики. Для этого осуществляется выделение в тесте ЕЯ определенных объектов – именованных сущностей (имен, персоналий, географических названий), их отношений и связанных с ними событий. Как правило, это реализуется на основе частичного синтаксического анализа текста, позволяющего выполнять обработку потоков новостей от информационных агентств. Поскольку задача достаточно сложна не только теоретически, но и технологически, создание значимых систем извлечения информации из текстов осуществимо в рамках коммерческих компаний.

    Еще одно приложение, которое стоит упомянуть – поддержка диалога с пользователем на ЕЯ в рамках какой-либо информационной программной системы. Наиболее часто эта задача решалась для специализированных баз данных – в этом случае язык запросов достаточно ограничен (лексически и грамматически), что позволяет использовать упрощенные модели языка. Запросы к базе, сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняется поиск нужной информации и строится соответствующая фраза ответа.

    заключение
    В последнее время компьютерные технологии развиваются очень интенсивно, и это способствует быстрому развитию программного обеспечения. Каждые полгода выходят продукты с множеством новшеств. Так и текстовые редакторы не стоят на месте. С каждым разом все больше и больше функций заключают в себе данные программы. Но их развитие поставлено таким образом, что с каждой новой версией программа сохраняет предыдущий набор возможностей и пользователь может использовать как старые, так и новые функции, последние введены лишь для облегчения работы с программой.

    В процессе написания работы становится ясно, что текстовые процессоры и программы компьютерной лингвистики  – одни из самых совершенных программ в области работы с текстовой информацией, которая предусматривает выполнение сотен операций над текстовой информацией.

    Подводя итог можно отметить что развитие текстовых и лингвистических программ полностью соответствует требованиям проффесиональной и обывательской деятельности.
    список использованных источников
    1. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения. – Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989

    2. Субботин М.М. Гипертекст. Новая форма письменной коммуникации. – ВИНИТИ, Сер. Информатика, 1994, т. 18

    3. Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке. – Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989

    4. Шевченко лингвистики текста: учебное пособие – М.: Приор-издат, 2003.




    написать администратору сайта