Главная страница
Навигация по странице:

  • Поисковые системы

  • Дикторозависимость или дикторонезависимость системы.

  • Раздельная или слитная речь.

  • Yandex Speech Kit

  • WordTabulator

  • Link Grammar Parser for Russian

  • Лингвистическое и программное обеспечение систем. Лингвистическое и программное обеспечение систем


    Скачать 0.87 Mb.
    НазваниеЛингвистическое и программное обеспечение систем
    Дата18.01.2019
    Размер0.87 Mb.
    Формат файлаdocx
    Имя файлаЛингвистическое и программное обеспечение систем.docx
    ТипДокументы
    #64202

    Министерство образования и науки Российской Федерации

    Федеральное государственное бюджетное образовательное учреждение

    высшего профессионального образования

    «»

    Факультет электроники и вычислительной техники

    Кафедра «»

    Семестровая работа по дисциплине

    «Лингвистическое и программное обеспечение систем»


    Выполнил:

    Группы:

    Шифр

    Проверил:

    Тамбов, 2019

    Оглавление


    Поисковые системы 8

    Список литературы: 22



    Семантика – раздел языкознания, изучающий значение единиц языка, прежде всего его слов и словосочетаний. В более общем смысле, семантика определяет смысл знаков (образов, обозначений) и их сочетаний.

    Семантическая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

    Семантизация — процесс изменения текстов, в которых выделяются семантические отношения без изменения их содержания. Попытка создания семантической сети на основе Всемирной паутины получила название семантической паутины. Эта концепция подразумевает использование языка RDF (языка разметки на основе XML) и призвана придать ссылкам некий смысл, понятный компьютерным системам. Это позволит превратить Интернет в распределённую базу знаний глобального масштаба.

    В качестве понятий обычно выступают абстрактные или конкретные объекты (огурец, машина, любовь, Маша). В качестве отношений наиболее часто используются следующие (смысловая классификация):

    - таксономические («класс – подкласс – экземпляр», «множество – подмножество – элемент» и т.п.). Данный тип отношения называют также отношением AKO (англ. A Kind Of – является разновидностью), IS A (является, это есть) или гипонимии (гипероним – общая сущность; гипоним – частная сущность);

    - структурные («часть – целое»). Данный тип отношения называют также отношением Part of (является частью), Has part (состоит из, включает в себя), агрегации (лат. aggregatio – присоединение), композиции (лат. compositio – составление, связывание, сложение, соединение) или меронимии (холоним – сущность, включающая в себя другие; мероним – сущность, являющаяся частью другой);

    - родовые («предок» - «потомок»);

    - производственные («начальник» - «подчиненный»);

    - функциональные (определяемые обычно глаголами «производит», «влияет» и т.п.);

    - количественные (больше, меньше, равно и т.п.);

    - пространственные (далеко от, близко от, за, под, над и т.п.);

    - временные (раньше, позже, в течение и т.п.);

    - атрибутивные (иметь свойство, иметь значение);

    - логические (И, ИЛИ, НЕ);

    - казуальные (причинно-следственные).

    Отношения можно также классифицировать по степени участия (арности) понятий в отношениях:

    - унарное (рекурсивное) - отношение связывает понятие само с собой;

    - бинарное - отношение связывает два понятия;

    - N-арное - отношение, связывающее более двух понятий.

    Классифицировать семантические сети можно по следующим признакам:

    - по количеству типов отношений:

    - однородные (с единственным типом отношений);

    - неоднородные (с различными типами отношений);

    - по назначению. Обычно совпадает с преобладающим типом отношений, например:

    - классифицирующие - позволяют описывать различные иерархические отношения между понятиями. Могут содержать таксономические, структурные, родовые и производственные отношения. В частности, если известную биологическую классификацию Карла Линнея (жизнь – домен – царство – тип – класс – порядок – семейство – род – вид) представить в виде семантической сети, то отношения между понятиями разных уровней можно рассматривать одновременно как таксономические и структурные (например, семейство является одновременно разновидностью и частью порядка);

    - функциональные — вычислительные модели, позволяющие описывать процедуры вычислений одних информационных единиц через другие;

    - сценарии — используются для описания казуальных отношений (причинно-следственных или устанавливающих влияние одних явлений или фактов на другие), а также отношений типа «средство — результат», «орудие — действие» и т.п.;

    - другие.

    Большая популярность семантических сетей объясняется их высокой ассоциативностью, и гибкостью в представлении информации. Основным же недостатком данного подхода является то, что современные ЭВМ все еще недостаточно эффективно работают с такими сложно-структурированными данными, как сети, причем время решения задач на сетях значительно зависит от их объема и может оказаться неприемлемым для больших баз знаний. Однако с прогрессом вычислительной техники этот недостаток становится все менее существенным.

    В качестве примера представления информации в виде семантической сети рассмотрим пример с классом «Бытовая техника». Фрагмент семантической сети, которая описывает иерархию классов данной предметной области, может быть изображен следующим образом. На данном рисунке отдельные вершины семантической сети изображаются прямоугольниками и служат для условного обозначения классов данной предметной области. Соединяющие вершины ребра имеют вполне определенный смысл или семантику. А именно, они явно указывают, что вершина или класс, расположенные на рисунке ниже, являются подклассом того класса уровнем выше, с которым имеется связь в форме соединяющего их ребра.

    Например, классы «Телевизоры» и «Чайники» и «Пылесосы» являются подклассами класса «Бытовая техника», а класс «Model A» является подклассом класса «Sharp». Ребра или связи данной семантической сети имеют единственный тип, определяемый семантикой включения классов друг в друга. Поэтому никаких дополнительных обозначений они не содержат.



    Рис 1. Фрагмент семантической сети для представления иерархии классов «Бытовая техника»

    Пример семантической сети, которая отражает иерархию подчиненности и понятий на корабле (рис. 2).


    Рис. 2. Семантическая сеть «Корабль».
    Приведенные связи показывают подчиненность корабля. Также показывает разницу между PART OF и IS-A на примере класса «океанский лайнер».

    Поисковые системы


    Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

    Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудио файлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

    https://upload.wikimedia.org/wikipedia/commons/thumb/9/9b/webcrawlerarchitecture-ru.svg/500px-webcrawlerarchitecture-ru.svg.png

    Рис. 3. Структура поисковой системы

    Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик.

    Как правило системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

    Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Поисковый робот — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и осуществляет поиск новых документов, ещё не известных поисковой системе.

    Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя. Использование КЭШа помогает ускорить извлечение информации с уже посещённых страниц. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе.

    Поисковик работает с выходными файлами, полученными от индексатора, он принимает пользовательские запросы, обрабатывает их при помощи индекса возвращает результаты поиска. Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц.

    Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантные, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Так появились два основных типа поисковых систем: системы предопределенных и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

    Существует четыре типа поисковых систем:

    1. Системы, использующие поисковых роботов. Состоят из трёх частей: краулер, для обхода сети и создания списков веб-страниц; индекс, большой архив копий веб-страниц; и программное обеспечение поисковой системы для оценивания результатов поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация в большей степени актуальна. Большинство современных поисковых систем.

    2. Системы, управляемые человеком (каталоги ресурсов). Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток — обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел.

    3. Гибридные системы. Такие поисковые системы, как Yahoo, Google, MSN, сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком.

    4. Мета-системы. Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась.

    Google – это поисковая система, которая использует количество ссылок на веб-сайт, как основной параметр популярности сайта. Это особенно полезно при поиске хороших сайтов с помощью простых поисковых запросов. Google знаменит высокой релевантностью ссылок. Google имеет очень большую базу данных проиндексированных сайтов и предоставляет часть своих результатов Yahoo и Netscape Search.

    Google определенным образом отличается от остальных глобальных систем поиска. Если Яндекс, прежде всего, - это поиск, а уже потом все остальное, то Google - это качественные сервисы-монополисты, например, YouTube и Blogger.

    Основным преимуществом поисковой системы Google все называют простоту ее использования. Среди прочих положительных качеств можно отметить:

    • отсутствие необходимости использования особых знаков при введении ключевых слов для поиска, например, кавычек, регистра букв и пр.;

    • наличие огромной базы данных, которая насчитывает более 3 миллиардов страниц и считается одной из самых объемных в мире;

    • высокая скорость работы - практически мгновенно после отправки запроса пользователь получает результаты, благодаря новым разработкам, облегчившим страницы с результатами поиска, минимизации на них графики, рекламы, сокращения текстов с описанием и пр.;

    • максимальная точность информации, т.е. полное соответствие результатов поиска запросу;

    • учет качества страниц при поиске, а не только их количества;

    • наличие дополнительных функций, например, возможности получения информации со страниц, которые уже были закрыты.

    Достижения и новинки поисковой компании Google:

    1. Google заставляет Рунет переходить на HTTPS

    2. Google за безопасность: на 99% первых страниц есть хотя бы один HTTPS-сайт

    3. Google удалил свыше 1 миллиона сайтов из поисковой выдачи за нарушение авторского права

    4. Длина сниппета в результатах поиска Google увеличилась

    5. Страницы с 404 ошибкой не понижают сайт в Google

    6. Алгоритм ранжирования Google не дает приоритета крупным сайтам

    7. Новый ресурс для владельцев стартапов — Startup with Google

    8. Под защитой Безопасного просмотра Google уже свыше 3 млрд устройств

    9. Google — лидер по объему реферального трафика на сайты издателей.

    Отличительная особенность Yandex – интуитивный поиск во всех словоформах. Уникальная разработка под особенности русского языка.

    В каталоге Яндекса используется такое понятие, как тематический индекс цитирования (тИЦ). Он определяется количеством и качеством внешних ссылок на ваш сайт. На качество ссылки влияет тИЦ ресурса, ссылающегося на вас. Немаловажную роль играет тематическая близость вашего сайта ссылающимися на вас ресурсам.

    При подсчете индекса цитирования не берутся во внимание ссылки с форумов, веб-досок, конференций, сайтов, расположенных на бесплатных хостингах (если они не описаны в каталоге Яндекса). Естественно, не учитываются ссылки с тех сайтов, которые Яндекс не индексирует (например, зарубежные сайты).

    Количество хостов зависит от посетителей (чем их больше, тем больше хостов), а индекс цитирования Яндекса – от авторов сайтов (чем больше авторов поставят ссылку на ваш ресурс, тем выше значение CY).

    По значению индекса цитирования определяется релевантность ресурса в каталоге Яндекса и, соответственно, позиция вашего сайта в выбранном разделе.

    Переиндексация документа происходит примерно раз в две недели, но под каждый сайт робот подстраивается в отдельности. Все зависит от частоты обновления. По словам Яндекса, тег < meta name="Revizit-after" content="n-days"> никакой роли в работе робота не играет.

    Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке.

    Информация в заголовке (тег < title >) Яндекс отображает в результатах поиска. Слова, находящиеся в теге < title >, имеют больший вес чем все остальные. Ключевые слова в теге < meta> также увеличивают вес слова в документе, но только если само слово находится на странице.

    Помимо вышеперечисленных способов, на релевантность слова влияют частота его использования в заголовках (< h1>, < h2> ...), в атрибуте alt, во всплывающих подсказках (тег < acronym>) и процент встречаемости этого слова в документе, т.е. как часто вы его используете. Но при этом необходимо сохранить смысл документа, иначе Яндекс может посчитать это слово спамом.

    Достижения:

    1. Новый алгоритм ранжирования сайтов в Яндекс Proxima.

    2. Быстрые ответы в поисковой выдаче.

    3. Яндекс.Коллекции. Теперь в один клик пользователи могут сохранять абсолютно все, что им понравилось в Сети. Книги, фильмы, рецепты, интерьеры и т.д.

    4. Rambler.ru — поисковая система, являющаяся одной из наиболее популярных в российской части интернета. Данная поисковая машина относится к интернет-холдингу Rambler Media Group.

    5. Поиск Rambler при ранжировании учитывает морфологию нескольких языков: русского, украинского и английского. По умолчанию список запросов выстраивается по уменьшению релевантности.

    6. Стоит отметить, что поисковик Rambler.ru одним из первых появился на интернет-рынке. Он сыграл немалую роль в становлении непосредственно самого Рунета.

    7. Старейшиной поискового сегмента Рунета по праву считается Rambler. Однако возраст (дата запуска – 1996 год) в данном случае не является синонимом бесспорного лидерства. Не секрет, что в последние годы эта поисковая система утратила ведущие позиции, проиграв в схватке с Google и Яндексом, а также, и с поисковой службой Mail.ru. Но, несмотря на это, в нынешних условиях Rambler все еще остается серьезным игроком в сфере предоставления поисковых услуг для русскоязычных пользователей Интернета.

    8. Способствует этому широчайший ассортимент служб, которые приютил под своей “крышей” Rambler. Да, сегодня он, подобно Яндексу и Мail.ru, является универсальной веб-площадкой, сервисы которой выходят далеко за рамки предоставления пользователям услуг поиска. Некоторые из этих сервисов по своим возможностям и популярности существенно превосходят аналогичные службы конкурентов. Возьмем, к примеру, всеми известный Rambler's Top100 – самый авторитетный рейтинг веб-ресурсов русскоязычного Интернета. Любой себя уважающий Интернет-сайт считает за честь находиться в его рядах. Имеется в структуре Rambler и собственная почтовая служба, и читаемая миллионами людей лента актуальных новостей (Лента.ру), и многое другое. Одним словом, постепенно Rambler превратился из сугубо поискового ресурса в настоящий медиа-холдинг

    9. Поисковик Rambler – это гибридная поисковая система, сочетающая в себе элементы традиционного “горизонтального” поиска в сети и элементы поисковой системы нового поколения – “вертикальный” поиск. Последний позволяет формировать результаты поискового запроса в соответствии с выбранными “вертикалями” (например, новости).

    10. К достоинствам Rambler можно отнести: тематический рейтинг сайтов, бесплатная почта, служба новостей, сервис онлайн-платежей и многое другое.

    Системы анализа речи

    На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

    Каждая такая система имеет некоторые задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы.

    Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны, даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в этом словаре очень похожи друг на друга.

    Дикторозависимость или дикторонезависимость системы. По определению, дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.

    Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.

    Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать.
    e47da

    Рис. 4. Классификация систем анализа речи
    Примеры существующих систем анализа речи:

    Google Voice Search

    С недавнего времени голосовой поиск от Google встроен в браузер Google Chrome, что позволяет использовать этот сервис на различных платформах.

    Характеристики:

    - поддержка русского языка;

    - возможность встраивать распознавание речи на веб-ресурсы;

    - голосовые команды, словосочетания;

    - для работы необходимо постоянное подключение к сети internet.

    Способы анализа речи можно разделить на группы: конкатенативный, или компиляционный (компилятивный) синтез; параметрический синтез; предметно-ориентированный синтез. синтез по правилам;

    VoiceNavigator

    Это высокотехнологичное решение для контакт-центров, предназначенное для построения Систем Голосового Самообслуживания (СГС).VoiceNavigator позволяет автоматически обрабатывать вызовы с помощью технологий синтеза и распознавания речи.

    Характеристики:

    - дикторонезависимость;

    - устойчивость к окружающим шумам и помехам в телефонном канале;

    Yandex Speech Kit.

    Технология распознавания и синтеза речи от российской компании Яндекс.

    Система состоит из комплекса речевых технологий Яндекса, который включает в себя:

    1. голосовая активация — возможность привязывать к любому слову или фразе любую команду для устройства; не требует доступа в интернет, для запуска не нужно нажимать какие-либо кнопки: программа постоянно работает в фоне;

    2. выделение смысловых объектов — способность извлекать из слов смысл и анализировать контекст: к примеру, система поймёт, что во фразе «Позвони Владимиру» имеется в виду человек, а во фразе «Поехали во Владимир» — город;

    3. синтез речи — преобразование текста в речь на базе скрытых марковских моделей.

    Имеет тяжелую для восприятия документацию и ограничения по количеству запросов: 10 000 в сутки. По уверению разработчиков — этот инструментарий является номером 1 для русского языка и, что исследовательская группа компании смогла сделать технологический прорыв в этой области.
    Системы анализа текста
    Интеллектуальный анализ текстов (text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.

    Методы анализа текста бываю следующих видов.

    Графематический анализ — метод начального анализа естественного текста, представленного в виде цепочки ASCII символов, вырабатывающая информацию, необходимую для дальнейшей обработки Морфологическим и Синтаксическим процессорами.

    Морфологический анализ — метод основан на подборе возможных решений для отдельных частей задачи (так называемых морфологических признаков, характеризующих устройство) и последующем систематизированном получении их сочетаний (комбинировании).

    Синтаксический анализ (парсинг) — преобразование последовательности символов на естественном или искусственном языке в соответствии с формальной грамматикой.

    Проверка правописания — метод проверки заданного текста на предмет наличия в нём орфографических, пунктуационных, а также стилевых ошибок.

    Построение конкордансов —– получение списока всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник.

    Извлечение именованных сущностей — одна из ключевых задач систем автоматической обработки текста. В заглавии поста приведена примерная иллюстрация того, что нас ждет. Именованные сущности — это объекты определенного типа, чаще всего составные, например, названия, имена людей, даты, места, денежные единицы и.т.д. В общем смысле это все те объекты, которые можно вытащить из текста.

    ABBYY. ABBYY — российская компания-разработчик решений в области распознавания текстов (OCR) и лингвистики. Наиболее известные продукты — программа для распознавания текстов ABBYY FineReader, система потокового ввода данных ABBYY FlexiCapture и электронные словари ABBYY Lingvo. В 2008 году FineReader поставлялся с устройствами ведущих производителей, таких как Fujitsu, Panasonic и Xerox.

    ABBYY Comparator – универсальное решение для сравнения двух версий документа в различных форматах. Программа быстро выявляет значимые несоответствия в тексте и помогает предотвратить подписание или публикацию некорректной версии документа.

    Основные возможности

    1. Сравнение документов в различных форматах, как бумажных, так и электронных

    2. Отображение только важных изменений в тексте

    3. Удобный просмотр сравниваемых документов и навигация по различиям

    4. Гибкие возможности по сохранению результатов сравнения


    Рис.5. ABBYY Comparator.

    Программа поможет существенно сэкономить время юристам, менеджерам по продажам, финансистам, логистам, а также всем офисным сотрудникам, которые сталкиваются со сравнением документов – договоров, актов, прайс-листов или других материалов.

    Кроме того, доступен инструментарий разработчика – технологии сравнения документов в различных форматах можно встроить в существующие IT-системы предприятия или в приложения сторонних разработчиков.

    Достоинства: анализ текста; развивающийся производитель; доступность пробной версии; доброжелательный интерфейс; необходимая техническая поддержка.

    Недостатки: бесплатная ограниченная версия.

    TextAnalyst 2.0 Программа построения семантической сети понятий, выделяемых из обрабатываемого текста, со ссылками на контекст. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Лингвистический анализ проводится в основном на основе Стемминга.

    Рис.6 TextAnalyst 2.0
    Морфологический анализ реализован для сравнительно небольшого количества слов. Из лингвистического анализа исключаются не только стоп-слова, но и все глаголы. Синтаксический и семантический машинный анализ тестов не реализован.
    SDK реализует функции лемматизации для русского и английского языков, построения частотных списков понятий, поиска слов в контексте. TextAnalyst Lib реализует создание гипертекстовых связей выявляемых понятий.

    Недостатки: при поиске не учитывается порядок слов.

    Достоинства : функции лемматизации для русского и английского языков.

    SyTech ИАС "АРИОН". Информационно-аналитическая система «АРИОН» - мощное средство работы с разнородными источниками информации, использующее инновационные технологии извлечения и обработки знаний.

    Система позволяет работать как со структурированными (таблицы, базы данных, xml), так и неструктурированными (документы и тексты на естественном языке) источниками информации. В основу системы «АРИОН» заложены алгоритмы обработки информации, разработанные компанией «САЙТЭК» совместно с ИПИ РАН. Результатом работы Лингвистического процессора является набор объектов и связей между ними, который традиционно представляют в виде так называемой фактографической (семантической) сети.

    Система работает по принципу извлечения именованных сущностей - это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
    http://www.sytech.ru/vfm_files/vfm_view.php?id=548

    Рис.7. Интерфейс АРИОН

    ИАС «АРИОН» позволяет эффективно решать следующие классы задач: выделение значимых материалов из больших информационных массивов; поиск, извлечение, анализ и обобщение информации по интересующим объектам, фактам и событиям; формирование онтологий предметных областей; мониторинг деятельности организации; расследование происшествий и инцидентов; сбор и ведение досье на объекты учета; оперативная обработка и мониторинг материалов СМИ; аналитическая обработка обращений граждан и организаций

    В настоящее время система не имеет аналогов на российском рынке, как с точки зрения технологичности, так и с точки зрения функциональности и удобства применения. Платформа: JAVA.

    Достоинства: анализ русского текста;

    Недостатки: отсутствие бесплатной пробной (демо) версии.

    WordTabulator программа анализа текстов в среде Windows 9x/NT/2000/XP. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие.
    Рис.8. Интерфейс WordTabulator

    Недостатки: сортировка индекса, содержащего сотни тысяч различных элементов может оказаться весьма затруднительной.

    Достоинства: позволяет строить упорядоченные индексы встречающихся в тексте морфологических и синтаксических элементов - словоформ, словосочетаний заданной размерности или синтагм.
    Link Grammar Parser for Russian On-line программа синтаксического анализа предложений русского языка. Создана по образу Link Grammar Parser. Алгоритм работы синтаксического анализатора основан на использовании разработанной грамматики связей для русского языка. Доступен для тестирования web интерфейс программы. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей. Морфологический словарь используется от aot.ru. Программа реализована на unix C, Perl под лицензией Apache License. Программа и исходные коды распространяются на коммерческой основе. 




    Рис.9 Link Grammar Parser for Russian On-line

    Достоинства: открытый доступ к сайту.

    Недостатки: требуется доступ в интернет.


    Список литературы:


    1. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл↔Текст». М.: Наука, 1974.

    2. Рыбина Г.В. Основы построения интеллектуальных систем.: «Инфра-м», 2010, 432с.

    3. Семантическая сеть // Википедия. URL: https://ru.wikipedia.org/wiki/ Семантическая_сеть.

    4. Рамблер // Википедия. URL: https:// ru.wikipedia.org/wiki/Рамблер.

    5. Yandex // URL: https://1ps.ru/blog/dirs/2018/novyij-algoritm-ot-yandeks-andromeda-kak-izmenilsya-poisk/

    6. Sytech.ru: Разработка и внедрение информационно-аналитических систем - URL: http://sytech.ru/about.php?id=149.

    7. Обработка текста - NLPub // URL: https://nlpub.ru/Обработка_текста.

    8. Поисковые системы Internet: эволюция и перспективы [http://www.gpntb.ru/win/inter-events/crimea97/doc/sem4/s4doc3.html]: Степанов В.К. Государственная публичная историческая библиотека, Москва, Россия.

    9. Zoom international [http://zoomint.ru/zoom-ru/blog/ispolzovanie-analiza-rechi-v-metodike-shest-sigm]: Лиам Андерсеном, 2014.




    написать администратору сайта