Главная страница
Навигация по странице:

  • Частотно-семантический анализ

  • Алгоритм на основе стеммера Портера

  • Латентно-семантического анализ

  • Синтаксико-семантического анализа

  • Приложении №1.

  • Вещи и книги, книги и вещи... (Л. Лиходеев)

  • "Отправь голову в отпуск!" (П. Измайлов)

  • Земля — космическое тело, а мы — космонавты... (В. Солоухин)

  • Книги... (А. Етоев)

  • научная исследовательская работа. НИР. Аналитический обзор семантических методов поиска данных в распределенных вычислительных системах


    Скачать 0.53 Mb.
    НазваниеАналитический обзор семантических методов поиска данных в распределенных вычислительных системах
    Анкорнаучная исследовательская работа
    Дата11.03.2020
    Размер0.53 Mb.
    Формат файлаdocx
    Имя файлаНИР.docx
    ТипАналитический обзор
    #111676
    страница6 из 6
    1   2   3   4   5   6

    Аналитическая часть


    Основная сложность при проведении семантического поиска в РВС это семантический анализ документов, среди которых будет производиться поиск. Данный анализ производиться различными методами, которые различаются, как и своей структурой, так и временем, затрачиваемым для проведения анализа. Ниже представлена разработанная схема работы системы семантического поиска данных1.



    Рисунок 6 

    Как было ранее отмечено, важнейшим блоком в данной схеме является блок «Семантический анализатор», который выполняет анализ входящих данных и дальнейшее упрощение полученных данных для ускорения поиска.

    Для проведения анализа различных методов семантического анализа и поиска информации в РВС была проведена аналитическая работа по сравнению времени и точности работы следующих методов:

    Частотно-семантический анализ, при котором система сравнивает слова из текста со словами из словаря и находит среди них слова с максимальным числом вхождений в текст. Далее выводит результат нахождения ядра текста и список слов, не найденных в словаре, которые можно внести в словарь и запустить алгоритм заново.

    Алгоритм на основе стеммера Портера - система стемматизирует исходные слова и ищет среди них наиболее часто встречающиеся. Таким образом формируется ядро текста в данном алгоритме.

    Латентно-семантического анализ - система составляет матрицу слов-на-предложения из предложений текста и производит с ней SVD преобразование. Далее используются только первые два столбца получившихся матриц. Из первых двух столбцов матрицы VT, соответствующей предложениям, выбирается максимум и минимум, что соответствует максимальному и минимальному x и y на координатной плоскости. Таким образом обозначается область, вхождение в которую для точек из первых двух столбцов матрицы U, соответствующей словам, означает включение в ядро текста.

    Синтаксико-семантического анализа в каждом предложении слова проверяются на соответствие шаблонам, после чего каждому присваивается определенный вес, в зависимости от шаблона. Чем больше у слова зависимых слов, тем меньше вес и выше приоритет. Далее, в каждом предложении ищется слово с минимальным весом, самые часто встречающиеся формируют ядро текста.

    В таблицах 1-4 представлено соотношение методов анализа в виде результатов времени их работы над определенным текстом выполенны с помощью электронного ресурса https://istio.com/text. Тексты представлены в Приложении №1.

    Метод анализа

    Приблизительное время работы (сек.)

    Ядро текста

    Частотно-семантический

    5

    отпуск

    Стемминга Портера

    1

    чувств чувствами друг другом другие серия серии голову головам отпуск

    Латентно-семантический

    210

    голову чувств любви серия страсти время ритма рублей отпуск

    Синтаксико-семантический

    720

    серия издательство отпуск

    Таблица 1. «Отправь голову в отпуск!» (П. Измайлов)

    Тему первого текста можно определить, как «влияние массовой литературы на интеллектуальное развитие человека». Ни один из методов не выдал похожих тем, но наиболее близки к ней латентно-семантический и стеммминга Портера.


    Метод анализа

    Приблизительное время работы (сек.)

    Ядро текста

    Частотно-семантический

    5

    паровоз свет книгах вещей время собеседника

    Стемминга Портера

    2

    книгах книгой книгу

    Латентно-семантический

    240

    мыслей мысль мысли собеседник собеседника свет свете книгах книгой вещи вещах вещей вещами времени время другой друг друга

    Синтаксико-семантический

    840

    мысли вещи время собеседника

    Таблица 2. «Вещи и книги, книги и вещи...» (Л. Лиходеев)

    Тему второго текста можно определить, как «взаимоотношения книги и времени». Латентно-семантический анализ выдал результат, наиболее удовлетворяющий теме.

    Метод анализа

    Приблизительное время работы (сек.)

    Ядро текста

    Частотно-семантический

    5

    систему жизнеобеспечения корабле космонавты земли реки возможность общения стороны человека болезнь

    Стемминга Портера

    1

    жизнеобеспечения космическое космическом космонавты космонавтов корабле корабля человека человек

    Латентно-семантический

    120

    Солнца Солнцем жизнеобеспечения космическое космическом космонавты космонавтов маленьком маленького корабле корабля земли Земля реки природы природой внешним внешний миром мир человека человек духовного духовному болезнь

    Синтаксико-семантический

    540

    космонавты корабле человек

    Таблица 3. «Земля — космическое тело, а мы — космонавты...» (В. Солоухин)

    Тему третьего текста можно определить, как «взаимоотношения человека и природы». Латентно-семантический анализ выдал результат, наиболее удовлетворяющий теме.


    Метод анализа

    Приблизительное время работы (сек.)

    Ядро текста

    Частотно-семантический

    5

    жизнь людей человека люди детстве книги друг

    Стемминга Портера

    1

    душа души душе

    Латентно-семантический

    120

    меряют меряет мере встречи человек человека люди людей одинаково одинакова книги книга способна способны

    Синтаксико-семантический

    540

    человек

    пространство жизнь население люди книга


    Таблица 4. «Книги...» (А. Етоев)

    Тему четвертого текста можно определить, как «роль книги в жизни человека». Синтаксико-семантический анализ выдал результат, наиболее удовлетворяющий теме.


    Вывод


    В работе были рассмотрены методы анализа текстов и поиска информации в РВС, такие как стемминг Портера, синтаксико- семантический, частотно-семантический и латентно-семантический анализы. Изучены приведенные результаты анализа текстов небольшой сложности.

    С помощью них был сделан вывод о том, что применение методов опознования темы текста зависит от сложности самого документа: чем сложнее отрывок, тем точнее должен быть анализ. В свою очередь относится и к тривиальным текстам: использование на них сложных методов приводит к лишней трате времени , а результат получается избыточным по сравнению с простыми алгоритмами.

    Таким образом, проведенный анализ показал, что самым эффективным оказался латентно-семантический анализ, наиболее быстрым - метод стемминга Портера. Также стоит отметить целесообразность применения комбинированных методов анализа текста: например, совмещение метода стемминга Портера и частотно-семантического анализа.

    Список литературы


    1. Понимание и синтез текста компьютером [Электронный ресурс]. –http://compuling.narod.ru/index2.html

    2. Russian stemming algorithm [Электронный ресурс] - http://snowball.tartarus.org/algorithms/russian/stemmer.html

    3. Заболеева-Зотова, А.В. Латентный семантический анализ: новые решения в Internet / А.В. Заболеева-Зотова. - Москва: Информационные технологии, 2001. - 22 с.

    4. Рабчевский, Е.А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска / Е.А. Рабчевский - Петрозаводск, 2009. - 107 с.

    5. Semantic Role Labeling, Martha Palmer, Daniel Gildea, and Nianwen Xue, 2010.

    6. Dipanjan Das, Desai Chen, André F. T. Martins, Nathan Schneider, Noah A. Smith (2014) Frame-Semantic Parsing.


    Приложение 1


    Вещи и книги, книги и вещи... (Л. Лиходеев)

    Мы живём среди овеществлённых человеческих мыслей, вступивших некогда в спор с забвением и одержавших победу.

    Самыми ценными памятниками являются те, которые создавались не из тщеславия или чванства, не с целью возвыситься или унизить, - а просто так, в рабочем порядке, без заботы преодолеть забвение. Они-то, собственно говоря, и стали основой наших знаний, нашей культуры и, может быть, даже нашего существования.

    Почти все имена людей, создавших эти памятники, исчезли. Но овеществлённая мысль их осталась навсегда. Мы знаем, кто придумал паровоз, но не знаем, кто придумал колесо, без которого этот паровоз не поехал бы.

    Овеществлённые мысли ждут нас, когда мы ещё не появились на свет, и сопровождают нас всю жизнь. Но всех нетерпеливее нас ждут книги.

    Вещи не требуют собеседника. В вещах есть что-то безразличное, может быть, даже высокомерное. Они созданы для того, чтобы служить, и они служат – не бойко, не лениво, а в пределах своего назначения. Они появляются на свет без радости и исчезают без печали. Они живы, пока живут, и живут, пока служат. Книги без собеседника мертвы. Они могут молчать многие годы. Но когда приходит собеседник – они оживают. У них особая судьба. В отличие от вещей они умеют печалиться и радоваться, потому что кроме ума и догадливости в них ещё вложены страсти.

    Ещё нас не было на свете, а в книгах уже жили страсти, те самые, которые охватили нас, когда мы появились на свет. Мы размышляли о своём бытии, а в книгах уже давно были проложены тропы наших размышлений. Мы изобретали велосипеды, а в книгах томилось указание на то, что велосипед в данной области уже изобретён.

    Книги ждут собеседника. И в отличие от вещей им вовсе не всё равно, кто к ним явится в этом качестве. Потому что они бывают скрытны и болтливы, лукавы и простодушны, застенчивы и велеречивы. Люди одинаково пользуются вещами. Для того чтобы напиться, каждый открывает кран в одну и ту же сторону. Но каждый обращается с книгой по-своему. Один читает в ней то, что написано, другой не, что написано, а то, что хочет прочесть, третий не видит написанного потом, что не желает видеть. Вещи живут во времени. Время живёт в книгах.

    Время умещается в них на бесконечно малых пространствах, размеренное, исчисленное, предопределённое. Время мудрее вещей. Книги мудрее времени. Потому что, время, попавшее в книгу, застывает в ней таким, каким оно было на самом деле.

    Книги мудрее времени. Они оставляют в себе время, которое ушло. В них мы находим опавшие листья, которые никогда не истлеют, и свежие цветы, которые никогда не увянут.

    Время покорно книгам. Потому что в них встречаются те, кто не совпал во времени. В них встретится тот, кто ещё не родился, с тем, кто ушёл навсегда. Встретятся, чтобы найти друг друга для беседы…

    Годы наплывают на нас, и мы уходим в них, оставляя за собой дела и книги. Истины и заблуждения остаются на страницах ждать собеседника, который придёт отделить плевелы от зёрен.

    "Отправь голову в отпуск!" (П. Измайлов)
    «Отправь голову в отпуск!» – такой призыв сплошь и рядом украшает сегодня столичное метро и пригородные электрички, страницы самых популярных газет и журналов и улицы крупнейших городов страны, звучит по радио и на ТВ… Только не подумайте, что эта «беспрецедентная рекламная кампания» направлена на раскрутку высокоградусных напитков. Всё гораздо возвышеннее: «новый формат периодики покоряет Россию»!

    Теперь благодаря некоему российскому издательству любой обладатель 15 рублей запросто окунётся в мир чувств, спектр которых достаточно широк. Например, книжная серия «Виражи любви» «вскружит Вам голову изощрёнными сюжетными интригами, причудливым переплетением неожиданных поворотов судьбы, расставаний и встреч, переживаний и настоящих чувств, для которых не бывает непреодолимых преград…». Причём новый «бурный роман» обещан читателям еженедельно, и уже есть первые три выпуска – «Звёздное кружево», «Убиться веником» и «Бриллианты из морозилки». Лично меня привлекло название №2: есть в нём некая простота – и в то же время тайна… Правда, аннотация разочаровала: «Убиться веником – что это? Любимое выражение героини или коктейль со свекольным соком? Для того чтобы понять, о чём идёт речь, не обязательно иметь большой опыт общения по Интернету. Умные люди считают, что настоящей любви в чате не место. Какая любовь, если ни разу не видел предмет своей страсти? Только голос и буквы на мониторе… Именно в такой ситуации оказались герои этой истории».

    Да и к чему эти виртуальные надрывы, если имеется специальная серия «Дыхание страсти», посвящённая вполне земным радостям. Главное – во время чтения «не сбейтесь с ритма!» (Издательство предупреждает!). «У Мэтта Дэвидсона и Джилли Тэйлор много общего: они не просто долго работают в одной рекламной фирме, они оба инициативны, напористы и энергичны. Босс сталкивает их лбами, и они становятся соперниками. Но постепенно враждебность уступает место чему-то иному… И пока Мэтт и Джилли пытаются добиться победы друг над другом в карьерной борьбе, одновременно они воюют сами с собой. Однако в какой-то момент они понимают, что не могут больше думать о работе…» Наверное, воистину гамлетовский выбор «между карьерой и чувствами» персонажей «Соперников» кого-то действительно собьёт с ритма и даже выбьет из привычной жизненной колеи, но у меня возникло стойкое ощущение скуки. И уже не захотелось ни «Дороги домой», ни «Готики», ни «По ту сторону» – так называются другие серии, предлагаемые издательством. Даже по 15 рублей за книгоштуку.

    Охотно верю, что еженедельными темпами издатели добьются своей цели и скоро их мини-романы отправят в отпуск сотни, тысячи, десятки тысяч российских головушек. Вот только слово «отпуск» не совсем точное: привыкание к подобному чтиву чревато более длительными последствиями, и головам грозит не отпуск, а пенсия. Причём по инвалидности. Хотя издательство об этом не предупреждает: наверное, безголовая Россия его вполне устроит. А вас, читатель?
    Земля — космическое тело, а мы — космонавты... (В. Солоухин)
    Земля — космическое тело, а мы — космонавты, совершающие очень длительный полёт вокруг Солнца, вместе с Солнцем по бесконечной Вселенной. Система жизнеобеспечения на нашем прекрасном корабле устроена столь остроумно, что она постоянно самообновляется и таким образом обеспечивает возможность путешествовать миллиардам пассажиров в течение миллионов лет.

    Трудно представить себе космонавтов, летящих на корабле через космическое пространство, сознательно разрушающих сложную и тонкую систему жизнеобеспечения, рассчитанную на длительный полёт. Но вот постепенно, последовательно, с изумляющей безответственностью мы эту систему жизнеобеспечения выводим из строя, отравляя реки, сводя леса, портя Мировой океан. Если на маленьком космическом корабле космонавты начнут суетливо перерезать проводочки, развинчивать винтики, просверливать дырочки в обшивке, то это придется квалифицировать как самоубийство. Но принципиальной разницы у маленького корабля с большим нет. Вопрос только размеров и времени.

    Человечество, по-моему, — это своеобразная болезнь планеты. 3авелись, размножаются, кишат микроскопические, в планетарном, а тем более во вселенском, масштабе существа. Скапливаются они в одном месте, и тут же появляются на теле земли глубокие язвы и разные наросты. Стоит только привнести капельку зловредной (с точки зрения земли и природы) культуры в зелёную шубу Леса (бригада лесорубов, один барак, два трактора) — и вот уж распространяется от этого места характерное, симптоматическое, болезненное пятно. Снуют, размножаются, делают своё дело, выедая недра, истощая плодородие почвы, отравляя ядовитыми отправлениями своими реки и океаны, саму атмосферу Земли.

    К сожалению, столь же ранимыми, как и биосфера, столь же беззащитными перед напором так называемого технического прогресса оказываются такие понятия, как тишина, возможность уединения и интимного общения человека с природой, с красотой нашей земли. С одной стороны, человек, задерганный бесчеловечным ритмом современной жизни, скученностью, огромным потоком искусственной информации, отучается от духовного общения с внешним миром, с другой стороны, сам этот внешний мир приведен в такое состояние, что уже подчас не приглашает человека к духовному с ним общению.

    Неизвестно, чем кончится для планеты эта оригинальная болезнь, называемая человечеством. Успеет ли Земля выработать какое-нибудь противоядие?

    Книги... (А. Етоев)

    Как христиане меряют свою жизнь по Евангелию, так и хороший человек меряет шаги своего сердца по хорошим книгам.

    Настоящее пространство жизни - это книга. Книга всегда больше жизни. Все меньше книги - жизнь, вселенная, солнце. Даже сам человек.

    Когда случайно встречаются два незнакомых человека и вдруг выясняется, что росли они на соседних улицах, учились в одной школе, играли в одни и те же игры и одинаково боялись злостного хулигана Мухина, терроризировавшего местное население возрастом до 12 лет, то эти люди начинают смотреть друг на друга совсем иными глазами. Они уже не просто двое встретившихся случайно людей, они - члены некоего священного братства, отношения их скреплены обоюдозначимым прошлым, память для них некий ковчег завета, в равной мере хранимый и почитаемый.

    То же самое и первые книги. Они - точка сближения незнакомых прежде людей, место встречи их во времени и пространстве. Даже больше: книга, прочитанная в детстве, как духовный аккумулятор, способна питать человека энергией многие годы и поддерживать его в тяжелое время.

    Наверно, следующее мое утверждение - ересь и чистый идеализм, но лично я не могу поверить, что люди, одинакова любившие в детстве "Трех мушкетеров" и книги братьев Стругацких, способны уничтожать друг друга на какой-нибудь из нынешних бесконечных войн. Я знаю, так полагать - глупо. Примеров, перечёркивающих подобное моё положение, в истории отыщется не один десяток.

    И тем не менее я считаю так.


    1 Наместников А.М., Чекина А.В., Корунова Н.В. Интеллектуальный сетевой архив электронных информационных ресурсов/ Программные продукты и системы. – 2007. – №4. – С.10-13.


    1   2   3   4   5   6


    написать администратору сайта