Главная страница

программа. ЛР№1 2023. Лабораторная работа 1 Информационные системы и сервисы для проверки текстового контента на уникальность


Скачать 84.93 Kb.
НазваниеЛабораторная работа 1 Информационные системы и сервисы для проверки текстового контента на уникальность
Анкорпрограмма
Дата24.04.2023
Размер84.93 Kb.
Формат файлаdocx
Имя файлаЛР№1 2023.docx
ТипЛабораторная работа
#1084603

ЛАБОРАТОРНАЯ РАБОТА №1
Информационные системы и сервисы для проверки

текстового контента на уникальность

Цель практической работы:

  • приобретение студентом умений и навыков создания информационных ресурсов с уникальным текстовым контентом.

  • овладение технологией проверки текстового контента на уникальность с использованием информационных систем и сервисов.



  1. Краткие теоретические сведения


Современное развитие информационных технологий и глобальной Сети Интернет предоставило широким кругам пользователей доступ к огромным массивам информации. Появилось большое число онлайн-библиотек, содержащих художественную и научно-техническую литературу, коллекций рефератов, готовых лабораторных работ, курсовых и дипломных проектов и даже диссертаций; стало доступно множество методических указаний, курсов лекций, учебников и т. д.

Использование компьютерной техники во многом облегчило задачу поиска и копирования подобной информации. Если раньше для написания реферата или контрольной работы студенту информацию было нужно, по крайней мере, найти в книгах и переписать, то теперь достаточно ввести название темы в поисковую систему и скопировать найденные материалы.

Однако, получаемые таким образом работы не являются новыми, оригинальными, из-за неконтролируемого заимствования в ряде случаев происходит нарушение авторского права, охраняемого законом.

В современном информационном обществе защите авторских прав создателей информационных ресурсов уделяется большое внимание.

А́вторское пра́во — в объективном смысле — институт гражданского права, регулирующий правоотношения, связанные с созданием и использованием (изданием, исполнением, показом и т. д.) произведений наукилитературы или искусства, то есть объективных результатов творческой деятельности людей в этих областях. 

Программы для ЭВМ и базы данных также охраняются авторским правом. Они приравнены к литературным произведениям и сборникам научных трудов, соответственно.

Учебный процесс в современном вузе предполагает создание студентами различных информационных ресурсов: рефератов, эссе, курсовых работ, отчетов, статей, докладов, выпускных квалификационных работ и др., в соответствии с соблюдением требований по защите авторских прав. Как правило, уникальность создаваемого студентом учебного контента должна составлять не менее 60%.

Контент - это информационное наполнение любого информационного ресурса. Дизайн и верстка являются способом оформления контента и его коммерчески грамотного представления пользователю.

Весь контент в широком смысле можно разделить на текстовый и нетекстовый.

Нетекстовый контент включает в себя любые фото и графические изображения, так или иначе иллюстрирующие текстовую информацию (фотогалерея, видео, картинки, анимация).

Текстовый контент можно также поделить на более узкие группы в соответствии с его функциями. Актуальными примерами контента для студента вуза являются: статья, эссе, реферат, курсовая работа, выпускная квалификационная работа.

В современном обществе важным свойством контента является его уникальность.

Уникальный, -ая, -ое; -лен, -льна - единственный в своём роде, неповторимый. Уникальный экспонат. Уникальный эксперимент. Уникальная профессия. Уникальный уголок природы. || сущу никальность, -и, ас. (Словарь русского языка)

Уникальность контента, будь то статья, реферат, фотография или рисунок определяется по наличию полного или частичного совпадения содержания всего произведения или отдельных его элементов с аналогичными произведениями.

Уникальность измеряется в процентах совпадения содержания документа (произведения) с уже имеющимися аналогичными документами.

При полном совпадении, когда, например, отчет или реферат полностью скопирован с другого, показатель уникальности будет равен нулю, если же произведено копирование части реферата, то показатель уникальности определяет, сколько процентов совпадений имеется в проверяемой на уникальность работе.

Для определения процента уникальности контента информационного ресурса, а полностью оригинальный документ/произведение имеет стопроцентную уникальность, используется соответствующее программное обеспечение – прикладные программы и сервисы для проверки уникальности контента.

Чаще всего используется следующий алгоритм: проверяемый документ разбивается на блоки, отдельные фрагменты определенной длины, и производится поиск этих фрагментов или блоков в базах данных, в том числе в Сети Интернет.

Кроме длины сравниваемого с другими статьями фрагмента проверяемого на уникальность текста, используются и эмпирические правила, выведенные лингвистом Джорджем Кингсли Зипфом.

Эти правила или законы Зипфа гласят, что вероятность употребления автором какого-либо слова, умноженная на частоту его использования является постоянной величиной, константой.

Вторым правилом, или законом является то, что частотная характеристика словоупотребления по отношению к количеству входящих в текст с данной частотой слов тоже является константой.

При проверке текста на уникальность правила Зипфа позволяют увеличивать скорость и эффективность машинного анализа текстового содержания за счет отсеивания слов с высокой частотой употребления, например, предлогов, частиц, союзов, междометий. Из оставшихся слов формируется таблица слов, несущих основную смысловую нагрузку и определяющих содержание текста.

Такие слова называют ключевыми словами, ключами или анкерами, от английского слова "якорь". Слова с низкой частотой употребления считаются случайными, и их влияние на уникальность текстовой информации невелико, их относят к третьей группе слов в проверяемом тексте. Составление частотной таблицы слов для текста называется канонизацией, то есть, получением основания для проверки.

Деление текста на фрагменты или последовательные цепочки слов (шинглы) позволяет проверить текст на уникальность даже в том случае, когда последовательность абзацев исходного текста, слов в предложениях сознательно изменена.

Программа текстового анализа вычисляет контрольные суммы для цепочек слов определенной длины, то есть рассчитывает элементы совпадений.

Чем длиннее проверяемая последовательная цепочка слов - шингл, тем быстрее происходит поиск совпадений, но качество проверки получается низким. При коротких шинглах качество анализа выше, но анализ уникальности может занять очень много времени.

Однако, алгоритм разбиения текста на фрагменты не учитывает факт наличия цитат, устоявшихся словосочетаний, наличия пословиц, поговорок или других часто употребляемых выражений.

Отсутствие именно смыслового анализа текста можно отнести к главным недостаткам всех систем машинного анализа текстовой уникальности. Поэтому важную роль в этом процессе играют люди, которые должны понимать технологию и грамотно использовать результаты машинного анализа текстовой уникальности.


Информационные системы и сервисы онлайн проверки контента на уникальность


  1. Антиплагиат – система онлайн проверки текса на заимствования: https://www.antiplagiat.ru


Сегодня Антиплагиат — это один из лидеров рынка России и стран СНГ по поиску заимствований в текстовых документах, который помогает пользователям находить заимствования в курсовых работах, дипломах, диссертациях, научных статьях и отчетах, что способствует соблюдению и сохранению ценности авторского права в нашей стране.

Система онлайн проверки текса на заимствования Антиплагиат - это самая полная русскоязычная коллекция источников в России и странах СНГ (более 300 млн. источников).
По статистике 85% студентов в вузах России и СНГ используют Антиплагиат. Более

Важно отметить, что благодаря системе «Антиплагиат», пользователь получает возможность не только оценить качество своего текста, но и понять, какие именно фрагменты в документе были оформлены корректно, а какие – нет и нуждаются в доработке.

Обширный список подключаемых модулей предоставляет возможность формировать собственную систему по поиску заимствований. При работе в системе Антиплагиат у пользователя есть возможность подключать различные коллекции документов (РГБ, eLIBRARY, Гарант, LEXPRO), искать перефразированные и переводные заимствования и даже распознавать текст на графических изображениях.

Система Антиплагиат проверяет тексты документов по миллионам открытых источников в Интернете, а также по специальным коллекциям научных документов и архивам литературы




Алгоритм проверки текста в системе «Антиплагиат»:
  1. Загрузка текстового документа в систему (пользователь загружает документ в систему).
  2. Поиск: система ищет текст документа в базах источников с помощью уникальных алгоритмов поиска.
  3. Анализ результатов поиска: система анализирует совпадения и определяет фрагменты заимствования или цитирования.
  4. Результат: пользователь получает отчёт о результатах проверки документа на заимствования.

Для того, чтобы начать работу по проверке текстового документа в системе Антиплагиат, как частному клиенту, необходимо:

  1. Зарегистрироваться в системе (простая регистрация через указание своего адреса электронной почты). Форма регистрации приведена на рисунке 1. После регистрации в системе пользователь получает возможность бесплатной проверки текстов на заимствования.



Рисунок 1. Форма регистрации в системе Антиплагиат для частных лиц.


  1. Система «Антиплагиат онлайн»: www.text.ru


Система «Антиплагиат онлайн» на TEXT.RU позволяет проверить текстовый контент совершенно бесплатно. При этом эффективные алгоритмы «Антиплагиата онлайн»  делают проверку глубокой и качественной.

Процедура проверки на плагиат проста: всего несколько кликов — и вы узнаете процент уникальности текста. Если в сети есть дубликаты текстов, они обязательно найдутся.

Вы также можете проверить текст на ошибки с помощью сервиса проверки орфографии.

Зарегистрировавшись на сайте TEXT.RU, вы полностью снимете ограничения на проверку и получите возможность проверить неограниченное количество текстов с помощью информационной системы проверки на плагиат онлайн.

Новый алгоритм проверки на плагиат

На сервисе TEXT.RU работает алгоритм проверки текстов на уникальность, выполняющий анализ текстов по усовершенствованной методике. Чтобы ваша работа с сервисом проверки была прозрачной и комфортной, ниже приведены некоторые рекомендации по взаимодействию с актуальным алгоритмом работы системы.

Данный алгоритм проверки текста на  «Антиплагиат онлайн» принципиально отличается от проверки методом шинглов. Какие последствия это имеет для работы с текстами?

  • Осталась в прошлом техника некачественного рерайта с изменением каждого пятого или четвертого слова. В текстах, написанных подобным образом, будет обнаружен высокий процент совпадений с исходником.

  • Также новый алгоритм позволяет обнаруживает плагиат и после перестановки слов, фраз и предложений местами.

  • При работе с антиплагиатом уникальность не повысится от изменения падежей, времен и других грамматических категорий слова.

  • «Доливая» в исходное предложение новые слова, рерайтер так же не избавится от плагиата.

Какие тексты «любит» «Антиплагиат онлайн»? 

Чтобы достичь 100% уникальности при рерайтинге, необходимо выполнить качественную переработку текста.

  • Обращайте особое внимание на густоподсвеченные области — избавившись от них, вы повысите уникальность текста.

  • Рекомендуется выполнять более глубокий рерайтинг: замену слов синонимами, переформулирование фраз и т.д.

Конец формы
Система Text.ru включает в себя и cервис проверки орфографии и пунктуации онлайн — это уникальный бесплатный сервис поиска ошибок и опечаток.

Эффективный алгоритм TEXT.RU находит множество ошибок, среди которых:

  • опечатки;

  • лишние пробелы;

  • повтор слов;

  • строчная буква в начале предложения;

  • правописание через дефис;

  • и многое другое.

  • непарные скобки и апострофы;

  • две запятые или точки подряд;

  • выделение запятыми вводных слов;

  • ошибки в согласовании;

  • грамматические и логические ошибки;

Одной из ключевых особенностей бесплатной проверки на ошибки на TEXT.RU является возможность исправить их прямо в тексте. Алгоритм проверки прост.

  • Вставьте нужный текст в окно проверки орфографии и пунктуации.

  • Нажмите на кнопку «Проверить на ошибки».

  • Обратите внимание на подсвеченные контрастным цветом места и количество найденных ошибок под полем проверки.

  • Нажмите на выделенное слово и выберите верный вариант написания из открывшегося списка.

Как зафиксировать уникальность текста с помощью баннера на «Антиплагиат онлайн» ?

Для того чтобы зафиксировать уникальность текста, нужно провести проверку текста на уникальность онлайн.

После проверки нажмите кнопку "Открыть доступ для всех" в боковой панели от формы проверки.

Далее следует нажать "Зафиксировать уникальность" и в открывшейся форме подтвердить все поля.

Теперь нажмите "Получить код баннера", после чего разместите его на своем сайте на странице с данным контентом.

В чем преимущества фиксации текста?

Зафиксировать уникальность текста онлайн с помощью баннера TEXT.RU — это первый шаг на пути надежной защиты Ваших текстов от плагиата. Преимущества размещения счетчика уникальности TEXT.RU при публикации текста на веб-ресурсе:

  • это отпугнет воров контента

  • это станет аргументом для претензии.

Если в будущем текст, всё же, будет кем-то скопирован и опубликован на стороннем ресурсе, вследствие чего его уникальность упадет, Вы можете начать защиту собственного права на данное произведение с составления досудебной претензии. 

Вы можете скачать шаблон на сайте TEXT.RU и направить данную форму владельцу или администратору сайта, где неправомерно размещены Ваши тексты. Официальная претензия о нарушении авторских прав в 90% случаев помогает принудить вора убрать со стороннего ресурса Ваши тексты. Кроме того, она предполагает взыскание с нарушителя компенсации в объеме, пропорциональном понесенным Вами убыткам и моральному ущербу.

Часть 2. Задания для выполнения в рамках Лабораторной работы №1


    1. Изучить теоретические сведения, приведенные в первой части методических рекомендаций. Составить краткий конспект

    2. Подготовить для проверки на уникальность авторский текст объемом не менее 2000 знаков с пробелами и скачать текст по тематике курса «Управление ИТ-сервисами и контентом» такого же объема из Интернета.

    3. Зарегистрироваться на сайтах сервисов для проверки контента на уникальность:

  • https://www.antiplagiat.ru;

  • https://text.ru/antiplagiat

    1. Осуществить проверку подготовленных текстов на уникальность с помощью:

  • системы Антиплагиат и

  • системы «Антиплагиат онлайн» на www.text.ru.




    1. Осуществить проверку орфографии подготовленных текстов с использованием системы «Антиплагиат онлайн» на www.text.ru.

    2. Проанализировать полученные результаты произведенной проверки подготовленных текстов на уникальность и орфографию. Результаты анализа оформить в табличной форме. Сделать выводы.

    3. По результатам проверки на уникальность и орфографию провести редактирование подготовленного авторского текста, чтобы повысить уровень его уникальности до 75%.

  1. Для авторского текста, прошедшего проверку на уникальность с результатом не менее 75%, получить на сайте www.text.ru баннер уникальности.

  2. По результатам выполненной работы подготовить отчет установленной формы. В отчете отразить назначение и функционал рассмотренных информационных сервисов, представить пошаговую технологию проверки текстового контента на уникальность, проверку орфографии, получения баннера уникальности. Сделать выводы.

  3. Отчетные материалы разместить в электронной системе обучения для проверки преподавателем.



написать администратору сайта