Главная страница
Навигация по странице:

  • «МИРЭА – Российский технологический университет» РТУ МИРЭА

  • ОТЧЕТ ПО ПРАКТИЧЕСКОЙ РАБОТЕ по дисциплине

  • Оглавление- Введение----------------------------------- 3

  • ьшскщусщтшьш. Титульный лист отчёта (1). Отчет по практической работе по дисциплине Общая теория систем


    Скачать 403.46 Kb.
    НазваниеОтчет по практической работе по дисциплине Общая теория систем
    Анкорьшскщусщтшьш
    Дата14.10.2022
    Размер403.46 Kb.
    Формат файлаdocx
    Имя файлаТитульный лист отчёта (1).docx
    ТипОтчет
    #733341









    МИНОБРНАУКИ РОССИИ





    Федеральное государственное бюджетное образовательное учреждение

    высшего образования

    «МИРЭА – Российский технологический университет»

    РТУ МИРЭА

    Институт технологий управления (ИТУ)














    ОТЧЕТ ПО ПРАКТИЧЕСКОЙ РАБОТЕ

    по дисциплине

    «Общая теория систем»
    на тему

    «Информационно-поисковые системы»






    Выполнил студент группы УИБО 04-22





    Кожевников Н.А.


    Принял

    должность, звание, ученая степень



    Фамилия И.О.



    Практическая работа выполнена

    «13»__10__2022 г.


    (подпись студента)











    «Зачтено»


    «__»_______2021 г.


    (подпись руководителя)


    Москва 2022

    1
    Оглавление
    -
    Введение----------------------------------- 3
    - классификация ИПС -------------------- 4

    - принципы работы ------------------------5

    - информационно-поисковые языки -- 6

    - системы индексирования, поисковые агенты ---------- 7

    - пертинентность и релевантность информационных запросов ------ 9

    - сравнение наиболее популярных ИПС ---------------- 12s


    2

    Введение:
    Эмерджентность – свойство систем, обусловливающее появление новых свойств и качеств, не присущих элементам, входящих в состав системы. Свойству эмерджентности близко свойство целостности системы.

    Целостность системы означает, что каждый элемент системы вносит вклад в реализацию целевой функции системы. Целостность проявляется в том, что система обладает собственной закономерностью функциональности, собственной целью.

    Организованность – свойство систем, заключающиеся в наличие структуры и функционирования (поведения).

    Функциональность – это проявление определенных свойств (функций) при взаимодействии с внешней средой. Здесь же определяется цель (назначение системы) как желаемый конечный результат.

    Структурность – это упорядоченность системы, определенный набор и расположение элементов со связями между ними. Между функцией и структурой системы существует взаимосвязь, как между философскими категориями содержанием и формой. Изменение содержания (функций) влечет за собой изменение формы (структуры), но и наоборот. Важным свойством системы является наличие поведения – действия, 7 изменений, функционирования и т.д. Поведение каждой системы объясняется структурой систем низшего порядка, из которых состоит система, и наличием признаков равновесия. Поведение системы определяется характером реакции на внешние воздействия.

    Надежность – свойство сохранения структуры систем, несмотря на гибель отдельных ее элементов с помощью их замены или дублирования.

    Живучесть – свойство активного подавления вредных воздействий. Таким образом, надежность является более пассивной формой, чем живучесть.

    Адаптируемость – свойство изменять поведение или структуру с целью сохранения, улучшения или приобретение новых качеств в условиях изменения внешней среды. Обязательным условием возможности адаптации является наличие обратных связей


    3

    4 классификация ИПС
    ИПС могут быть классифицированы по различным признакам:

    ♦ территориальному: международные, районные, региональные, геоинформационные и т. д.;

    ♦ области применения: экономика, право, медицина, образование и т. д.;

    ♦ целевому назначению: оперативные, архивные, учебные и т. д.;

    ♦ виду данных: полнотекстовые и фактографические.

    В полнотекстовых базах собираются и систематизируются тексты документов или их библиографическое описание. В фактографических базах ИПС накапливается описание выбранных характеристик, свойств объектов.

    ИПС могут быть также классифицированы по их функциональным возможностям:

    ♦ информационно-справочные системы (ИСС);

    ♦ информационно-логические системы (ИЛС);

    ♦ экспертные системы (ЭС);

    ♦ автоматизированные рабочие места (АРМ);

    ♦ автоматизированные системы управления (АСУ).

    Информационно-справочные системы предназначаются для сбора, систематизации, хранения и поиска информации в определенной области знаний. Наиболее распространенными в правовой области являются ИСС «Гарант», «КонсультантПлюс», «Кодекс». Работа пользователей с этими системами осуществляется путем выполнения запросов по заданным критериям поиска, например тематике или реквизитам документа.

    Создано большое количество специализированных ИСС для правоохранительных органов: «Кортик», «Рэкет», «Разбой», «Сонда», «Следователь», «Убийство».

    К более сложным информационным системам относятся системы, позволяющие решать логические задачи. Пользователю предоставляется возможность не только выполнять поиск информации, но и получать новые сведения путем выполнения некоторых логических процедур. Примером такой системы является подсистема «След», использующаяся в органах прокуратуры.

    Более функциональными (и сложными в разработке) являются экспертные системы (ЭС).

    Экспертные системы — один из немногих видов систем искусственного интеллекта, которые получили широкое распространение и нашли практическое применение в различных видах деятельности. Разработка экспертных систем очень трудоемкая задача, требующая не только усилий программистов, но и работы большой группы аналитиков-профессионалов в узкой предметной области. Экспертные системы предназначены для накопления, обработки знаний из некоторой области с целью выработки новых решений практических задач. Важно отметить, что при помощи экспертных систем решаются задачи неформализованные, не поддающиеся алгоритмизации. Одной из главных проблем создания экспертных систем является решение задачи формализации знаний, получаемых от экспертов, для размещения их в компьютерной системе.

    Дороговизна и узкая специализация являются сдерживающим фактором в широком распространении экспертных систем. В практике юридической деятельности в России можно привести ЭС:

    ♦ Прогнозирования преступлений, которая позволяет установить зависимость между личностными качествами преступников и выбором места совершения преступления.

    ♦ Выявления скрытых преступлений — предназначена для выявления скрытых хищений на производстве на основе анализа показателей деятельности предприятия.

    ♦ Поиска и установления личности преступника по информации, полученной на месте происшествия. Выдает типовые версии о личности подозреваемого, сужает круг подозреваемых лиц и по мере поступления новых данных уточняет типологические свойства личности неизвестного преступника.

    Разновидностью экспертных систем являются генераторы экспертных заключений (ГЭЗ). Их назначение — получение готового экспертного заключения.

    Например, ГЭЗ «Клинок» позволяет получить заключение по холодному оружию, включая выбор аналога рассматриваемого клинкового оружия, содержащегося в информационно-поисковой системе. Программа содержит базу данных по клинковому оружию, которая используется при построении экспертного заключения.

    Автоматизированное рабочее место (АРМ) – это комплекс программно-технических средств, предназначенный для автоматизации задач в конкретной предметной области. Сегодня АРМ создаются, как правило, на базе персонального компьютера и других средств, включённых в вычислительную сеть организации, а также необходимых программных средств. В состав АРМ может входить несколько программ, необходимых для решения задач конкретного специалиста, однако часто вместо набора программ создаётся специализированный программный комплекс, называемый автоматизированным рабочим местом. Основная задача любого АРМ – автоматизировать процесс решения ежедневных задач конкретного специалиста. В возможности АРМ, как правило, входят функции, осуществляемые специалистом во время решения профессиональных задач.

    Например, АРМ юрисконсульта должно включать в себя редактор текстов, электронную таблицу, переводчики, справочно-правовые системы и др. АРМ студента-юриста должно включать в себя электронные учебники по изучаемым дисциплинам, обучающие программы и среды, электронные справочники, кодексы и энциклопедии, переводчики и др.

    Одним из распространенных АРМ в юридической деятельности, обладающих описанными выше функциями,
    является АРМ следователя. Очень часто на практике используются узкоспециализированные АРМ, представляющие собой аппаратно-программные комплексы. В юридической деятельности такие комплексы наибольшее распространение получили в криминалистике.

    АРМ, применяемые при проведении экспертиз (например, трассологических, баллистических, портретных, автотехнических, фоноскопических, почерковедческих), проводимых в рамках расследования уголовных дел, многообразны. Изучение конкретных АРМ целесообразно проводить в рамках соответствующих спецкурсов.

    К числу методов, автоматизация которых имеет значительные перспективы в области идентификационного исследования веществ и материалов, относят количественные методы анализа, включающие в себя теорию распознавания образов.

    принципы работы
    Главные этапы составления базы данных для поисковых сервисов это индексация и ранжирование сайтов. И чтобы результативность итоговой выдачи была точной, сейчас применяется схема машинного обучения. То есть поисковику демонстрируют для сравнения 2 противоположных результата и указывают, по какой схеме необходимо выполнять их ранжирование. Таким образом система понимает, какой сайт «полезный», какой «менее полезный». Всё это позволяет вывести отдельный индекс релевантность (условно можно назвать «рейтингом»). Он присваивается каждому сайту, представлен в виде дробного числа. Чем выше релевантность тем выше будет позиция ресурса в выдаче на запрос пользователя. Это — основные принципы работы поисковых систем, используемых сегодня. И этот процесс тоже состоит из нескольких этапов.

    Сбор данных.

    После создания сайта и получения на него ссылки, система автоматически анализирует его с помощью инструментов Spyder и Crawling. Информация собирается и систематизируется из каждой страницы.

    Индексация

    Индексация выполняется с определенной периодичностью. И по её прохождению сайт добавляется в общий каталог поисковой системы. Результата этого процесса — создание файла индекса, который используется для быстрого нахождения запрашиваемой информации на ресурсе.

    Обработка информации

    Система получает пользовательский запрос, анализирует его. Определяются ключевые слова, которые в дальнейшем и используются для поиска по файлам индекса. Из базы данных извлекаются все документы, схожие на пользовательский запрос.

    Ранжирование

    Из всех документов, отобранных для выдачи, составляется список, где каждому сайту

    5


    отведена своя позиция. Выполняется на основании ранее вычисленных показателей релевантности.

    На этом этапе принцип работы поисковых систем немного разнится. Формула ранжирования — тоже уникальная. Но ключевые факторы, влияющие на релевантность сайта, следующие:

    • индекс цитируемости (как часто сторонние ресурсы ссылаются на информацию из конкретной страницы);

    • авторитетность домена (определяется на основании его истории изменения);

    • релевантность текстовой информации по запросу;

    • релевантность иных форматов контента, представленных на странице;

    • качество оптимизации сайта.


    информационно-поисковые языки
    Информационно-поисковый язык (retrieval language) – это специализированный искусственный язык, предназначенный для выражения основного содержания документов или информационных запросов с целью отыскания документов в некотором их множестве.

    Информационно-поисковый язык (ИПЯ) используется для отображения содержания документов информационно-поисковой системы в поисковом образе документа – ПОД и запроса в поисковом образе запроса – ПОЗ, или поисковом предписании.

    Такой язык называли вначале информационным языком (ИЯ), предъявляя к нему требование однозначной записи содержания документа, языком индексирования (index language), определяемым как совокупность или систему символов или индексных терминов и правил их использования для выражения предметного содержания документов, документальным языком (language documentaire) и т.п.

    В окончательном варианте понятийного аппарата теории информационного поиска утвердился термин информационно-поисковый язык (retrieval language).

    Обобщая различные представления об информационно-поисковом языке, можно дать следующее определение:

    Информационно-поисковый язык (ИПЯ) является формализованной семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска.

    Документ, записанный на этом языке, может быть, в принципе, и не понят человеком, даже если в записи используются слова естественного языка, поскольку в ИПЯ употребление слов, выражений, отношений между ними стандартизировано определенным образом.

    Задачей ИПЯ является перевод содержания документа в поисковое предписание, или поисковый образ документа (при вводе документа в ИПС) и перевод содержания запроса пользователя в поисковый образ запроса (поисковое предписание).

    Первые исследователи в качестве составляющих ИПЯ выделяли: алфавит (набор буквенных и цифровых символов), слова, формируемые из алфавита с помощью морфологических правил – морфологии, словарь перевода (в котором каждому слову или осмысленной конструкции естественного языка сопоставлено слово или словосочетание ИПЯ), правила, отражающие взаимоотношения между словами документа, которые в конкретных ИПЯ реализуются, например, с помощью текстуальных или контекстуальных отношений или с помощью специальных правил грамматики – синтаксиса

    6

    Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов. Вначале некоторые авторы (например, Ч. Мидоу ) отождествляли эти понятия и понимали под дескриптором все слова, выбранные для включения в словарь.

    Однако в дальнейшем термину дескриптор стали придавать более сложный смысл в отличие от ключевых слов, выбираемых предварительно из документов массива, для поиска в котором разрабатывается ИПЯ; под дескриптором понимается некоторый (выбранный разработчиком ИПЯ), обобщающий термин для отображения группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами.

    Такие слова объединяют в класс условной эквивалентности, обобщаемый соответствующим дескриптором, и если в тексте документа или запроса встречается слово из данного класса, то его заменяют в ПОД или ПОЗ дескриптором.

    Таким образом, дескриптор – специальное понятие, введенное и используемое в теории информационного поиска. В современных информационно-поисковых языках под дескриптором понимают имя класса условной эквивалентности.

    системы индексирования, поисковые агенты
    Индексирование – это процесс перевода текстов с естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ.

    Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ. Помимо правил применения ИПЯ система индексирования может включать большое разнообразие инструкций, положений, методов и т.д., регламентирующих те или иные этапы процесса индексирования.

    Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру невозможно. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.

    Рассмотрим типологию систем индексирования по пяти наиболее важным основаниям (рис. 5.1).

    1. Но степени автоматизации процесса индексирования выделяют

    системы:

    - ручного индексирования;

    7

    - автоматического индексирования;

    - автоматизированного индексирования.

    2. По степени контролируемости различают системы:

    - без словаря;

    - с жестким словарем;

    - со свободным словарем.

    3. По характеру алгоритма отбора слов текста выделяют системы:

    - с последовательным просмотром текста (отбираются все полнозначные слова);

    - эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

    - со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

    4. По характеру лексикографического контроля различают системы:

    - без лексикографического контроля;

    - с полным контролем;

    - с промежуточным контролем.

    Лексикографический контроль предусматривает:

    • устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

    • нормализацию слов на основе морфологических нормативных словарей.

    В системах с полным контролем реализуются обе функции лексографического контроля. В системах индексации с промежуточным контролем эти функции реализуются частично.

    8



    Поисковые агенты (программы ускоренного поиска) модуль для поисковиков который постоянно обходит сеть и собирает информацию с веб-страниц (индексирует их). Когда пользователь задает запроспоиск идет по предварительно построенному индексуРезультатом поиска является так называемая поисковая выдача - список ссылок на документы (веб-страницы), соответствующие запросу.

    Пертинентность и релевантность информационных запросов


    В свою очередь, пертинентность – это степень удовлетворенности результатами поисковой выдачи со стороны пользователя. То есть это то, насколько полученная информация соответствует запросам и ожиданиям посетителя ресурса.

    9

    Современные алгоритмы поисковиков всё больше стараются учитывать именно пертинентность. Для этого ввелись и учитываются такие факторы, как «свежесть информации и данных», «актуальность информации», «поведение человека на сайте» и другие. То есть поисковые системы все больше вникают именно в поведение и интересы людей.

    Чем отличается пертинентность от релевантности?


    После того, как поисковые системы добились релевантности, наступил и следующий шаг – пертинентность. То есть на первое место вышел вопрос, как удовлетворить пользователя, который часто знает, что ищет, но не знает, как это спросить.

    В результате выяснилось, что релевантность может очень значительно отличаться от пертинентности. Однако второй термин не вполне прижился в повседневной жизни.

    Объяснить происходящее можно на примере. Очевидно, что если вбить запрос «Деми Мур», то поисковой  системе будет очень тяжело понять, что же именно просит пользователь. Поэтому в выдаче будет не только кино для просмотра, но и описание биографии актрисы, саундреки к фильмам, фильмография и т.д. Поисковик пытается перевести пользователя на иную выдачу с более уточненным запросом. Считается, что сейчас в Яндексе менее 10% однословных запросов.

    Поисковая система должна очень прозрачно создать для пользователя ощущение, что его запросы «чувствуются» и подыскивается именно необходимая для него информация.

    Так зачем оптимизатору пертинентность? И нужна ли она вообще? Ответ таков – конечно, да, вот только научиться её использовать не так просто. Благодаря ей можно более глубоко понимать требования и задачи поисковых систем. Иногда, если вы видите нерелевантную - на ваш взгляд - выдачу, то вполне возможно, что вы видите пертинентную.

    Рассмотрим на примере. Предположим, что пользователю «хочет скачать или прочитать книгу о революции Виктора Суворова "Аквариум", но не знает или не помнит автора».

    Следовательно, идёт запрос: «Аквариум книга». Вероятно, запрос будет именно таким, потому что пользователь понимает, что ему нужна именно книга, но помнит только название.
    10

    Первый запрос является релевантным? Нет. Однако, вспомним потребность пользователя «хочет скачать или прочитать книгу о революции Виктора Суворова "Аквариум"». Запрос пертинентен? Да, на все 100 %. Вот это и есть пертинентность поиска.

    Можно сказать, что при выстраивании выдачи, поисковые системы учитывают как релевантность, так и пертинентность. А благодаря постоянным изменениям и усовершенствованиям алгоритмов не исключено, что скоро для каждого пользователя выдача будет различной, исходя из его интересов, а значит – под руководством именно пертинентности.
    11

    Сравнение наиболее популярных ИПС


    В современном мире невозможно представить себе жизнь без виртуальной сети. С ее помощью мы приобретаем разнообразные товары и услуги, общаемся с коллегами и друзьями, работаем, отдыхаем, проводим с пользой и выгодой свой досуг. Основополагающую роль проводников выполняют в виртуальных сетях интернета информационно-поисковые системы. Любой человек пишет в поисковой строке свой запрос, а поисковая система выдает огромное количество предложений по ключевым словам или фразе.

    На первом месте находится неоспоримый лидер многих лет информационно-поисковых систем - Google, получающий четыре из пяти запросов по самым различным вопросам активных пользователей со всего мира. Второе место занимает Yahoo. На третьем месте "Яндекс". Рассмотрим эти поисковики подробнее и другие их аналоги.

    Google

    Google является основной информационно-поисковой системой, обрабатывающей большую часть запросов со всего мира. Этот поисковик знают большое количество активных пользователей интернета. Каждый месяц система обрабатывает более сорока миллиардов запросов, проводит индексацию двадцати пять миллиардов страниц в виртуальной сети.

    Поисковую систему создали два талантливых программиста в 1996 году. Назвали они ее просто и лаконично - Google. В ее фундамент был заложен специальный поисковый робот. Он производил сканирование страниц и их индексацию. Робот обеспечивает то, как будут формироваться страницы пользователю в результатах поиска сегодня. В Google одними из первых разработали поиск с помощью голоса на нескольких языках, облегчающий введение данных в систему.

    Google имеет свой аналог в нашей стране, он на данный момент насчитывает более миллиарда проиндексированных страниц.

    "Гугл" является одной из поисковых систем, глубоко индексирующей ваш сайт. Большим и популярным сайтам проще попасть на высокие позиции в результатах поиска Google, тем самым система защищает себя и пользователей от ненужной информации.

    12

    13 Yahoo


    Yahoo создана в 1994 году. Она по сей день остается очень популярной, сочетающей поиск по словам, содержащим ключи, с помощью построенного иерархически дерева разделов.

    Современное развитие поисковика определяется как движение вперед к интерактивности. Yahoo осваивает это пространство, но техническая составляющая системы не была на это рассчитана при создании поисковика. Не было в Yahoo заложено составляющей работы в режиме реального времени, поэтому существует риск хакерских атак на эту незащищенную часть поисковика.

    Одна из уникальных черт заключается в функциональной панели задач для Firefox. Этот уникальный инструмент является помощником пользователя при использовании Yahoo. Пользователь ищет данные, не заходя на сайт поисковика, а лишь используя панельные кнопки.

    В 2005 компания заявила о запуске системы поиска текстовых данных и изображений, содержащихся в письмах. Необходимость такой функции возникла из-за роста объема хранимых пользователями данных. Некоторые люди создают целые архивные почтовики.
    Активные пользователи Yahoo могут использовать возможности поиска слов в заголовке или, например, в теле письма, а также в прикрепленных файлах, не открывая и не читая их. Текстовый результат поиска отражается в строках с указанием всех необходимых атрибутов для отправляющего запрос. Найденные фотографические изображения выводятся на экран.

    Yahoo принадлежит более двухсот миллионов адресов почты, что есть более тридцати процентов мирового рынка.

    "Яндекс"


    Одной из лучших систем нашей страны является "Яндекс". На текущий день поисковик занимает четвертое место по суммарному количеству пользовательских заявок. "Яндекс" по популярности сегодня лидирует среди пользователей в нашей стране. Суммарное количество сделанных запросов превышает двести пятьдесят миллионов каждый день. Сегодня поисковик "Яндекс" имеет пятьдесят уникальных, специально разработанных приложений.

    Начиная с 2010 года, помимо известного поисковика yandex.ru появился еще один поисковик yandex.com, используемый для поиска по зарубежным порталам.

    В отличие от других систем поиска, "Яндекс" не игнорирует морфологию русского языка. Поисковик предназначен для функционирования в русскоязычной части интернета. Основополагающие различие между русскоязычными поисковиками и иностранными состоит в том, что поисковые системы, формально
    осуществляющие поиск на русском языке, игнорируют морфологию русского языка. В русскоязычной части виртуальной сети функционируют около двух десятков современных поисковиков, но большинство пользователей работают с "Яндекс".

    Сегодня "Яндекс" - популярная русскоязычная поисковая система. Каждый месяц к ней обращаются более тридцати пяти миллионов пользователей виртуальной сети.

    Основал его советский программист в 1989 году. Сначала был разработан алгоритм формирования гипотез. Отныне разбор запрашиваемых словосочетаний и текстов перестал быть строго привязан к словарю. Если запрашиваемого слова в словаре не находилось, то находились максимально похожие на него однокоренные слова. Еще через полгода стало понятно, что ничто не мешает созданию новой русскоязычной поисковой машины. Осенью был представлен мировому сообществу yandex.ru.

    14


    написать администратору сайта