Практика 1_Информационно-поисковые системы в электронной коммерц. Практическая работа Информационнопоисковые системы в электронной коммерции
Скачать 0.67 Mb.
|
Практическая работа 1. Информационно-поисковые системы в электронной коммерции Теоретическая часть Сотни миллионов сайтов, находящихся сегодня в Сети делают поставленную задачу достаточно сложной. Для того чтобы облегчить этот процесс и сделать его более эффективным, в данном разделе описывается подход к решению задачи поиска информации в Интернете. Для получения качественного результата при проведении поиска необходимо соблюдать ряд условий. Основными из них являются контроль полноты охвата ресурсов и достоверности найденной информации. Прежде всего, возможность нахождения той или иной информации в Сети определяется полнотой охвата ее ресурсов. Зачастую проведение поиска требует задействования максимального объема возможных источников, в роли которых могут выступать не только web-сайты, но и базы данных, региональные телеконференции, FTP-архивы и т. д. При этом необходимым условием успешного планирования и проведения поисковых работ становится знание всех основных существующих на сегодняшний день типов ресурсов Интернета, понимание технической и тематической специфики их информационного наполнения и особенностей доступа к ним. Наряду с полнотой охвата ресурсов, качество проводимого поиска определяется достоверностью найденной информации. Контроль ее достоверности может производиться разными способами, в которые входит нахождение и сверка с альтернативными источниками информации, установление частоты его использования другими источниками, выяснение статуса документа и сайта, на котором он находится, получение сведений о компетентности и положении автора материала и ряд других. Проблема определения достоверности информации, размещаемой в Интернете, выходит за пределы рассмотрения в рамках данного материала, поэтому основное внимание будет уделено вопросу ее поиска. Сетевые информационные ресурсы По способу организации и хранения информации ее источники в Интернете можно разделить на следующие основные категории: файловые серверы — являются традиционным способом хранения данных и представляют собой компьютеры, часть дискового пространства которых доступна через Интернет. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов — FTP. Данный протокол в общем случае требует авторизации, то есть идентификации пользователя. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход под регистрационным именем anonymous, для которого пароль не требуется. Этот протокол поддерживается всеми стандартными браузерами; web-сайты являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Сайт может содержать информацию, представленную в самой произвольной форме: графической, звуковой, видеоизображения и т. д.; телеконференции могут являться источником необходимой информации, как правило, носящей неофициальный характер. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Они позволяют добиться обратной связи со множеством лиц и произвести детальное обсуждение какой-либо проблемы территориально разобщенными людьми; базы данных могут содержать самую произвольную информацию: публикации, справочную информацию, другие данные. Наиболее широко распространен способ доступа к базам данных через стандартные браузеры, так как он обеспечивает максимальную потенциальную аудиторию потребителей информации. Наряду с непосредственным извлечением информации из баз данных широко используется динамическое построение web-страниц в процессе исполнения пользовательских запросов. Все названные ранее источники можно классифицировать по ряду признаков: по языковому признаку — в силу историко-географических причин наиболее распространенным языком в Интернете является английский, однако в Сети представлены практически все основные языки мира и, как отмечают исследовательские компании, их доля постоянно растет. Часто встречается ситуация, когда сайт поддерживают одновременно несколько языков — на выбор пользователя; по географическому признаку — у информационных ресурсов обычно есть своя целевая аудитория, и ее местонахождение часто может быть сопоставлено с каким-то географическим регионом. Следует заметить, что территориальное разделение не относится к возможности доступа к ресурсам, который может быть осуществлен из любой точки земного шара; по виду и характеру представляемой информации (новости, рекламная информация, тематическая информация, справочная информация) — это наиболее важное, с практической точки зрения, разделение по виду и характеру представляемой информации, поскольку именно информационное наполнение в конечном итоге оказывается решающим при отборе источников. В то же время как раз этот аспект может являться наиболее трудно формализуемым по причине неоднородности представляемой информации. Например, один и тот же web-сайт может содержать информацию самых разных видов. Поэтому приведенное разделение на подгруппы в достаточной степени условно. Методы поиска информации Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом: использование поисковых систем — сегодня этот метод является одним из основных при проведении предварительного поиска. Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета, подлежащих детальному рассмотрению. Получение наиболее релевантного результата требует проведения предварительной работы по составлению тезауруса; поиск по гипертекстовым ссылкам — поскольку все сайты Интернета связаны между собой гиперссылками, поиск информации может быть произведен путем последовательного просмотра с помощью браузера связанных ссылками web-страниц. К этому виду поиска также относится использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников. Такой метод наиболее трудоемок, однако «ручной» просмотр web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, требующего глубокого анализа. Он может быть также более эффективен при проведении повторных циклов или просмотре вновь образованных ресурсов. Наиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности. Двоякая характеристика данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно. Информационно-поисковая система (ИПС) — это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска. Главной задачей любой ИПС является поиск информации, релевантной информационным потребностям пользователя. По принципу организации и использования средства поиска можно выделить следующие типы ИПС: 1) Поисковые машины – являются ключевым инструментом поиска информации, поскольку содержат индексы большинства web-серверов Интернета. Однако именно это достоинство оборачивается их главным недостатком. На любой запрос они выдают обычно чрезмерно большое количество информации, среди которой только незначительная часть является полезной, после чего требуется значительный объем времени для ее извлечения и обработки. Иными словами, поисковая машина – это автоматическая система, которая хранит информацию обо всех известных ей веб‐страницах и выдает по запросу адреса тех из них, где встречаются введенные пользователем ключевые слова. Робот‐браузер поисковой машины (его часто называют «паук», англ. spider) выкачивает с сайтов веб‐страницы, переходя по всем встречающимся на них ссылкам. 2) Метапоисковые системы – позволяют ускорить выполнение запроса путем передачи аргументов поиска, т. е. ключевых слов, одновременно нескольким поисковым системам. При значительном ускорении процесса и увеличении охвата поиска этот способ имеет ряд недостатков, связанных с необходимостью координации во времени поступления результатов обработки запроса от нескольких систем, а также с тем, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств. 3) Портал - это Web-сайт, предназначенный для определенной аудитории (например, клиентов и сотрудников компании), осуществляющий анализ, обработку и доставку информации и предоставляющий доступ к различным сервисам на основе персонализации пользователей с помощью любого устройства, подключенного к Интернету. В настоящее время различают три основных типа порталов: - Публичные, или горизонтальные, порталы (называемые иногда мегапорталами), такие как Yahoo, Lycos, Excite, Rambler нередко являются результатом развития поисковых систем. Предназначены они для самой широкой аудитории, что отражается на содержании предоставляемой ими информации и услуг. Как правило, эта информация носит общий характер (например, новости о политических событиях, культурной жизни и т.д.), равно как и предоставляемые услуги (электронная почта, новостные рассылки и т.д.). Поскольку сфера деятельности таких компаний пересекается со сферой деятельности средств массовой информации, во многих западных странах в последнее время наблюдаются процессы слияния публичных порталов и средств массовой информации в рамках одной компании. Типичный пример горизонтального портала - Вертикальные порталы. Этот вид порталов предназначен для специфических видов рынка и обслуживает аудиторию, пользующуюся услугами этого рынка или работающую на нем. Примерами таких порталов могут служить, например, туристические агентства, предоставляющие услуги по бронированию мест в гостиницах, заказу и доставке билетов, доступу к картам и сведениям об автомобильных маршрутах и т.д., либо порталы типа B2B (business-to-business), позволяющие своим клиентам реализовывать совместные бизнес-операции (например, выбирать поставщиков и осуществлять закупку товаров, проводить аукционы и т.д.). Число таких порталов в последнее время быстро растет, поскольку все новые и новые рынки товаров и услуг перемещаются в Интернет. Типичный пример вертикального портала - Корпоративные порталы предназначены для сотрудников, клиентов и партнеров одного предприятия. Пользователи такого портала получают доступ к предназначенным им сервисам и приложениям в зависимости от их роли и персонального профиля. Типичный пример корпоративного портала 4) Каталоги – как и поисковые машины, используются посетителями Интернета для нахождения необходимой информации. Каталог представляет собой иерархически организованную структуру, в которую данные заносятся по инициативе пользователей., т.е. разбитый по темам список ссылок на сайты с их кратким описанием. В каталогах обычно используют многоуровневую группировку ссылок (дерево): в каждой из крупных тем (Новости, Наука, Образование и др.) есть разделы, в разделах – подразделы и т.д. Как следствие, объем информации в них несколько ограничен по сравнению с поисковыми системами, но в то же время более упорядочен благодаря лежащей в их основе иерархической тематической структуре. Дружественный интерфейс («Юзабилити» дословно с английского означает: возможность использования или полезность) отражает, насколько просто и удобно для обычного человека пользоваться веб-ресурсом. Основным показателем хорошего интерфейса является эргономичность. Это значит, что чем меньше действий человек совершает, чтобы достичь своей цели, тем интерфейс удобнее. Использование поисковых систем – сегодня этот метод является одним из основных при проведении предварительного поиска. Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета. Ссылки на документы в результате поиска — поисковой выдачи сортируются (ранжируются) по мере соответствия запросу. Для ранжирования страниц в поисковой выдаче поисковыми системами используются следующие критерии: 1. Текстовые. 2. Ссылочные. 3. Критерии пользовательской оценки. Текстовые критерии определяют релевантность документа по совпадению слов и их сочетаний в запросе и в тексте и заголовке страницы. Релевантность документа – показатель, отражающий, насколько полно соответствует содержание документа конкретному запросу поисковой системы. По каждому слову или словосочетанию запроса поисковая система находит в индексах все веб-страницы, которые их содержат. Таких страниц могут быть десятки тысяч, и поэтому следующая задача системы – отображение их в порядке убывания релевантности. Необходимо добиться того, чтобы независимо от построения запроса веб-страница попадала в первые ряды результатов поиска, а спектр слов и словосочетаний, по которым ее можно найти, был достаточно широк. Поисковые системы, как правило, отображают найденные по запросу страницы частями по 10–20 ссылок. Согласно данным маркетинговых исследований около 60% пользователей ограничиваются первой страницей результатов поиска и почти 90% — первыми тремя страницами. Отсюда следует задача – добиться того, чтобы страницы веб-сайта стояли в первых 10–20 результатах поиска. Для ее решения необходимо знать принципы отображения результатов поиска в поисковых системах. По данным исследовательской компании СomScore ТОП-5 поисковых систем мира включают: -«Google» (обрабатывает более 118 млрд запросов в месяц – 70% всех поисковых запросов); -«Baidu» (11 млрд запросов в месяц); -«Yahoo» (11 млрд запросов в месяц); -«Bing» (5 млрд запросов в месяц); -«Яндекс» (свыше 3 млрд запросов в месяц). Работа с запросом пользователя начинается с «балансировщика нагрузки» — специализированного устройства, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер. Затем поисковый запрос попадает в «метапоиск». Эта система получает все необходимые данные и узнает, к какому типу данных запрос относится. Система определяет также, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты. Если популярность запроса низкая и при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа, и запрос передается на серверы «базового поиска», где находится индекс поисковой системы, разбитый на отдельные части и распределенный по серверам. Следующим этапом алгоритма является ранжирование «Матрикснет», которое определяет очередность конкретных ссылок при выдаче. Для удобства обработки данных поисковая система заносит все найденные в Интернете страницы в индекс, который помогает сжать их объемы для оптимального хранения (очистка страницы от различных нетекстовых элементов, таких как графика, HTML-теги и т.п.; расположение всех слов текста в алфавитном порядке; составление базы данных с указанием адреса страниц и конкретного места расположения каждой основы). Индекс поисковой машины может быть инвертированным (инверсным) или прямым. Практические задания по теме Задание №1. Скопировать нижеприведенный рисунок в MS Word и заполнить логическую схему обработки запроса в поисковой системе следующими понятиями: - базовые поиски; - запрос серверам; - запрос; - матрикснет; - метапоиск; - обработка запроса; - ответ; - результаты для популярных запросов; - страница результатов поиска. Рисунок 1. Логическая схема обработки запроса в поисковой системе Результат выполнения занести в отчет. Задание №2. 1. Провести сравнительный анализ интерфейса, функционала и бизнес-моделей поисковых систем в соответствии со своим вариантом задания (последняя цифра студенческого билета, пропуска или зачетной книжки) и занести результаты в табл. 1. 2. Результат выполнения занести в отчет. 0 вариант 1) Спутник - https://www.sputnik.ru/ 2) Answers - http://www.answers.com/ 3) Bing - http://www.bing.com/ 4) LOOK - http://lookonion.com/ 5) Mail.ru- http://go.mail.ru/ 6) Music-map - http://www.music-map.com 7) Nigma- http://www.nigma.ru/ 8) WolframAlpha - http://www.wolframalpha.com/ 1 вариант 1) Blinkx - http://blinkx.com/ 2) Pipl - https://pipl.com/ 3) Excite - http://www.excite.com/ 4) Liveplasma - http://www.liveplasma.com/ 5) Looksmart - http://www.looksmart.com/ 6) Yahoo - http://search.yahoo.com/ 7) Yandex - http://people.yandex.ru/ 8) Zapmeta - http://www.zapmeta.com/ 2 вариант 1) Alhea - http://www.alhea.com 2) Dogpile - http://dogpile.com/ 3) DuckDuckGo - https://duckduckgo.com/ 4) Entireweb - http://www.entireweb.com/ 5) Exactseek- http://www.exactseek.com/ 6) Hulbee - https://hulbee.com 7) Joeant - http://www.joeant.com/ 8) Ритмотека - http://ritmoteka.ru/ 3 вариант 1) Ask - http://www.ask.com/ 2) FileSearch - http://www.filesearch.ru/ 3) FindSounds - http://www.findsounds.com/ 4) GigaBlast - http://www.gigablast.com/ 5) Looksmart - http://www.looksmart.com/ 6) Povaru - http://povaru.com/ 7) Pronto - http://www.pronto.com/ 8) Генон - http://www.genon.ru/ 4 вариант 1) Спутник - https://www.sputnik.ru/ 2) Accoona - http://www.accoona.com 3) Google - http://www.google.ru/ 4) Info - http://info.com/ 5) Ixquick - https://classic.startpage.com/eng/ 6) Sciencedirect - http://www.sciencedirect.com 7) TinEye - http://www.tineye.com/ 8) Whitepages - http://www.whitepages.com/person 5 вариант 1) Europeana - http://www.europeana.eu 2) Exalead - http://www.exalead.com/search/ 3) Faganfinder - http://www.faganfinder.com 4) Incogna - http://www.incogna.com 5) Izito - http://www.izito.com/ 6) Lycos - http://www.lycos.com/ 7) Mamma - http://mamma.com/ 8) Metabot - http://www.metabot.ru/ 6 вариант 1) Blinkx - http://blinkx.com/ 2) FileSearch - http://www.filesearch.ru/ 3) Lycos - http://www.lycos.com/ 4) Picsearch - http://www.picsearch.com/ 5) Pipl - http://www.pipl.com/ 6) Metacrawler - http://www.metacrawler.com/ 7) Rambler - http://www.rambler.ru/ 8) Sciencedirect - http://www.sciencedirect.com/ 7 вариант 1) AOL - http://search.aol.com/ 2) Faganfinder - http://www.faganfinder.com 3) Liveplasma - http://www.liveplasma.com/ 4) Qwant - https://www.qwant.com 5) Search - http://www.search.com/ 6) TinEye - http://www.tineye.com/ 7) Webcrawler - http://www.webcrawler.com/ 8) WolframAlpha - http://www.wolframalpha.com/ 8 вариант 1) Contenko - http://www.contenko.com/ 2) LOOK - http://lookonion.com/ 3) Monstercrawler - http://monstercrawler.com/ 4) Releton - https://releton.relestar.com/ 5) Yasni - http://www.yasni.ru/ 6) Zabasearch - http://www.zabasearch.com/ 7) Zapmeta - http://www.zapmeta.com/ 8) Генон - http://www.genon.ru/ 9 вариант 1) AOL- http://www.aol.com/ 2) Base-search - http://www.base-search.net/ 3) Entireweb - http://www.entireweb.com/ 4) Excite - http://www.excite.com/ 5) Metabot - http://www.metabot.ru/ 6) Mojeek - www.mojeek.com 7) Lycos - http://www.lycos.com/ 8) Wow - http://www.wow.com Содержание отчета: 1. Титульный лист с указанием названия практической работы, номера варианта и ФИО автора. 2. Рисунок 1. Логическая схема обработки запроса в поисковой системе. 3. Таблица 1. Сравнительный анализ интерфейса, функционала и бизнес-моделей поисковых систем. Отчет сохранить под названием «ФИО_Практика 1» личном кабинете студента. Таблица 1. Сравнительный анализ интерфейса, функционала и бизнес-моделей поисковых систем Примеры положительных и отрицательных сторон поисковых систем: Положительные стороны: удобный интерфейс, множество дополнительных возможностей, ресурсов, критериев поиска, разделов поиска, дополнительных сервисов; отсутствие рекламы; комфортная работа; быстрый поиск; быстрая работа службы поддержки; поиск наиболее точного ответа на запрос; возможность осуществления поиска информации по регионам; простота; доступность огромному количеству людей без специальных навыков; большая база данных; стабильная работа; высокая скорость; практически мгновенный отклик на запрос; максимально полное соответствие запросов пользователя и результатов поиска; хорошая работа с конкретными запросами; глубокий морфологический анализ обрабатываемых терминов; хороший механизм распознавания одного документа в нескольких кодировках или на зеркальных серверах; оригинально сконструированный механизм выдачи результатов; огромная индексная база и т.д. Отрицательные стороны: отсутствие русского языка, поиска на других языках, встроенного переводчика, дополнительных возможностей; медленная скорость; перегруженный интерфейс; большое количество контекстной рекламы; частое несоответствие результатов поиска созданному запросу; поиск устаревшей информацией; отсутствие инструментов поиска с учетом конкретной грамматической особенности слов; плохая работа с абстрактными запросами; широкие по смыслу запросы предоставляют слишком много информации, не нужной рядовому; разница в выдаче при наборе слова с большой (маленькой) буквы (иногда выдача меняется, иногда нет); частое выпадение секторов поисковой базы; редкое обновление индексов поисковой базы и т.д. |