Главная страница
Навигация по странице:

  • Корректная индексация сайта

  • Определение главного зеркала сайта

  • Семантическая разметка

  • Маркетинг. Интернет маркетинг. Учебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях


    Скачать 6.86 Mb.
    НазваниеУчебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях
    АнкорМаркетинг
    Дата31.01.2020
    Размер6.86 Mb.
    Формат файлаdocx
    Имя файлаИнтернет маркетинг.docx
    ТипУчебное пособие
    #106588
    страница46 из 67
    1   ...   42   43   44   45   46   47   48   49   ...   67


    Примечание. При поиске в Google с использованием операторов не добавляйте пробел между оператором и поисковым запросом. Например, поисковый запрос site:korrespondentru сработает, а запрос site: korrespondent.ru - нет.

    Корректная индексация сайта

    Современные поисковые системы уже давно нельзя назвать «зеркалами» Интернета. Каждая из них вносит свой вклад в развитие глобальной сети и других ресурсов. Все большее количество сайтов профессионально подготавливается к взаимодействию с поисковыми системами. Качество поиска - это результат совместного труда поисковых систем и веб-мастеров. Главный принцип их взаимоотношений - взаимовыгодный обмен данными. Веб-мастера предоставляют данные с помощью специальных разметок на своем сайте, заполняя теги, создавая файлы, помогающие поисковым роботам ориентироваться в содержании сайта и отдельных страниц. Поисковые системы в свою очередь разрабатывают рекомендации по созданию и администрированию сайтов, предоставляют пусть и ограниченную, информацию о принципах и алгоритмах поисковых систем, статистическую информацию о поиске.

    Для того чтобы веб-мастер мог следить за взаимодействием своего сайта и поисковой системы, созданы специальные сервисы для веб-мастеров:

    • Яндекс.Вебмастер

    • Инструменты для веб-мастеров Google

    Основные задачи, которые позволяют решать эти сервисы, таковы: отслеживание проблем индексации сайта и статистики переходов из поисковой системы; передача дополнительных данных о сайте и взаимодействие с технической поддержкой поисковой системы.

    Для работы с подобными сервисами обычно нужно подтвердить права владельца сайта. Чаще всего для этого в корневой папке сайта размещается специальный файл с ключом, либо на главной странице размещается метатег, содержащий ключ.

    Устройство поисковых систем имеет важную особенность: сайт, на который нет ни одной ссылки с известных поисковой системе страниц, никогда не появится в индексе автоматически. В этом случае потребуется вручную добавить его в очередь обхода индексирующего робота. Для этого популярные поисковые системы дополняются специальными инструментами, передающими ссылки индексирующему роботу. Например, соответствующие инструменты от поисковых систем Яндекс и Google доступы по следующим адресам:

    Кроме этого, можно разметить ссылки на уже проиндексированных ресурсах, причем желательно часто обновляемых: новостных сайтах, популярных порталах, социальных сетях. Такие ресурсы расцениваются поисковой системой как представляющие актуальную интересную информацию, поэтому часто посещаются поисковыми роботами, и, как следствие, ссылки с них быстрее попадают в очередь на индексацию. В очередь также попадают ресурсы, добавленные в сопутствующие инструменты от поисковых систем, такие как сервисы для веб-мастеров (Яндекс.Вебмастер, инструменты для вебмастеров от Google) или сервисы анализа посещаемости сайта (например, Яндекс.Метрика или Google Analytics).

    Во избежание проблем с индексацией предварительно сайт подготавливается и проверяется на наличие проблем, затрудняющих обработку страниц поисковым роботом. Перечислим основные проблемы.

    • Динамические адреса с большим количеством параметров.

    • Дубликаты страниц.

    • Множественные редиректы.

    • Недостатки кода:

      • использование устаревших тегов;

      • большое количество вложенных таблиц;

      • избыточность кода (наличие громоздких скриптов, объемных комментариев и т. п.);

      • использование графики вместо текстов. В этом случае текст не будет проиндексирован;

      • реализация ссылок с помощью JavaScript;

      • игнорирование CSS, указание стилей в коде страницы.

    • Низкая скорость загрузки, недоступность сайта. Проблемы с загрузкой страниц могут критично сказываться на скорости индексации и уровне доверия поисковой системы к сайту. Недоступная страница регулярно проверяется поисковым роботом, и, чем чаще она является недоступной, тем больший промежуток времени проходит до следующей проверки. В итоге страница будет исключена из индекса. Негативное отношение поисковой системы к сайтам, имеющим проблемы с доступностью, аргументировано: если поисковой робот не может получить доступ к ресурсу, то и пользователь поисковой системы, переходя по ссылке на такую страницу, с большой вероятностью не сможет получить интересующую его информацию.

    • Наличие вредоносного кода (вирусов) и технологий, направленных на обман поисковых систем и посетителей, к которым можно отнести подмену контента для роботов, скрытую переадресацию пользователей на сторонние ресурсы.

    Большинство поисковых систем следует указаниям веб-мастеров о том, каким образом индексировать сайт. Эти указания должны быть записаны в специальном файле с названием «robots.txt», расположенном в корневой папке сайта (пример 1). в файле может быть указано:

    • имя робота (директива User-agent);

    • разрешенные к индексации разделы и страницы (директива Allow);

    • запрещенные к индексации разделы и страницы (директива Disallow);

    • путь к карте сайта (директива Sitemap);

    • желаемая частота индексации (директива Craw-delay);

    • для поисковой системы Яндекс - главное зеркало (директива Host);

    • для поисковой системы Яндекс - незначащие параметры в адресах страниц (директива Clean-param).

    Содержимое файла robots.txt:

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /

    joe/

    В директиве User-agent указывается имя робота или группы роботов, которым предназначаются приведенные под ней указания:

    User-agent: *
    # все роботы
    User-agent: Google
    # роботы поисковой системы Google


    Отдельное внимание следует уделить директивам Disallow и Allow. Disallow используется, чтобы запретить доступ робота к некоторым частям сайта или сайту целиком:

    User-agent: Yandex
    Disallow: /
    # блокирует доступ ко всему сайту
    User-agent: Yandex
    Disallow: /cgi-bin
    # блокирует доступ к страницам, начинающимся с '/cgi-bin'


    Аналогично, если требуется разрешить доступ робота к некоторым частям сайта или сайту целиком, используется директива Allow:

    User-agent: Yandex
    Allow: /cgi-bin
    Disallow: /
    # запрещает скачивать все, кроме страниц, начинающихся с '/cgi-bin'


    Наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами не допускается. В соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять перевод строки.

    Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки, не учитывается.

    Директивы Allow и Disallow из соответствующего User-agent-блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом. В случае возникновения конфликта между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow:

    User-agent: Yandex
    Allow: /
    Allow: /catalog/auto
    Disallow: /catalog
    # Сортированный robots.txt: User-agent: Yandex
    Allow: /
    Disallow: /catalog
    Allow: /catalog/auto
    # запрещает скачивать страницы, начинающиеся с '/catalog',
    # но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.


    При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. По умолчанию к концу каждого правила, описанного в robots. txt приписывается '*'. Чтобы отменить завершающую '*', можно использовать на конце правила спецсимвол '$':

    User-agent: Yandex
    Disallow: /example$
    # запрещает '/example', но не запрещает '/example.html'
    User-agent: Yandex
    Disallow: /example
    # запрещает и '/example' и '/example.html'


    Директива Disallow обычно используется для запрета индексации служебных страниц, дубликатов, пустых страниц, страниц с конфиденциальной информацией.

    Указания индексирующему роботу также можно дать с помощью метатега robots, помещенного в область HEAD HTML-страницы. В этом случае правила индексирования распространяются только на данную страницу. Meтaтег «Robots» содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию - INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL = INDEX, FOLLOW и NONE = NOINDEX, NOFOLLOW.

    Например:





    Правильность составления robots.txt можно проверить с помощью сервисов для веб-мастеров. Эти сервисы позволяют загрузить файл, проверить его на наличие синтаксических ошибок и проверить доступность отдельных страниц.

    Определение главного зеркала сайта

    Зеркалами считаются сайты, являющиеся полными или частичными копиями. Копии определяются по совпадению контента на страницах с одинаковыми адресами (site1.ru/page.html и site2.ru/page.html). Например, в большинстве случаев хосты site.ru и www.site.ru являются зеркалами, так как контент страниц, доступных по одинаковым адресам, не отличается.

    Также сайты считаются зеркалами, если со страниц одного сайта настроен серверный редирект на соответствующие им страницы другого сайта (site1.ru перенаправляет на site2.ru, site1.ru/page.html перенаправляет на site2.ru/page.html и т. д.).

    Большинство поисковых систем склеивает зеркала, из них индексируется и участвует в поиске только один из сайтов - главное зеркало. Указать поисковой системе, какой сайт выбрать в качестве главного зеркала, можно несколькими способами.

    • Для поисковой системы Яндекс - прописать директиву Host в файле robots.txt.

    • Настроить постоянный редирект на главное зеркало.

    • Указать главное зеркало в сервисах для веб-мастеров.

    Следует учесть, что характеристики неглавных зеркал учитываются при оценке главного зеркала. Это полезно, например, в случае, если сайт перемещается на новый домен, в то время как старый домен имел хорошие позиции в поиске.

    Склейка зеркал - процесс долговременный, обычно занимает от полумесяца до трех. Расклеиваются сайты автоматически в течение 1-2 недель, в том случае, если они перестают быть зеркалами и предоставляют различный контент.

    Карта сайта

    С помощью карты сайта веб-мастер может сообщить поисковому роботу о доступных для сканирования страницах. Карта сайта представляет собой специальный файл в формате xml или txt, в котором перечислены url-адреса страниц, которые должны быть проиндексированы. XML-формат является предпочтительным, поскольку структурирует данные и позволяет передать больше информации, например, о желаемой частоте индексации.

    Поскольку карта сайта является своеобразным путеводителем робота по сайту, необходимо, чтобы в ней не было синтаксических ошибок и битых или запрещенных к индексации ссылок. Карта сайта может быть одна или несколько. В последнем случае требуется создать дополнительный файл индекса карт сайтов, в котором будут перечислены все доступные карты.

    Семантическая разметка

    С целью упрощения восприятия информации с веб-страниц автоматизированными системами активно используются различные схемы семантической разметки. Пользователь-человек воспринимает страницу с такой разметкой как обычную веб-страницу, тогда как программы-обработчики способны извлечь из такой страницы структурированную информацию, следуя определённым соглашениям.

    Разметка может сделать сайт более заметным в результатах поиска и, таким образом, привлечь больше посетителей, принадлежащих целевой аудитории. Структурные элементы могут быть использованы при формировании сниппета (описания страницы).

    Яндекс работает с микроразметками в стандартах sсhema.org и микроформаты.

    Schema.org - это стандарт семантической разметки данных в сети, объявленный поисковыми системами Google, Bing и Yahoo! летом 2011 г.

    Разметка происходит непосредственно в HTML-коде страниц с помощью специальных атрибутов и не требует создания отдельных экспортных файлов.

    Используя семантическую разметку, можно улучшить представление сниппета вашего сайта в результатах поиска. На рис. 73 можно сравнить сниппеты в поисковой выдаче для страницы сайта неразмеченного и размеченного семантической версткой.



    Рис. 73. Сниппет при использовании семантической разметки

    Стандарт представляет из себя набор классов, описывающих всевозможные сущности и их свойства. Сейчас их уже несколько сотен. Постоянно идет работа по улучшению стандарта, добавляются новые свойства, уточнятся существующие.

    Любая разметка Schema.org производится в два шага.

    1. Оборачивание описания определенного типа в контейнер с указанием схемы разметки:



    2. Разметка отдельных свойств с указанием на конкретное свойство схемы:
      Льва Толстого, 16

    Документ без разметки:


    Яндекс
    Контакты:

    Адрес: Льва Толстого, 16, 119021, Москва

    Телефон: +7 495 739-70-00, Факс: +7 495 739-70-70, Электронная почта: pr@yandex-team.ru


    Документ с разметкой Schema.org:


    Яндекс
    Контакты:

    Адрес:
    ЛьваТолстого, 16
    119021
    Москва

    Телефон:
    +7 495 739-70-00
    Факс:+7 495 739-70-70
    Электроннаяпочта:
    pr@yandex-team.ru


    Семантическая разметка контента используется различными сервисами Яндекса.

    • Разметка информации о программах (приложениях, компьютерных программах, играх и т. д.) помогает Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка рецептов помогает Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка описаний фильмов помогает Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка музыкальных аккордов помогает Поиску формировать сниппеты с аккордами для страниц с такой разметкой.

    • Разметка творческих работ помогает Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка вопросов и ответов помогает Поиску выделять лучший ответ и формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка рефератов и других подобных работ помогает Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка словарных статей помогает Яндекс.Словарям и Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка данных об организации и ее адресе помогает Справочнику и Поиску формировать специальные сниппеты для страниц с такой разметкой.

    • Разметка информации об изображениях помогает улучшить представление изображений на сервисе Яндекс.Картинки.

    • Разметка информации о видеороликах помогает улучшить представление видеоматериалов на сервисе Яндекс.Видео.

    • Разметка отзывов об организациях позволяет отображать на сервисе Карты отзывы вместе с адресами организаций.

    • Разметка отзывов об автомобилях и тест-драйвах помогает улучшить представление моделей на сервисе Яндекс.Авто и в поисковой выдаче.

    Данные, размеченные по стандарту семантической разметки Schema.org, становятся общедоступными и могут быть извлечены и использованы любыми сервисами.

    Микроформаты – это форматы семантической разметки HTML-страниц, позволяющие сделать контент доступным для обработки роботами. Микроформаты дают возможность явно указать смысловое значение отдельных блоков текста, дополнив существующую HTML-разметку специальными блоками.

    Например, можно обозначить, что конкретная строка является адресом организации:
    Москва, ул. Льва Толстого, 16


    В этом примере HTML-элементу
    был добавлен атрибут class, значение которого представляет собой имя свойства, предусмотренного микроформатом. В результате робот сможет интерпретировать содержимое элемента как значение этого свойства.

    Микроформаты являются открытым стандартом, который используется различными сервисами во всем мире. В данный момент существуют микроформаты для нескольких распространенных предметных областей, в частности для публикации сведений об организациях, товарах, отзывах, событиях и многих других сущностях.

    В настоящее время Яндекс поддерживает следующие микроформаты:

    • hCard - формат разметки контактной информации (адресов, телефонов и т. д.);

    • hRecipe - формат для описания кулинарных рецептов;

    • hReview - формат разметки отзывов;

    • hProduct - формат разметки товаров.

    Проверить разметку на сайте можно с помощью валидатора микроразметки.
    1   ...   42   43   44   45   46   47   48   49   ...   67


    написать администратору сайта