В настоящее время к популярным системам поиска относят Google, Bing, Baidu, Яндекс, DuckDuckGo. В России список отличается. В него входят: Яндекс, Google, поиск.Mail.ru. Несмотря на значительные различия в использовании алгоритмов обработки поисковых запросов, общий принцип работы схож.
Все системы поиска включают:
- Базы данных. Чем она обширнее и затрагивает как можно большую часть информации, относящейся к разным областям жизни человека, тем выше шанс получить искомый результат.
- Непосредственно серверы, которые являются связующим звеном между пользователем и поисковыми системами, какими бы они не были. Коммерческими, рекламными или информационными.
- Модули индексирования с программами, которые и занимаются поиском, обработкой и сбором информации.
Что же нужно знать разработчикам сайтов и их владельцам о структуре и принципах работы поисковых машин, чтобы именно их страницы попадали на лидирующие позиции в поисковиках? В России самые популярные поисковики расположены на ресурсах Яндекс и Google. Следовательно, и продвигать сайты стоит на этих системах. Желательно используя национальные домены.
Например, запрос «купить подарок ребенку к Новому году», который идет от пользователя, попадает на сервер, где подвергается первичному морфологическому анализу. На основании его формируется общая тематика текста. В данном случае это будут слова: подарок, ребенок, зимняя тема, Новый год, цена, купить, описание товара и его характеристики, список продавцов.
Далее сформированная информация передается в модуль индексирования, где в общей сложности работают две программы-паука и один робот индексатор.
- «Spider» или «Паук» изучает веб-страницы, выделяет те, которые соответствует переданному запросу, скачивает их. Одновременно он анализирует ссылки, как ведущие на скачанные сайты, так и исходящие с него анкеры. Это позволяет избежать дублирования страниц.
- Скачанные страницы сохраняются в базе. К каждой из них прилагается такая информация, как: URL, дата, скачивание страницы, заголовок http-ответа сервера и html-код, «тела» страницы скаченной страницы.
- В таком виде «Crawler» или «путешествующий» паук получает входящий поисковый запрос. Данная программа заходит на все предоставленные ей ссылки и выделяет ключевые запросы. Также данный алгоритм ищет новые страницы, неизвестные поисковым машинам.
- Затем список страниц попадает в «Indexer» или «робот-индексатор» модуля индексирования. Программа подробно изучает полученный по ссылкам материал на предмет его полезности для пользователя и качества его подачи. Анализируются заголовки, сам текст, ссылки, стилевые и структурные особенности, теги html.
После анализа информация о ссылках и возможно полезных страницах передается на сервер, где она еще раз обрабатывается и производится ранжирование ссылок. Именно на этом этапе становится понятно, попадет ли страница на топовые позиции в рейтинге.
Затем формируется «Сниппет». В нем отображается адрес страницы, заголовок статьи и аннотация к ней. Также программа подсвечивает слова из поискового запроса, которые совпадают со словоформами в теле текста. Отмечаются слова из запроса, которые не попали в поле зрения программы.
В итоге пользователь видит список из документов, предлагающих ему купить подарок. Чтобы страница попала на лидирующие позиции в системе, в тексте должно быть описание товара и призыв «купить». При отсутствии описания и характеристик потенциальный покупатель не сможет понять, подходит ли ему данный товар, и поисковая система наверняка не выведет предложение владельца бизнеса в ТОП-10. При отсутствии слов «купить» или «цена» велика вероятность попасть на посадочную страницу с общей информацией о товаре. И если один догадается перейти по ссылкам на сайте, то другой уйдет на сторонний ресурс. А ведь от времени, проведенного клиентом на сайте и факта совершения им покупки, будет в дальнейшем зависеть рейтинг веб-страницы.