Что такое кластеризация

И как ее эффективно использовать



Принцип работы поисковой системы поверхностно знаком каждому. На первый взгляд, это сайт, который позволяет найти запрашиваемую информацию, например, статью, картинку или видео. Но за простым механизмом скрывается комплекс программ, называемый поисковой машиной. Разберемся, что такое поисковая машина, для кого она нужна и как ее правильно использовать.

Что такое поисковая машина

поисковая машина

Поисковая машина – это та часть поисковой системы, которая отвечает за поиск информации в интернете. Представляет собой комплекс специальных программ, сохраняющих информацию о посещенных ими страницах в Сети. Программы выдают по запросу пользователя те, которые соответствуют введенным в строке поиска ключевым словам. Ключевые слова – это словосочетания, которые отражают суть запроса человека.

Основными критериями качества работы является релевантность. Понятие релевантности отражает уместность результата и полноту поиска. От умения правильно составлять запрос зависит количество релевантных документов, то есть содержащих требуемую информацию. Нерелевантные документы принято именовать шумовыми, а их количество по отношению к релевантным и есть точность поиска. Если все найденные страницы подходят пользователю, то точность составляет 100%, если все релевантные документы найдены, то выполнен второй параметр качества – полнота.

Зачем нужны поисковые машины

Поисковые машины предназначены для поиска информации по всей сети Интернет либо по какой-либо её части, за исключением локальных машин, задачей которых является поиск файлов на ПК или в корпоративной сети. Механизмы поиска работают с информацией различного типа, при этом файлы, которые анализирует машина, могут быть как текстового, так и мультимедийного или графического формата. На сегодня самым распространенным является поиск по документам с текстом.

Самыми яркими примерами поисковых машин в РФ являются Google и Яндекс.

Архитектура поисковой машины и принцип ее работы

Большинство поисковых машин состоит из трех элементов:

  • поисковый робот, или паук (spider, crawler);
  • индексный робот;
  • интерфейс, с которым взаимодействует непосредственно пользователь.

Как работает поисковая машина? Человек вводит запрос через интерфейс, после чего поисковому роботу поступает команда искать страницы с указанными в поиске словами, то есть ключами. Он полностью либо частично выкачивает материал из тех сайтов, которые ему подходят, а затем передает веб-страницы на индексирование следующему механизму.

Индексный робот анализирует все выкачанные и сохраненные веб-страницы, распределяя каждое слово из текстовых документов в алфавитном порядке. Слова сохраняются с ссылкой на страницы, где они были размещены, и прочей служебной информацией, в том числе количеством повторений каждого слова на найденной веб-странице. Также робот удаляет всю лишнюю информацию, например, разметку HTML. У каждой поисковой системы очень много таких роботов.

На выходе пользователь получает те страницы, где ему вероятнее всего встретится нужная информация. Поисковики выдают результаты в порядке снижения релевантности.

Разновидности поисковых машин

Классифицировать машины для поиска возможно по нескольким критериям. Рассмотрим разновидности этих поисковых механизмов по типу управления:

  • Управляемая человеком. Представляет собой каталог сайтов, управляемый и обновляемый людьми. Система отличается качественным контентом, но каталоги часто оказываются устаревшими и не отражают действительность. Примеры - dmoz и Galaxy.
  • Гибридная. Ярким примером гибридного поиска является Google или Yahoo. В такой системе управление осуществляется роботом под контролем человека.
  • Метасистема. Генерирует для пользователя в качестве ответа на его запрос результаты сразу нескольких поисковых систем. Недостаток метасистем в неумении анализировать форму запроса. В итоге нерелевантные или платные ссылки отображаются в числе первых. Примеры: Skyscanner или Excite.

Особенности поисковых машин

При изготовлении новых интернет-страниц, веб-мастера стараются учитывать особенности поисковых систем машин. Рассмотрим их в разрезе некоторых критериев.

Тип поисковой машины

Веб-мастера выделяют для себя два типа поисковых машин: полнотекстные и абстрактные.

  • Полнотекстные подвергают ранжированию каждое слово на интернет-странице, за некоторым исключением.
  • Абстрактные – создают так называемый «экстракт» или реферат страницы.

При создании сайтов ориентируются преимущественно на полнотекстные машины.

Широта охвата материала

Этот критерий определяется количеством регистрируемых запросов и проиндексированных страниц. Например, Google ежедневно обрабатывает около 50 млн запросов, а количество индексируемых веб-страниц при каждом поиске превышает 80 млрд документов. Логично, что при малом объеме сервера робота-поисковика какая-то интернет-страница может быть исключена из результатов. 

Дата индексирования документа

Некоторые поисковые машины отображают дату, показывающую «свежесть» индексации. Это полезная информация, так как период обновления страниц у многих поисковых систем также различается. Некоторые поисковики чаще «ползают» по популярным страницам, чем по другим.

Оперативность обновления данных

Робот, называемый пауком, постоянно исследует сеть и пополняет базы данных поисковика новыми страницами. Но вместе с этим ему необходимо учитывать обновления на уже обработанных сайтах и удалять старые документы. У различных поисковых машин этот процесс занимает от пары недель до нескольких месяцев.

Стоп-слова

Большинство популярных поисковых машин не включает определенные слова в индексы, либо игнорируют эти слова в запросах пользователей. К таким словам относятся частицы, предлоги, вводные обороты и другие часто используемые фразы и конструкции: в наше время, самый, лучший, тем не менее и т.д. Чем больше подобного шума в тексте, тем менее релевантной сочтут страницу, поэтому в поиске она окажется не в первых рядах. Так, для Google наличие стоп-слов важнее, чем общие показатели сайта, поэтому на первых страницах поиска окажутся грамотные тексты. Яндекс может показать текст с «водной» статьей, но не в первых строчках результатов. 

Каких стоп-слов следует избегать помимо словесного «мусора»:

  • порнографическая лексика;
  • названия брендов конкурентов для коммерческой статьи;
  • нецензурная лексика;
  • слова, не имеющие отношения к теме страницы;
  • псевдо-коммерческая лексика («скачать бесплатно»).

Алгоритм определения релевантности

Поисковые машины обязательно анализируют частоту и порядок расположения ключевых фраз на странице сайта при выдаче результата. Но также есть дополнительные параметры определения релевантности того или иного документа.

Яндекс и Google схожи в своих алгоритмах, хотя веб-мастера еще не конца изучили список стоп-слов и прочие параметры машин этих поисковых систем. Выдача результатов различна из-за установленных приоритетов. Яндекс имеет более 500 критериев оценки уместности результата поиска, в то время как у Google их порядка 150. В отличие от Яндекс, Google не учитывает регион запроса в России, но обращает внимания на страны. Но Яндекс в первую очередь ведет пользователей на сайты своей экосистемы, например, Яндекс.Дзен.

Поддержка META-тегов

При индексации страниц поисковые машины обращают внимание на метаданные. Из всех внутренних критериев ранжирования Title и Description – самые важные, поскольку в первую очередь поисковик реагирует на заголовок и описание страницы. Так, для повышения релевантности регионального сайта в Яндекс вебмастера указывают в Title название города или другой топоним.

Наличие дополнительных функций

Некоторые поисковики оснащены возможностями, облегчающими работу пользователя. Примером таких функций является автоматический перевод запроса, сужение критериев поиска, нахождение однотипных документов по заданному параметру и т.д. Рассмотрим для примера результаты поиска по запросу в Яндекс.

В первую очередь, система выдает краткий информативный ответ на запрос, являющийся выдержкой из наиболее релевантной по мнению Яндекс страницы. Далее следуют ссылки на видеоресурсы, содержащие инструкции или другой наглядный материал, которые может пригодиться пользователю. После этого выстраиваются ссылки на веб-страницы по уровню релевантности. 

Чем поисковые машины отличаются друг от друга

Популярные поисковые машины в попытке привлечь внимание пользователя перешагнули предел между поисковиком и развлекательным порталом. Здесь прослеживается конфликт между задачей системы поиска. С одной стороны, тот же Яндекс призван как можно быстрее найти ответ на запрос пользователя, чтобы он ушел с сайта в направлении нужного документа. С другой стороны, удовлетворив потребности потребителя поисковик старается удержать его, оставив на портале как можно дольше.

Google долгое время придерживался стиля строгой бизнес-модели с минималистическим дизайном, но в последние годы обзавелся рядом развлекательных сервисов (например, Doodle). В это время остальные поисковые машины помимо результатов поиска демонстрируют прогноз погоды, навигационные карты, курсы валют, афиши мероприятий, новости и прочие сервисы, на любой вкус и цвет.

При этом, как было указано выше, сами поисковые машины в составе систем поиска отличаются по ряду критериев. С точки зрения пользователя интересным может показаться то, что отечественные поисковики работают преимущественно по русскому интернету, в то время как глобальные обрабатывают запросы по всей мировой сети. Это значит, что Яндекс в сравнении с Гугл эффективнее работает с русскоязычными страницами, поскольку ближе знаком со структурой Рунета и правильнее справляется с русской морфологией.

Что лучше? Это зависит от задач пользователя или веб-мастера, а также от ряда факторов. Так, важным социальным критерием является известность бренда, визуальное оформление интерфейса, объем коммерческого контента на странице.

Подпишитесь на рассылку для предпринимателей
Вы будете получать новости по нашим направлениям, советы и кейсы предпринимателей
Вы подписаны!

Нажимая кнопку «Войти», Вы принимаете условия
Политики конфиденциальности

Похожие статьи

Как сделать анализ сайтов конкурентов

Продвижение сайта по ключевым запросам

Что такое семантический поиск, и как с ним работать

Что такое кластеризация

Классификация и кластеризация: отличия

Формула коэффициента кластеризации

Новые
Популярные
Просмотры: 28

Как сделать анализ сайтов конкурентов

Просмотры: 331

Продвижение сервиса по высокочастотным запросам

Просмотры: 301

Продвижение сайта по ключевым запросам

Просмотры: 3419

Что такое кластер?

Просмотры: 2244

Классификация и кластеризация: отличия

Просмотры: 1508

Key collector кластеризации запросов

Класстеризация
  • Анализ сайтов кластер
  • Предоставление данных кластер
  • Отслеживание позиций кластер
  • Анализ конкурентов кластер
Некластеризация
  • Анализ сайтов Некластер1
  • Предоставление Неданных кластер
  • Отслеживание Непозиций кластер
  • Анализ конкурентов Некластер

а вот здесь шеф жжет с задачками(((((((