Что такое кластеризация

И как ее эффективно использовать

Кластеризация

Кластеризация и ее методы

2023-05-22

Кластеризация данных является мощным инструментом для анализа и организации больших объемов информации. В нашей статье мы исследуем концепцию кластеризации и ее различные методы.

Оглавление

Раскрыть Скрыть

Мера расстояний
Задачи анализа
Образцы задач
Элементарные методы кластеризации с использованием графов
Выделение компонент связности
Минимальное остовное дерево
Метод К-средних
Виды кластеризации в SEO
Кластеризация по ТОП-10
Кластеризация хард и софт – какой метод лучше?
Преимущества и недостатки кластерного анализа

Кластеризация – группировка большого массива данных в кластеры для ускорения и упрощения исследования. Объекты разделяются на группы на основании схожих параметров, при этом разница между двумя типами должна быть значительной. Так, например, разделение товаров в супермаркете на «мясо», «бытовую химию», бакалею и т.д. является простейшим примером кластеризации. Разница разбивки и классификации заключается в том, что при разбивке нет заданного списка групп. Он определяется в процессе проведения анализа.

Использование методов кластеризаций может быть представлено в поэтапном виде.

Подбор выборки объектов.
Выявление количества переменных, являющихся основой выборки. Если есть потребность, то проводится нормализация значений.
Определение степени сходства объектов.
Использование кластеризации для разбития объектов на группы с похожими параметрами.
Описание результатов проведенного анализа.

После проведенных вычислений и получения результатов анализа существует возможность коррекции метрики и способов кластеризаций для получения более достоверных данных.

Мера расстояний

Как выявляется схожесть объектов? Прежде всего необходимо выстроить векторы расстояний для объектов в выборке. Чаще всего их приводят к числовым значениям. Некоторые алгоритмы предназначены для анализа не количественных, а качественных параметров.

После определения вектором параметров, можно приступать к нормализации. Она необходима для того, чтобы компоненты вносили одинаковый вклад при проведении вычислений. Нормализация подразумевает сведение всех значений к определенному диапазону, например,.

Между парами объектов вычисляется «расстояние» (этим словом характеризуется степень схожести). Среди существующих метрик можно отметить:

1. Евклидово расстояние
2. Квадрат евклидова расстояния
3. Расстояние городских кварталов
4. Расстояние Чебышева
5. Степенное расстояние

Задачи анализа

К способам кластеризации чаще обращаются, когда возникает необходимость выполнить классификацию, но собрать при этом обучающую выборку не представляется возможным. Для проведения оценки разбивки используется сбор валидационной выборки с меньшим количеством примеров.

Стоит учесть, что точность результатов supervised-методов является более высокой, поэтому при сборе обучающей выборки на первом плане стоят именно задачи классификации.

Образцы задач

В качестве хорошего примера применения кластеризаций можно использовать семантический анализ географических данных. В мобильных сервисах, которые собирают данные о местоположении клиентов, зачастую нужно определять, где бывал пользователь. GPS-координаты не всегда точны. Помимо погрешностей системы пользователь также постоянно находится в движении, поэтому нельзя говорить о точных данных, вместо них имеется лишь скопление точек, расположенных хаотично.

Решение задач становится сложнее, когда по полученным данным мы попытаемся определить поведение тысяч пользователей в каком-либо месте. Например, есть задача выяснить, в каких локациях у здания аэропорта пользователи чаще садятся в такси. С первого взгляда может показаться, что достаточно лишь взглянуть на полученные данные и можно выделить необходимые группы кластеризаций.

Однако на деле ситуация может быть сложнее, ведь данные GPS -системы не точны и, если верить им, то такси забирает людей и внутри здания, и со взлетно-посадочной полосы.

анализ географических данных

Над решением данной задачи работали при создании пикап-пойнтов (оптимальных точек вызова автомобиля, которые отображаются в приложении) в одном сервисе такси. Расположенные на карте точки кластеризировались так, чтобы кластер совпадал с определенным местом. В качестве центров, которые удовлетворяют потребностям разбивки, использовались отображаемые в сервисе пикап-пойнты.

Также к наглядному примеру кластеризации географических данных можно отнести приложения просмотра фото в мобильном устройстве. С его помощью можно просмотреть геометки, в которых были сделаны фотографии. Однако по мере отдаления карты можно увидеть разное число кластеров.

Элементарные методы кластеризации с использованием графов

В качестве примера, конечно, могут выступать не только анализы геоданных, но это наиболее понятные методы кластеризаций. Если также представить, что мы работаем с большим количеством точек, и нам нужно разработать пикап-пойнты для сервиса такси. Классификация методов разбивки позволяет подобрать наиболее оптимальный вариант, который можно использовать в анализе.

Выделение компонент связности

Можно попробовать идти от простого и логичного, для этого необходимо объединить точки, расположенные друг от друга в двух-трех метрах, после отобрать популярные места.

Чтобы выполнить задачу, нужно простроить граф на основании точек, данные о которых имеются: точки, расстояние между которыми не превышает трех метров, следует объединить ребрами. Компоненты связности в данном графе – это кластеры.

Методика расчета имеет свои недостатки. Так, можно на выходе получить цепочку большой длины, в которой попарное расстояние между целым рядом точек будет не превышать 3 метра. Эта цепь также относится к одной компоненте связности. В результате отсечка по трем метрам относится к диаметрам кластера косвенно, а кластеры в свою очередь будут иметь слишком большие размеры. Помимо этого недостатка имеется и другой: выбор расстояния отсечки нелогичен. Если важно не только само решение поставленной задачи, но и разработка общего способа разбивки, то нужно определиться с конкретными значениями метода.

Минимальное остовное дерево

Данный метод предполагает не строить ребра в графе, а удалять их. Для этого надо начать строить минимальное остовное дерево, при этом необходимо рассчитывать промежуток между точками веса ребер. В таком случае, удалив N ребер с максимальным весом, в результате получаем N+1 компоненту связности. По аналогии с предыдущими методами расчета, принимаем ее за кластер.

Отличие двух способов заключается в том, что главным является не промежуток, на котором строится ребро, а число кластеров. Если основной целью расчета числится настройка пикап-пойнтов на определенном участке (вокзал, ресторан, многоквартирный дом), то мы имеем представление, сколько пикап-пойнтов должно получиться в результате. Если не делить карту на локации, можно сформировать требуемое количество кластеров, чтобы можно было сделать выбор, при этом сравнительно малое, чтобы в конкретный кластер попадало представленное число точек. Схожая логика будет действовать и для решения других задач кластерного анализа: число кластеров – оптимальный параметр, его также можно настраивать вручную. Стоит отметить, что во многих методах количество кластеров является гиперпараметром.

Метод К-средних

В разбивке часто используется этот метод. Он основан на итеративном повторении двух действий.

Выполняется разбивка объектов.
Производится пересчет центров кластеров.

Сначала подбирается K произвольных центров. Остальные объекты становятся частью кластера, центр которого находится на минимальном расстоянии. После этого происходит пересчет центров кластеров путем определения среднего арифметического векторов объектов, входящих в состав кластера. После того, как произошло обновление центров, объекты внутри кластеров вновь перераспределяются. Работа проводится до тех пор, пока центры кластеров не останутся без изменений после очередной итерации.

метод К-средних

Виды кластеризации в SEO

Сбор и группирование ключевых запросов начинается с определения трех основных характеристик.

Масштаба анализа кластера – содержит ли он все требуемые слова и фразы.
Соответствует ли он потребностям пользователя.
Являются ли запросы внутри кластера совместимыми.

Принципы группировки слов могут подбираться на основе одного из способов.

Разбивка по ТОП-10 поисковой выдачи. Вариант, который используется чаще всего. Он подразумевает сбор URL с первой страницы поисковика для всех ключевых запросов. После этого происходит сравнение фраз друг с другом для нахождения общих URL. В дальнейшем происходит группирование общих адресов в один кластер.
Разбивка по словоформе – слова, корни которых одинаковы, группируются. Главным недостатком способа является то, что не учитывается смысловая нагрузка при проведении разбивки. В результате увеличивается риск попадания слов и фраз, несущих разную смысловую нагрузку в один кластер.
Кластеризация вопрос/ответ. Чаще всего используется в качестве инструмента для сервисов быстрых ответов. Разделение проводится по принципу: является ли ключевая фраза вопросом.

Кластеризация по ТОП-10

Этот вид группировки поисковых запросов разделяется еще на 3 способа: Soft, Moderate и Hard:

методы кластеризации

Soft разбивка – подразумевает использование в качестве основы самого частотного ключа с дальнейшим подбором к нему остальных. Например, запрос: «купить смартфон Самсунг» – основной. Дальше следуют запросы с «хвостами»: «купить смартфон Самсунг в Москве», «купить смартфон Самсунг цена». После этого необходимо изучить ТОП-10 выдачи и проверить число пересечений с главным ключом. Если порог пройден, то ключ становится частью кластера. В итоге объединение ключей происходит с привязкой к главному частотному запросу. Такой подход может использоваться для информационных сайтов и онлайн-магазинов с простой структурой.
Moderate (Middle). Хард и софт разбивка объединены в этой методике. Основой выступает самая частотная фраза, после этого происходит сравнение с ней остальных по числу общих УРЛов. Это принцип софт кластеризации. Однако после этого продолжается работа и ключевики сравниваются между собой и, в случаях, когда число пересекающиеся УРЛов достигло порога, происходит образование кластера. В итоге получается связать все запросы из одного кластера попарно.
Хард кластеризация – методика, при которой выполняется сравнение самого частотного слова и идущего следом. Критерий сравнения – количество общих УРЛов из ТОП-10, а после этого ведется сравнение попарно всех остальных фраз друг с другом и образование пар. То есть, кластер образуется, когда пересечение достигает своего порога. Жесткий способ хорош для ниш с высокой конкуренцией, а также при предоставлении тяжелых услуг, вроде страхования, кредитования и т.д. Хард разбивка является более точной, но с меньшим количеством данных.

Кластеризация хард и софт – какой метод лучше?

Различные исследования гласят, что хард разбивка показывает от 90% точности при установленном пороге в 3 УРЛа. Даже опытный оптимизатор в процессе ручной разбивки может демонстрировать точность около 70%, и это считается отличным результатом без использования дополнительных инструментов. Если же новичок должен будет объединить запросы вручную, его точность чаще всего не будет превышать 30%. При этом полнота данных хард оптимизации чаще всего не превышает 40%. Но при сравнении с ручной работой, максимум, на что можно рассчитывать – 20%.

Софт разбивка выдает более полные данные, однако их точность достаточно низкая. Для продвижения запросов требуется порог хотя бы в 5 URl, но при этом происходит снижение полноты до 23%.

Несмотря на то, что Soft по результатам исследований показывает неутешительные данные, ее стоит применять в случаях, когда проводится трафиковая раскрутка ресурса и преследуется цель привлечения наибольшего количества запросов. Hard подходит для поиска и использования на странице конкретного перечня запросов.

Преимущества и недостатки кластерного анализа

Плюсы:

позволяет продумать структуру создаваемого ресурса заранее, определить его страницы, разработать контент-план;
большое разнообразие сервисов для автоматического формирования кластеров, облегчающих работу;
снижение количества ошибок за счет автоматизации кластеризаций;
разбивка облегчает навигацию пользователя, делает сайт более удобным и интуитивно понятным.

Минусы:

постоянные изменения ТОПа поисковой выдачи могут приводить к тому, что сделанная ранее группировка теряет свою актуальность, кроме того, падает ее эффективность;
объемная семантика нуждается в глубинном семантическом анализе, который отнимает много времени, более того, необходима дополнительная проверка кластеров;
даже с помощью автоматизированных сервисов кластеризаций нельзя распределить все запросы разом. Как правило, формируется список запросов, которые не попали под кластеризацию и требуют ручной доработки;
часто в состав кластеров включаются близкие по тематике фразы, которые означают нетематические предметы или объекты.

Подпишитесь на рассылку для предпринимателей

Вы будете получать новости по нашим направлениям, советы и кейсы предпринимателей

Вы подписаны!

Нажимая кнопку «Войти», Вы принимаете условия
Политики конфиденциальности