Как же происходит определение «похожести» объектов? Первым делом создается вектор характеристик. Его можно применять для всех объектов в массиве. Чаще всего он представляется в виде набора чисел. Например: рост, вес, возраст человека. Но существуют и методы, которые работают не с числовыми, а качественными характеристиками. Однако их все же можно выразить с помощью перевода к числовому виду. Простейший пример – обозначение места жительства человека путем перевода его в код региона. Москва – 495, Сахалин – 65 и т.д.
После того как было выполнено определение вектора, необходимо провести нормализацию, чтобы каждый компонент давал соответствующий вклад, когда будет вестись подсчет «расстояния». При нормализации может выбираться произвольный, удобный для восприятия диапазон. Он может быть, например, от 1 до 100, от -1 до 1 и т.д.
После этого подбирается метод измерения расстояния. От него может изменяться и конечный результат кластеризации. Среди основных выделяются:
Метрика
|
Когда применяется
|
Формула
|
Евклидово расстояние
|
Часто используемый способ. Позволяет определить геометрическое расстояние в рамках многомерного пространства.
|
|
Квадрат Евклидова расстояния
|
Обеспечивает придание большего расстояния объектам массива, находящимся на большом удалении друг от друга.
|
|
Манхэттенское расстояние
|
Чаще всего результат вычислений такой же, как при определении Евклидова расстояния, но воздействие выбросов уменьшается из-за отсутствия возведения данных в квадрат.
|
|
Расстояние Чебышева
|
Позволяет обозначить объекты как «различные» при их разнице по какой-нибудь координате.
|
|
Степенное расстояние
|
В случаях, когда требуется увеличение или уменьшение веса, который относится к размерности. В ситуациях, когда анализируемые объекты имеют значительное отличие.
|
|
Выбор метрики напрямую зависит от исследователя. Можно использовать сразу несколько метрик для проведения анализа.