Что такое кластеризация

И как ее эффективно использовать



Один из действенных инструментов решения экономических и статистических задач является кластерный анализ.

Один из действенных инструментов решения экономических и статистических задач является кластерный анализ. Он представляет собой разделение на группы разного рода объектов, на основании важных критериев. Полученные путем кластеризации группы поддаются анализу. Простым примером может стать прилавок в продуктовом. Здесь ассортимент продуктов проходит кластеризацию и разделяется на группы: «бакалея», «рыба», «молочные продукты» и т.д. При переносе кластеризации на потребителя получается выделить группы, которые так или иначе реагируют на рекламу, с определенной периодичностью покупают тот или иной товар или вовсе отказываются от его потребления и т.д. Проведение кластерного анализа можно осуществлять с использованием различного программного обеспечения, в том числе и стандартного Excel, с которым умеет работать большое количество пользователей.

Процесс кластеризации

На основании выбранного метода меняется сам процесс кластеризации. Практически всегда он является итеративным – многократно повторяющимся. Для объединения разных элементов в один кластер требуется постоянно добавлять в него, расширять близкие, схожие по типу какому-то критерию объекты. В процессе кластеризации можно проводить большое количество экспериментов, в которых один и тот же массив данных разделяется по разным критериям. Несмотря на то, что эксперименты сами по себе могут быть интересными, они – не самоцель. Кластеризация должна выполняться для получения содержательных сведений о структуре данных, которые исследуются. На основании полученных кластеров проводятся исследования свойств и характеристик объектов для формирования точного описания полученных групп.

Когда применяется кластерный анализ

Посредством кластерного анализа можно разделять массив на основании изучаемых характеристик. Разделение большого массива данных на обобщенные группы с близкими характеристиками. Критерием группировки выступает парный коэффициент корреляции или эвклидово расстояние между объектами. При этом близкие друг другу значения группируются вместе.

Область применения кластеризации – обширна. Среди наиболее простых примеров:

      1. Биология – разделение животных на виды, на основании их признаков.
      2. Медицина – применяется с целью классифицировать заболевания по симптоматике, способам лечения.
      3. Психология – для анализа поведения разных групп людей в определенных ситуациях.
      4. Экономика – изучение экономических изменений, составление прогнозов.
      5. Маркетинг – проведение исследований для продвижения продукции.

Когда требуется обработать большое количество данных, преобразовать информацию в простые группы, которые проще изучать – применяется кластерный анализ.

Преимущества и недостатки кластерного анализа

Использование такого типа анализа дает возможность разбить многомерный ряд на основании различных параметров. Среди главных преимуществ этого инструмента выделяются:

      1. Возможность анализировать данные практически любой природы;
      2. Обработка больших объемов информации путем ее сжатия, компоновки;
      3. Простая наглядная демонстрация данных;
      4. Может выполняться циклически и проводиться до тех пор, пока не будет получен необходимый результат. При этом каждый цикл может значительно изменять направление дальнейшего анализа.

Недостатки представленного метода:

      1. Состав и число кластеров напрямую связаны с выбранными критериями кластеризации;
      2. Преобразование первоначальных данных, сбор и их группировка может исказить отдельные объекты, лишить их своей индивидуальности;
      3. Часть данных, присущих конкретному кластеру, может просто игнорироваться в рамках анализируемой совокупности.

Пример выполнения кластерного анализа в Excel

Чтобы наглядно показать, как выполняется анализ, возьмем 6 объектов исследования. У каждого из них имеется 2 параметра, которые характеризуют их – X и Y.

объекты исследования

Их мы будем использовать в примере, основанном на определения евклидова расстояния: =КОРЕНЬ((x2-x1)^2+(y2-y1)^2)

расстояние точек

Результаты, которые были получены, занесем в матрицу расстояний.

Из полученных данных видно, что самыми близкими являются 4 и 5 объекты. Поэтому их можно сгруппировать, а при формировании новой матрицы расстояний остается значение, которое было меньшим из двух.

объединение в группу

Новая матрица позволяет увидеть, что теперь ближайшими объектами являются кластер и объект 6. Повторяем предыдущий шаг – объединяем, оставляем меньшее значение и формируем новую матрицу.

группировка новой матрицы

Здесь ближайшими объектами стали 1 и 2. Повторяем формирование кластера.

повторение формирования

Осталось исследовать последние 3 объекта. Минимальное расстояние получилось между кластером и объектом 3. Выполним еще раз их объединение.

заключительное объединение объектов

В результате группировки с использованием метода «ближайшего соседа» удалось сгруппировать 6 объектов и разделить их на 2 кластера, расстояние между которыми – 7,07.

Применение инструмента кластерного анализа имеет большое значение в рамках анализа в экономике. С его помощью удается вычленять периоды, в которых параметры были максимально приближены, и динамика отличалась своей схожестью. Метод кластеризации в экономике позволяет исследовать товарную и общехозяйственную конъюнктуру.

Как сделать кластерную выборку в Excel: пошаговая инструкция

Выборка часто используется в статистике для анализа нескольких групп данных, которые являются частью массива. Выборка представляет собой разбивание всего объема данных на кластеры и использование определенной группы кластеров в выборке. В примере, описанном ниже, вы можете узнать, как сделать кластеризацию в Excel и превратить ее в кластерную выборку.

Шаг 1: Ввод данных

Для начала, необходимо ввести исходные данные в программу. Например, используем такие:

      1. Player ID – номер присваиваемый игрокам баскетбольной команды. В нашей выборке будет 20 игроков.
      2. Team – обозначение команд. Двадцать игроков разделены на 5 команд.
      3. Points – набранные игроками очки.
      4. Rebounds – количество подборов каждого игрока.

таблица с исходными данными

Выполнить кластеризацию всего массива представленных данных можно по разным критериям: разделить игроков по количеству очков, подборов или просто создать кластеры на основе их принадлежности к определенной команде.

Для создания случайно кластерной выборки самым простым способом станет случайный выбор двух команд и определение, какие игроки должны входить в окончательную выборку.

Шаг 2: поиск уникальных значений

Создание дополнительного массива, который будет содержать уникальные значения. За основу выбора уникальных значений берем столбец Team и создаем новый Unique, в который вводим следующую формулу Excel =UNIQUE(B2:B21).

создание столбца Unique

Следующий столбец создается на основе ввода целого числа (начиная с 1) для каждого уникального названия команды, полученного путем ввода формулы:

создание столбца на основе ввода целого числа

Шаг 3: выбор случайных кластеров

Чтобы создать своего рода рандомайзер, используем такую формулу: =СЛУЧМЕЖДУ(G2, G6). Это позволит случайным образом выбирать одно из полученных целых чисел, которыми мы обозначили команды.

использование формулы

При нажатии на клавиши ENTER сгенерируется случайное значение. У нас высветилось 5. Команда, которая взаимосвязана с этим значением – Е. Она будет выполнять роль первой команды, участвующей в окончательной выборке.

случайное значение

Для того чтобы получить второе значение, необходимо снова нажать на ячейку I2 и ENTER. Новое число опять будет выбрано из записанной нами функции =СЛУЧМЕЖДУ(G2, G6) .

новое число из функции

Во второй раз рандомайзер выбрал значение 3. Команда, которая соответствует этому значению – С. Она станет второй командой, представленной в окончательной выборке.

Шаг 4: Фильтрование окончательного образца

В состав окончательной выборки будут входить все игроки, которые принадлежат к команде С или команде Е. Для фильтрации только этих команд необходимо выделить все изначальные данные в столбцах A, B, C, D. После этого необходимо нажать на вкладку «Данные» в верхнем меню Excel, а далее – «Фильтр», которая располагается в группе «Сортировка и фильтр».

После того как Excel сформирует фильтр над каждым столбцом, останется нажать на стрелку, расположенную в столбце «Team». После этого оставить галочки только для команд C и E.

фильтрование образца

После нажатия на подтверждение («ОК») данные будут отфильтрованы и в таблице будут отображаться только игроки, принадлежащие к команде С или к команде Е.

окончательная выборка

Этот образец – окончательная случайная выборка из всего массива данных. В него включены все игроки по критерию «Команда».

На основании полученных данных можно выбрать, например, самого результативного игрока из двух этих команд или рассчитать среднее количество очков, заработанных каждым из них. Конечно, в представленном массиве в целом и в кластере в частности указано совсем немного информации, но и ее уже можно использовать.

Как кластерный анализ применяется в маркетинговых исследованиях

Маркетологи часто используют этот инструмент в качестве способа изучения различных данных о товарах, потребителях, нишах и т.д. Оно требуется как для проведения теоретических изысканий, так и маркетологам, занимающимся практической работой. Чаще всего они решают вопросы, связанные с объединением в группы различных объектов: клиентов, товаров, услуг и т.д.

Так, одна из важнейших задач, которая решается при помощи кластерного анализа, является изучение потребительского поведения. Метод позволяет выполнить группировку всех потребителей в однородные массы. Она позволяет не только получить максимально подробное представление о том, как клиент из каждой группы себя ведет, но и определить факторы, которые влияют на то или иное поведение. Кластеризация в маркетинговых исследованиях может выполняться по разным критериям.

      1. Пол.
      2. Возраст.
      3. Уровень образования.
      4. Доходы.

Одной из важнейших задач, которая решается путем применения в качестве рабочего инструмента кластерного анализа, – позиционирование. С его помощью выявляется ниша, в которой лучше всего позиционировать новую продукцию.

Применение такого анализа позволяет построить карту, на основании которой определяется уровень конкуренции в разных сегментах рынка, оценить параметры товара, позволяющие попадать в определенный сегмент. Проведение анализа полученной карты поможет определить новые, незанятые ниши на рынке, в которых разрешено предлагать уже созданные товары или разрабатывать инновационные продукты.

Кроме того, инструмент может пригодиться в случаях, когда необходимо изучить клиентов компании. В этой ситуации клиенты разделяются на группы, и для каждого образовавшегося кластера разрабатывается индивидуальная политика взаимодействия. Разделение на кластеры позволяет не только сократить количество объектов, которые нужно анализировать, но и одновременно подобрать подход для каждой клиентской базы. 

Как оценить качество кластеризации

Чтобы проверить качество выполненной кластеризации, можно воспользоваться такими процедурами, как:

      1. Ручная проверка;
      2. Определение контрольных точек и проверка полученных кластеров через них;
      3. Определение стабильности выполненной кластеризации с помощью добавления в модель дополнительных переменных;
      4. Кластеризация с помощью разных методов: K средних, иерархическая агломеративная DBSCAN. Разные методы могут привести к получению разных кластеров. В целом, это нормально, но если кластеры, полученные разными методами, схожи, то это указывает, в первую очередь, на правильность кластеризации.

Не стоит пренебрегать проверками, в противном случае все исследование на фоне неправильной кластеризации может стать ошибочным.

Заключение

Алгоритм применения инструмента кластерного анализа упрощается с использованием возможностей Excel. Конечно, требуется проработать различные варианты взаимодействия с массивом данных на основании использования программных возможностей. Программное обеспечение позволяет не только фильтровать данные, но и сортировать объекты, выполнять различные расчеты. Кроме того, с помощью ее средств можно выполнить упрощение восприятия информации путем составления диаграмм, полученных, например, в результате создания конкретной выборки. Этот инструмент незаменим в маркетинге, он позволяет оптимизировать продвижение продукции, оптимально расходовать ресурсы для отдельных групп потребителей.

Подпишитесь на рассылку для предпринимателей
Вы будете получать новости по нашим направлениям, советы и кейсы предпринимателей
Вы подписаны!

Нажимая кнопку «Войти», Вы принимаете условия
Политики конфиденциальности

Похожие статьи

Задача кластеризации

Классификация и кластеризация: отличия

Что такое кластер?

Сбор семантического ядра

Семантика в маркетинге простыми словами

Индексация в поисковых системах

Новые
Популярные
Просмотры: 13

Как правильно подобрать ключевые слова для сайта

Просмотры: 140

Структура поисковых систем

Просмотры: 740

Скрытая семантика

Просмотры: 6634

Что такое кластер?

Просмотры: 4958

Классификация и кластеризация: отличия

Просмотры: 4061

Что такое кластеризация

Класстеризация
  • Анализ сайтов кластер
  • Предоставление данных кластер
  • Отслеживание позиций кластер
  • Анализ конкурентов кластер
Некластеризация
  • Анализ сайтов Некластер1
  • Предоставление Неданных кластер
  • Отслеживание Непозиций кластер
  • Анализ конкурентов Некластер

а вот здесь шеф жжет с задачками(((((((