Где искать датасеты:
- Google Dataset Search. Dataset Search позволяет искать любые наборы данных в Интернете по ключевым словам.
- Kaggle - это платформа для проведения соревнований по машинному обучению с большим количеством интересных наборов данных. Список наборов данных включает нишевые примеры, начиная от оценок Ramen и заканчивая баскетбольными данными NCAA и базой данных лицензий на домашних животных в Сиэтле.
- UCI Machine Learning Repository. Один из старейших ресурсов наборов данных в Интернете и первое место, на которое следует обратить внимание при поиске интересных наборов данных. Большинство из них являются чистыми, но они различаются по степени "чистоты", поскольку были добавлены пользователями. Наборы данных можно загружать по одному без регистрации.
- VisualData. Наборы данных, организованные по категориям для компьютерного зрения. Возможность поиска.
- Find Datasets, CMU Libraries. Коллекция наборов данных, предоставленных Университетом Карнеги-Меллон.
Из каких элементов состоит набор данных:
- Объекты: изображения, фотографии, звукозаписи, болезни, номера домов;
- Свойства: определенные характеристики, связи между другими объектами, положение в таблице.
Как правило, свойства объектов задаются числами, а не выражениями. Например, необходимо указать пол пользователя. Вместо привычных букв "М" и "Ж" каждое свойство будет задано числами "мужской" - 0 и "женский" - 1.
Одним из наиболее распространенных применений машинного обучения является решение задач классификации. Задача классификации - это ситуация, когда у вас есть набор данных, и вы хотите отнести наблюдения в этой группе к определенной категории.
Известным примером является фильтрация спама в электронной почте, где Gmail использует методы машинного обучения для автоматического помещения писем в папку спама на основе таких характеристик, как содержание или тема письма.
Когда речь идет о задачах классификации, большую часть работы выполняют две модели машинного обучения:
- метод K-Nearest;
- метод K-средних.
Аннотации на основе признаков типичны для задач классификации, когда есть выборка (конечное множество объектов, к какому классу они относятся). Классы других объектов неизвестны. В процессе машинного обучения строится модель, которая может классифицировать любой объект из исходного множества. Практическая важность задач классификации заключается в предсказании возможных результатов на основе набора входных переменных, например, диагностика заболеваний, предварительная оценка производительности шахт, кредитный скоринг, распознавание речи, предсказание уровня оттока клиентов и т.д.
В зависимости от типа задачи классификации, целевые признаки могут быть представлены по-разному:
- Один столбец с двоичными значениями (например, 1/0, TRUE/FALSE): при двоичной классификации каждый объект принадлежит только к одному классу;
- Несколько столбцов с двоичными значениями: многопометная классификация, при которой объект может принадлежать более чем к одному классу;
- Один столбец с истинными значениями: в регрессионном анализе оценивается одно значение.
- Несколько столбцов с истинными значениями: проблемы множественной регрессии, когда предсказывается более одного значения.
Точечные графики с группировкой отличаются от обычных тем, что соседние точки объединяются в кластеры. Кластеры отображаются на карте в виде круговой диаграммы с серией точек в центре.
Поведение точек зависит от масштаба карты:
- При уменьшении масштаба точки сливаются, образуя кластер.
- При увеличении масштаба, если точки удаляются друг от друга, кластер автоматически разделяется на более мелкие группы или отдельные точки.
Если на карте в выбранном масштабе имеется только одна точка, она не объединяется в кластер. В этом случае точки не будут показаны на круговой диаграмме, как на обычном точечном графике.
Группировка на карте может сделать визуализации с большим количеством точек более наглядными. Например, если вы хотите с помощью группировки показать на карте расположение всех магазинов в городе, вы можете убедиться, что точки на карте не перекрывают друг друга.
Еще один способ применения кластеризации - группировка изображений. Это означает объединение в стопку файлов изображений, которые "выглядят одинаково" с точки зрения компьютера. Например, сервисы размещения изображений, такие как Flickr, позволяют пользователям создавать большое количество контента, что делает невозможной простую навигацию по сайту из-за большого количества фотографий. Однако методы кластеризации могут быть использованы для группировки похожих изображений вместе, что позволяет пользователям перемещаться между этими группами еще до детальной категоризации.
Интересная статья о кластеризации и использовании датасетов. Основные идеи хорошо раскрыты. Было бы полезно добавить примеры применения кластеризации и конкретные преимущества использования датасетов. Рассмотрите практические примеры в Yandex DataLens для большего понимания.