7. Утилиты загрузки наборов данных

Пакет sklearn.datasets содержит несколько небольших тестовых наборов данных, представленных в разделе Начало работы.

В этом пакете также есть вспомогательные методы для получения больших наборов данных, обычно используемых сообществом машинного обучения для тестирования алгоритмов на данных, полученных из “реального мира”.

Чтобы оценить влияние масштаба набора данных (n_samples и n_features), контролируя статистические свойства данных (как правило, корреляцию и информативность признаков), можно также генерировать синтетические данные.

Существует три основных вида API, которые можно использовать для получения наборов данных в зависимости от желаемого типа набора данных.

Загрузчики наборов данных (loaders). Они могут быть использованы для загрузки небольших стандартных наборов данных, описанных в разделе Игрушечные наборы данных.

Датасеты признаков (fetchers). Она используется для загрузки больших наборов данных, описанных в разделе Реальные наборы данных.

Обе функции loaders и fetchers возвращают объект Bunch, содержащий как минимум два элемента: массив формы n_samples * n_features с ключом data (кроме 20newsgroups) и массив numpy длины n_samples, содержащий целевые значения, с ключом target.

Объект Bunch - это словарь, который раскрывает свои ключи как атрибуты. Подробнее об объекте Bunch см. в Bunch.

Почти для всех этих функций также возможно ограничить вывод кортежем, содержащим только данные и цель, установив параметр return_X_y в True.

Наборы данных также содержат полное описание в атрибуте DESCR, а некоторые содержат feature_names и target_names. Подробности см. в описаниях наборов данных ниже.

Функции генерации наборов данных. Они могут быть использованы для генерации контролируемых синтетических наборов данных, описанных в разделе Сгенерированные наборы данных.

Эти функции возвращают кортеж (X, y), состоящий из массива n_samples * n_features numpy X и массива длины n_samples, содержащего цели y.

Кроме того, существуют различные инструменты для загрузки наборов данных других форматов или из других мест, описанные в разделе Загрузка других наборов данных.