7.3. Сгенерированные наборы данных ¶
Кроме того, scikit-learn включает в себя различные генераторы случайных выборок, которые можно использовать для создания искусственных наборов данных контролируемого размера и сложности.
7.3.1. Генераторы для классификации и кластеризации
Эти генераторы создают матрицу функций и соответствующих дискретных целей.
7.3.1.1. Одна этикетка
Оба make_blobs
и make_classification
создают многоклассовые наборы данных, выделяя каждому классу один или несколько нормально распределенных кластеров точек. make_blobs
обеспечивает больший контроль относительно центров и стандартных отклонений каждого кластера и используется для демонстрации кластеризации. make_classification
специализируется на внесении шума посредством: коррелированных, избыточных и неинформативных признаков; несколько гауссовских кластеров на класс; и линейные преобразования пространства признаков.
make_gaussian_quantiles
делит один гауссовский кластер на классы почти одинакового размера, разделенные концентрическими гиперсферами. make_hastie_10_2
генерирует аналогичную бинарную 10-мерную задачу.
make_circles
и make_moons
генерировать наборы данных двухмерной двоичной классификации, которые затрудняют выполнение определенных алгоритмов (например, кластеризацию на основе центроидов или линейную классификацию), включая необязательный гауссов шум. Они полезны для визуализации. make_circles
производит гауссовские данные со сферической границей решения для двоичной классификации, а make_moons
производит два чередующихся полукруга.
7.3.1.2. Multilabel
make_multilabel_classification
генерирует случайные выборки с несколькими ярлыками, отражая набор слов, взятых из смеси тем. Количество тем для каждого документа берется из распределения Пуассона, а сами темы выбираются из фиксированного случайного распределения. Точно так же количество слов берется из Пуассона, а слова извлекаются из полинома, где каждая тема определяет распределение вероятностей по словам. Упрощения по отношению к истинным смесям из набора слов включают:
- Распределение слов по темам составляется независимо, в то время как на самом деле все будет зависеть от разреженного базового распределения и будет коррелировано.
- Для документа, созданного из нескольких тем, все темы имеют одинаковый вес при создании своего пакета слов.
- Документы без надписей словами наугад, а не из базового дистрибутива.
7.3.1.3. Бикластеризация
make_biclusters (форма, n_clusters, * [,…]) | Сгенерируйте массив с постоянной блочно-диагональной структурой для бикластеризации. |
make_checkerboard (форма, n_clusters, * [,…]) | Сгенерируйте массив с блочной шахматной структурой для бикластеризации. |
7.3.2. Генераторы регрессии
make_regression
создает цели регрессии как необязательно разреженную случайную линейную комбинацию случайных признаков с шумом. Его информативные характеристики могут быть некоррелированными или иметь низкий ранг (большая часть дисперсии приходится на несколько характеристик).
Другие генераторы регрессии детерминированно генерируют функции из рандомизированных функций. make_sparse_uncorrelated
создает цель как линейную комбинацию четырех функций с фиксированными коэффициентами. Другие кодируют явно нелинейные отношения: make_friedman1
связаны полиномиальными и синусоидальными преобразованиями; make_friedman2
включает умножение признаков и взаимное обращение; и make_friedman3
аналогично арктановому преобразованию цели.
7.3.3. Генераторы для многообразного обучения
make_s_curve ([n_samples, noise, random_state]) | Создайте набор данных S-образной кривой. |
make_swiss_roll ([n_samples, noise, random_state]) | Создайте набор данных швейцарских рулонов. |
7.3.4. Генераторы для разложения
make_low_rank_matrix ([n_samples,…]) | Сгенерируйте матрицу в основном низкого ранга с колоколообразными сингулярными значениями. |
make_sparse_coded_signal (n_samples, *,…) | Сгенерируйте сигнал как разреженную комбинацию элементов словаря. |
make_spd_matrix (n_dim, * [, random_state]) | Создайте случайную симметричную положительно определенную матрицу. |
make_sparse_spd_matrix ([тусклый, альфа,…]) | Сгенерируйте разреженную симметричную определенную положительную матрицу. |