7.1. Игрушечные датасеты

Пакет sklearn.datasets содержит несколько маленьких игрушечных наборов данных , как введенные в Getting Started раздела.

В этом пакете также есть помощники для получения больших наборов данных, которые обычно используются сообществом машинного обучения для тестирования алгоритмов на данных, поступающих из «реального мира».

Чтобы оценить влияние масштаба набора данных ( n_samples и n_features) при одновременном контроле статистических свойств данных (обычно корреляции и информативности функций), также можно сгенерировать синтетические данные.

Общий API набора данных. Существует три основных типа интерфейсов наборов данных, которые можно использовать для получения наборов данных в зависимости от желаемого типа набора данных.

Загрузчики набора данных. Их можно использовать для загрузки небольших стандартных наборов данных, описанных в этом разделе.

Сборщики наборов данных. Их можно использовать для загрузки и загрузки больших наборов данных, описанных в разделе « Реальные наборы данных ».

Функции загрузчика и сборщика возвращают Bunch объект, содержащий как минимум два элемента: массив формы n_samplesn_features с ключом data (кроме 20newsgroups) и массив numpy длины n_samples, содержащий целевые значения, с ключом target.

Объект Bunch — это словарь, который предоставляет свои ключи как атрибуты. Дополнительные сведения об объекте Bunch см в разделе Bunch.

Также для почти всех этих функций возможно ограничить вывод как кортеж, содержащий только данные и цель, установив для return_X_y параметра значение True.

Наборы данных также содержат полное описание в своих DESCR атрибутах, а некоторые содержат feature_names и target_names. Подробности см. В описании наборов данных ниже.

Функции создания набора данных. Их можно использовать для создания управляемых синтетических наборов данных, описанных в разделе Созданные наборы данных .

Эти функции возвращают кортеж (X, y), состоящий из массива n_samples*n_features  numpy и массива X длины n_samples, содержащего цели y.

Кроме того, существуют различные инструменты для загрузки наборов данных других форматов или из других мест, описанные в разделе Загрузка других наборов данных .

scikit-learn поставляется с несколькими небольшими стандартными наборами данных, которые не требуют загрузки какого-либо файла с какого-либо внешнего веб-сайта.

Их можно загрузить с помощью следующих функций:

load_boston(*[, return_X_y])Загрузите и верните набор данных о ценах на жилье в Бостоне (регрессия).
load_iris(*[, return_X_y, as_frame])Загрузите и верните набор данных радужной оболочки (классификация).
load_diabetes(*[, return_X_y, as_frame])Загрузите и верните набор данных диабета (регрессия).
load_digits(*[, n_class, return_X_y, as_frame])Загрузите и верните набор данных цифр (классификация).
load_linnerud(*[, return_X_y, as_frame])Загрузите и верните набор данных linnerud физических упражнений.
load_wine(*[, return_X_y, as_frame])Загрузите и верните набор данных вина (классификация).
load_breast_cancer(*[, return_X_y, as_frame])Загрузите и верните набор данных по раку груди висконсин (классификация).

Эти наборы данных полезны для быстрой иллюстрации поведения различных алгоритмов, реализованных в scikit-learn. Однако они часто слишком малы, чтобы соответствовать реальным задачам машинного обучения.

7.1.1. Набор данных о ценах на жилье в Бостоне

Характеристики набора данных:

Количество экземпляров: 506

Количество атрибутов: 13 числовых / категориальных прогнозов. Среднее значение (атрибут 14) обычно является целевым.

Информация об атрибутах (по порядку):

  • Уровень преступности на душу населения по городам
  • ЗН доля земли под жилую застройку зонирована на участки площадью более 25 000 кв. Футов.
  • INDUS доля акров, не относящихся к розничной торговле, на город
  • CHAS Фиктивная переменная реки Чарльз (= 1, если участок ограничивает реку; 0 в противном случае)
  • Концентрация оксидов азота NOX (частей на 10 миллионов)
  • RM среднее количество комнат в доме
  • ВОЗРАСТ Доля домов, построенных до 1940 года, занимаемых владельцами
  • DIS взвесила расстояния до пяти бостонских центров занятости
  • Индекс доступности радиальных автомобильных дорог РАД
  • НАЛОГ Полная ставка налога на имущество за 10 000 долларов США
  • PTRATIO соотношение учеников и учителей по городам
  • B 1000 (Bk — 0,63) ^ 2, где Bk — доля чернокожего населения по городам.
  • LSTAT% более низкий статус населения
  • MEDV Средняя стоимость частных домов в 1000 долларов

Отсутствующие значения атрибутов: Нет

Создатель: Харрисон Д. и Рубинфельд Д. Л.

Это копия набора данных о жилищном строительстве UCI ML. https://archive.ics.uci.edu/ml/machine-learning-databases/housing/

Этот набор данных был взят из библиотеки StatLib, которая поддерживается в Университете Карнеги-Меллона.

Данные о ценах на жилье в Бостоне, представленные Д. Харрисоном и Рубинфельдом Д. Л. «Гедонические цены и спрос на чистый воздух», J. Environ. Economics & Management, vol.5, 81-102, 1978. Используется в Belsley, Kuh & Welsch, «Regression диагностика…», Wiley, 1980. NB В таблице на страницах 244-261 последнего используются различные преобразования.

Данные о ценах на жилье в Бостоне использовались во многих статьях по машинному обучению, посвященных проблемам регрессии.

Рекомендации

  • Белсли, Кух и Велш, «Регрессионная диагностика: определение важных данных и источников коллинеарности», Wiley, 1980. 244–261.
  • Куинлан, Р. (1993). Сочетание обучения на основе экземпляров и обучения на основе моделей. В материалах Десятой Международной конференции по машинному обучению, 236–243, Массачусетский университет, Амхерст. Морган Кауфманн.

7.1.2. Набор данных растений ириса

Характеристики набора данных:

Количество экземпляров: 150 (по 50 в каждом из трех классов)

Количество атрибутов: 4 числовых, прогнозных атрибута и класс

Информация об атрибутах

  • длина чашелистика в см
  • ширина чашелистика в см
  • длина лепестка в см
  • ширина лепестка в см
  • класс:
    • Ирис-Сетоса
    • Ирис-разноцветный
    • Ирис-Вирджиния

Сводные статистические данные 

длина чашелистика:4.37.95,840,830,7826
ширина чашелистика:2.04.43,050,43-0,4194
длина лепестка:1.06.93,761,760,9490 (высокий!)
ширина лепестка:0,12,51,200,760,9565 (высокий!)

Отсутствующие значения атрибутов: Нет

Распределение классов: 33,3% за каждый из 3 классов.

Создатель: Р. А. Фишер

Спонсор:  Майкл Маршалл ( MARSHALL%PLU@io.arc.nasa.gov )

Дата: Июль: 1988 г.

Знаменитая база данных Iris, впервые использованная сэром Р. А. Фишером. Набор данных взят из статьи Фишера. Обратите внимание, что это то же самое, что и в R, но не как в репозитории машинного обучения UCI, в котором есть две неправильные точки данных.

Это, пожалуй, самая известная база данных, которую можно найти в литературе по распознаванию образов. Работа Фишера является классикой в ​​этой области и по сей день часто упоминается. (См., Например, Duda & Hart.) Набор данных содержит 3 класса по 50 экземпляров каждый, где каждый класс относится к типу ириса. Один класс линейно отделим от другого 2; последние НЕ отделимы друг от друга линейно.

Рекомендации

  • Фишер Р.А. «Использование множественных измерений в таксономических проблемах» Annual Eugenics, 7, Part II, 179-188 (1936); также в «Вкладах в математическую статистику» (John Wiley, NY, 1950).
  • Дуда, Р. О. и Харт, П. Е. (1973) Классификация паттернов и анализ сцены. (Q327.D83) Джон Уайли и сыновья. ISBN 0-471-22361-1. См. Страницу 218.
  • Дасаратхи, Б.В. (1980) «Обнюхивание по соседству: новая структура системы и правило классификации для распознавания в частично незащищенных средах». IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. ПАМИ-2, №1, 67-71.
  • Гейтс, GW (1972) «Правило редуцированного ближайшего соседа». IEEE Transactions по теории информации, май 1972 г., стр. 431-433.
  • См. Также: 1988 MLC Proceedings, 54-64. Концептуальная система кластеризации AUTOCLASS II Чизмана и др. Находит в данных 3 класса.
  • Многие, многие другие…

7.1.3. Набор данных диабета

Для каждого из n = 442 пациентов с диабетом были получены десять исходных переменных, возраст, пол, индекс массы тела, среднее артериальное давление и шесть измерений сыворотки крови, а также интересующий ответ — количественный показатель прогрессирования заболевания через год после исходного уровня. .

Характеристики набора данных:

Для каждого из n = 442 пациентов с диабетом были получены десять исходных переменных, возраст, пол, индекс массы тела, среднее артериальное давление и шесть измерений сыворотки крови, а также интересующий ответ — количественный показатель прогрессирования заболевания через год после исходного уровня. .

Характеристики набора данных: 442

Количество атрибутов: Первые 10 столбцов представляют собой числовые прогнозные значения.

Цель: Столбец 11 представляет собой количественный показатель прогрессирования заболевания через год после исходного уровня.

Информация об атрибутах

  • возраст возраст в годах
  • секс
  • индекс массы тела bmi
  • среднее артериальное давление bp
  • s1 tc, общий холестерин сыворотки
  • s2 ldl, липопротеины низкой плотности
  • s3 hdl, липопротеины высокой плотности
  • s4 tch, общий холестерин / ЛПВП
  • s5 ltg, возможно логарифм уровня триглицеридов в сыворотке
  • s6 glu, уровень сахара в крови

Примечание. Каждая из этих 10 переменных характеристик была центрирована по среднему значению и масштабирована по времени стандартного отклонения n_samples(т. Е. Сумма квадратов каждого столбца составляет 1).

Исходный URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

Для получения дополнительной информации см .: Брэдли Эфрон, Тревор Хасти, Иэн Джонстон и Роберт Тибширани (2004) «Регрессия наименьшего угла», Annals of Statistics (с обсуждением), 407-499. ( https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf )

7.1.4. Оптическое распознавание набора данных рукописных цифр

Характеристики набора данных:

Количество экземпляров: 1797

Количество атрибутов: 64

Информация об атрибутах: Изображение 8×8 целых пикселей в диапазоне 0..16.

Отсутствующие значения атрибутов: Нет

Создатель: Алпайдин (alpaydin ‘@’ boun.edu.tr)

Дата: Июль; 1998 г.

Это копия тестового набора наборов рукописных цифр UCI ML https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

Набор данных содержит изображения рукописных цифр: 10 классов, где каждый класс относится к цифре.

Программы предварительной обработки, предоставленные NIST, использовались для извлечения нормализованных растровых изображений рукописных цифр из предварительно отпечатанных форм. Из 43 человек 30 участвовали в обучающей выборке и еще 13 — в тестовой. Растровые изображения 32×32 делятся на неперекрывающиеся блоки размером 4×4, и количество включенных пикселей подсчитывается в каждом блоке. Это генерирует входную матрицу размером 8×8, где каждый элемент является целым числом в диапазоне 0..16. Это снижает размерность и дает инвариантность к небольшим искажениям.

Для получения информации о подпрограммах предварительной обработки NIST см. MD Garris, JL Blue, GT Candela, DL Dimmick, J. Geist, PJ Grother, SA Janet и CL Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.

Рекомендации

  • К. Кайнак (1995) «Методы объединения нескольких классификаторов и их приложения для распознавания рукописных цифр», магистерская работа, Институт последипломного образования в области науки и техники, Университет Богазичи.
  • Алпайдин, К. Кайнак (1998) Каскадные классификаторы, Кибернетика.
  • Кен Тан и Поннутураи Н. Сугантан, Си Яо и А. Кай Цинь. Снижение линейной размерности с помощью LDA, взвешенного по релевантности. Школа электротехники и электроники Наньянского технологического университета. 2005 г.
  • Клаудио Джентиле. Новый алгоритм приблизительной классификации максимальной маржи. НИПС. 2000 г.

7.1.5. Набор данных Linnerrud

Характеристики набора данных:

Количество экземпляров: 20

Количество атрибутов: 3

Отсутствующие значения атрибутов: Нет

Набор данных Linnerud — это набор данных регрессии с несколькими выходами. Он состоит из трех упражнений (данных) и трех физиологических (целевых) переменных, собранных у двадцати мужчин среднего возраста в фитнес-клубе:

  • физиологические — CSV, содержащий 20 наблюдений по 3 физиологическим переменным:Вес, талия и пульс.
  • упражнение — CSV, содержащий 20 наблюдений по 3 переменным упражнения:Подтягивания, приседания и прыжки.

Рекомендации

  • Тененхаус, М. (1998). La regression PLS: теория и практика. Париж: Издания Technic.

7.1.6. Набор данных по распознаванию вин

Характеристики набора данных:

Количество экземпляров: 178 (по 50 в каждом из трех классов)

Количество атрибутов: 13 числовых, прогнозных атрибутов и класса

Информация об атрибутах

  • Алкоголь
  • Яблочная кислота
  • Пепел
  • Щелочность золы
  • Магний
  • Общие фенолы
  • Флаваноиды
  • Нефлаваноидные фенолы
  • Проантоцианы
  • Интенсивность цвета
  • Оттенок
  • OD280 / OD315 разбавленных вин
  • Пролин

класс:

  • class_0
  • class_1
  • class_2

Сводные статистические данные 

Алкоголь:11.014,813,00,8
Яблочная кислота:0,745,802.341,12
Пепел:1,363,232,360,27
Щелочность золы:10,630,019,53.3
Магний:70,0162,099,714,3
Всего фенолов:0,983,882,290,63
Флаваноиды:0,345,082,031,00
Нефлаваноидные фенолы:0,130,660,360,12
Проантоцианы:0,413,581,590,57
Интенсивность цвета:1.313,05.12.3
Оттенок:0,481,710,960,23
OD280 / OD315 разбавленных вин:1,274.002,610,71
Пролин:2781680746315

Отсутствующие значения атрибутов: Нет

Распределение классов: класс_0 (59), класс_1 (71), класс_2 (48)

Создатель: Р. А. Фишер

Спонсор: Майкл Маршалл ( MARSHALL%PLU@io.arc.nasa.gov )

Дата: Июль 1988 г.

Это копия наборов данных распознавания UCI ML Wine. https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

Эти данные являются результатами химического анализа вин, выращенных в одном и том же регионе Италии тремя разными культиваторами. Было проведено тринадцать различных измерений, проведенных для различных компонентов, содержащихся в трех типах вина.

Первоначальные владельцы:

Форина, М. и др., ПАРВУС — расширяемый пакет для исследования, классификации и корреляции данных. Институт фармацевтического и пищевого анализа и технологий, Виа Бригата Салерно, 16147 Генуя, Италия.

Цитата:

Личман, М. (2013). Репозиторий машинного обучения UCI [ https://archive.ics.uci.edu/ml ]. Ирвин, Калифорния: Калифорнийский университет, Школа информационных и компьютерных наук.

Рекомендации

(1) С. Эберхард, Д. Куманс и О. де Вель, Сравнение классификаторов в многомерных параметрах, Tech. Номер представителя 92-02, (1992), кафедра компьютерных наук и кафедра математики и статистики, Университет Джеймса Кука в Северном Квинсленде. (Также отправлено в Technometrics).

Эти данные использовались со многими другими для сравнения различных классификаторов. Классы можно разделить, хотя только RDA добилась 100% правильной классификации. (RDA: 100%, QDA 99,4%, LDA 98,9%, 1NN 96,1% (z-преобразованные данные)) (Все результаты с использованием метода исключения одного исключения)

(2) С. Эберхард, Д. Куманс и О. де Вель, «КЛАССИФИКАЦИОННЫЕ ХАРАКТЕРИСТИКИ RDA», Tech. Номер представителя 92-01, (1992), кафедра компьютерных наук и кафедра математики и статистики, Университет Джеймса Кука в Северном Квинсленде. (Также отправлено в Journal of Chemometrics).

7.1.7. Набор данных по раку груди висконсин (диагностический)

Характеристики набора данных:

Количество экземпляров 569

Количество атрибутов  30 числовых, прогнозных атрибутов и класс

Информация об атрибутах

  • радиус (среднее расстояние от центра до точек по периметру)
  • текстура (стандартное отклонение значений шкалы серого)
  • периметр
  • область
  • гладкость (локальное изменение длины радиуса)
  • компактность (периметр ^ 2 / площадь — 1.0)
  • вогнутость (выраженность вогнутых участков контура)
  • вогнутые точки (количество вогнутых участков контура)
  • симметрия
  • фрактальная размерность («приближение береговой линии» — 1)

Среднее значение, стандартная ошибка и «наихудший» или самый большой (среднее из трех наихудших / наибольших значений) этих характеристик были вычислены для каждого изображения, в результате чего было получено 30 функций. Например, поле 0 — средний радиус, поле 10 — радиус SE, поле 20 — худший радиус.

  • класс:
    • WDBC-злокачественный
    • WDBC-доброкачественный

Сводные статистические данные 

радиус (средний):6,98128.11
текстура (среднее значение):9,7139,28
периметр (средний):43,79188,5
площадь (средняя):143,52501,0
гладкость (среднее значение):0,0530,163
компактность (среднее значение):0,0190,345
вогнутость (среднее значение):0,00,427
вогнутые точки (средние):0,00,201
симметрия (среднее значение):0,1060,304
фрактальная размерность (среднее):0,050,097
радиус (стандартная ошибка):0,1122,873
текстура (стандартная ошибка):0,364,885
периметр (стандартная ошибка):0,75721,98
площадь (стандартная ошибка):6,802542,2
плавность (стандартная ошибка):0,0020,031
компактность (стандартная ошибка):0,0020,135
вогнутость (стандартная ошибка):0,00,396
вогнутые точки (стандартная ошибка):0,00,053
симметрия (стандартная ошибка):0,0080,079
фрактальная размерность (стандартная ошибка):0,0010,03
радиус (худший):7,9336,04
текстура (худшая):12.0249,54
периметр (худший):50,41251,2
площадь (худшая):185,24254,0
гладкость (худшая):0,0710,223
компактность (худшая):0,0271.058
вогнутость (худшая):0,01,252
вогнутые точки (худшие):0,00,291
симметрия (худшая):0,1560,664
фрактальная размерность (худшая):0,0550,208

Отсутствующие значения атрибутов: Нет

Распределение классов: 212 — злокачественный, 357 — доброкачественный

Создатель: Д-р Уильям Х. Вольберг, В. Ник Стрит, Ольви Л. Мангасарян

Спонсор: Ник Стрит

Дата: Ноябрь 1995 г.

Это копия наборов данных UCI ML Breast Cancer Wisconsin (Diagnostic). https://goo.gl/U2Uwz2

Характеристики вычисляются на основе оцифрованного изображения тонкоигольного аспирата (FNA) новообразования груди. Они описывают характеристики ядер клеток, представленных на изображении.

Разделительная плоскость, описанная выше, была получена с использованием многоповерхностного дерева методов (MSM-T) [Беннетт К.П., «Построение дерева решений с помощью линейного программирования». Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], метод классификации, который использует линейное программирование для построения дерева решений. Релевантные объекты были отобраны с помощью исчерпывающего поиска в пространстве из 1-4 объектов и 1-3 разделяющих плоскостей.

Фактическая линейная программа, используемая для получения разделяющей плоскости в трехмерном пространстве, описана в: [KP Bennett and OL Mangasarian: «Robust Linear Programming Discrimination of Two Linearly Inseparable Sets», Optimization Methods and Software 1, 1992, 23- 34].

Эта база данных также доступна через ftp-сервер UW CS:

ftp ftp.cs.wisc.edu cd math-prog / cpo-dataset / machine-learn / WDBC /

Рекомендации

  • WN Street, WH Wolberg и OL Mangasarian. Извлечение ядерных признаков для диагностики опухолей молочной железы. IS & T / SPIE 1993 Международный симпозиум по электронной визуализации: наука и технология, том 1905, страницы 861-870, Сан-Хосе, Калифорния, 1993.
  • О.Л. Мангасарян, WN Street и WH Wolberg. Диагностика и прогноз рака груди с помощью линейного программирования. Исследование операций, 43 (4), страницы 570-577, июль-август 1995.
  • WH Wolberg, WN Street, и OL Mangasarian. Методы машинного обучения для диагностики рака груди с помощью тонкоигольного аспирата. Письма о раке 77 (1994) 163-171.