1.3. Регрессия гребня ядра ¶
Регрессия гребня ядра (KRR) [M2012] сочетает в себе регрессию и классификацию Риджа (линейный метод наименьших квадратов с регуляризацией по l2-норме) с уловкой ядра . Таким образом, он изучает линейную функцию в пространстве, индуцированную соответствующим ядром и данными. Для нелинейных ядер это соответствует нелинейной функции в исходном пространстве.
Форма модели, которую изучил, KernelRidge
идентична форме поддержки векторной регрессии (SVR
). Однако используются другие функции потерь: KRR использует квадратичную потерю ошибок, в то время как опорная векторная регрессия используетϵ-нечувствительные потери в сочетании с регуляризацией l2. В отличие от этого SVR
, подгонка KernelRidge
может выполняться в закрытой форме и обычно быстрее для наборов данных среднего размера. С другой стороны, изученная модель не является разреженной и, следовательно, медленнее, чем SVR
, которая изучает разреженную модель для $\epsilon > 0$, во время предсказания.
На приведенном ниже рисунке сравнивается , KernelRidge
и SVR
на искусственный наборе данных, который состоит из добавленной к каждым пятым синусоидальной точке данных целевой функции и сильного шума. Построена изученная модель KernelRidge
и SVR
, где как сложность / регуляризация, так и полоса пропускания ядра RBF были оптимизированы с помощью поиска по сетке. Изученные функции очень похожи; однако подгонка KernelRidge
примерно в семь раз быстрее подбора SVR
(и то, и другое с поиском по сетке). Однако прогнозирование 100000 целевых значений более чем в три раза быстрее, SVR
поскольку он изучил разреженную модель, используя только примерно 1/3 из 100 обучающих точек данных в качестве опорных векторов.

На следующем рисунке сравнивает время для подгонки и прогнозирования KernelRidge
и SVR
для различных размеров обучающего набора. Подгонка KernelRidge
выполняется быстрее, чем SVR
для обучающих выборок среднего размера (менее 1000 образцов); однако для больших тренировочных наборов SVR
масштабирование лучше. Что касается времени прогнозирования, SVR
это быстрее, чем KernelRidge
для всех размеров обучающей выборки, из-за изученного разреженного решения. Обратите внимание, что степень разреженности и, следовательно, время прогноза зависят от параметровϵ а также $C$ из SVR
; $\epsilon = 0$ соответствует плотной модели.

Рекомендации:
M2012 «Машинное обучение: вероятностная перспектива» Мерфи, К.П. — глава 14.4.3, стр. 492-493, MIT Press, 2012