Содержание¶
- 1. Обучение с учителем
- 1.1. Линейные модели
- 1.1.1. Метод наименьших квадратов (Ordinary Least Squares, OLS) МНК
- 1.1.2. Ридж регрессия и классификация
- 1.1.3. Лассо (Lasso)
- 1.1.4. Мультизадачное Лассо (Multi-task Lasso)
- 1.1.5. Эластичная сеть (Elastic-net)
- 1.1.6. Мультизадачная Эластичная сеть
- 1.1.7. Регрессия наименьшего угла
- 1.1.8. LARS Лассо
- 1.1.9. Ортогональное соответствие (Orthogonal Matching Pursuit - OMP)
- 1.1.10. Байесовская регрессия
- 1.1.11. Логистическая регрессия
- 1.1.12. Обобщенные линейные модели (Generalized Linear Models - GLM)
- 1.1.13. Стохастический градиентный спуск (Stochastic Gradient Descent - SGD)
- 1.1.14. Персептрон
- 1.1.15. Пассивно-агрессивные алгоритмы
- 1.1.16. Регрессия устойчивости: выбросы и ошибки моделирования
- 1.1.17. Квантильная регрессия (Quantile Regression)
- 1.1.18. Полиномиальная регрессия: расширение линейных моделей базисными функциями
- 1.2. Линейный Дискриминантный Анализ и Квадратичный Дискриминантный Анализ
- 1.3. Ридж Регрессия ядра
- 1.4. Метод опорных векторов (Support Vector Machines - SVM)
- 1.5. Стохастический градиентный спуск
- 1.6. Ближайшие соседи (Nearest Neighbors)
- 1.6.1. Обучение без учителям с помощью метода ближайших соседей
- 1.6.2. Классификация на основе ближайших соседей
- 1.6.3. Регрессия на основе ближайших соседей
- 1.6.4. Алгоритмы ближайших соседей
- 1.6.5. Классификатор ближайшего центроида
- 1.6.6. Предварительно расчет с помощью ближайших соседей (Nearest Neighbors Transformer)
- 1.6.7. Анализ компонентов соседства (Neighborhood Components Analysis)
- 1.7. Гауссовские процессы
- 1.8. Перекрестная декомпозиция
- 1.9. Наивный байесовский классификатор
- 1.10. Деревья решений (Decision Trees)
- 1.10.1. Классификация
- 1.10.2. Регрессия
- 1.10.3. Проблемы с несколькими выходами
- 1.10.4. Сложность
- 1.10.5. Советы по практическому использованию
- 1.10.6. Древовидные алгоритмы: ID3, C4.5, C5.0 и CART
- 1.10.7. Математическая формулировка
- 1.10.8. Поддержка пропущенных значений
- 1.10.9. Обрезка с минимальной стоимостью и сложностью (Minimal cost-complexity pruning)
- 1.11. Ансамблевые методы: Градиентный бустинг, случайные леса, бэггинг, метод голосования, стекинг
- 1.11.1. Градиентный бустинг деревьев решений
- 1.11.2. Случайные леса (Random Forest) и другие случайные ансамбли деревьев
- 1.11.3. Бэггинг метамодель (Bagging meta-estimator)
- 1.11.4. Классификатор голосования
- 1.11.5. Регрессор голосования
- 1.11.6. Стекинг (Stacked generalization - Многоуровневое обобщение)
- 1.11.7. AdaBoost
- 1.12. Многоклассовый и многозадачный алгоритмы
- 1.13. Отбор признаков (Feature selection)
- 1.14. Полуконтролируемое обучение
- 1.15. Изотоническая регрессия
- 1.16. Калибровка вероятности
- 1.17. Модели нейронных сетей (контролируемые)
- 1.1. Линейные модели
- 2. Обучение без учителя
- 2.1. Модели гауссовских смесей (Gaussian mixture models)
- 2.2. Manifold learning
- 2.2.1. Введение
- 2.2.2. Isomap
- 2.2.3. Локально-линейные ембединги
- 2.2.4. Модифицированное Локально-линейные ембединги
- 2.2.5. Собственное отображение Гессиана
- 2.2.6. Спектральные ембединги
- 2.2.7. Локальное выравнивание касательного пространства (Local Tangent Space Alignment)
- 2.2.8. Многомерное масштабирование (Multi-dimensional Scaling - MDS)
- 2.2.9. Стохастическое вложение соседей с t-распределением (t-distributed Stochastic Neighbor Embedding - t-SNE)
- 2.2.10. Советы по практическому использованию
- 2.3. Кластеризация
- 2.3.1. Методы кластеризации (Aлгоритмы кластеризации)
- 2.3.2. K-means (K-средних)
- 2.3.3. Affinity propagation (AP, метод распространения близости)
- 2.3.4. Средний сдвиг (Mean Shift)
- 2.3.5. Спектральная кластеризация
- 2.3.6. Иерархическая кластеризация
- 2.3.7. DBSCAN
- 2.3.8. HDBSCAN
- 2.3.9. OPTICS
- 2.3.10. BIRCH
- 2.3.11. Оценка производительности кластеризации
- 2.4. Бинарная кластеризация
- 2.5. Декомпозиция сигналов на компоненты (Матричная факторизация)
- 2.5.1. Анализ главных компонент (Principal component analysis - PCA)
- 2.5.2. Ядерный анализ главных компонент (kPCA)
- 2.5.3. Усеченное разложение сингулярных значений и латентный семантический анализ (Latent Semantic Analysis - LSA)
- 2.5.4. Обучение на основе словоря
- 2.5.5. Факторный анализ
- 2.5.6. Независимый компонентный анализ (Independent component analysis - ICA)
- 2.5.7. Факторизация неотрицательных матриц (Non-negative matrix factorization - NMF или NNMF)
- 2.5.8. Латентное размещение Дирихле (Latent Dirichlet Allocation - LDA)
- 2.6. Оценка ковариации
- 2.7. Обнаружение новизны и выбросов
- 2.8. Оценка плотности
- 2.9. Модели нейронных сетей (без контроля)
- 3. Модели отбора признаков и оценки
- 4. Инспектирование
- 5. Визуализация
- 6. Преобразования наборов данных
- 6.1. Конвейеры и составные моделеи
- 6.2. Извлечение признаков
- 6.3. Предварительная обработка данных
- 6.3.1. Стандартизация, или удаление среднего и масштабирование дисперсии
- 6.3.2. Нелинейное преобразование
- 6.3.3. Нормализация
- 6.3.4. Кодирование категориальных признаков
- 6.3.5. Дискретизация
- 6.3.6. Восстановление пропущенных значений
- 6.3.7. Генерация полиномиальных признаков
- 6.3.8. Кастомные Трансформаторы
- 6.4. Восстановление пропущенных значений
- 6.4.1. Одномерное и многомерное восстановление
- 6.4.2. Одномерное восстановление признаков
- 6.4.3. Многомерное восстановление признаков
- 6.4.4. Восстановление ближайших соседей
- 6.4.5. Поддержание постоянного количества признаков
- 6.4.6. Маркировка восстановленных значений
- 6.4.7. Модели, обрабатывающие значения NaN
- 6.5. Неконтролируемое снижение размерности
- 6.6. Случайная проекция
- 6.7. Аппроксимация ядра (Kernel Approximation)
- 6.8. Парные метрики, Cходство и Ядра
- 6.9. Преобразование цели прогнозирования (
y
)
- 7. Утилиты загрузки наборов данных
- 8. Вычисления с помощью scikit-learn
- 9. Сохранение модели
- 10. Общие подводные камни и рекомендуемые практики
- 11. Диспетчеризация