2.9. Модели нейронных сетей (без учителя)

2.9.1. Ограниченные машины Больцмана

Машины Больцмана с ограничениями (RBM) — это нелинейные обучающие функции без учителя, основанные на вероятностной модели. Признаки, извлеченные с помощью RBM или иерархии RBM, часто дают хорошие результаты при подаче в линейный классификатор, такой как линейный SVM или перцептрон.

Модель делает предположения относительно распределения входов. На данный момент scikit-learn предоставляет только данные BernoulliRBM, предполагающие, что входными данными являются либо двоичные значения, либо значения от 0 до 1, каждое из которых кодирует вероятность того, что конкретная функция будет включена.

RBM пытается максимизировать вероятность получения данных с помощью конкретной графической модели. Используемый алгоритм обучения параметрам ( стохастический максимум правдоподобия ) предотвращает отклонение представлений от входных данных, что заставляет их фиксировать интересные закономерности, но делает модель менее полезной для небольших наборов данных и, как правило, бесполезной для оценки плотности.

Метод стал популярным для инициализации глубоких нейронных сетей с весами независимых RBM. Этот метод известен как предварительное обучение без учителя.

2.9.1.1. Графическая модель и параметризация

Графическая модель RBM — это полносвязный двудольный граф.

Узлы — это случайные величины, состояния которых зависят от состояния других узлов, к которым они подключены. Таким образом, модель параметризуется весами соединений, а также одним членом перехвата (смещения) для каждой видимой и скрытой единицы, опущенной на изображении для простоты.

Энергетическая функция измеряет качество совместного задания:
$$E(\mathbf{v}, \mathbf{h}) = -\sum_i \sum_j w_{ij}v_ih_j — \sum_i b_iv_i\sum_j c_jh_j$$

В приведенной выше формуле $b$ а также $c$- векторы пересечения для видимого и скрытого слоев соответственно. Совместная вероятность модели определяется в единицах энергии:
$$P(\mathbf{v}, \mathbf{h}) = \frac{e^{-E(\mathbf{v}, \mathbf{h})}}{Z}$$

Слово «ограниченный» относится к двусоставной структуре модели, которая запрещает прямое взаимодействие между скрытыми элементами или между видимыми элементами. Это означает, что предполагаются следующие условные зависимости:
$$h_i \bot h_j | \mathbf{v}$$
$$v_i \bot v_j | \mathbf{h}$$

Двудольная структура позволяет использовать для вывода эффективную блочную выборку Гиббса.

2.9.1.2. Ограниченные машины Больцмана Бернулли

В системе BernoulliRBM все единицы являются стохастическими двоичными единицами. Это означает, что входные данные должны быть либо двоичными, либо иметь действительные значения от 0 до 1, что означает вероятность того, что видимый блок будет включаться или выключаться. Это хорошая модель для распознавания символов, когда интересует, какие пиксели активны, а какие нет. Для изображений естественных сцен он больше не подходит из-за фона, глубины и тенденции соседних пикселей принимать одинаковые значения.

Условное распределение вероятностей каждой единицы задается логистической функцией активации сигмовидной формы входных данных, которые она получает:
$$P(v_i=1|\mathbf{h}) = \sigma(\sum_j w_{ij}h_j + b_i)$$
$$P(h_i=1|\mathbf{v}) = \sigma(\sum_i w_{ij}v_i + c_j)$$

где $\sigma$ логистическая сигмовидная функция:
$$\sigma(x) = \frac{1}{1 + e^{-x}}$$

2.9.1.3. Стохастическое обучение с максимальным правдоподобием

Реализованный алгоритм обучения BernoulliRBM известен как стохастическая максимальная вероятность (SML) или стойкая контрастная дивергенция (PCD). Прямая оптимизация максимальной вероятности невозможна из-за формы вероятности данных:
$$\log P(v) = \log \sum_h e^{-E(v, h)} — \log \sum_{x, y} e^{-E(x, y)}$$

Для простоты приведенное выше уравнение написано для единственного обучающего примера. Градиент относительно весов состоит из двух членов, соответствующих указанным выше. Они обычно известны как положительный градиент и отрицательный градиент из-за их соответствующих знаков. В этой реализации градиенты оцениваются по мини-сериям образцов.

При максимизации логарифма правдоподобия положительный градиент заставляет модель отдавать предпочтение скрытым состояниям, которые совместимы с наблюдаемыми обучающими данными. Благодаря двудольной структуре RBM его можно эффективно вычислить. Однако отрицательный градиент трудно преодолеть. Его цель — снизить энергию совместных состояний, которые предпочитает модель, чтобы она оставалась верной данным. Он может быть аппроксимирован цепью Маркова Монте-Карло с использованием блочной выборки Гиббса путем итеративной выборки каждого из $v$ а также $h$ дан другой, пока цепь не смешается. Образцы, полученные таким образом, иногда называют фантастическими частицами. Это неэффективно, и сложно определить, смешивается ли цепь Маркова.

Метод Contrastive Divergence предлагает остановить цепочку после небольшого количества итераций, $k$, обычно даже 1. Этот метод быстр и имеет низкую дисперсию, но выборки далеки от модельного распределения.

Устойчивая контрастная дивергенция решает эту проблему. Вместо того, чтобы запускать новую цепочку каждый раз, когда требуется градиент, и выполнять только один шаг выборки Гиббса, в PCD мы сохраняем ряд цепочек (фантазийных частиц), которые обновляются $k$ Шаги Гиббса после каждого обновления веса. Это позволяет частицам более тщательно исследовать пространство.