Итак, сегодня мы продолжим обсуждать тему нейронных сетей на нашем сайте, и, как я и обещал в первой статье (ссылка), речь пойдет об обучении сетей. Тема эта очень важна, поскольку одним из основных свойств нейронных сетей является именно то, что она не только действует в соответствии с каким-то четко заданным алгоритмом, а еще и совершенствуется (обучается) на основе прошлого опыта. И в этой статье мы рассмотрим некоторые формы обучения нейронных сетей, а также несколько практических примеров.
Давайте для начала разберемся, в чем же вообще состоит цель обучения. А все просто – в корректировке весовых коэффициентов связей сети. Одним из самых типичных способов является управляемое обучение. Для его проведения нам необходимо иметь набор входных данных, а также соответствующие им выходные данные. Устанавливаем весовые коэффициенты равными некоторым малым величинам. А дальше процесс протекает следующим образом…
Мы подаем на вход сети данные, после чего сеть вычисляет выходное значение. Мы сравниваем это значение с имеющимся у нас (напоминаю, что для обучения используется готовый набор входных данных, для которых выходной сигнал известен) и в соответствии с разницей между этими значениями корректируем весовые коэффициенты нейронной сети. И эта операция повторяется по кругу много раз. В итоге мы получаем обученную сеть с новыми значениями весовых коэффициентов.
Вроде бы все понятно, кроме того, как именно и по какому алгоритму необходимо изменять значение каждого конкретного весового коэффициента. И в сегодняшней статье для коррекции весов в качестве наглядного примера мы рассмотрим правило Видроу-Хоффа, которое также называют дельта-правилом.
Дельта правило (правило Видроу-Хоффа).
Определим ошибку \delta:
Здесь у нас y_0 – это ожидаемый (истинный) вывод сети, а y – это реальный вывод (активность) выходного элемента. Помимо выходного элемента ошибки можно определить и для всех элементов скрытого слоя нейронной сети, об этом мы поговорим чуть позже.
Дельта-правило заключается в следующем – изменение величины весового коэффициента должно быть равно:
Где \eta – норма обучения. Это число мы сами задаем перед началом обучения. x_j – это сигнал, приходящий к элементу k от элемента j. А \delta_k – ошибка элемента k.
Таким образом, в процессе обучения нейронной сети на вход мы подаем образец за образцом, и в результате получаем новые значения весовых коэффициентов. Обычно обучение заканчивается, когда для всех вводимых образцов величина ошибки станет меньше определенной величины. После этого сеть подвергается тестированию при помощи новых данных, которые не участвовали в обучении. И по результатам этого тестирования уже можно сделать выводы, хорошо или нет справляется сеть со своими задачами.
С корректировкой весов все понятно, осталось определить, каким именно образом и по какому алгоритму будут происходить расчеты при обучении сети. Давайте рассмотрим обучение по алгоритму обратного распространения ошибки.
Алгоритм обратного распространения ошибки.
Этот алгоритм определяет два “потока” в сети. Входные сигналы двигаются в прямом направлении, в результате чего мы получаем выходной сигнал, из которого мы получаем значение ошибки. Величина ошибки двигается в обратном направлении, в результате происходит корректировка весовых коэффициентов связей сети. В конце статьи мы рассмотрим пример, наглядно демонстрирующий эти процессы.
Итак, для корректировки весовых значений мы будем использовать дельта-правило, которое мы уже обсудили. Вот только необходимо определить универсальное правило для вычисления ошибки каждого элемента сети после, собственно, прохождения через элемент (при обратном распространении ошибки).
Я, пожалуй, не буду приводить математические выводы и расчеты (несмотря на мою любовь к математике 🙂 ), чтобы не перегружать статью, ограничимся только итоговыми результатами:
Функция f(x) – это функция активности элемента. Давайте использовать логистическую функцию, для нее:
Подставляем в предыдущую формулу и получаем величину ошибки:
В этой формуле:
- \delta_j – ошибка элемента с индексом j
- k – индекс, соответствующий слою, который посылает ошибку “обратно”
- net_j – комбинированный ввод элемента
- f(net_j) – активность элемента
Наверняка сейчас еще все это кажется не совсем понятным, но не переживайте, при рассмотрении практического примера все встанет на свои места! Собственно, давайте к нему и перейдем.
Обучение нейронной сети, практический пример.
Перед обучением сети необходимо задать начальные значения весов – обычно они инициализируются небольшими по величине случайными значениями, к примеру из интервала (-0.5, 0.5). Но для нашего примера возьмем для удобства целые числа.
Рассмотрим нейронную сеть и вручную проведем расчеты для прямого и обратного “потоков” в сети.
На вход мы должны подать образец, пусть это будет (0.2, 0.5). Ожидаемый выход сети – 0.4. Норма обучения пусть будет равна 0.85. Давайте проведем все расчеты поэтапно. Кстати, совсем забыл, в качестве функции активности мы будем использовать логистическую функцию:
Итак, приступаем! Вычислим комбинированный ввод элементов 2, 3 и 4:
Активность этих элементов равна:
Комбинированный ввод пятого элемента:
Активность пятого элемента и в то же время вывод нейронной сети равен:
С прямым “потоком” разобрались, теперь перейдем к обратному “потоку”. Все расчеты будем производить в соответствии с формулами, которые мы уже обсудили. Итак, вычислим ошибку выходного элемента:
Тогда ошибки для элементов 2, 3 и 4 равны соответственно:
Здесь значения -0.014, -0.028 и -0.056 получаются в результате прохода ошибки выходного элемента -0.014 по взвешенным связям в направлении к элементам 2, 3 и 4 соответственно.
И, наконец-то, рассчитываем величину, на которую необходимо изменить значения весовых коэффициентов. Например, величина корректировки для связи между элементами 0 и 2 равна произведению величины сигнала, приходящего в элементу 2 от элемента 0, ошибки элемента 2 и нормы обучения (все по дельта-правилу, которое мы обсудили в начале статьи):
Аналогичным образом производим расчеты и для остальных элементов:
Теперь новые весовые коэффициенты будут равны сумме предыдущего значения и величины поправки.
На этом обратный проход по сети закончен, цель достигнута! Именно так и протекает процесс обучения нейронной сети по алгоритму обратного распространения ошибки. Мы рассмотрели этот процесс для одного набора данных, а чтобы получить полностью обученную сеть таких наборов должно быть, конечно же, намного больше, но алгоритм при этом остается неизменным, просто повторяется по кругу много раз для разных данных 🙂
По просьбе читателей блога я решил добавить краткий пример обучения сети с двумя скрытыми слоями:
Итак, добавляем в нашу сеть два новых элемента (X и Y), которые теперь будут выполнять роль входных. На вход также подаем образец (0.2, 0.5). Рассмотрим алгоритм в данном случае:
1. Прямой проход сети. Здесь все точно также как и для сети с одним скрытым слоем. Результатом будет значение f(net_5).
2. Вычисляем ошибку выходного элемента:
3. Теперь нам нужно вычислить ошибки элементов 2, 3 и 4:
4. Давайте рассчитаем величину корректировки весов связей:
В принципе, пункты 3 и 4 можно поменять местами, поскольку ошибки, рассчитанные на шаге 3 нам не потребовались для расчета величин корректировки весов.
5. Определяем ошибки элементов первого скрытого слоя (0 и 1):
Здесь отличие заключается в том, что нам нужно просуммировать ошибки элементов 2, 3 и 4, которые “возвращаются” к элементам 0 и 1, с учетом связей между элементами.
6. Корректируем веса связей:
Здесь снова величины, рассчитанные на шаге 5 не фигурируют, они нам понадобятся чуть позже, а именно на шаге 7.
7. Определяем величины корректировки оставшихся весов:
Поскольку элементы X и Y – входные, здесь мы используем значения 0.2 и 0.5, которые соответствуют подаваемому на вход образцу.
8. Собственно, на этом обратный проход завершен! 🙂
На этом сегодня мы закончим, до скорых встреч!