6.1.1. Выбор длины шага при градиентном спуске.

Обучение ИНС

<РАНЕЕ> <HOME>

6.1.1. Выбор длины шага при градиентном спуске.

Градиентные методы предполагают движение по поверхности (в нашем сдучае - по поверхности ошибок) в сторону минимума (или максимума) некой целевой функции в пространстве признаков, собственно, и образующей исследуемую поверхность. Нахождения локального экстремума (минимума или максимума) функции с помощью движения вдоль градиента и является сутью градиентных методов.

Является одним из простейших методов многомерной оптимизации, сводящих её к одномерной. Движение в пространстве признаков напоминает скатывание шарика по оверхности ошибок, особенно – если учитываются моменты инерционности движения. Ищется не наилучшая точка в направлении градиента («наклона»), а просто какая-нибудь лучше текущей. Грозит локальными минимумами, но весьма быстр.

Тем не менее, для одного шага оптимизации по методу градиентного спуска, нужно перебрать все обучающие данные, рассчитать сигналы всех нейронов, их ошибку и коррекцию коэффициентов сети. Очевидно, что при большом наборе обучающих данных алгоритм будет работать крайне медленно.

Метод градиентного спуска является предшественником метода обратного распространения ошибки

Метод градиентного спуска является одним из самых распространенных и самых простых методов решения задачи безусловной оптимизации. Он основан на свойстве градиента функции, согласно которому направление градиента совпадает с направлением наискорейшего возрастания функции, а направление антиградиента – с направлением наискорейшего убывания функции. При решении задачи безусловной минимизации за направление спуска из точки x(m) выбирается антиградинт:

p(m) = –g(x(m)) = –f '(x(m)).

Таким образом, итерационная процедура для этого метода имеет вид

x(m+1) = x(m) – a(m)g(x(m)) (*)

Для выбра шага a(m) можно использовать процедуру дробления шага, которая состоит в следующем. Произвольно фиксируют начальное значение шага a(m) = a(m – 1) = a. Если в точке x(m+1), вычисленной в соответствии с (*), выполняется неравенство

f(x(m+1)) > f(x(m)),

то шаг дробится, например, пополам, т.е. полагается a(m +1) = 0.5a(m).

<ДАЛЕЕ>

Вход на сайт

Поиск

Календарь

Друзья сайта

Мой сайт

6.1.1. Выбор длины шага при градиентном спуске.

6.1.1. Выбор длины шага при градиентном спуске.