Алгоритм Франк — Вульфа

Алгоритм Франк — Вульфа^[1] — это итеративный алгоритм оптимизации первого порядка^[англ.] для выпуклой оптимизации с ограничениями^[англ.]. Алгоритм известен также как метод условного градиента^[2], метод приведённого градиента и алгоритм выпуклых комбинаций. Метод первоначально предложили Маргарита Франк^[англ.] и Филип Вульф^[англ.] в 1956^[3]. На каждой итерации алгоритм Франк — Вульфа рассматривает линейное приближение целевой функции и движется в направлении минимизации этой линейной функции (на том же множестве допустимых решений).

Формулировка задачи[править | править код]

Предположим, что ${\mathcal {D}}$ является компактным выпуклым множеством в векторном пространстве, а $f\colon {\mathcal {D}}\to \mathbb {R}$ является выпуклой, дифференцируемой вещественнозначной функцией. Алгоритм Франк — Вульфа решает задачу оптимизации

Минимизировать

f(\mathbf {x} )

при условии

\mathbf {x} \in {\mathcal {D}}

.

Алгоритм[править | править код]

Инициализация: Пусть

k\leftarrow 0

и пусть

\mathbf {x} _{0}\!

будет точкой в

{\mathcal {D}}

.

Шаг 1. Подзадача поиска направления: Находим

\mathbf {s} _{k}

, решающее задачу

Минимизировать

\mathbf {s} ^{T}\nabla f(\mathbf {x} _{k})

при условиях

\mathbf {s} \in {\mathcal {D}}

(Интерпретация: Минимизируем линейное приближение задачи, полученное аппроксимацией Тейлора первого порядка функции $f$ около $\mathbf {x} _{k}\!$ .)

Шаг 2. Определение размера шага: Положим

\gamma \leftarrow {\frac {2}{k+2}}

, или, альтернативно, находим

\gamma

, минимизирующее

f(\mathbf {x} _{k}+\gamma (\mathbf {s} _{k}-\mathbf {x} _{k}))

при условии

0\leqslant \gamma \leqslant 1

.

Шаг 3. Пересчёт: Положим

\mathbf {x} _{k+1}\leftarrow \mathbf {x} _{k}+\gamma (\mathbf {s} _{k}-\mathbf {x} _{k})

,

k\leftarrow k+1

и переходим к шагу 1.

Свойства[править | править код]

В то время как конкурирующие методы, такие как градиентный спуск для оптимизации с ограничениями, требуют на каждой итерации шага проецирования в множество допустимых значений, для алгоритма Франк — Вульфа нужно на каждой итерации лишь решить задачу линейного программирования на том же самом множестве, так что решение всегда остаётся принадлежащим множеству допустимых решений.

Сходимость алгоритма Франк — Вульфа в общем случае сублинейна — ошибка целевой функции по отношению к оптимальному значению равна $O(1/k)$ после k итераций при условии, что градиент непрерывен по Липшицу по некоторой норме. Та же самая сходимость может быть показана, если подзадачи решаются лишь приближённо^[4].

Итерации алгоритма могут быт всегда представлены как неплотная выпуклая комбинация экстремальных точек множества допустимых решений, что помогло популярности алгоритма для задач разрежённой жадной оптимизации в машинном обучении и обработки сигналов^[5], а также для нахождения потоков минимальной стоимости в транспортных сетях^[6].

Если множество допустимых решений задаётся набором линейных неравенств, то подзадача, решаемая на каждой итерации, становится задачей линейного программирования.

Хотя скорость сходимости в худшем случае $O(1/k)$ для общего случая не может быть улучшена, более высокая скорость сходимости может быть получена для специальных задач, таких как строго выпуклые задачи^[7].

Нижние границы на значение решения и прямо-двойственный анализ[править | править код]

Поскольку функция $f$ выпукла, для любых двух точек $\mathbf {x} ,\mathbf {y} \in {\mathcal {D}}$ имеем:

f(\mathbf {y} )\geqslant f(\mathbf {x} )+(\mathbf {y} -\mathbf {x} )^{T}\nabla f(\mathbf {x} )

Это выполняется также для (неизвестного) оптимального решения $\mathbf {x} ^{*}$ . То есть $f(\mathbf {x} ^{*})\geqslant f(\mathbf {x} )+(\mathbf {x} ^{*}-\mathbf {x} )^{T}\nabla f(\mathbf {x} )$ . Лучшая нижняя граница с учётом точки $\mathbf {x}$ задаётся формулой

{\begin{aligned}f(\mathbf {x} ^{*})&\geqslant f(\mathbf {x} )+(\mathbf {x} ^{*}-\mathbf {x} )^{T}\nabla f(\mathbf {x} )\\&\geqslant \min _{\mathbf {y} \in D}\left\{f(\mathbf {x} )+(\mathbf {y} -\mathbf {x} )^{T}\nabla f(\mathbf {x} )\right\}\\&=f(\mathbf {x} )-\mathbf {x} ^{T}\nabla f(\mathbf {x} )+\min _{\mathbf {y} \in D}\mathbf {y} ^{T}\nabla f(\mathbf {x} )\end{aligned}}

Эта последняя задача решается на каждой итерации алгоритма Франк — Вульфа, поэтому решение $\mathbf {s} _{k}$ подзадачи нахождения направления на $k$ -й итерации может быть использовано для определения возрастающих нижних границ $l_{k}$ на каждой итерации путём присвоения $l_{0}=-\infty$ и

l_{k}:=\max(l_{k-1},f(\mathbf {x} _{k})+(\mathbf {s} _{k}-\mathbf {x} _{k})^{T}\nabla f(\mathbf {x} _{k}))

Такие нижние границы на неизвестное оптимальное значение на практике очень важны, поскольку могут быть использованы как критерий остановки алгоритма и дают эффективный показатель качества приближения на каждой итерации, поскольку всегда $l_{k}\leqslant f(\mathbf {x} ^{*})\leqslant f(\mathbf {x} _{k})$ .

Было показано, что разрыв двойственности, являющийся разницей между $f(\mathbf {x} _{k})$ и нижней границей $l_{k}$ , уменьшается с той же скоростью, то есть $f(\mathbf {x} _{k})-l_{k}=O(1/k).$

Примечания[править | править код]

↑ Алгоритм разработали Маргарита Франк и Филип Вульф, так что широко распространённое в русской литературе название Алгоритм Франка — Вульфа является ошибочным.
↑ Левитин, Поляк, 1966, с. 787-823.
↑ Frank, Wolfe, 1956, с. 95–110.
↑ Dunn, Harshbarger, 1978, с. 432.
↑ Clarkson, 2010, с. 1–30.
↑ Fukushima, 1984, с. 169–177.
↑ Bertsekas, 1999, с. 215.

Литература[править | править код]

Левитин Е.С., Поляк Б.Т. Методы минимизации при наличии ограничений // Ж. вычисл. матем. и матем. физ.. — 1966. — Т. 6, вып. 5. — doi:10.1016/0041-5553(66)90114-5.
Frank M., Wolfe P. An algorithm for quadratic programming // Naval Research Logistics Quarterly. — 1956. — Т. 3, вып. 1–2. — С. 95–110. — doi:10.1002/nav.3800030109.
Dunn J. C., Harshbarger S. Conditional gradient algorithms with open loop step size rules // Journal of Mathematical Analysis and Applications. — 1978. — Т. 62, вып. 2. — С. 432. — doi:10.1016/0022-247X(78)90137-3.
Clarkson K. L. Coresets, sparse greedy approximation, and the Frank-Wolfe algorithm // ACM Transactions on Algorithms. — 2010. — Т. 6, вып. 4. — С. 1–30. — doi:10.1145/1824777.1824783.
A modified Frank-Wolfe algorithm for solving the traffic assignment problem // Transportation Research Part B: Methodological. — 1984. — Т. 18, вып. 2. — doi:10.1016/0191-2615(84)90029-8.
Dimitri Bertsekas. Nonlinear Programming. — Athena Scientific, 1999. — С. 215. — ISBN 978-1-886529-00-7.
Martin Jaggi. Revisiting Frank–Wolfe: Projection-Free Sparse Convex Optimization // Journal of Machine Learning Research: Workshop and Conference Proceedings. — 2013. — Т. 28, вып. 1. — С. 427–435. (Обзорная статья)
Описание алгоритма Франк – Вульфа
Jorge Nocedal, Stephen J. Wright. Numerical Optimization. — 2nd. — Berlin, New York: Springer-Verlag, 2006. — ISBN 978-0-387-30303-1.
Fukushima, M. (1984). "A modified Frank-Wolfe algorithm for solving the traffic assignment problem". Transportation Research Part B: Methodological. 18 (2): 169—177. doi:10.1016/0191-2615(84)90029-8.

Ссылка[править | править код]

Marguerite Frank giving a personal account of the history of the algorithm

См. также[править | править код]

Метод проксимального градиента

[1] Алгоритм разработали Маргарита Франк и Филип Вульф, так что широко распространённое в русской литературе название Алгоритм Франка — Вульфа является ошибочным.

[_0f7e83bef3c74047-2] Левитин, Поляк, 1966, с. 787-823.

[_d295844f0444b2b2-3] Frank, Wolfe, 1956, с. 95–110.

[_632e0398b7643b27-4] Dunn, Harshbarger, 1978, с. 432.

[_89dfceea02784e5c-5] Clarkson, 2010, с. 1–30.

[_33582b92fbadc820-6] Fukushima, 1984, с. 169–177.

[_94876afc409c7561-7] Bertsekas, 1999, с. 215.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Методы оптимизации
Одномерные	Метод золотого сечения Дихотомия Метод парабол Перебор по сетке Метод равномерного блочного поиска Метод Фибоначчи Троичный поиск Метод Пиявского Метод Стронгина
Нулевого порядка	Метод Гаусса Метод Нелдера — Мида Метод Хука — Дживса Метод Розенброка Метод Пауэлла
Первого порядка	Градиентный спуск Метод Зойтендейка Покоординатный спуск Метод сопряжённых градиентов Квазиньютоновские методы Алгоритм Левенберга — Марквардта Риманова оптимизация
Второго порядка	Метод Ньютона Метод Ньютона — Рафсона Алгоритм Бройдена — Флетчера — Гольдфарба — Шанно (BFGS)
Стохастические	Метод Монте-Карло Имитация отжига Эволюционные алгоритмы Дифференциальная эволюция Муравьиный алгоритм Метод роя частиц Алгоритм пчелиной колонии Метод случайных блужданий
Методы линейного программирования	Симплекс-метод Алгоритм Гомори Метод эллипсоидов Метод потенциалов
Методы нелинейного программирования	Последовательное квадратичное программирование

Алгоритм Франк — Вульфа

Содержание

Формулировка задачи[править | править код]

Алгоритм[править | править код]

Свойства[править | править код]

Нижние границы на значение решения и прямо-двойственный анализ[править | править код]

Примечания[править | править код]

Литература[править | править код]

Ссылка[править | править код]

См. также[править | править код]

Навигация

Алгоритм Франк — Вульфа

Формулировка задачи[править | править код]

Алгоритм[править | править код]

Свойства[править | править код]

Нижние границы на значение решения и прямо-двойственный анализ[править | править код]

Примечания[править | править код]

Литература[править | править код]

Ссылка[править | править код]

См. также[править | править код]

Навигация

Поиск