ИТЕРАЦИОННЫЕ МЕТОДЫ С САМООБУЧЕНИЕМ ДЛЯ РЕШЕНИЯ НЕЛИНЕЙНЫХ УРАВНЕНИЙ

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

Рассматривается задача решения системы нелинейных уравнений с произвольной, но непрерывной вектор-функцией в левой части, о которой можно иметь только значения ее компонент. Для определения приближенного решения используется какой-нибудь итерационный метод с параметрами, качественные свойства которого оцениваются квадратичным функционалом невязки. Предлагается самообучающаяся процедура (подкрепления), основанная на вспомогательных МК-испытаниях, на функции полезности экспоненциального класса и функции выигрыша, реализующей принцип оптимальности Беллмана. Доказана теорема о строгом монотонном убывании функционала невязки.

Об авторах

Ю. С ПОПКОВ

Федеральный исследовательский центр «Информатика и управление» РАН; Институт проблем управления им. В.А. Трапезникова РАН

Email: popkov@isa.ru
д-р техн. наук Москва; Москва

Список литературы

  1. Красносельский М.А., Вайникко Г.М., Забрейко П.П. и др. Приближенные решения операторных уравнений. М.: Наука, 1969.
  2. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Бином, 2003.
  3. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
  4. Стрекаловский А.С. Элементы невыпуклой оптимизации. Новосибирск, Наука, 2003.
  5. Lyle C., Rowland M, Dabney W., Kwiatkowska M, Gal Y. Learning dynamics and generalization in deep reinforcement learning // Int. Conf. on Machin. Learning. PMLR. 2022. P. 14560-14581.
  6. Che Wang, Shushan Yaun, Keit W. Ross. On the Convergence of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning. ICLR. 2022.
  7. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1992.
  8. Kohonen T. Self-organizing Maps. Springer Berlin, Heidelberg, 1995.
  9. Mnih V., Kavukcuoglu K, Silver D., Rusu A.A., Veness J., Bellemare M.G., Graves A., Riedmiller M, FIdjeland A. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. No. 7540. P. 529-533.
  10. Sutton R.S., Barto A.G. Introduction to reinforcement Learning. Cambridge, MIT press, 1998.
  11. Russel S.J., Norvig P. Artificial Intelligemce: A Modern Approach (Third Ed.) Prentice Hall, Upper Saddle River, 2010.
  12. van Hasselt H. Reinforcement Learning in Continuous State and Action Spaces. In: Wiering M., van Otterio M.(eds.) Reinforcement Learning: State-of-the-Art, 2012. Springer Sciences & Business Media, P. 207-257.
  13. Ivanov S. Reinforcement Learning Textbook // ArXiv, 2022. https://doi.org/10.48550/arXiv.2201.09746
  14. Bozinovski S. Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem. In: Dobnikar A., Steele N.C., Pearson D.W., Albrecht R.F. (eds.) Artificial Neural Nets and Genetic Algorithms // Proc. Int. Conf. Portoroz, Slovenia, Springer Science & Business Media, 1999, P. 320-325.
  15. Watkins C., Dayan P. Q-learning // Machine Learning. 1992. Vol. 8. No. 3-4. P. 279-292.
  16. van Hasselt H., Guez A., Silver D. Deep reinforcement learning with double Q-learn-ing//Proc. AAAI Conf. Artificial Intelligence. 2016. Vol. 30. No. 1. P. 2094-2100.
  17. Bellman R. Dynamic Programming. Princeton University Press, 1957.
  18. Robbins H., Monro S. A stochastic approximation method // The Annals of Mathematical Statistics. 1951. P. 400-407.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2024