ITERATIVE SELF-LEARNING METHODS FOR SOLVING NONLINEAR EQUATIONS

Capa

Citar

Texto integral

Acesso aberto Acesso aberto
Acesso é fechado Acesso está concedido
Acesso é fechado Acesso é pago ou somente para assinantes

Resumo

Рассматривается задача решения системы нелинейных уравнений с произвольной, но непрерывной вектор-функцией в левой части, о которой можно иметь только значения ее компонент. Для определения приближенного решения используется какой-нибудь итерационный метод с параметрами, качественные свойства которого оцениваются квадратичным функционалом невязки. Предлагается самообучающаяся процедура (подкрепления), основанная на вспомогательных МК-испытаниях, на функции полезности экспоненциального класса и функции выигрыша, реализующей принцип оптимальности Беллмана. Доказана теорема о строгом монотонном убывании функционала невязки.

Sobre autores

Y. Popkov

Федеральный исследовательский центр «Информатика и управление» РАН; Институт проблем управления им. В.А. Трапезникова РАН

Email: popkov@isa.ru
д-р техн. наук Москва; Москва

Bibliografia

  1. Красносельский М.А., Вайникко Г.М., Забрейко П.П. и др. Приближенные решения операторных уравнений. М.: Наука, 1969.
  2. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Бином, 2003.
  3. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
  4. Стрекаловский А.С. Элементы невыпуклой оптимизации. Новосибирск, Наука, 2003.
  5. Lyle C., Rowland M, Dabney W., Kwiatkowska M, Gal Y. Learning dynamics and generalization in deep reinforcement learning // Int. Conf. on Machin. Learning. PMLR. 2022. P. 14560-14581.
  6. Che Wang, Shushan Yaun, Keit W. Ross. On the Convergence of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning. ICLR. 2022.
  7. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1992.
  8. Kohonen T. Self-organizing Maps. Springer Berlin, Heidelberg, 1995.
  9. Mnih V., Kavukcuoglu K, Silver D., Rusu A.A., Veness J., Bellemare M.G., Graves A., Riedmiller M, FIdjeland A. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. No. 7540. P. 529-533.
  10. Sutton R.S., Barto A.G. Introduction to reinforcement Learning. Cambridge, MIT press, 1998.
  11. Russel S.J., Norvig P. Artificial Intelligemce: A Modern Approach (Third Ed.) Prentice Hall, Upper Saddle River, 2010.
  12. van Hasselt H. Reinforcement Learning in Continuous State and Action Spaces. In: Wiering M., van Otterio M.(eds.) Reinforcement Learning: State-of-the-Art, 2012. Springer Sciences & Business Media, P. 207-257.
  13. Ivanov S. Reinforcement Learning Textbook // ArXiv, 2022. https://doi.org/10.48550/arXiv.2201.09746
  14. Bozinovski S. Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem. In: Dobnikar A., Steele N.C., Pearson D.W., Albrecht R.F. (eds.) Artificial Neural Nets and Genetic Algorithms // Proc. Int. Conf. Portoroz, Slovenia, Springer Science & Business Media, 1999, P. 320-325.
  15. Watkins C., Dayan P. Q-learning // Machine Learning. 1992. Vol. 8. No. 3-4. P. 279-292.
  16. van Hasselt H., Guez A., Silver D. Deep reinforcement learning with double Q-learn-ing//Proc. AAAI Conf. Artificial Intelligence. 2016. Vol. 30. No. 1. P. 2094-2100.
  17. Bellman R. Dynamic Programming. Princeton University Press, 1957.
  18. Robbins H., Monro S. A stochastic approximation method // The Annals of Mathematical Statistics. 1951. P. 400-407.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML

Declaração de direitos autorais © The Russian Academy of Sciences, 2024