ITERATIVE SELF-LEARNING METHODS FOR SOLVING NONLINEAR EQUATIONS

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription or Fee Access

Abstract

Рассматривается задача решения системы нелинейных уравнений с произвольной, но непрерывной вектор-функцией в левой части, о которой можно иметь только значения ее компонент. Для определения приближенного решения используется какой-нибудь итерационный метод с параметрами, качественные свойства которого оцениваются квадратичным функционалом невязки. Предлагается самообучающаяся процедура (подкрепления), основанная на вспомогательных МК-испытаниях, на функции полезности экспоненциального класса и функции выигрыша, реализующей принцип оптимальности Беллмана. Доказана теорема о строгом монотонном убывании функционала невязки.

About the authors

Y. S Popkov

Федеральный исследовательский центр «Информатика и управление» РАН; Институт проблем управления им. В.А. Трапезникова РАН

Email: popkov@isa.ru
д-р техн. наук Москва; Москва

References

  1. Красносельский М.А., Вайникко Г.М., Забрейко П.П. и др. Приближенные решения операторных уравнений. М.: Наука, 1969.
  2. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Бином, 2003.
  3. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
  4. Стрекаловский А.С. Элементы невыпуклой оптимизации. Новосибирск, Наука, 2003.
  5. Lyle C., Rowland M, Dabney W., Kwiatkowska M, Gal Y. Learning dynamics and generalization in deep reinforcement learning // Int. Conf. on Machin. Learning. PMLR. 2022. P. 14560-14581.
  6. Che Wang, Shushan Yaun, Keit W. Ross. On the Convergence of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning. ICLR. 2022.
  7. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1992.
  8. Kohonen T. Self-organizing Maps. Springer Berlin, Heidelberg, 1995.
  9. Mnih V., Kavukcuoglu K, Silver D., Rusu A.A., Veness J., Bellemare M.G., Graves A., Riedmiller M, FIdjeland A. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. No. 7540. P. 529-533.
  10. Sutton R.S., Barto A.G. Introduction to reinforcement Learning. Cambridge, MIT press, 1998.
  11. Russel S.J., Norvig P. Artificial Intelligemce: A Modern Approach (Third Ed.) Prentice Hall, Upper Saddle River, 2010.
  12. van Hasselt H. Reinforcement Learning in Continuous State and Action Spaces. In: Wiering M., van Otterio M.(eds.) Reinforcement Learning: State-of-the-Art, 2012. Springer Sciences & Business Media, P. 207-257.
  13. Ivanov S. Reinforcement Learning Textbook // ArXiv, 2022. https://doi.org/10.48550/arXiv.2201.09746
  14. Bozinovski S. Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem. In: Dobnikar A., Steele N.C., Pearson D.W., Albrecht R.F. (eds.) Artificial Neural Nets and Genetic Algorithms // Proc. Int. Conf. Portoroz, Slovenia, Springer Science & Business Media, 1999, P. 320-325.
  15. Watkins C., Dayan P. Q-learning // Machine Learning. 1992. Vol. 8. No. 3-4. P. 279-292.
  16. van Hasselt H., Guez A., Silver D. Deep reinforcement learning with double Q-learn-ing//Proc. AAAI Conf. Artificial Intelligence. 2016. Vol. 30. No. 1. P. 2094-2100.
  17. Bellman R. Dynamic Programming. Princeton University Press, 1957.
  18. Robbins H., Monro S. A stochastic approximation method // The Annals of Mathematical Statistics. 1951. P. 400-407.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2024 The Russian Academy of Sciences