ITERATIVE SELF-LEARNING METHODS FOR SOLVING NONLINEAR EQUATIONS
- Authors: Popkov Y.S1,2
-
Affiliations:
- Федеральный исследовательский центр «Информатика и управление» РАН
- Институт проблем управления им. В.А. Трапезникова РАН
- Issue: No 5 (2024)
- Pages: 129-135
- Section: Topical issue
- URL: https://ter-arkhiv.ru/0005-2310/article/view/646942
- DOI: https://doi.org/10.31857/S0005231024050058
- EDN: https://elibrary.ru/YQBWNO
- ID: 646942
Cite item
Abstract
Рассматривается задача решения системы нелинейных уравнений с произвольной, но непрерывной вектор-функцией в левой части, о которой можно иметь только значения ее компонент. Для определения приближенного решения используется какой-нибудь итерационный метод с параметрами, качественные свойства которого оцениваются квадратичным функционалом невязки. Предлагается самообучающаяся процедура (подкрепления), основанная на вспомогательных МК-испытаниях, на функции полезности экспоненциального класса и функции выигрыша, реализующей принцип оптимальности Беллмана. Доказана теорема о строгом монотонном убывании функционала невязки.
About the authors
Y. S Popkov
Федеральный исследовательский центр «Информатика и управление» РАН; Институт проблем управления им. В.А. Трапезникова РАН
Email: popkov@isa.ru
д-р техн. наук Москва; Москва
References
- Красносельский М.А., Вайникко Г.М., Забрейко П.П. и др. Приближенные решения операторных уравнений. М.: Наука, 1969.
- Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Бином, 2003.
- Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
- Стрекаловский А.С. Элементы невыпуклой оптимизации. Новосибирск, Наука, 2003.
- Lyle C., Rowland M, Dabney W., Kwiatkowska M, Gal Y. Learning dynamics and generalization in deep reinforcement learning // Int. Conf. on Machin. Learning. PMLR. 2022. P. 14560-14581.
- Che Wang, Shushan Yaun, Keit W. Ross. On the Convergence of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning. ICLR. 2022.
- Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1992.
- Kohonen T. Self-organizing Maps. Springer Berlin, Heidelberg, 1995.
- Mnih V., Kavukcuoglu K, Silver D., Rusu A.A., Veness J., Bellemare M.G., Graves A., Riedmiller M, FIdjeland A. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. No. 7540. P. 529-533.
- Sutton R.S., Barto A.G. Introduction to reinforcement Learning. Cambridge, MIT press, 1998.
- Russel S.J., Norvig P. Artificial Intelligemce: A Modern Approach (Third Ed.) Prentice Hall, Upper Saddle River, 2010.
- van Hasselt H. Reinforcement Learning in Continuous State and Action Spaces. In: Wiering M., van Otterio M.(eds.) Reinforcement Learning: State-of-the-Art, 2012. Springer Sciences & Business Media, P. 207-257.
- Ivanov S. Reinforcement Learning Textbook // ArXiv, 2022. https://doi.org/10.48550/arXiv.2201.09746
- Bozinovski S. Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem. In: Dobnikar A., Steele N.C., Pearson D.W., Albrecht R.F. (eds.) Artificial Neural Nets and Genetic Algorithms // Proc. Int. Conf. Portoroz, Slovenia, Springer Science & Business Media, 1999, P. 320-325.
- Watkins C., Dayan P. Q-learning // Machine Learning. 1992. Vol. 8. No. 3-4. P. 279-292.
- van Hasselt H., Guez A., Silver D. Deep reinforcement learning with double Q-learn-ing//Proc. AAAI Conf. Artificial Intelligence. 2016. Vol. 30. No. 1. P. 2094-2100.
- Bellman R. Dynamic Programming. Princeton University Press, 1957.
- Robbins H., Monro S. A stochastic approximation method // The Annals of Mathematical Statistics. 1951. P. 400-407.
Supplementary files
