مهندسی مکانیک مدرس

مهندسی مکانیک مدرس

حل برخط معادله ی همیلتون-ژاکوبی-بلمن برای سیستم های غیرخطی با دینامیک داخلی نامعلوم با استفاده از شبکه ی عصبی

نویسندگان
1 دانشکده مکانیک، دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)
2 دانشیار دانشکده مهندسی مکانیک، دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)
3 دانشکده مهندسی مکانیک، دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)
چکیده
در این مقاله روشی برای حل برخط معادله ی همیلتون-ژاکوبی-بلمن به منظور طراحی کنترلر بهینه برای سیستم های غیرخطی زمان پیوسته ارائه شده است. دیدگاه اساسی در این روش استفاده از تجربیات برای تقویت کنترلر می باشد، که با عنوان یادگیری تقویتی معروف است. ابتدا بر اساس ساختار عملگر- ارزیاب و به صورت برخط با استفاده از دو شبکه ی عصبی مجزا، معادله ی همیلتون-ژاکوبی-بلمن به صورت تقریبی حل می شود. شبکه های عملگر و ارزیاب به ترتیب قانون کنترل بهینه و تابع ارزش بهینه را تخمین می زنند. سپس با استفاده از گرادیان نزولی این تخمین ها بهبود می یابند. از آنجاکه مدل کردن و تعیین مواردی چون اصطکاک و میرایی پیچیده و مشکل می باشد، از یک شبکه ی عصبی-مقاوم به منظور تخمین دینامیک داخلی سیستم استفاده شده است. به این ترتیب ساختار نهایی، عملگر- ارزیاب- شناساگر می باشد که با استفاده از آن بدون نیاز به دانستن دینامیک داخلی سیستم، معادله ی همیلتون-ژاکوبی-بلمن حل و کنترلر بهینه طراحی می شود. پایداری روش ارائه شده با استفاده از تابع لیاپانوف اثبات شده است. کارایی روش ارائه شده به صورت عملی برای سیستم خطی موتور DC و با شبیه سازی برای یک سیستم غیرخطی نشان داده شده است. نتایج، عملکرد مناسب روش ارائه شده برای حل معادله ی همیلتون-ژاکوبی-بلمن نشان می دهد.
کلیدواژه‌ها

عنوان مقاله English

Online solution of the Hamilton–Jacobi–Bellman equation for nonlinear systems with unknown drift dynamics using neural network

نویسندگان English

Arman Mojoodi 1
Mahyar Naraghi 2
Mojtaba Moradi 3
1 Mechanical Engineering Department, Amirkabir University of Technology (Tehran Polytechnic)
2 Associate Professor of Mechanical Engineering Department, Amirkabir University of Technology (Tehran Polytechnic)
3 Mechanical Engineering Department, Amirkabir University of Technology (Tehran Polytechnic)
چکیده English

In this paper a method for online solution of the Hamilton-Jacobi–Bellman (HJB) equation is proposed. The method is utilized to design an optimal controller for continuous-time nonlinear systems. The main concept in this approach is using experiences to reinforce the controller, which is called Reinforcement Learning (RL). The online solution is based on the actor-critic (AC) structure where two Neural Networks (NNs) approximately solve the HJB equation. Optimal control and optimal value function are approximated by the actor and the critic, respectively. Then, employing gradient descent algorithm, improves accuracy of the approximation. Since some items like friction and damping are difficult to model and calculate, a neural-robust identifier is used in conjunction with the AC to approximate drift dynamics. Finally the Actor-Critic-Identifier (ACI) structure is proposed to solve the HJB equation online without a prior knowledge of drift dynamics. The closed-loop stability of the overall system is assured by the Lyapunov theory employing the direct method. Then the effectiveness of the proposed method is illustrated by experiment for DC motor and simulation for a nonlinear system. Results indicate satisfactory performance of the proposed method to solve the Hamilton-Jacobi-Bellman equation.

کلیدواژه‌ها English

HJB equation
Optimal Control
Nonlinear system
Neural Network
Actor-critic