TY - JOUR T1 - Reinforcement learning control of four degree of freedom inverted pendulum TT - کنترل به روش یادگیری تقویتی پاندول معکوس چهار درجه آزادی JF - mdrsjrns JO - mdrsjrns VL - 18 IS - 1 UR - http://mme.modares.ac.ir/article-15-577-fa.html Y1 - 2018 SP - 388 EP - 396 KW - Reinforcement learning؛ LQR controller؛ Four degree of freedom inverted pendulum N2 - در این مقاله کنترلر خطی درجه دوم (LQR) مقاوم با استفاده از روش یادگیری تقویتی برای پاندول معکوس چهار درجه آزادی طراحی شده است. سیستم ارائه شده متشکل از یک پاندول معکوس چهار درجه آزادی و یک جرم متمرکز در انتهای آن می باشد. ابتدای پاندول در صفحه x-y توانایی حرکت در جهت های x و y را دارد. برای کنترل دو زاویه پاندول معکوس، دو نیروی صفحه ای در جهت های x و y به پایین پاندول وارد می شود. معادلات مدل حاکم بر سیستم با استفاده از روش لاگرانژ استخراج شده اند و سپس یک کنترلر LQR مقاوم بر اساس روش یادگیری تقویتی برای این مسئله طراحی شده است. پاندول برای بازه ای از زاویه ها مختلف ، طول ها و جرم های مختلف آموزش داده شده است. نامعینی های پارامتری به صورت طول و جرم های مختلف پاندول معکوس و اغتشاشات به صورت نیرو های ضربه ای و متغیر با زمان اعمال شده به پاندول تعریف شده است. پس از یادگیری کنترلر، کنترلر یادگیر می تواند به صورت آنلاین برای بازه ای متفاوت از طول و جرم که قبلا آموزش نیافته و در برابر اغتشاشات پیوسته و ضربه ای که به سیستم اعمال می شود سیستم را کنترل کند. نتایج عددی نشان دهنده عملکرد خوب کنترلر یادگیر در حضور نامعینی های ساختاری و پارامتری، اغتشاشات ضربه ای و پیوسته و نویز سنسورها می باشد. M3 ER -