جستجوی مقالات مرتبط با کلیدواژه "safe reinforcement learning" در نشریات گروه "فنی و مهندسی"
جستجوی safe reinforcement learning در مقالات مجلات علمی
-
The field of autonomous vehicles (AV) has been the subject of extensive research in recent years. It is possible that AVs could contribute greatly to the quality of daily lives if they were implemented. A safe driver model that controls autonomous vehicles is required before this can be accomplished. Reinforcement Learning (RL) is one of the methods suitable for creating these models. In these circumstances, RL agents typically perform random actions during training, which poses a safety risk when driving an AV. To address this issue, shielding has been proposed. By predicting the future state after an action has been taken and determining whether the future state is safe, this shield determines whether the action is safe. For this purpose, reachable zonotopes must be provided, so that at each planning stage, the reachable set of vehicles does not intersect with any obstacles. To this end, we propose a Safe Reinforcement Learning by Shielding-based Reachable Zonotopes (SRLSRZ) approach. It is built around Twin Delayed DDPG (TD3) and compared with it. During training and execution, shielded systems have zero collision. their efficiency is similar to or even better than TD3. A shield-based learning approach is demonstrated to be effective in enabling the agent to learn not to propose unsafe actions. Simulated results indicate that a car vehicle with an unsafe set adjacent to the area that provides the greatest reward performs better when SRLSRZ is used as compared with other methods that are currently considered to be state-of-the-art for achieving safe RL.Keywords: Safe Reinforcement Learning, Shielding, Reachable Set, Autonomous Vehicles
-
در این مقاله، به ارائه روشی جهت طراحی سیستم کنترل وضعیت ردیاب بهینه برای پرنده کوادروتور که در معرض عیوب اجزا و عملگر قرار دارد پرداخته شده است. روش کنترل تحمل پذیر عیب یکپارچه پیشنهادی مبتنی بر یادگیری تقویتی ایمن ارائه شده است و قادر است بدون نیاز به شناخت قبلی از دینامیک پرنده، قیود ورودی و حالات را تضمین نماید. به این منظور، روش بهینه پیشنهادی با ساختار شبکه عصبی دوگانه شامل شبکه های عصبی شناساگر-نقاد ارائه شده است. در قانون به روزرسانی وزن های شبکه شناساگر علاوه بر متغیر در نظر گرفتن ضریب فراموشی از روش پاسخ تجربه استفاده شده که باعث افزایش سرعت همگرایی و مقاومت نسبت به نویز اندازه گیری و کاهش خطای تخمین می شوند. در این روش، حل مسئله کنترل ردیاب وضعیت بهینه تحمل پذیر عیب در حالت مقید با حل مسئله پایدارسازی بهینه نامقید برای یک سیستم افزوده معادل می شود که در آن قیود ورودی کنترلی و حالات به ترتیب با انتخاب تابع هزینه مناسب بر سیگنال ورودی و توابع کنترل مانع مناسب بر حالات، تضمین داده می شوند. همچنین آشکارسازی وقوع عیب بدون نیاز به هیچ گونه بانکی از مدل یا فیلتر و صرفا با مقایسه مقدار باقی مانده معادله همیلتون-ژاکوبی-بلمن با یک آستانه از پیش تعیین شده انجام می پذیرد. پایداری فراگیر یکنواخت وزن های هر دو شبکه و درنتیجه همگرایی قانون کنترل به پاسخ بهینه با استفاده از قضیه لیاپانوف اثبات و با استفاده از نتایج شبیه سازی صحت عملکرد آن نشان داده شده است.کلید واژگان: کنترل وضعیت کوادروتور, عیوب اجزا و عملگر, کنترل بهینه تحمل پذیر عیب, آشکارسازی وقوع عیب, یادگیری تقویتی ایمنIn this article, a method for designing a fault-tolerant optimal attitude tracking control (FTOATC) for a quadrotor UAV subject to component and actuator faults is presented. The proposed fault-tolerant method is based on safe reinforcement learning (SRL) and is capable of ensuring input and state constraints without the need for prior knowledge of the quadrotor dynamics. To this end, the proposed optimal method is presented with a dual neural network (NN) structure consisting of identifier-critic neural networks. In the identifier NN update law, in addition to considering the variable forgetting factor dependent on measurement noise, the experience response method is used, which increases convergence speed and robustness to measurement noise and reduces estimation error. In this method, solving the constrained FTOATC problem is equivalent to solving an unconstrained optimal stabilization problem for an augmented system, where control input constraints and states are guaranteed by selecting suitable cost functions on the input signal and appropriate control barrier functions (CBF)on the states, respectively. Furthermore, fault detection is performed without the need for any model or filter bank, simply by comparing the residual value of the Hamilton-Jacobi-Bellman (HJB) equation with a predetermined threshold. The Uniformly Ultimately Boundedness (UUB) of identifier and critic NN weight errors and, as a result, the convergence of the control input to the neighborhood of the optimal solution are all proved by Lyapunov theory and the performance of the method is validated through simulation results.Keywords: Quadrotor attitude control, Component, actuator faults, Fault-tolerant optimal control, Fault detection, Safe reinforcement learning
نکته
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.