یادگیری تکرار سیاست حداقل مربعات عصبی با معماری نقاد- تنها

نویسنده:

امید محرابی ، احمد فخاریان* ، مهدی سیاهی ، امین رمضانی

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

کنترل هوشمند مسایل کنترلی واقعی بر پایه یادگیری تقویتی اغلب نیاز به تصمیم گیری در فضای حالت- عمل بزرگ و یا پیوسته دارد. از آنجا که تعداد پارامترهای قابل تنظیم در یادگیری تقویتی گسسته، رابطه مستقیمی با عدد اصلی فضای متغیرهای حالت- عمل مساله دارد، لذا در چنین مسایلی مشکل تنگنای ابعاد، سرعت کم یادگیری و راندمان پایین وجود دارد. استفاده از روش های آموزش تقویتی پیوسته برای حل این مشکلات مورد توجه محققان است. در همین راستا، در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها برای حل مسایل کنترلی معرفی میگردد. روش ارایه شده یک روش مستقل از مدل و نرخ یادگیری است و از ترکیب روش "تکرار سیاست کمترین مربعات" (LSPI) با شبکه توابع پایه شعاعی (RBF) به عنوان یک تقریب زننده ی تابعی حاصل شده است. الگوریتم پیشنهادی "تکرار سیاست کمترین مربعات عصبی" (NLSPI) نامیده می شود. در این روش، با استفاده از توابع پایه تعریف شده در ساختار شبکه عصبی RBF، راهکاری برای رفع چالش تعریف توابع پایه حالت- عمل در LSPI ارایه شده است. ورودی های شبکه جفت حالت و عمل های مساله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. هدف، به روز رسانی برخط وزن های شبکه عصبی با استفاده از روش ارایه شده به صورتی است که بهترین تقریب از تابع ارزش عمل صورت گیرد. به منظور اعتبارسنجی روش ارایه شده، عملکرد الگوریتم پیشنهادی در مورد حل دو مساله کنترلی با روش های دیگر مقایسه شده است. نتایج بدست آمده، برتری روش در یادگیری سیاست شبه بهینه را بخوبی نشان می دهد.

کلیدواژگان:

یادگیری تقویتی عصبی ، معماری نقاد- تنها ، تکرار سیاست کمترین مربعات ، شبکه توابع پایه شعاعی

زبان:

فارسی

انتشار در:

مجله کنترل، سال هفدهم شماره 1 (بهار 1402)

صفحات:

61 تا 76

لینک کوتاه:

magiran.com/p2637752

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

مجله کنترل

Journal of Control

فصلنامه فنی مهندسی

آخرین شماره | آرشیو

ISSN: 2008-8345 eISSN: 2538-3752

صاحب امتیاز:

انجمن مهندسان کنترل و ابزار دقیق ایران

مدیر مسئول:

دکتر ایرج گودرزنیا

سردبیر:

دکتر علی خاکی صدیق

تلفن نشریه: ۰۲۱-۸۱۰۳۲۲۲۳

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

سامانه نویسندگان

نویسنده مسئول (2)

فخاریان، احمد

دانشیار مهندسی برق کنترل، دانشکده مهندسی برق، پزشکی و مکاترونیک، دانشگاه آزاد اسلامی واحد قزوین

اطلاعات نویسنده(گان) توسط ایشان ثبت و تکمیل شده‌است. برای مشاهده مشخصات و فهرست همه مطالب، صفحه رزومه را ببینید.

به جمع مشترکان مگیران بپیوندید!

یادگیری تکرار سیاست حداقل مربعات عصبی با معماری نقاد- تنها

امید محرابی ، احمد فخاریان* ، مهدی سیاهی ، امین رمضانی

یادگیری تقویتی عصبی ، معماری نقاد- تنها ، تکرار سیاست کمترین مربعات ، شبکه توابع پایه شعاعی

مجله کنترل

Journal of Control