به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه « یادگیری تقویتی » در نشریات گروه « فناوری اطلاعات »

تکرار جستجوی کلیدواژه «یادگیری تقویتی» در نشریات گروه «فنی و مهندسی»
  • آرش علی بخشی فرد*، لیدا ندرلو، زهرا طیبی قصبه

    مصرف انرژی در مراکز و سیستم های داده ای به شدت در حال افزایش است که بررسی این موضوع یک مساله اساسی در عصر کنون است. از جمله مزایای مهم سیستم‌های توزیعی صرفه‌جویی در هزینه‌ها است زیرا نیاز به نصب و راه‌اندازی اولیه منابع نداشته و مقیاس‌پذیری و انعطاف‌پذیر هستند، اما مبحث توازن بار و زمان بندی مناسب در سیستم‌های توزیعی یک چالش می‌باشد. در این مقاله روشی برای زمان بندی وظایف بر روی منابع در دسترس پویا ارایه شده و سیستم از یادگیری مداوم برای بهترین عملکرد استفاده می‌کند. در روش پیشنهادی از عملگر نقاد برای بهبود تصمیم گیری در یادگیری تقویتی استفاده شده تا استخراج قوانین توزیع و استفاده آن‌ها در یادگیری تقویتی سبب بهبود شود و اهداف بهبود مصرف انرژی را میسر ‌سازد. روش پیشنهادی از نظر معیارهای “زمان اتمام تمامی کارها” و “میزان مصرف انرژی” با روش‌ ارایه شده در کار مشابه مقایسه شد و در ارزیابی‌ها روش پیشنهادی به نسبت روش مورد مقایسه میزان مصرف انرژی مناسب‌تری داشته است. البته در محیط‌هایی که طول صف تشکیل شده و منابع و درخواست‌ها سریع تغییر می‌کند به دلیل افزایش تعداد حالات و یادگیری مستمر این مصرف انرژی کمی افزایش می‌یابد. در کل روش پیشنهادی مناسب محیط‌های پایدار، تغیرات کم و یا با فواصل زمانی متعادل‌تر است زیرا پروسه یادگیری مدت زمانی را به طول می‌انجامد.

    کلید واژگان: سیستم های توزیعی, مصرف انرژی, عملگر نقاد, زمان بندی وظیفه, یادگیری تقویتی}
    Arash Ali Bakhshifard*, Lida Naderloo, Zahra Tayyebi Qasabeh

    Energy consumption in data centers and systems is increasing rapidly, which is a fundamental issue in the present age. An important advantage of distribution systems is cost savings because they do not require the initial installation and commissioning of resources and are scalable and flexible, but Load balance and scheduling are a challenge in distribution systems. This paper presents a method for scheduling tasks on dynamically available resources and the system uses continuous learning for best performance. In the proposed method, the Actor-Critic is used to improve decision making in reinforcement learning to extract the rules of distribution and use them in reinforcement learning to improve and facilitate energy efficiency goals. The proposed method was compared with the method presented in the same work in terms of "Completion time of all tasks " and "energy consumption" criteria. In th e evaluations, the energy consumption of the proposed method was more appropriate than the compared method. In environments where queue length is formed and resources and requests change rapidly, this energy consumption increases slightly due to the increasing number of scenarios and continuous learning. In general, the proposed method is suitable for stable environments, low changes or more balanced time intervals Because the learning process takes time.

    Keywords: Distribution Systems, Energy Efficiency, Actor-Critic, Task Scheduling, Reinforcement Learning}
  • الناز کلهر، امین نوری*، سارا صبوری راد، محمدعلی صدرنیا

    هدف اصلی در این مقاله، تعیین میزان بهینه دوز دارو برای کاهش جمعیت سلول های سرطانی در بیماران مبتلا به سرطان ملانوما می باشد. برای این کار از روش مسیرهای شایستگی که یکی از روش های حل مسئله یادگیری تقویتی می باشد، استفاده شده است. این روش مزایای دو روش مرسوم یادگیری تقویتی شامل یادگیری تفاوت گذرا و مونت کارلو را دارا می باشد. از دیگر مزایای این روش می توان به بی نیاز بودن آن به مدل ریاضی اشاره کرد ولی چون امکان پیاده سازی بر روی سیستم واقعی امکان پذیر نبوده است، برای بررسی عملکرد کنترلر پیشنهادی از مدل ریاضی غیرخطی تاخیردار جهت شبیه سازی رفتار محیط استفاده گردیده است. با توجه به بررسی هایی که تاکنون انجام شده است،لازم به ذکر می باشد که بر روی این مدل ریاضی هیچ نوع روش کنترلی پیاده سازی نشده است و این اولین باری می باشد که کنترل جمعیت سلول های سرطانی برای این مدل انجام گرفته است. در کنترل بهینه دوز دارو، میزان دارو می بایست به گونه ای باشد تا از اثرات زیان بار دارو بر روی سلول های سالم تا حد امکان جلوگیری شود. با توجه به نتایج حاصل از شبیه سازی، مشاهده می شود که روش انتخابی توانسته است با تزریق زیر بهینه میزان دوز دارو، جمعیت سلول های سرطانی را کنترل کرده، کاهش داده و به صفر برساند که این امر، در کنار افزایش سلول های ایمنی بدن رخ داده است. در انتها برای نشان دادن مزیت روش انتخابی در افزایش سرعت برای کاهش سلول های سرطانی، این روش با روش الگوریتم یادگیری Q که یکی دیگر از روش های حل مسئله یادگیری تقویتی می باشد و روش کنترل بهینه مقایسه شده است. با اعمال عیب به سنسور سیستم نیز، عملکرد کنترلر پیشنهادی برای کاهش سلول های سرطانی در حضور عیب مورد بررسی قرار گرفت. برای بررسی یکی از مزایای روش یادگیری تقویتی که تطبیق پذیری آن با محیط می باشد، با لحاظ عدم قطعیت در پارامترهای سیستم و شرایط اولیه، کنترل جمعیت سلول های سرطانی در پنج بیمار مبتلا به سرطان ملانوما انجام شده است. همچنین سرعت همگرایی هر دو روش مسیرهای شایستگی و الگوریتم یادگیری Q در کاهش سلول های سرطانی به ازای نرخ های آموزش مختلف مورد بررسی قرار گرفته است.

    کلید واژگان: اثرات زیان بار دارو, الگوریتم یادگیری Q, کنترل جمعیت سلول های سرطانی, ملانوما, یادگیری تقویتی, مسیرهای شایستگی, کنترل بهینه}
    Elnaz Kalhor, Amin Noori *, Sara Saboori Rad, Mohammad Ali Sadrnia

    This paper mainly aims to determine the optimal drug dosage for the purpose of reducing the population of cancer cells in melanoma patients. To do so, Reinforcement Learning method and the eligibility traces algorithm are employed, giving us the advantage of creating a compromise between the two algorithms of the reinforcement learning, being Monte-Carlo and Temporal Difference. Furthermore, it can be said that using this approach, there was no need to employ a mathematical model in the whole process. However, as its implementation on the real system was not possible, a delayed nonlinear mathematical model is used to investigate the performance of the proposed controller and simulate the behavior of the environment. It should be noted this mathematical model made use of no control method. This is the first time that population control of cancer cells is applied and tested on this model. To know of the optimal dosage of the drug, it should be mentioned that the drug is required to prevent the side effects on healthy/normal cells as much as possible. According to the obtained results, the eligibility traces algorithm is able to control and reduce the population of cancer cells through injecting the sub-optimal drug dose. This will increase the level of immunity in our body. Finally, to demonstrate the advantage of a selective method of increasing the rate of cancer cell death, this method is compared with the Q-learning algorithm and optimal control. By applying the fault to the sensor, the performance of the proposed controller to reduce cancer cells was investigated. The adaptability of the proposed method with the environment changes is checked afterwards. To this end, uncertainty in the system parameters and initial conditions are applied and the population of cancer cells are controlled in five melanoma patients. Moreover, having added noise to the system, it was shown that the eligibility traces algorithm is able to control the population of cancer cells and make it reach zero. Additionally, the convergence speed of both eligibility traces algorithm and Q learning algorithm in reducing the number of cancer cells for different learning rates was investigated.

    Keywords: Side effects of drugs, Q-learning algorithm, cancer cells population control, Melanoma, Reinforcement Learning, Eligibility Traces, Optimal control method}
  • سمیرا فرزانه، فرشته زندی، جواد سلیمی سرتختی*

    امروزه معمای زندانی یکی از مسایل اولیه‌ و مهم در نظریه بازی‌ها است. در این معما نقطه تعادل نشی وجود دارد و چنانچه عامل‌ها منطقی رفتار کنند در آن نقطه بازی می‌کنند؛ بدین منظور عامل‌ها برای دستیابی به سود بیشتر از بین دو عمل همکاری و عدم همکاری، عدم همکاری را انتخاب می‌کنند. در حالیکه برای عامل‌ها نقطه بهتری نسبت به نقطه نش وجود دارد و آن هم این است که هر دو عامل همکاری را انتخاب کنند. بنابراین، در جهت افزایش میزان همکاری عامل‌ها معمای زندانی به صورت معمای زندانی تکرارشونده با یک رویکرد یادگیری تقویتی در نظر گرفته‌شده است. نتایج مقاله نشان‌دهنده این است که رویکرد مورد نظر سبب افزایش میزان همکاری عامل‌ها شده است و اگر عاملی همکاری را پیشه کند عامل دیگر نیز همکاری را انتخاب می‌کند و بالعکس.

    کلید واژگان: عدم همکاری متقابل, معمای زندانی تکرارشونده, یادگیری تقویتی, همکاری متقابل, LSTM}
    Samira Farzaneh, Fereshteh Zandi, Javad Salimi Sartakhti*

    Nowadays, the prisoner’s dilemma is one of the primary and important issues in game theory. In this dilemma, there is a Nash Equilibrium, and if the agents behave rationally, they play at point; For this purpose, the agents choose defection between the two actions of cooperation and defection to achieve greater profit. However there is a better point for the agents than the Nash Equilibrium, it is that both agents choose the cooperation. However there is a better point for the agents than the Nash Equilibrium, it is that both agents choose the cooperation. Therefore, in order to increase the rate of cooperation of the agents, the prisoner's dilemma has been considered as iterated prisoner's dilemma with a reinforcement learning approach. The results of the article show that the desired approach let has increased the rate of cooperation of the agents, and if one agent choose the cooperation, the other agent also chooses cooperation and vice versa.

    Keywords: Mutual Defection, Iterated Prisoner’s, Dilemma, Reinforcement learning, Mutual Cooperation, LSTM(Long Short TermMemory)}
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال