فهرست مطالب

Journal of Artificial Intelligence and Data Mining
Volume:11 Issue: 4, Autumn 2023

  • تاریخ انتشار: 1402/08/10
  • تعداد عناوین: 12
|
  • علی زحمتکش زکریایی، حسین صدر*، محمدرضا یمقانی صفحات 505-515

    یادگیری ماشین در سالهای اخیر با توجه به تواناییاش در تجزیه و تحلیل کلان داده ها، به یکی از پایه های ا سا سی تجزیه و تحلیل داده های پز شکی تبدیل شده ا ست. یکی از کاربردهای یادگیری ما شین، پیشبینی زودهنگام بیماری سرطان به ویژه سرطان معده ا ست که به عنوان پنجمین سرطان شایع در سراسر جهان شناخته می شود. سرطان معده یکی از بیماریهای خطرناک و پیشرفته است که تشخیص زودهنگام آن میتواند درمان موثرتری را برای بیمار فراهم کند. با استفاده از یادگیری ماشین و تحلیل دقیق داده های بالینی، میتوان الگوها و ویژگیهای مربوط به سرطان معده را شناسایی و مدلهای پیشبینی را برای تشخیص زودهنگام این بیماری به عنوان یک روش تشخیص غیرتهاجمی توسعه داد. در این راستا، در این مقاله یک روش جدید مبتنی بر یادگیری ماشین ترکیبی برای پیشبینی سرطان معده بر اساس داده های بالینی پیشنهاد شده است. بر اساس نتایج بدست آمده، مدل پیشنهادی میتواند سرطان معده را با دقت 98 درصدی درست پیشبینی کند که نسبت به سایر روش های موجود از دقت نسبتا بالاتری برخوردار است. همچنین بر ا ساس ویژگیهای ا ستخراج شده میتوان نتیجه گرفت که سرطان معده یکی از مهمترین پیامدهای عفونت هلیکوباکتر پیلوری ا ست. در نتیجه سبببک زندگی و رژیم غذایی نامناسبب میتوانند خطر ابتلا به سببرطان معده را به ویژه در افرادی که به طور مکرر غذاهای سببرش شببده مصببر میکنند و از گا ستریت آتروفیک مزمن و زخم معده رنج میبرند، افزایش دهد. م صر محدود میوه و سبزیجات و م صر زیاد زیاد نمک این احتمال را تشدید میکند. 

    کلیدواژگان: هوش مصنوعی، یادگیری ماشین، سرطان معده، روش یادگیری ترکیبی، شبکه عصبی
  • فرهاد عابدین زاده طرقبه*، یگانه مدرس نیا، سید عابد حسینی صفحات 517-524

    اخیرا انجام پژوهشهای مختلف تحلیل داده برای یافتن و انتخاب ویژگیهای منا سب بدون دا شتن برچ سب د سته به کمک رویکردهای انتخاب ویژگی بدون نظارت ضروری شده است. علیرغم وجود چندین جعبهابزار در دسترس که روش های انتخاب ویژگی را برای کاهش ویژگیهای اضافی، ابعاد داده و هزینه های محاسباتی ارایه میدهند، نیاز به دانش برنامهنویسی و نپرداختن به داده های بدون برچسب دنیای واقعی، محبوبیت آنها را کاهش داده است. در این مطالعه جعبهابزار خودکار انتخاب ویژگی بدون نظارت Auto-UFSTool برای نرم افزار متلب پیشنهادشده که کاربرپسند و کاملا خودکار است و از رویکردهای انتخاب ویژگی بدون نظارت مختلف مشتق شده از جدیدترین پژوهشها استفاده میکند. این جعبهابزار مجموعهای از 25 رویکرد انتخاب ویژگی بدون نظارت قوی است که بیشتر آنها در پنج سال گذشته توسعه یافتهاند. بنابراین مقایسه واضح و سازمانیافته با روش های متفاوت را بدون نیاز به برنامهنویسییی امکانپذیر میکند و حتی کاربران بدون تجربه قبلی برنامهنویسییی، میتوانند از پیادهسییازی واقعی توسییر رابر کاربری گرافیکی اسیتفاده نمایند. همچنین این جعبهابزار فرصیت را برای ارزیابی نتایج انتخاب ویژگی و ایجاد نمودارها جهت مقایسیه زیرمجموعه ها با اندازه های مختلف فراهم میکند. این جعبهابزار در پایگاه تبادل فایل نرم افزار متلب به صورت رایگان قابلد سترس ا ست و شامل ا سکریپتها و برنامه منبع برای هر روش است. این جعبهابزار بهصورت رایگان برای عموم در دسترس است: bit.ly/AutoUFSTool . 

    کلیدواژگان: انتخاب ویژگی بدون نظارت، نرم افزار متلب، جعبه ابزار خودکار، کاهش ابعاد، یادگیری بدون نظارت
  • امیر محرابی نژاد، محمد تشنه لب*، آرش شریفی صفحات 525-534

    با توجه به رشد روزافزون رویکردهای داده محور، به ویژه در هوش مصنوعی و یادگیری ماشین، استخراج اطلاعات مناسب از داده های جمع آوری شده با بهترین عملکرد چالشی قابل ملاحظه است. جنبه مهم دیگر این موضوع هزینه های ذخیره سازی است. تحلیل مولفه اصلی (PCA) و خودرمزگذارها (AEs) نمونه هایی از روش های ا ستخراج ویژگی در علم داده و یادگیری ما شین ه ستند که به طور گ سترده در رویکردهای مختلف ا ستفاده می شوند. مقاله ارایه شده، از مزایای خودرمزگذارها و تحلیل مولفه ا صلی برای ارایه روش انتخاب و ا ستخراج ویژگی تحت نظارت برخط بهره گرفته ا ست. بر این اسااا ، برچساابهای مورد نظر برای مدل نهایی در فرآیند اسااتخراج ویژگی نقش دارند و در روش تحلیل مولفه اصاالی نیز تعبیه میشااوند. همچنین انبا شتن لایه های رمزگذار خودکار غیرخطی با الگوریتم تحلیل مولفه ا صلی، انتخاب ه سته در روش های تحلیل مولفه ا صلی مبتنی بر ه سته قدیمی را حذف می کند. علاوه بر این، بهبود عملکرد توسط نتایج تجربی ارایه شده است. مزیت اصلی روش پیشنهادی این است که، برخلاف رویکردهای سنتی تحلیل مولفه اصلی، مدل ارایه شده، هیچ نیازی برای همه نمونه ها برای استخراج ویژگی ندارد. با توجه به کارهای قبلی، روش پیشنهادی میتواند از نظر دقت و اعتبار برای استخراج ویژگی از دیگر روش های پیشرفته برتر باشد .

    کلیدواژگان: تحلیل مولفه اصلی، تحلیل مولفه اصلی برخط، خودرمزگذار، خودرمزگذار پشتهای، یادگیری نیمه نظارتی
  • زینب پشتیبان، الهام قنبری*، محمدرضا جهانگیر صفحات 535-545

    تحلیل نفوذ افراد و گره ها در شبببکه های اجتماعی توجه بسببیاری را به دود جلک کرده اسبب . شبببکه های اجتماعی با وجود گروه ها، انجمنها و افراد علاقهمند به یک مو ضوع یا مو ضوع داص معنا پیدا میکنند و افراد تمایلات نظری و عملی دود را در چنین مکانهایی ن شان میدهند . در پژوهشهای صورت گرفته، گره های تاثیرگذار اغلک بر اساس اطلاعات مربوط به سادتار شبکه اجتماعی شناسایی میشوند و کمتر به اطلاعات منتشر شده توسط کاربر شبکه اجتماعی توجه می شود. در این مقاله هدف بر این ا س که علاوه بر ا ستفاده از اطلاعات کاربر در شبکه اجتماعی، از اطلاعات سادتاری شبکه نیز در جه شناسایی کاربران تاثیرگذار استفاده شود . بدین منظور در ابتدا احساسات کاربر استخراج شده و بر اساس یک دیکشنری احساسی، به هر کاربر یک نمره احساسی یا عاطفی نسب داده شود و وزن آن در شبکه با استفاده از معیارهای مرکزی تعیین شود. شبکه اجتماعی مورد استفاده در این مقاله شبکه توییتر اس ، لذا پس از جمع آوری و پردازش داده ها سادتار شبکه اجتماعی مشخص و گراف آن رسم میشود و قابلی تحلیل شبکه و داده های موجود استخراج شده و بر اساس الگوریتم پیشنهادی کاربران و گره های تاثیرگزار شناسیایی میشود. نتایج ارزیابی نشان میدهد که گره های شناساییشده توسط الگوریتم پیشنهادی کیفی بالایی داشته و سرع انتشار اطلاعات شبیهسازیشده از آنها بالاتر از سایر الگوریتمهای موجود اس . 

    کلیدواژگان: شبکه های اجتماعی، تحلیل پروفایل، بازیابی احساسات، شناسایی افراد
  • محمدمهدی نخعی، ساسان کرمی زاده*، محمدابراهیم شیری احمد آبادی، کامبیز بدیع صفحات 547-559

    سرطان ریه یک بیماری ب سیار جدی ا ست و ت شخیص زودهنگام سلولهای سرطانی به طور قابل توجهی شانس بهبودی بیماران را افزایش میدهد. پزشکان به طور مرتب تعداد زیادی از تصاویر سیتیاسکن را بررسی میکنند که میتواند منجر به ایجاد خستگی و اشتباه شود. بنابراین، نیاز به ایجاد ابزاری وجود دارد که بتواند به طور خودکار ندولهای ریه را در مراحل اولیه شناسایی و طبقهبندی کند. سیستمهای تشخیص به کمک رایانه که اغلب از تکنیکهای پردازش تصویر و یادگیری ماشین استفاده میکنند، به رادیولوژیستها در شناسایی و طبقهبندی این گره ها کمک میکنند. مطالعات قبلی اغلب از مدلهای پیچیده یا شبکه های از پیش آموزشدیده استفاده کردند که نیاز به سختافزار قوی و زمان طولانی برای اجرا دارند. هدف ما دستیابی به تشخیص دقیق بدون نیاز به سیستم محاسباتی قدرتمند است. ما یک شبکه عصبی کانولوشنال ساده را با تنها دو لایه پیچشی معرفی میکنیم که قادر به طبقهبندی دقیق گره ها بدون نیاز به سختافزار قدرتمند است. ما فرایندهای آموزش و اعتبارسنجی را بر روی دو مجموعه داده LIDC-IDRI و LUNA16 انجام دادیم که به ترتیب به دقتهای 99.7 درصد و 97.52 درصد رسیدیم. این نتایج، دقت برتر مدل پیشنهادی ما را در مقایسه با مقالات خوب گذشته نشان میدهد. 

    کلیدواژگان: سرطان ریه، یادگیری عمیق، LIDC-IDRI، LUNA16، چرخانده شده
  • حمید غفاری*، همت الله پیردشتی، محمدرضا کنگاوری صفحات 561-571

    به منظور مدلسازی و بهینهسازی الگوی رشد گیاهچه برنج، یک اتاقک رشد هوشمند در سال 1399 طراحی و آزمایشی در دانشگاه علوم کشاورزی و منابع طبیعی ساری در ماه های اسفند، فروردین و اردیبهشت سال 1400 - 1399 انجام شد. ورودیهای مدل شامل تشعشع، دما، دی اکسید کربن و اسیدیته خاک بودند. این عوامل رشد در دو سطح محیطی و افزایشی مورد مطالعه قرار گرفتند. خروجیهای مدل شامل ارتفاع گیاهچه، طول ریشه، محتوای کلروفیل، CGR ، RGR ، تعداد برگ و وزن خشک اندام هوایی بودند. رشد گیاهچه برنج با استفاده از شبکه های عصبی LSTM مدلسازی و با روش بیزین بهینهسازی شد. بر اساس نتایج حاصل از اجرای آزمایش بهترین تنظیم پارامتر در دوره 100 با نرخ یادگیری 0.001 و تعداد 500 تکرار به دست آمد. همچنین برای بهترین عملکرد بدست آمده در طی آموزش مدل، RMSE برابر 0.2884 بود. 

    کلیدواژگان: دما، شبکه های عصبی بازگشتی، نرم افزار متلب، نور، هوش مصنوعی
  • علی شبرندی *، علی رجب زاده قطرمی، نادر توکلی، محمد دهقان نیریو سحر میرزائی صفحات 573-585

    برای کاهش بار شدید مبتلایان به کووید- 19 به سی ستم های بهدا شتی و درمانی، طرح غربالگری سریع و کارآمد در خط مقدم مبارزه با این بیماری مورد نیاز ا ست. ب سیاری از تحقیقات گذ شته از نتایج آزمای شگاهی، سیتی ا سکن و ا شعه ایکس ا ستفاده برای این موضوع ا ستفاده نموده اند که مانعی جدی برای غربالگری چابک است. در این مطالعه، یک مدل تشخیص کووید- 19 کاربرپسند و کمهزینه را بر اساس داده های خانگی در قالب سه دسته داده، جمعیت شناختی، علایم و سوابق بیماری ارایه شده است. در این مطالعه از روش جستجوی گرید برای شناسایی ترکیب بهینه هایپرپارامترهایی که دقیقترین پیشبینی را ارایه میدهد، استفاده شده است و عملکرد 11 الگوریتم طبقه بندی یادگیری ماشین مقایسه شده است. نتایج نشان میدهد که الگوریتم XGBoost بالاترین صححت، 73.3 % را ارایه میکند، اما تحلیلهای آماری نشحان میدهد که تفاوت معنیداری بین عملکرد دقت XGBoost و AdaBoost وجود ندارد، اگرچه برتری این دو روش را نسبت به سایر روش ها اثبات کرد. علاوه بر این، مهمترین ویژگی های به دست آمده با استفاده از SHapely Adaptive explanations مشحکلات « ،» سحن « ،» تب « ،» درد عضحلانی « ،» سحرفه « ،» تماس با افراد آلوده « . مورد تجزیه و تحلیل قرار گرفت « ،» قلبی عروقی PO2 مهمترین متغیرها ه ستند. در بین این متغیرها، سه متغیر اول تاثیر مثبت ن سبتا زیادی بر متغیر هدف » دی سترس تنف سی « و » « ،» سن « دارند. در حالی که PO2 به شدت با متغیر هدف همبستگی منفی دارند. در نهایت، یک مدل درخت تصمیم قابل اجرا، » دیسترس تنفسی « و » قابل مشاهده و تفسیر آسان برای پیشبینی ابتلای کووید- 19 ارایه شده است.

    کلیدواژگان: کووید- 19، علایم بیماری، یادگیری ماشین، طبقه بندی، هوش مصنوعی
  • مهدی رسولی، وحید کیانی* صفحات 587-598

    کاوشی جامع بر روش های یادگیری عمیق و کم عمق را برای تشخیص هیجان در متون کوتاه فارسی ارایه میکند. روش های یادگیری کم عمق در این مطالعه، از استتخراج ویژگی و کاهش ابعاد برای افزایش دقت طبقهبندی استتداده میکنند. از ستوی دیگر، روش های یادگیری عمیق در این بررستی از یادگیری انتقالی و جاستتازی کلمه، به ویژه جاستتازی BERT برای دستتتیابی به دقت طبقهبندی بالا استتتداده مینمایند. در این مقاله، همچنین یک مجموعه داده فارستی به نام " ShortPersianEmo " برای ارزیابی روش های پیشتنهادی معرفی شتده استت. این مجموعه داده شتام 5472 متن کوتاه فارسی متنوع است که در پنج کلاس هیجانی برچسب گذاری شدهاند. نتایج ارزیابی نشان میدهد که یادگیری انتقالی و جاسازی متن مبتنی بر BERT در طبقهبندی هیجانی متون کوتاه فارستی نستبت به رویکردهای جایگزین دقت بالاتری دارند. مجموعه داده ShortPersianEmo به صتورآ لنلاین در https://github.com/vkiani/ShortPersianEmo در دسترس عموم قرار گرفته است. 

    کلیدواژگان: پردازش زبان طبیعی، طبقه بندی هیجان، متن فارسی، مجموعه داده تشخیص هیجان، یادگیری عمیق
  • صفحات 599-608

    مدلهای پنهان مارکوف چند لایه برای تشخیص و پیشگیری از تقلب در زمان واقعی و در HMM تشخیص الگو، ترمودینامیک و مکانیک آماری و غیره استفاده شدهاند .یک و تراکنش پول (PAYSIM) عین حال کاهش شدید تعداد مثبت و منفی کاذب در این کار پیشنهاد و اجرا شده است .این مطالعه از شبیهساز پرداخت مجموعه داده ها استفاده میکند و بر کاهش بهینهسازی پارامتر و زمانهای تشخیص مدلهای پیشنهادی با استفاده از یک الگوریتم ، (MMT) موبایل ژنتیک و بهینهسازی ازدحام ذرات تمرکز میکند. نتایج شبیه سازی نشان میدهد که برای حالتهای ، Baum-Welch ترکیبی متشکل از الگوریتمهای یادآوری) 0.965 و ،) MMT و PAYSIM پنهان اعداد مختلف، مدل پیشنهادی ما از نظر دقت)به ترتیب 0.984 و 0.986 برای مجموعه داده های به ترتیب 0.974 و 0.978 برای مجموعه داده های (F بهترتیب بهتر عمل میکند(. و امتیازات 1 ، MMT و PAYSIM 0.971 برای مجموعه داده های در مقایسه با رویکرد موجود.) MMT وPAYSIM 

    کلیدواژگان: متقلبانه، مدل های پنهان مارکوف، بهینه سازی، احتمال، چند لایه
  • سید علیرضا بشیری موسوی *، امید خلف بیگی صفحات 627-638

    یک ارزیابی سریع و دقیق پایداری گذرا با ا ستفاده از الگوریتمهای کارآمد یادگیری ما شین و مبتنی بر آمار در ف ضای سری زمانی غیرخطی گذرا به د ست میآید. فرآیند انتخاب ویژگی با تشکلی فضکای ویژگی گذرا فشکرده از داده های گذرا با ابعاد بالا میتواند راه را برای ارزیابی پایدرای گذرا با کارایی بالا هموار کند. از این رو، طراحی یک طرح جامع انتخاب ویژگی که بتواند فضای داده ای گذرا را با ویژگیهای گذرای متمایز مرتبط پر کند، یک نیاز فوری است. هدف این کار معرفی ساختار ترکیبی دوقلو برای انتخاب ویژگی های بهینه از داده های سری زمانی 28 متغیره است. هر بخش از الگوریتم پیشنهادی شام ملانیزم های فیلتر و پو ششی ا ست. نرخ وابستگی مشروط، بر ا ساس اطلاعات متقاب و محا سبات آنتروپی، به عنوان روش فیلتر در نظر گرفته میشود و انتخاب زیر مجموعه پوششی افزایشی و نسخه با جایگزین این روش که توسط ماشین بردار پشتیبان هسته دار و نسخه دو قلو آن تغذیه میشود، به عنوان فاز پوششی اسککتفاده میشککود. پس از اعمال روش پیشککنهادی بر روی تک متغیره های گذرا، ویژگیهای منتخب وارد روش آزمایش مبتنی بر اعتبارسککنجی متقاب برای ارزیابی کارایی آنها در ارزیابی پایداری گذرا می شوند. نتایج بد ست آمده ن شان می دهد که ویژگیهای منتخب مبتنی بر روش پی شنهادی دارای دقت پیش بینی 98.87 درصد و زمان پردازش 102.653 میلی ثانیه برای پیش بینی وضعیت پایداری گذرا هستند. 

    کلیدواژگان: طرح انتخاب ویژگی ترکیبی، ویژگی های گذرای متمایز مرتبط، پیش بینی پایداری گذرا
  • صادق رحمانی بلداجی *، مهدی باطنی، محمود مرتضوی دهکردی صفحات 639-648

    استراراا اوگوی باقاعده-مکرر از داده های تووید شتده توستگ هاتگرها به صتور کارآمد به یک چاوش تبدیل شتده است هجم زیاد داده ها منجر به طولانی شدن زمان اجرا میشود، بنابراین پیشبینیها و ت صمیمگیریهای هیاتی را که نیاز به پا سخ فوری دارند به تاخیر میاندازد بنابراین ا سرفاده از پلرفرمهای کلان داده و اوگوریرمهای موازی راههل مناستتبی استت علاوه بر این، تکنیکهای افزایشتتی برای استتراراا اوگوها از جریانهای کلان داده مناسب تر از روش های ایارا اس این مطاوعه یک رویکرد موازی افزایشی و ساخرار درخری فشرده را برای اسراراا اوگوهای باقاعده-مکرر از داده های شبکه های هاگر بیسیم ارایه میکند همچنین، اسکن پایگاه داده کمرری به منظور کاوش اوگوها برای کاهش زمان اجرا انجام شده اس این مطاوعه 4 و 2 گره انجام شتتد یافره ها نشتتان میدهد که زمان اجرا در هر 3 هاو خوشتتهای به ، بر روی مجموعه داده های 5 و 10 روزه اینرل با خوشتته های 6 55 و 85 درصد برای مجموعه داده 10 روزه بهبود یافره اس ، 18 و 34 درصد برای مجموعه داده 5 روزه و 22 ، ترتیب 14

    کلیدواژگان: اوگوی باقاعده-مکرر، جریان کلان داده، اوگوریرم موازی، کاوش افزایشی
|
  • Ali Zahmatkesh Zakariaee, Hossein Sadr *, Mohamad Reza Yamaghani Pages 505-515

    Machine learning (ML) is a popular tool in healthcare while it can help to analyze large amounts of patient data, such as medical records, predict diseases, and identify early signs of cancer. Gastric cancer starts in the cells lining the stomach and is known as the 5th most common cancer worldwide. Therefore, predicting the survival of patients, checking their health status, and detecting their risk of gastric cancer in the early stages can be very beneficial. Surprisingly, with the help of machine learning methods, this can be possible without the need for any invasive methods which can be useful for both patients and physicians in making informed decisions. Accordingly, a new hybrid machine learning-based method for detecting the risk of gastric cancer is proposed in this paper. The proposed model is compared with traditional methods and based on the empirical results, not only the proposed method outperform existing methods with an accuracy of 98% but also gastric cancer can be one of the most important consequences of H. pylori infection. Additionally, it can be concluded that lifestyle and dietary factors can heighten the risk of gastric cancer, especially among individuals who frequently consume fried foods and suffer from chronic atrophic gastritis and stomach ulcers. This risk is further exacerbated in individuals with limited fruit and vegetable intake and high salt consumption.

    Keywords: Artificial intelligence, Machine learning, Gastric cancer, Hybrid method, Neural network
  • Farhad Abedinzadeh Torghabeh, Yeganeh Modaresnia, Seyyed Abed Hosseini * Pages 517-524

    Various data analysis research has recently become necessary in to find and select relevant features without class labels using Unsupervised Feature Selection (UFS) approaches. Despite the fact that several open-source toolboxes provide feature selection techniques to reduce redundant features, data dimensionality, and computation costs, these approaches require programming knowledge, which limits their popularity and has not adequately addressed unlabeled real-world data. Automatic UFS Toolbox (Auto-UFSTool) for MATLAB, proposed in this study, is a user-friendly and fully-automatic toolbox that utilizes several UFS approaches from the most recent research. It is a collection of 25 robust UFS approaches, most of which were developed within the last five years. Therefore, a clear and systematic comparison of competing methods is feasible without requiring a single line of code. Even users without any previous programming experience may utilize the actual implementation by the Graphical User Interface (GUI). It also provides the opportunity to evaluate the feature selection results and generate graphs that facilitate the comparison of subsets of varying sizes. It is freely accessible in the MATLAB File Exchange repository and includes scripts and source code for each technique. The link to this toolbox is freely available to the general public on: bit.ly/AutoUFSTool

    Keywords: Unsupervised Feature Selection, MATLAB, Automatic Toolbox, Dimension Reduction, Unsupervised learning
  • Amir Mehrabinezhad, Mohammad Teshnelab *, Arash Sharifi Pages 525-534

    Due to the growing number of data-driven approaches, especially in artificial intelligence and machine learning, extracting appropriate information from the gathered data with the best performance is a remarkable challenge. The other important aspect of this issue is storage costs. The principal component analysis (PCA) and autoencoders (AEs) are samples of the typical feature extraction methods in data science and machine learning that are widely used in various approaches. The current work integrates the advantages of AEs and PCA for presenting an online supervised feature extraction selection method. Accordingly, the desired labels for the final model are involved in the feature extraction procedure and embedded in the PCA method as well. Also, stacking the nonlinear autoencoder layers with the PCA algorithm eliminated the kernel selection of the traditional kernel PCA methods. Besides the performance improvement proved by the experimental results, the main advantage of the proposed method is that, in contrast with the traditional PCA approaches, the model has no requirement for all samples to feature extraction. As regards the previous works, the proposed method can outperform the other state-of-the-art ones in terms of accuracy and authenticity for feature extraction.

    Keywords: Principal Component Analysis (PCA), online PCA, autoencoder, stacked autoencoder, semi-supervised learning
  • Zeinab Poshtiban, Elham Ghanbari *, Mohammadreza Jahangir Pages 535-545

    Analyzing the influence of people and nodes in social networks has attracted a lot of attention. Social networks gain meaning, despite the groups, associations, and people interested in a specific issue or topic, and people demonstrate their theoretical and practical tendencies in such places. Influential nodes are often identified based on the information related to the social network structure and less attention is paid to the information spread by the social network user. The present study aims to assess the structural information in the network to identify influential users in addition to using their information in the social network. To this aim, the user’s feelings were extracted. Then, an emotional or affective score was assigned to each user based on an emotional dictionary and his/her weight in the network was determined utilizing centrality criteria. Here, the Twitter network was applied. Thus, the structure of the social network was defined and its graph was drawn after collecting and processing the data. Then, the analysis capability of the network and existing data was extracted and identified based on the algorithm proposed by users and influential nodes. Based on the results, the nodes identified by the proposed algorithm are considered high-quality and the speed of information simulated is higher than other existing algorithms.

    Keywords: Social networks, profile analysis, emotion retrieval, user identification
  • Mohammad Mahdi Nakhaie, Sasan Karamizadeh *, Mohammad Ebrahim Shiri, Kambiz Badie Pages 547-559

    Lung cancer is a highly serious illness, and detecting cancer cells early significantly enhances patients' chances of recovery. Doctors regularly examine a large number of CT scan images, which can lead to fatigue and errors. Therefore, there is a need to create a tool that can automatically detect and classify lung nodules in their early stages. Computer-aided diagnosis systems, often employing image processing and machine learning techniques, assist radiologists in identifying and categorizing these nodules. Previous studies have often used complex models or pre-trained networks that demand significant computational power and a long time to execute. Our goal is to achieve accurate diagnosis without the need for extensive computational resources. We introduce a simple convolutional neural network with only two convolution layers, capable of accurately classifying nodules without requiring advanced computing capabilities. We conducted training and validation on two datasets, LIDC-IDRI and LUNA16, achieving impressive accuracies of 99.7% and 97.52%, respectively. These results demonstrate the superior accuracy of our proposed model compared to state-of-the-art research papers.

    Keywords: Lung cancer, deep learning, LIDC-IDRI, LUNA16, Rotated
  • Hamid Ghaffari *, Hemmatollah Pirdashti, Mohammad Reza Kangavari, Sjoerd Boersma Pages 561-571

    An intelligent growth chamber was designed in 2021 to model and optimize rice seedlings' growth. According to this, an experiment was implemented at Sari University of Agricultural Sciences and Natural Resources, Iran, in March, April, and May 2021. The model inputs included radiation, temperature, carbon dioxide, and soil acidity. These growth factors were studied at ambient and incremental levels. The model outputs were seedlings' height, root length, chlorophyll content, CGR, RGR, the leaves number, and the shoot's dry weight. Rice seedlings' growth was modeled using LSTM neural networks and optimized by the Bayesian method. It concluded that the best parameter setting was at epoch=100, learning rate=0.001, and iteration number=500. The best performance during training was obtained when the validation RMSE=0.2884.

    Keywords: Artificial intelligence, MATLAB, Radiation, Recurrent Neural Networks, Temperature
  • Ali Shabrandi *, Ali Rajabzadeh Ghatari, Nader Tavakoli, Mohammad Dehghan Nayeri, Sahar Mirzaei Pages 573-585

    To mitigate COVID-19’s overwhelming burden, a rapid and efficient early screening scheme for COVID-19 in the first-line is required. Much research has utilized laboratory tests, CT scans, and X-ray data, which are obstacles to agile and real-time screening. In this study, we propose a user-friendly and low-cost COVID-19 detection model based on self-reportable data at home. The most exhausted input features were identified and included in the demographic, symptoms, semi-clinical, and past/present disease data categories. We employed Grid search to identify the optimal combination of hyperparameter settings that yields the most accurate prediction. Next, we apply the proposed model with tuned hyperparameters to 11 classic state-of-the-art classifiers. The results show that the XGBoost classifier provides the highest accuracy of 73.3%, but statistical analysis shows that there is no significant difference between the accuracy performance of XGBoost and AdaBoost, although it proved the superiority of these two methods over other methods. Furthermore, the most important features obtained using SHapely Adaptive explanations were analyzed. “Contact with infected people,” “cough,” “muscle pain,” “fever,” “age,” “Cardiovascular commodities,” “PO2,” and “respiratory distress” are the most important variables. Among these variables, the first three have a relatively large positive impact on the target variable. Whereas, “age,” “PO2”, and “respiratory distress” are highly negatively correlated with the target variable. Finally, we built a clinically operable, visible, and easy-to-interpret decision tree model to predict COVID-19 infection.

    Keywords: Covid-19, Symptomatic, Machine learning, Classification, Artificial intelligence
  • Mahdi Rasouli, Vahid Kiani * Pages 587-598

    The identification of emotions in short texts of low-resource languages poses a significant challenge, requiring specialized frameworks and computational intelligence techniques. This paper presents a comprehensive exploration of shallow and deep learning methods for emotion detection in short Persian texts. Shallow learning methods employ feature extraction and dimension reduction to enhance classification accuracy. On the other hand, deep learning methods utilize transfer learning and word embedding, particularly BERT, to achieve high classification accuracy. A Persian dataset called "ShortPersianEmo" is introduced to evaluate the proposed methods, comprising 5472 diverse short Persian texts labeled in five main emotion classes. The evaluation results demonstrate that transfer learning and BERT-based text embedding perform better in accurately classifying short Persian texts than alternative approaches. The dataset of this study ShortPersianEmo will be publicly available online at https://github.com/vkiani/ShortPersianEmo.

    Keywords: Natural Language Processing, emotion classification, Persian text, emotion detection benchmark, deep learning
  • Abdul Aziz Danaa Abukari *, Mohammed Ibrahim, Alhassan Abdul-Barik Pages 599-608

    Hidden Markov Models (HMMs) are machine learning models that has been applied to a range of real-life applications including intrusion detection, pattern recognition, thermodynamics, statistical mechanics among others. A multi-layered HMMs for real-time fraud detection and prevention whilst reducing drastically the number of false positives and negatives is proposed and implemented in this study. The study also focused on reducing the parameter optimization and detection times of the proposed models using a hybrid algorithm comprising the Baum-Welch, Genetic and Particle-Swarm Optimization algorithms. Simulation results revealed that, in terms of Precision, Recall and F1-scores, our proposed model performed better when compared to other approaches proposed in literature.

    Keywords: Fraudulent, Hidden Markov Models, Optimization, Probability, Multi-Layered
  • S. Mojtaba Matinkhah *, Roya Morshedi, Akbar Mostafavi Pages 609-626
    The Internet of Things (IoT) has emerged as a rapidly growing technology that enables seamless connectivity between a wide variety of devices. However, with this increased connectivity comes an increased risk of cyber-attacks. In recent years, the development of intrusion detection systems (IDS) has become critical for ensuring the security and privacy of IoT networks. This article presents a study that evaluates the accuracy of an intrusion detection system (IDS) for detecting network attacks in the Internet of Things (IoT) network. The proposed IDS uses the Decision Tree Classifier and is tested on four benchmark datasets: NSL-KDD, BOT-IoT, CICIDS2017, and MQTT-IoT. The impact of noise on the training and test datasets on classification accuracy is analyzed. The results indicate that clean data has the highest accuracy, while noisy datasets significantly reduce accuracy. Furthermore, the study finds that when both training and test datasets are noisy, the accuracy of classification decreases further. The findings of this study demonstrate the importance of using clean data for training and testing an IDS in IoT networks to achieve accurate classification. This research provides valuable insights for the development of a robust and accurate IDS for IoT networks.
    Keywords: Classification Accuracy, Clean Data, Decision Tree Classifier, intrusion detection system, IoT Networks
  • Seyed Alireza Bashiri Mosavi *, Omid Khalaf Beigi Pages 627-638

    A speedy and accurate transient stability assessment (TSA) is gained by employing efficient machine learning- and statistics-based (MLST) algorithms on transient nonlinear time series space. In the MLST’s world, the feature selection process by forming compacted optimal transient feature space (COTFS) from raw high dimensional transient data can pave the way for high-performance TSA. Hence, designing a comprehensive feature selection scheme (FSS) that populates COTFS with the relevant-discriminative transient features (RDTFs) is an urgent need. This work aims to introduce twin hybrid FSS (THFSS) to select RDTFs from transient 28-variate time series data. Each fold of THFSS comprises filter-wrapper mechanisms. The conditional relevancy rate (CRR) is based on mutual information (MI) and entropy calculations are considered as the filter method, and incremental wrapper subset selection (IWSS) and IWSS with replacement (IWSSr) formed by kernelized support vector machine (SVM) and twin SVM (TWSVM) are used as wrapper ones. After exerting THFSS on transient univariates, RDTFs are entered into the cross-validation-based train-test procedure for evaluating their efficiency in TSA. The results manifested that THFSS-based RDTFs have a prediction accuracy of 98.87 % and a processing time of 102.653 milliseconds for TSA.

    Keywords: Hybrid feature selection scheme, Relevantdiscriminative transient features, Transient stability prediction
  • Sadegh Rahmani-Boldaji *, Mehdi Bateni, Mahmood Mortazavi Dehkordi Pages 639-648

    Efficient regular-frequent pattern mining from sensors-produced data has become a challenge. The large volume of data leads to prolonged runtime, thus delaying vital predictions and decision makings which need an immediate response. So, using big data platforms and parallel algorithms is an appropriate solution. Additionally, an incremental technique is more suitable to mine patterns from big data streams than static methods. This study presents an incremental parallel approach and compact tree structure for extracting regular-frequent patterns from the data of wireless sensor networks. Furthermore, fewer database scans have been performed in an effort to reduce the mining runtime. This study was performed on Intel 5-day and 10-day datasets with 6, 4, and 2 nodes clusters. The findings show the runtime was improved in all 3 cluster modes by 14, 18, and 34% for the 5-day dataset and by 22, 55, and 85% for the 10-day dataset, respectively.

    Keywords: Regular-frequent pattern, Big streaming data, Parallel algorithm, Incremental mining