فهرست مطالب

ماشین بینایی و پردازش تصویر - سال دهم شماره 1 (بهار 1402)

نشریه ماشین بینایی و پردازش تصویر
سال دهم شماره 1 (بهار 1402)

  • تاریخ انتشار: 1401/08/22
  • تعداد عناوین: 6
|
  • صبا سادات فقیه ایمانی، کاظم فولادی قلعه*، حسین آقابابا صفحات 1-15

    مسیله ی بازشناسایی شخص شامل بازیابی تصاویر یک فرد در میان تصاویر جمع آوری شده توسط مجموعه ای از دوربین های غیرهم پوشان می باشد. باوجود عملکرد موفق آمیز مدل های عمیق بازشناسایی شخص، هنگام آزمایش مدل روی مجموعه داده ی بدون برچسب متفاوت با مجموعه داده ی آموزشی برچسب گذاری شده، عملکرد مدل به شدت کاهش می یابد. برای حل این مشکل می توان از وفق دهی دامنه ی بدون نظارت استفاده کرد.در این پژوهش مدلی با تعمیم پذیری بالا برای وفق دهی دامنه ی بدون نظارت در مسیله ی بازشناسایی شخص ارایه شده است. در این مدل از مجموعه داده ی برچسب گذاری شده ی دامنه ی منبع و مجموعه داده ی بدون برچسب دامنه ی هدف برای آموزش مدل استفاده می شود و مدل باید در هنگام آزمایش روی دامنه ی هدف عملکرد مناسبی داشته باشد. برای این هدف، مدل پیشنهادی توسط سه تابع اتلاف بهینه سازی می شود.  مجموع تابع اتلاف یادگیری بانظارت ویژگی های دامنه ی منبع، تابع اتلاف یادگیری بدون نظارت ویژگی های دامنه ی هدف و یک تابع اتلاف سه گانه به منظور یادگیری توام ویژگی های دامنه ی منبع و دامنه ی هدف، تابع اتلاف نهایی شبکه را تشکیل می دهد. مدل پیشنهادی با استراتژی دوم انتخاب همسایه ها در تنظیمات Duke→Market در رتبه ی 1 معیار CMC مقدار 84.5 درصد و مقدار mAP63 درصد و در تنظیمات Market→Duke در رتبه ی 1 معیار CMC مقدار 70.1 درصد و مقدار mAP49.1 درصد را به دست آورده است.

    کلیدواژگان: بازشناسایی شخص، بازیابی شخص، وفق دهی دامنه، یادگیری عمیق
  • عاطفه مرادیانی، محسن رمضانی، فردین اخلاقیان طاب، رحمت الله میرزایی* صفحات 17-31
    تشخیص فعالیت انسان، امروزه به عنوان یک حوزه مهم در کاربردهای مختلفی مورد استفاده قرار گرفته است و مورد توجه بسیاری از محققان حوزه بینایی ماشین است تا بتوانند فعالیت اجرا شده در یک ویدیو را با دقت بالا طبقه بندی نمایند. در این مقاله یک روش دو جریانه با ساختاری جدید معرفی می گردد که از دو ویژگی مکانی در هر دو جریان استفاده می کند به گونه ای که این ویژگی ها بتوانند به پوشش نقاط ضعف همدیگر بپردازند. استفاده از این ساختار در نهایت می تواند به صورت دقیق تری منجر به پیش بینی برچسب فعالیت شود. در جریان اول ضرایب موجک با چندریزگی مناسب و در جریان دیگر ویژگی های عمیق از قاب ها استخراج می شوند. ویژگی های حاصل در دو نقشه ویژگی های مکانی قرار می گیرند و با استفاده از یک شبکه عمیق جدید تغییرات زمانی در نقشه ها یاد گرفته می شوند و با ترکیب اطلاعات طبقه بندی دو جریان برچسب نهایی تعیین می گردد. دقت روش پیشنهادی روی 3 مجموعه داده واقعی UCFYT، UCF-Sport، و JHMDB برابر با 98.7، 99.83 و 92.86 بوده که عملکرد روش به طور میانگین نسبت به بهترین روش معرفی شده قبلی 4.6 درصد بهتر است.
  • هادی الحارس*، جعفر تنها، محمدعلی بالافر صفحات 33-48

    در سال های اخیر، از تکنیک های یادگیری عمیق به وفور برای تشخیص کووید با استفاده از تصاویر پزشکی استفاده می شود. با این حال در تشخص بیماری کووید 19 به دلیل داده های ناکافی، آموزش مدل به درستی انجام نمی شود و در نتیجه ی آن تعمیم پذیری مدل کاهش می یابد. برای پرداختن به این مسیله، می توان داده های چندین منبع مختلف را با استفاده از یادگیری انتقالی ترکیب کرد. در این مقاله برای بهبود کیفیت انتقال بین چند منبع داده، ما یک مدل یادگیری انتقالی متخاصم چند منبعی را پیشنهاد می کنیم. در این روش شبکه هم زمان با تلاش برای دسته بندی صحیح داده ها، سعی در هر چه شبیه تر ساختن ویژگی های مجموعه داده ی مبدا و مقصد به یکدیگر را دارد تا نتایج یکسانی از نظر کمی و کیفی حاصل شود. همچنین در روش پیشنهادی از تابع خطای مرکزی برای آموزش مدل استفاده می کنیم. استفاده از تابع خطای مرکزی به تمییز هرچه بهتر کلاس ها از یکدیگر کمک شایانی می کند. ارزیابی روش پیشنهادی با بررسی سناریوهای مختلف انتقال با دو مجموعه داده SARS-CoV-2 CT Scan و COVID19-CT با تعداد محدود تصاویر انجام گرفته و با نتایج سایر الگوریتم های موفق مقایسه می شود. روش پیشنهادی به ازای معیارهای accuracy، precision، recall و F1 به بهبود 2، 15، 15 و 8 درصدی نسبت به بهترین نتایج سایر روش های مقایسه شده، دست یافته است. کد پیاده سازی روش پیشنهادی در آدرس گیت هاب زیر در دسترس است.

    کلیدواژگان: تشخیص بیماری، تشخیص COVID-19، یادگیری عمیق، تطبیق دامنه متخاصم چند منبعی
  • سپیده برکت رضایی، امین ملک محمدی، احسان کوزه گر، معصومه سلامتی، محسن سریانی* صفحات 49-59
    سرطان پستان عامل اصلی مرگ ومیر ناشی از سرطان در زنان اکثر کشورهای جهان است. تشخیص سرطان پستان در مراحل اولیه تاثیر زیادی در کاهش نرخ مرگ ومیر دارد. تصویربرداری اولتراسوند خودکار سه بعدی پستان (3D ABUS) نوعی تصویربرداری است که اخیرا در کنار ماموگرافی برای تشخیص زودهنگام سرطان پستان استفاده می شود. حجم سه بعدی تولیدشده در این تصویربرداری شامل تعداد زیادی برش است. رادیولوژیست برای یافتن توده باید تمام برش های تصویر را بررسی کند که کاری زمان بر با احتمال خطای زیاد است. امروزه برای کمک به رادیولوژیست ها در آشکارسازی توده، سیستم های آشکارساز کامپیوتری (CAD) بسیاری ارایه شده است.در این مقاله، معماری 3D U-Net با قرار دادن دو نوع ماژول Inception تغییریافته در بخش کدگذار بهبود داده شده و برای آشکارسازی توده در تصاویر 3D ABUS استفاده شده است. در ماژول پیشنهادی اول که در اولین لایه کدگذار قرار می گیرد، ویژگی های سه بعدی متنوع با دو میدان دید متفاوت تولید می شود. در ماژول دوم که در لایه های بعدی کدگذار قرار می گیرد، ویژگی های خطی و ویژگی های صفحه ای استخراج می شود. مجموعه داده مورد استفاده دارای 60 حجم 3D ABUS از 43 بیمار و شامل 55 توده است. شبکه پیشنهادی به حساسیت 92.9% و میانگین FP برابر با 22.75 به ازای هر بیمار دست یافته است.
    کلیدواژگان: تصویربرداری اولتراسوند خودکار سه بعدی پستان، سیستم آشکارساز کامپیوتری، شبکه عصبی کانولوشنی سه بعدی، آشکارسازی توده، Inception
  • عفت سلیمانی*، هژیر صابری صفحات 61-74

    هدف مطالعه ی حاضر بررسی اثر بهنجار سازی و تعداد تکرار اجرای فیلتر خطی حذف اسپکل بر کیفیت تصاویر فراصوتی متوالی از شریان کاروتید و انتخاب معیار بهینه برای تعداد تکرار فیلتر حذف اسپکل در تصاویر فراصوتی است. 750 تصویر فراصوتی متوالی در طول سه سیکل قلبی از شریان کاروتید سه داوطلب مرد سالم (24، 31 و 42 ساله) و 250 تصویر فراصوتی متوالی در طول سه سیکل قلبی از شریان کاروتید یک داوطلب مرد 65 ساله دارای تنگی آترواسکلروز ثبت شد. با استفاده از یک برنامه نوشته شده در محیط متلب، ابتدا تصاویر با مقیاس بندی مجدد سطح خاکستری خون و ادونتیشیا بهنجار شدند و سپس یک فیلتر خطی حذف اسپکل در 10 تکرار بر تصاویر بهنجار شده اعمال شد. کیفیت تصاویر پردازش شده با تکرارهای مختلف، با استفاده از شاخص های میانگین، واریانس، نسبت سیگنال به نویز، کنتراست نسبی، اندیس نویز اسپکل، نسبت کنتراست به اسپکل و تشابه ساختاری مورد ارزیابی قرار گرفت.نتایج مطالعه حاضر نشان می دهد که در میان شاخص های مورد ارزیابی، تشابه ساختاری تنها مشخصه ه ای است که با افزایش تکرار فیلتر رفتار یکنوا ندارد بطوری که با افزایش تعداد تکرار فیلتر خطی، تشابه ساختاری ابتدا افزایش و سپس کاهش می یابد. بهینه تعداد تکرار فیلتر حذف نویز مربوط به بیشینه مقدار تشابه ساختاری است. براساس نتایج مطالعه ی حاضر، به نظر می رسد برای دستیابی به بیشینه تشابه ساختاری به 2 تا 5 مرتبه فیلتراسیون خطی با اندازه 5×5 نیاز است و افزایش بیشتر تعداد فیلتر، ضمن افزایش هزینه محاسباتی موجب کاهش تشابه ساختاری و محو شدن جزتیات تصویر می شود.

    کلیدواژگان: پردازش تصویر، تکرار فیلتر، حذف اسپکل، فراصوت، شریانکاروتید
  • شیما جوانمردی، علی محمد لطیف*، محمدتقی صادقی صفحات 75-91

    توصیف محتوای تصویر به صورت خودکار توسط ماشین یک مشکل چالش برانگیز در بینایی کامپیوتر است و هدف آن تولید توضیحات قابل درک توسط کامپیوتر برای تصاویر می باشد. استفاده از شبکه های عصبی پیچشی (CNN) نقش مهمی در زمینه  توصیف تصاویر ایفا کرده است. با این حال، در طول فرآیند تولید توصیف های مرتبط با تصویر دو چالش عمده برای CNN وجود دارد که عبارتند از: عدم توجه آنها به روابط و ساختارهای سلسله مراتبی مکانی بین اشیای درون تصویر، و عدم ثبات در مقابل تغییرات چرخشی تصاویر. به منظور رفع این چالش ها این مقاله با بهره گیری از یک شبکه کپسولی بهبود یافته، به توصیف محتوای تصویر با استفاده از پردازش زبان طبیعی می پردازد. شبکه کپسولی با درنظر گرفتن موقعیت مکانی اشیای درون تصویر نسبت به یکدیگر،  اطلاعات مربوط به محتوای تصویر را ارایه می دهد. یک کپسول شامل مجموعه ای از نورون ها است که پارامترهای وضعیت اشیا درون تصویر مانند سایز، جهت، مقیاس و روابط اشیا نسبت به هم را در نظر می گیرند. این کپسول ها تمرکز ویژه ای بر استخراج ویژگی های معنادار برای استفاده در فرآیند تولید توضیحات مرتبط برای مجموعه ای معین از تصاویر دارند. آزمایش های کیفی روی مجموعه داده های MS-COCO با بهره گیری از شبکه کپسولی و روش تعبیه سازی ELMo، منجر به بهبود 2 تا 5 درصدی معیارهای ارزیابی شده، در مقایسه با مدل های زیرنویس تصویر موجود شده است.

    کلیدواژگان: توصیف تصاویر، یادگیری عمیق، شبکه کپسولی، شبکه عصبی پیچشی، پردازش زبان طبیعی
|
  • Saba Sadat Faghih Imani, Kazim Fouladi *, Hossein Aghababa Pages 1-15

    Person reidentification problem is intended to retrieve images of one person from the images captured by non-overlapping cameras. Despite the successful performance of the deep person reidentification models, the performance usually decreases during testing the model on different unlabeled datasets.In this paper, a well-generalized model for unsupervised domain adaptation in person reidentificationis proposed. The model uses both labeled source dataset and unlabeled target dataset during training and the goal is to generalize well on the unlabeled target domain. To this end, our model is optimized by three loss functions. The final loss function consists of one loss function for supervised learning of the source domain’s features, another for unsupervised learning of the target domain’s features, and a triplet loss function for learning the features of both source and target domains. The proposed model with strategy 2 for selecting neighbors achieves 84.5 % in rank-1 accuracy and 63% for mAP on Duke -> Market setting. It also achieves 70.1 % in rank-1 accuracy and 49.1 % for mAP on Market -> Duke setting.

    Keywords: Person Reidentification, Person Retrieval, Domain adaptation, Deep Learning
  • Atefe Moradyani, Mohsen Ramezani, Fardin Akhlaghian Tab, Rahmatollah Mirzaei * Pages 17-31
    Today, human action recognition as an important research field is used in different applications and many computer-vision researches have focused on this area to improve recognition accuracy. In this paper, a two-stream method is introduced incorporating a new structure including two spatial features to cover their defects. Utilizing this structure leads to better performance finally. In the first stream, wavelet coefficients of key-frames with proper multi-resolution are extracted, and deep features of these key-frames are also extracted to be used in the other stream. The features in each stream are gathered in a spatial feature map. The temporal changes in both streams are learnt using a new deep network and the classification information of these streams are combined to achieve an accurate action label. The proposed method is examined on three challenging datasets as UCFYT, UCF-sport, and JHMDB with real videos which its accuracy on these datasets is 98.7, 99.83, and 92.86, respectively. The proposed method has about 4.6 percent better performance rather than the best previously introduced method on average.
  • Hadi Alhares *, Jafar Tanha, MohammadAli Balafar Pages 33-48

    In recent years, deep learning techniques have been widely used to diagnose diseases. However, in the diagnosis of Covid-19 disease, due to insufficient data, the model is not properly trained and as a result, the generalizability of the model decreases. To address this, data from several different sources can be combined using transfer learning. technique. In this paper, to improve the transfer learning technique and better generalizability between multiple data sources, we propose a multi-source adversarial transfer learning model. In this method, the network, while trying to classify the data correctly, tries to make the representations of the source and target datasets as similar as possible to achieve better results in terms of quantity and quality for both datasets. we also use the center loss function to train the model. Using the center loss function helps to better distinguish classes from each other. We show that accuracy can be improved using the proposed framework, and surpass the results of current successful transfer learning approaches. The proposed method has achieved 2, 15, 15, and 8% improvement compared to the best results of other compared methods for the criteria of accuracy, precision, recall, and F1. The implementation code of the proposed method is available at the following GitHub address.

    Keywords: diagnose diseases, Covid-19 diagnosis, Deep Learning, Multi-source Adversarial Domain Adaptation, and Coronavirus pneumonia
  • Sepideh Barekatrezaei, Amin Malekmohammadi, Ehsan Kozegar, Masoumeh Salamati, Mohsen Soryani * Pages 49-59
    Breast cancer is the leading cause of cancer death among women in most countries. Early detection of breast cancer has a significant effect on reducing mortality. Automated three-dimensional breast ultrasound (3D ABUS) is a type of imaging that has recently been used alongside mammography for the early detection of breast cancer. The 3D volume includes many slices. The radiologist will have to look at all the slices to find the mass, which is time-consuming with a high probability of mistakes. Today, many computer-aided detection (CAD) systems have been proposed to help radiologists in mass detection.In this paper, the 3D U-Net architecture is improved by placing two types of modified Inception modules in the encoder and used to detect masses in 3D ABUS imahges. In the first Inception module, which is located in the first layer of the encoder, various three-dimensional features with two different fields of view are generated. In the second module, which is placed in the following layers of the encoder, line-wise features and plane-wise features are extracted. The dataset contains 60 3D ABUS volumes from 43 patients and includes 55 masses. The proposed network achieves a sensitivity of 92.9% and a false-positive per patient of 22.75
    Keywords: Automated three-dimensional breast ultrasound, Computer-Aided Detection, 3D convolutional neural network, Mass Detection, Inception
  • Effat Soleimani *, Hazhir Saberi Pages 61-74

    The aim of the present study is to evaluate the effect of image normalization and iteration number of the linear despeckle filtering on the consecutive ultrasound image quality of the carotid artery and to select the optimum iteration number of ultrasound despeckle filtering. 750 consecutive ultrasonic images over three cardiac cycles of the common carotid artery of three healthy male volunteers (32±9Yr) and 250 consecutive ultrasonic images over three cardiac cycles of the common carotid artery of a male volunteers (65 Yr) having atherosclerotic stenosis were recorded. Using a custom-written program in MATLAb software, the images were first normalized based on gray scale level of the blood and adventitia. Then a linear despeckle filter was applied in 10 iteration to the normalized images. The quality of the images processed with different iterations were evaluated via metrics including mean, variance, signal to noise ratio, relative contrast, noise speckle index, contrast to speckle ratio and structural similarity.Results of the present study shows that among all evaluated metrics, structural similarity is the only metric which is not monotone with iteration number so that by increasing the iteration, initially it increases and then decreases. The optimum iteration of the despeckling filter is that of the maximum structural similarity. According to the results of the present study it seems that 2 to 5 iterations of linear filtering of size 5×5 is required to obtain the maximum structural similarity and further increasing the iteration number results in image texture loss while more computational cost.

    Keywords: image processing, Filter iteration, Despeckling, Ultrasound, Carotid artery
  • Shima Javanmardi, Ali Mohammad Latif *, MohammadTaghi Sadeghi Pages 75-91

    Automatic image captioning is a challenging task in computer vision and aims to generate computer-understandable descriptions for images. Employing convolutional neural networks (CNN) has a key role in image caption generation. However, during the process of generating descriptions for an image, there are two major challenges for CNN, such as: they do not consider the relationships and spatial hierarchical structures between the objects in the image, and the lack of resistance against rotational changes of the images. In order to solve these challenges, this paper presents an improved capsule network to describe image content using natural language processing by considering the relations between the objects . A capsule contains a set of neurons that consider the parameters of the state of objects in the image, such as size, direction, scale, and relationships of objects to each other. These capsules have a special focus on extracting meaningful features for use in the process of generating relevant descriptions for a given set of images. Qualitative tests on the MS-COCO dataset using the capsule network and ELMo embedding technique have resulted in 2-5% improvement in the evaluated metrics compared to existing image captioning models.

    Keywords: image captioning, Deep Learning, convolutional neural network, Natural Language Processing