فهرست مطالب

ماشین بینایی و پردازش تصویر - سال دهم شماره 2 (تابستان 1402)

نشریه ماشین بینایی و پردازش تصویر
سال دهم شماره 2 (تابستان 1402)

  • تاریخ انتشار: 1402/01/28
  • تعداد عناوین: 6
|
  • محمدرضا روزبهانی، ساناز سیدین*، بهرام رشیدی صفحات 1-18
    هدف این مقاله استفاده از ویژگی های بیومتریک اثر انگشت برای دستیابی به کلیدهای رمزنگاری تصادفی می باشد. پیچیدگی الگوریتم تولید کلید، تعداد بیت بالا و تصادفی بودن سه فاکتور مهم برای کلیدهای رمزنگاری قوی می باشند. در روش پیشنهادی، ابتدا ویژگی های بیومتریک یعنی نقاط مینوشیا را با پردازش تصویر اثر انگشت استخراج می کنیم. سپس برای افزایش پیچیدگی روش تولید کلید و امنیت کلید تولیدی، هر تصویر را به 44 قطعه تقسیم می کنیم تا با محاسبه فاصله اقلیدوسی و زاویه بین پیکسل های مرکزی هر 44 قطعه با کل مینوشیا های تصویر بتوانیم داده های تصادفی را افزایش دهیم. جهت افزایش بیشتر حالت تصادفی کلید، یک الگوریتم سه-گامه پیشنهاد می کنیم که شامل قرار دادن اعداد مربوط به زاویه و فاصله بصورت زوج و فرد در کنار یکدیگر، دو شکل جابجایی و جایگشت بیت ها و اعمال توزیع یکنواخت روی داده ها برای تولید کلید نهایی می باشد. به علت بالا بودن تعداد بیت کلید، می توان با استخراج زیر کلیدهای 128، 256 و 512 بیتی از ماتریس کلید مذکور در رمزنگاری از آنها استفاده نمود. آنالیزهای آماری انجام شده همچون مجموعه تست های استاندارد NIST، تصادفی بودن و امنیت بالای کلید نهایی 63751 بیتی را اثبات می کند، و نشان دهنده عملکرد بهتر روش پیشنهادی در مقایسه با کارهای گذشته می باشد که تنها از فاصله یا زاویه بین نقاط مینوشیا برای تولید کلید رمزنگاری تصادفی با طول بیت یسیار کمتر استفاده کرده اند. الگوریتم پیشنهادی، با توجه به 15 تست NIST، نسبت به کارهای جدید گذشته تا 20% از نظر تصادفی بودن کلید تولید شده بهبود دارد.
    کلیدواژگان: قطعه بندی تصویر اثر انگشت، کلید رمزنگاری تصادفی، مینوشیا، توزیع یکنواخت، فاصله اقلیدوسی، جایگشت
  • محسن شامیرزایی*، مهران میرشمس صفحات 19-29
    مساله ی تعیین جابجایی و دوران دوربین براساس شاخصه های متناظر میان فریم های تصویر، از موضوعات مورد بحث در علم بینایی ماشین است. پیچیدگی مساله به یکتا نبودن پاسخ مربوط می شود. در این مقاله از روش حداقل مربعات بازگشتی برای پردازش اطلاعات حاصل از ردیابی شاخصه های تصویری به منظور اندازه گیری جابجایی خطی و زاویه ای دوربین میان فریم های تصویری و متعاقب آن اندازه گیری سرعت استفاده می شود. به طور مشابه، از تطبیق تصاویر لحظه ای دوربین با تصاویر مرجع، برای اندازه گیری خطای ناوبری اینرسی در تعیین خطای موقعیت و وضعیت فضاپیمای حامل دوربین استفاده می شود. همچنین فیلتر کالمن توسعه یافته برای تلفیق مقادیر اندازه گیری شده توسط سامانه بینایی با اطلاعات سیستم ناوبری اینرسی به کار گرفته می شود. بدین ترتیب، همزمان با ارتقاء دقت سیستم ناوبری، امکان دستیابی به تقریب مناسبی از جابجایی دوربین در بازه های زمانی میان فریم های تصویر فراهم می شود. بکارگیری این تقریب به عنوان نقطه شروع، باعث همگرایی روش حداقل مربعات بازگشتی به پاسخ مورد قبول از میان پاسخ های ممکن برای مساله می شود. برای نمایش کارایی روش پیشنهادی، بازگشت یک فضاپیمای نوعی و تصاویر دوربین نصب شده بر روی آن شبیه سازی می شود. خطای سنسورهای اینرسی مدل سازی شده اند. بنابراین سیستم ناوبری اینرسی سرعت، موقعیت و وضعیت فضاپیما را با خطا گزارش می کند. با ردیابی شاخصه های تصویری مناسب و تعیین مختصات نقاط شاخص از پیش نگاشت یافته در تصویر دوربین، خطای سیستم ناوبری اینرسی تخمین زده شده و  اصلاح می گردد. صحه گذاری بر نتایج، از طریق مقایسه آن ها با مقادیر حاصل از حل معادلات شش درجه آزادی حرکت به عنوان مقادیر صحیح و بدون خطا انجام می شود. نتایج نشان می دهند که در سناریوی تعریف شده برای بازگشت فضاپیما و به ازای مشخصات درنظر گرفته شده برای دوربین و سنسورهای اینرسی، دقت  02/0 متر بر ثانیه، 5 متر و  01/0 درجه به ترتیب در تعیین سرعت، موقعیت و وضعیت قابل دستیابی است، ضمن این که دقت حاصل از بکارگیری سامانه بینایی، مستقل از زمان پرواز،  دینامیک پرنده و سایر عوامل موثر بر دقت سیستم ناوبری اینرسی است.
    کلیدواژگان: ناوبری اینرسی، ناوبری تلفیقی، ناوبری به کمک تصویر، بینایی ماشین، سرعت سنجی بینایی
  • امین فرجی، مسعود سعید*، حسین نظام آبادی پور صفحات 31-46

    وجود مجموعه داده های تصویری نقش اساسی در زمینه تشخیص نویسه خوان نوری (OCR) و بازیابی اسناد دارد. علی رغم اینکه تا به امروز مجموعه داده ‏های تصویری زیادی با اشیا متفاوت در حوزه درک و ناحیه بندی اسناد غیرفارسی منتشر شده است، رسم الخط فارسی از این پیشرفت عقب مانده است و تاکنون در زمینه درک و ناحیه بندی اسناد فارسی، مجموعه دادگانی با دسترسی عمومی ارایه نشده است. از سوی دیگر، اگرچه زبان های فارسی و عربی شباهت های زیادی‏ دارند، اما تفاوت بین ساختار این دو زبان باعث می شود که سیستم های آموزش ‏دیده OCR با مجموعه داده عربی، دقت مناسبی روی تصاویر اسناد فارسی نداشته باشند. در این مقاله، یک مجموعه داده‏ برای تصاویر اسناد فارسی معرفی می‏گردد که مشتمل بر 5598 تصویر است. تصاویر تهیه شده متعلق به روزنامه ها، کتاب های درسی، مقالات علمی، فایل‏های PDF فارسی، پایان‏نامه ‏ها، انواع لوگو ایرانی، کتب دست‏نوشته‏ قدیمی و جزوات تایپ شده و دست‏نویس ریاضی هستند. در مجموعه داده معرفی شده، اشیا درون تصاویر به 6 گروه پاراگراف (متن)، شکل، جدول، لوگو، رابطه ریاضی و سرصفحه دسته بندی و برچسب گذاری شده اند. برای ارزیابی کارایی مجموعه تصویر پیشنهادی، سه روش شناخته ‏شده مبتنی بر یادگیری عمیق پیاده سازی و نتایج بر مبنای معیارهای مختلف گزارش شده است.

    کلیدواژگان: پردازش تصویر، اسناد متن فارسی، ناحیه بندی سند، درک سند، مجموعه داده
  • فرزانه مقصودی قمبوانی، محمدجواد فدایی اسلام*، فرزین یغمایی صفحات 47-55

    یکی از چالش برانگیزترین موضوعات در هوش مصنوعی انتقال محتوای تصویر به تصویر است، که اخیرا با استفاده از شبکه های مولدتخاصمی پیشرفت چشمگیری نموده است. بااین حال، روش های موجود در انتقال محتوای منبع نویزی به دامنه هدف به صورت سر به سر شکست می خورند. برای رفع این مشکل، در این مقاله شبکه WTGAN پیشنهاد شده که شامل مولد جدید، جداکننده محلی و سراسری است که شبکه مولد آن بر اساس تبدیل موجک و ماژول توجه طراحی شده است. از آنجا که تبدیل موجک ابزاری قدرتمند جهت حذف نویز عمومی از تصویر است، در ساختار مولد از آن استفاده شده است. همچنین با استفاده از مکانیزم توجه، اتصالات باقیمانده و کنارگذر تناظر بهتر محتوا بین تصویر منبع و هدف به وجود آمده و به بهبود توانایی مولد و عملکرد آن کمک می نماید. در این مقاله با استفاده از توابع اتلاف معرفی شده در روش های دیگر به قدرتمندی مدل در جهت انتقال محتوای تصویر توامان با حذف نویز پرداخته شده است. آزمایش های انجام شده بر روی مجموعه داده Cityscapes با استفاده از معیارهای ارزیابی PSNR، SSIM و LPIPS نشان دهنده این است که مدل می تواند به خوبی اثرات نویز در منبع را کاهش داده، ساختار را به خوبی حفظ نموده و به کیفیت مطلوب دست یابد.

    کلیدواژگان: انتقال محتوای تصویر به تصویر، شبکه مولدتخاصمی، حذف نویز تصویر، مکانیزم توجه، تبدیل موجک
  • مرتضی یوسفی، وحید مهرداد* صفحات 57-75
    یکی از مهمترین موضوعات در پردازش تصویر حذف نویز می باشد تا بتوان کیفیت تصویر را بهبود بخشید. از آنجاییکه شبکه های عصبی عمیق به تنهایی با افزایش عمق شبکه با مشکلاتی مانند محو گرادیان مواجه می شوند و نمی توانستند جزییات را به خوبی برای یک وظیفه خاص پوشش دهند در این مقاله، با کاهش عمق شبکه و افزایش پهنای آن، امکان استخراج ویژگی های متنوع از کانال های مختلف فراهم می شود، که این امر منجر به افزایش دقت شبکه می گردد. با افزایش پهنای شبکه به دو انشعاب، اطلاعات متفاوتی از تصویر نویزی استخراج می شود که این عمل برای تفکیک داده های نویزی  از تصویر  بسیار موثر است. اثر توجه به ویژگی ها در هر کانال و وزن دهی آنها در عملیات حذف نویز نیز در نظر گرفته می شود. در نهایت برای بررسی کارامدی روش پیشنهادی، نتایج با آخرین دستاوردهای این حوزه مقایسه می شوند. نتایج شبیه سازی با بررسی دو معیار PSNR و SSIM و هم از نگاه بصری نشان می دهد این روش در مقابله با انواع نویز ترکیبی و کور جهت انجام کارهای پردازشی در حد قابل قبولی می باشد و از طرفی استفاده از  اثر توجه و شبکه های موازی می تواند در مواجهه با نویز حقیقی بسیار موثر باشد و توانسته است به میانگین PSNR=36.34db دست یابد
    کلیدواژگان: حذف نویز، شبکه های عصبی عمیق، شبکه های کانولوشنی موازی، مکانیزم توجه، استخراج ویژگی
  • زهرا فامیل ستاری، حسن ختن لو*، الهام علیقارداش صفحات 77-88
    توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روش های پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کرده اند. به این ترتیب هر کلمه بر اساس ویژگی های تصویر و کلمات تولید شده قبلی تولید می شود. اخیرا سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کرده ایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention  است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایه ی Language-LSTMمسیولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگی ها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه می تواند روابط اشیای داخل تصاویر را به خوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعه های داده Flickr8k و MSCOCOتوصیف های بهتری را نسبت به روش های موفق موجود ارایه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.
    کلیدواژگان: توصیف تصویر، رمزگذار-رمزگشا سازوکار توجه، سازوکار توجه بر توجه، پردازش زبان ها طبیعی
|
  • Mohammadreza Ruzbahani, Sanaz Seyedin *, Bahram Rashidi Pages 1-18
    In this paper, we aim to use biometric fingerprint features to generate random cryptographic keys. The complexity of the key generation algorithm, the high number of bits, and the randomness are three important factors for strong cryptographic keys. In the proposed method, firstly, we extract the biometric features, i.e Minutiae points after an appropriate image processing step. Then, to increase the complexity of the key generation method as well as its security, each image is divided into 44 segments. Thus, we could increase random data by calculating the Euclidean distance and the angle between the central pixels of each 44 segmentswith all Minutiae points.Finally, we have proposed a three-step algorithm to generate the final key. It includes placing the related valuesof the angle and distance in the even and odd positions of a single matrix, two methods of bit replacement and permutation, and applying a uniform distribution on data. We could extract subkeys of 128, 256, and 512 bits due to the high number of bits of the final key which is useful in cryptography applications. The performed statistical analysis tests such as NIST prove the randomness and high security of the final 63751-bit key. According to these tests, the proposed method outperforms the previous ones in the literature which only use the distance/angle among minutiae points for generating cryptographic keys with much lower lengths. Considering the 15 tests of NIST for evaluating the key randomness, the proposed algorithm outperforms the previous methods up to 20%.
    Keywords: Fingerprint image segmentation, Random cryptographic key, Minutiae, uniform distribution, Euclidean Distance, Permutation
  • Mohsen Shamirzaei *, Mehran Mirshams Pages 19-29
    In this article, RLS method is used to process the information obtained from the tracking of features in order to measure the linear and angular displacement of the camera between image frames and subsequently to measure the speed. On the other hand, camera image registration with reference images is used to measure the INS error in position and attitude. The EKF is used to integrate the measurements of VS with the outputs of the INS. As the accuracy of the VINS is improved, it is possible to achieve a suitable approximation of the camera movement in the time intervals between the image frames. Using this approximation as an initial point leads to the convergence of the RLS to the acceptable answer. To show the effectiveness of the proposed method, the return of a spacecraft and the images of the camera mounted on it are simulated. The INS reports the speed, position and attitude erroneously. By tracking opportunistic features and determining the location of a priori mapped landmarks in image, the errors of the INS are estimated and corrected. The results are validated by comparing them with the values obtained from solving the motion equations as error-free values. The results show that in the defined scenario for the return of the spacecraft and specifications considered for the camera and inertial sensors, the accuracy of 0.02 m/s, 5m and 0.01 deg. respectively in determining the speed, position and attitude is achievable.
    Keywords: Integrated Navigation, vision aided navigation, Machine Vision, visual odometry, Tracking
  • Amin Faraji, Masoud Saeed *, Hossein Nezamabadi-Pour Pages 31-46

    Document images segmentation is one of the recent activities that have attracted researchers' attention. Unfortunately, there is no report on a benchmark dataset for Farsi document images understanding and segmentations applications that be available in the web. In the current article, a benchmark image dataset for the sake of the Farsi document images segmentation is presented, which includes 5598 images. The provided images are taken from the newspapers, textbooks and academic articles. Objects in the images are categorized and labeled into six different groups to be used easily in the subsequent applications. The object groups used in the dataset are paragraph(text), figure, table, logo, mathematical equation and header. To asset the effectiveness of the proposed document image dataset, three existing well-known methods based on deep learning are implemented on it and the results are presented.

    Keywords: image processing, Farsi Text Documents, Document Segmentation, Document Understanding, Database
  • Farzane Maghsoudi Ghombavani, MohammadJavad Fadaeieslam *, Farzin Yaghmaee Pages 47-55

    The image-to-image translation is one of the most challenging topics in artificial intelligence, which has recently made significant progress with the use of generative adversarial networks (GANs). However, existing methods often fail to translate the noise source to the target domain. This article presents the WTGAN network, which includes a new generator and a local and global discriminator to solve this problem. The generating network is designed based on wavelet transform and attention. Due to the fact that wavelet transforms are powerful tools for removing general noise from the image, They have been used in the structure of the generator. Also, attention, residual and skip-connections can provide deeper surface information between the source and target image and help to improve the generator performance. Experiments were performed on the Cityscapes dataset and PSNR, SSIM, and LPIPS criteria were used for evaluation. The results have shown that the model can well reduce the effects of noise at the source, well reserve structure, and achieve the desired quality.

    Keywords: Image to image translation, Generative adversarial network, Image Denoising, Attention network, wavelet transform
  • Morteza Yousefi, Vahid Mehrdad * Pages 57-75
    Noise removal is one of the important topics in image processing to improve image quality. Since deep neural networks alone face problems such as vanishing gradient by increasing the depth of the network and could not cover the details well for a specific task, in this paper, by reducing the depth of the network and increasing its width, it is possible to obtain diverse features from different channels, which increases the accuracy of the network. By increasing the width of the network into two branches, different information is extracted from the noisy image, which is very accurate for separating noisy data from the image. The effect of attention to the features in each channel and their weighting in the noise removal operation is also considered. Finally, to check the effectiveness of the proposed method, the results are compared with the state of the art results in this field. The simulation results by examining both PSNR and SSIM and from a visual point of view show that this method is acceptable in dealing with various types of synthetic and blind noises for performing processing, and on the other hand, using the effect of attention and parallel networks can be achieved with PSNR=36.34db, which is very effective in real noise.
    Keywords: Denoising, deep neural networks, parallel convolutional networks, attention mechanism, Feature Extraction
  • Zahra Familsattari, Hassan Khotanlou *, Elham Alighardash Pages 77-88
    Image captioning is an interdisciplinary research field in machine vision and natural language processing. Most of the proposed methods for generating image captions follow an encoder-decoder framework. In this way, each word is generated based on the image features and previously generated words. Recently the attention mechanism, which usually creates a spatial map that highlights the image regions associated with each word, has been widely used in research. In this paper, we propose a new method that integrates the encoder-decoder framework with the attention on attention mechanism. The encoder part of the model uses ResNet to extract global features of the image, and the decoder consists of three important parts: Attention-LSTM, Language-LSTM, and Attention on attention-layer. The attention mechanism uses local evidence to enhance the demonstration of the features and reasoning in the generation of image descriptions. The method was able to improve the generation of captions and improve METEOR, ROUGH evaluation metric well. And also it generates better captions compared to modern methods on the Flickr8k, dataset.
    Keywords: image captioning, Deep Learning, Attention on Attention Mechanism, Natural Language Processing