فهرست مطالب
نشریه ماشین بینایی و پردازش تصویر
سال یکم شماره 2 (پاییز و زمستان 1392)
- تاریخ انتشار: 1392/11/10
- تعداد عناوین: 6
-
-
صفحات 1-13مسئله آشکارسازی لبه به عنوان یکی از اساسی ترین و مهم ترین مسائل در پردازش و تحلیل تصویر مطرح بوده است، اهمیت این مسئله ناشی از آن است که خروجی خیلی از الگوریتم های تحلیل تصویر، به الگوریتم تشخیص لبه صحیح و دقیق وابسته است. اما یک روش جامع و کامل که بتواند کار تشخیص لبه در تصویر را با درنظر گرفتن همه الگوهای لبه و عوامل موثر در تشخیص لبه انجام دهد، تاکنون ارائه نشده است. در این تحقیق، در ابتدا با الهام از مدل محاسباتی سلول های شبکیه چشم و سلول ساده غشاء اولیه بینایی در مغز، عملگر گرادیان مناسب به صورت توابع گابور در جهت ها و مقیاس های مختلف و با پارامتر های تطبیقی مناسب، پیشنهاد می شود. سپس برای ادغام پاسخ های گرادیان یکسوشده، الگوریتمی بر اساس انقباض قطعات لبه از مقیاس های بزرگتر به سوی مقیاس های کوچکتر ارائه می شود. این پژوهش سعی دارد سه معیار معرفی شده توسط کنی را به طور مطلوب برآورده سازد. با اجرای تحلیل چند جهته و چند مقیاسی و ادغام منقبض شونده پاسخ های گرادیان، آشکارسازی بهتر و مکان یابی دقیق تر لبه حاصل شده است. نتایج استفاده از این روش در تصاویر طبیعی و ساختگی بیانگر کارآیی بهتر این روش نسبت به روش های مرسوم (مانند روش کنی) است.کلیدواژگان: آشکارسازی لبه، تحلیل چند جهته و چند مقیاسی، فیلتر گابور، ادغام منقبض شونده
-
صفحات 15-26در این مقاله، ویژگی های دیداری جدیدی برای تشخیص روحیات افراد بر اساس دست نوشته فارسی پیشنهاد شده است. هدف این پژوهش این است که مشخصاتی که گرافولوژیستها در مورد مشخصات دست نوشته بیان می کنند را بتوان با کمک کامپیوتر براساس تصویر دست نوشته به طور خودکار استخراج کرد. بنابراین باید این مشخصات به صورت ویژگی های دیداری قابل استخراج از تصویر بیان شوند. برای این منظور ابتدا تصاویر دست نوشته ها پیش پردازش می شوند و ویژگی هایی مانند عرض قلم، فاصله خطوط، ارتفاع حروف و... استخراج می شوند. در مرحله بعد ویژگی هایی از قبیل فواصلبینکلمات، اندازه حروف، میزان کجی حروف و ارتفاع حروف عمودی محاسبه شده اند. این ویژگی ها برای تشخیص نوع دست نوشته از لحاظ نظم و عدم تساوی حروف به کار می روند. ویژگی های ارائه شده روی دست نوشته های دسته بندی شده توسط گرافولوژیست آزموده شده است. نتایج، مناسب بودن ویژگی های پیشنهاد شده را تایید می کند.کلیدواژگان: گرافولوژی، استخراج ویژگی، پردازش تصویر، دست نوشته فارسی
-
صفحات 27-38در سال های اخیر به علت رشد و توسعه ی اینترنت، بازیابی مدل های سه بعدی به یک زمینه ی تحقیقاتی وسیع در دنیا تبدیل شده است. تاکنون روش های زیادی برای بازیابی این مدل ها ارائه گردیده و هر کدام ویژگی خاصی را برای عمل بازیابی مورد استفاده قرار می دهد. در این مقاله یک روش مبتنی بر هندسه برای بازیابی مدل های سه بعدی پیشنهاد می شود. در مدل های سه بعدی، نقاط واقع بر رویه ی مدل دارای همبستگی بالایی با نقاط مجاور هستند. بنابراین تحلیل پیشگویی خطی برای تخمین این مدل ها عملکرد مناسبی دارد. در این مقاله، ضرایب پیشگویی خطی بعنوان یک توصیفگر قوی از نگاشت استوانه ای مدل سه بعدی استخراج می شود. برای این منظور، ابتدا مدل سه بعدی بر روی سطح جانبی استوانه ی محاط بر مدل نگاشت می شود. سپس ضرایب پیشگویی خطی از نگاشت استوانه ای مدل استخراج می گردد. در ادامه با نگاشت بر سه استوانه ی هم راستا با محورهای اصلی بجای یک استوانه، اطلاعات گم شده ی مدل در اثر قرار گرفتن در مانع کاهش یافته و کارایی مدل بهبود می یابد. روش ارائه شده در مقابل چرخش، انتقال، مقیاس بندی و نویز نیز مقاوم است. برای پایداری توصیفگر در مقابل چرخش از آنالیز مولفه ی اصلی استفاده شده است. کارایی توصیفگر پیشنهاد شده با استفاده از پایگاه داده ی سه بعدی McGill مورد ارزیابی قرار می گیرد. نتایج شبیه سازی نشان می دهد که روش پیشنهادی، مدل های سه بعدی با ساختارهای مختلف را بخوبی از همدیگر تفکیک می نماید و همچنین در برابر نویز نیز بسیار مقاوم است.کلیدواژگان: بازیابی مدلهای سه بعدی، نگاشت استوانه ای، ضرایب پیشگویی خطی، نرمالیزاسیون حالت
-
صفحات 39-55سیستم های تحلیل معنایی ویدیو به دسته ای از سیستم ها اطلاق می شود که نوعی ابزار هوشمند جهت بررسی و تحلیل محتوایی و معنایی ویدیو می باشند. بررسی و دسته بندی این سیستم ها می تواند از دیدگاه های مختلف انجام شود. در این مقاله سعیشدهبر اساس یک ساختار سلسله مراتبی که از نحوه تولید فیلم توسط یک فیلم ساز برگرفته شده است، سیستم های تحلیل معنایی ویدیواز نظر شکاف معنایی میان ویژگی های سطح پایین و مفاهیم سطح بالا مورد بررسی قرار گیرند. به این ترتیب، پس از معرفی سیستم های تحلیل معنایی ویدیو، دو چالش اصلی در این سیستم ها مطرح می شود: شکاف حسگری و شکاف معنایی. پس از آن با ارائه یکساختار سلسله مراتبی مبتنی بر نحوه ساخت فیلم، چگونگی کاهش شکاف معنایی در سیستم های تحلیل ویدیو مورد بررسی قرار گرفته و تحقیقات انجام شده در این زمینه مرور می شود. بر اساس این ساختار، سیستم های تحلیل ویدیو در سه سطح دسته بندی و مرور می شوند: پردازش فریم ها، استخراج محتوا و استخراج معنا. در نهایت مشکلات و مسائل باز در سیستم های کنونی تحلیل معنایی ویدیو بازگو می گردد. مهمترین مشکلات در این زمینه عبارتند از: تنوع رویدادها و مفاهیم در یک ویدیو، امکان وجود معانی و مفاهیم متعدد براییک رویداد معین، پردازش های بلندمدت برای استخراج معانی و مفاهیم و استفاده و ترکیب داده های چندنوعی. به این ترتیب، با مروری بر مقالات، مسیرهای تحقیقاتی فعلی و مشکلات پیشرو در زمینه سیستم های تحلیل معنایی ویدیو معرفی خواهد شد.کلیدواژگان: آشکارسازی رویداد، استخراج مفهوم، تحلیل معنایی ویدیو، شکاف معنایی
-
صفحات 57-66در این مقاله یک سیستم برای بازشناسی علامت های ساکن زبان اشاره ی فارسی پیشنهاد شده است. این سیستم بر مبنای یک ویژگی شکلی جدید طراحی شده و قادر است با نرخ تشخیص بالایی، علامت های ساکن الفبای زبان اشاره ی فارسی را به طور خودکار بازشناسی کند. در اینسیستم، ابتدا با استفاده از آنالیز مولفه ی اصلی (PCA)، جهت های غالب دست را بدست می آوریم و تصاویر را در جهت غالب دست، به نحوی که سیستم مختصات جدید تصویر بر راستای جهت های غالب دست منطبق شود، می چرخانیم. سپس یک ویژگی در ارتباط با انواع شکل دست در این مقاله پیشنهاد می شود و این ویژگی بر روی تصاویر تنظیم شده اعمال می شود. در مرحله ی استخراج ویژگی،ابتدا مرکز ثقل شکل دست و منحنی پیرامونی آن را در هر تصویر بدستمی آوریم و از منحنی پیرامونی بدست آمده در هر علامت،نمونه برداری می کنیم. سپس برای بدست آوردن اطلاعات شکلی مناسب از حالت دست،دوایری به مرکز نقطه وسط بین مرکز ثقل شکل دست و نقاط نمونه برداری شده و به شعاع نصف فاصله ی بین نقاط ذکر شده برازش می دهیم. از این دوایر،اطلاعاتی از شکل دست به عنوان بردار ویژگی برای هر علامتتهیه می شود. برای بازشناسی علامت ها با قابلیت اطمینان بالا، یک سیستم ترکیبی از دو کلاس بند ماشین بردار پشتیبان (SVM) و K نزدیکترین همسایه (KNN) را پیشنهاد می کنیم. نرخ بازشناسی و قابلیت اطمینان سیستم پیشنهادی بر روی مجموعه ی آزمایشی پایگاه داده PSLبه ترتیب 33/93% و 73/98% می باشد که موید این مطلب است که عملکرد سیستم پیشنهادیتا حدود زیادی رضایت بخش و مطلوب می باشد.کلیدواژگان: آنالیز مولفه ی اصلی، بازشناسی، زبان اشاره، ماشین بردار پشتیبان، نزدیکترین همسایه، نمونه برداری
-
صفحات 67-77مطالعات نشان میدهد که 25% تا 47% سالمندان ساکن در جامعه یکبار یا بیشتر به زمین می خورند و این رقم در میان سالمندان آسایشگاهی به حدود 50% نیز می رسد. در این مقاله الگوریتم جدیدی معرفی شده که در گام نخست با دریافت رشته های ویدئویی از افراد، با استفاده از مدل مخلوط گوسی و تخمین پارامترهای این مدل توسط الگوریتم بیشینه ساز امید ریاضی، قالب بدن شخص از فریم ها جداسازی می شود. در گام بعدی، وقوع زمین خوردگی با تکیه بر تغییرات آناتومیکی بدن شخص سالمند و نمایش حافظه حرکت صورت می پذیرد. پیاده سازی سیستم بر مجموعه ای شامل چندین فریم تصویری دریافت شده از سرای سالمندان مادر سبزوار و پایگاه داده CAVIAR دربردارنده وقایع زمین خوردگی و راه رفتن طبیعی اشخاص انجام شد. در ادامه بر مبنای عامل انحراف استاندارد و ضریب حرکت فرد، وقایع مشکوک به زمین خوردگی و زمین خوردگی های واقعی با دقت مناسبی تفکیک شده و در نهایت حساسیت 68/92% و ویژگی 96% که نشان دهنده توانایی مطلوب سیستم می باشد، حاصل آمد. شبیه سازی مناسب الگوریتم بر روی مجموعه داده ها سبب شده تا میزان خطا مقداری کمتر از 6% را داشته باشد و از سویی بکارگیری آن در مراکز نگهداری سالمندان و منازل مسکونی، مانیتورینگ دقیقی را از زمین خوردگی به همراه خواهد داشت.کلیدواژگان: پردازش تصویر، حافظه حرکت، زمین خوردگی، سالمندان، مدل ترکیبی گوسین، بیشینه ساز امید ریاضی
-
Pages 1-13Edge detection is one of the most important and basic problems in image processing and image analysis and machine vision. The importance of this issue is that the output of many image analysis algorithms are dependent on accurately and correctly edge detection algorithm. However a comprehensive and perfect solution that be able to do edge detection with considering all of the edge patterns and factors affecting it, so far not provided. In this paper, firstly, inspired by computational model of retina and primary visual cortex cells in the brain, we propose an appropriate Gabor function as a gradient operation different directions and scales with adaptive parameters. Then, for fusion of rectified gradient responses, we introduce an algorithm based on edge segments contraction from large-scales toward small-scales. This research is trying to satisfy three criteria introduced by Canny properly. With the implementation of multi-scale and multi-directional analysis and contractive fusion of image gradients, better detection and more precise positioning of edges has been obtained. The experimental results indicate that the effective ness of this method on natural and artificial images is better than the conventional methods (e.g. Canny).Keywords: edge detection, Multi, scale, multi, directional analysis, Gabor filter, Contractive fusion
-
Pages 15-26In this paper, new visual features for personality identification based on Farsi handwriting images are proposed. The purpose of this study is to establish a computer aided system to automatically extract some attributes that are used by graphologists for the analysis of handwriting. Therefore, these attributes should be presented in the forms that be extractable from the handwriting images. To do this, first the handwriting images are preprocessed and the features such as pen width, spaces between lines, heights of sub-words, etc. are extracted. In the next step, some features including spaces between words, the size of letters and sub-words, the deviation of letters and the height of vertical letters are calculated. These features are employed to recognize the type of handwriting. Eventually, the extracted features from handwriting images are examined on a set of images which have been commented on by graphologist. The experimental results confirm the effectiveness of the proposed features.Keywords: Graphology, Handwriting analysis, Farsi handwriting, Image processing
-
Pages 27-38In the recent years, due to the growth and development of the Internet, 3D model retrieval has become a wide research field. Several methods have been presented to retrieve 3D models. Each method employs a special feature. In this paper, a geometric based method is proposed to retrieve the objects. In 3D models, the adjacent points on the surface of object are highly correlated. So, the linear prediction analysis has a proper performance to estimate these models. In this paper, the linear prediction coefficients are extracted from cylindrical projections of 3D objects as an appropriate descriptor. At first, the object is projected onto the lateral surface of a bounding cylinder. Then, the linear prediction coefficients are extracted from cylindrical projection. To alleviate the occlusion problem, cylindrical projection is generalized to three cylinders along all principal axes. The principal component analysis is employed to normalize the descriptor against rotation. The performance of the proposed descriptor is evaluated employing the McGill database of 3D models. Experimental results demonstrate that the proposed method discriminates the objects with different structure and remains robust against noise as well.Keywords: 3D Model retrieval, Cylindrical projection, Linear prediction Coefficients, Pose normalization
-
Pages 39-55A semantic video analysis system is a semi- or fully-automated system for investigation of video contents and extraction of concepts and semantics from video. These systems can be classified from different viewpoints. In this article, the semantic gap between low-level features and high-level concepts in the semantic video analysis systems is discussed and the literature is reviewed from viewpoint of semantic hierarchy for video production.To this end, after a brief description of video analysis systems and their general block diagram, two main challenges of these systems are discussed: sensory gap and semantic gap. Then, different approaches for reduction of the semantic gap are studied based on a semantic hierarchy used for video production. According to this hierarchical structure, there are three main steps for reduction of semantic gaps: frame processing; content analysis; and semantic extraction. Finally, open problems in this field of research are presented as the following. Usually, a wide variety of events and concepts may occur in a video. Different concepts may be assigned to an event in different circumstances. Some high-level concepts may occur in a relatively long duration of video; thus, extraction of such concepts requires processing of a relatively long duration of video to construct a semantic network between the concepts extracted from short durations of video. Usually, analysis of multi-modal information may close the semantic gaps that exist in the analysis of single-modal information.Keywords: Concept extraction, Event detection, Hierarchical semantic Structure, Semantic gap, Semantic video analysis
-
Pages 57-66In this paper, we propose a system for recognizing static signs of Persian sign language (PSL). This system, designed based on a novel geometric feature, can automatically recognize static signs of Persian sign language alphabet with high accuracy. In feature extraction stage, we first find the center of gravity and contour of the hand shape in images, and then sample from obtained hand contour points. Then we consider a circle for each point on the contour. For this purpose, we compute the distance between the center of gravity of hand shape and each point along the contour. We select half of the computed distance for each point and the point located in the middle of this distance as radius and center of circle respectively. The resulting circles contain valuable information about the shape of hand that they are organized as feature vector for each sign. To recognize signs with high reliability, we propose a system that combine support vector machine (SVM) with K nearest neighbor (KNN). Experiments are performed on PSL database. The accuracy and reliability of proposed system with the test data are 93.33% and 98.73% respectively. The obtained results show the performance of proposed system is satisfactory.Keywords: Recognition, Sign language, Feature extraction, Hand, Contour, Sampling
-
Pages 67-77Studies show that 25% to 47% of elderly will at least once experience falls and this figure is approximately 50% among the elderly living in nursing home. In this paper, based on the Gaussian Mixture Model (GMM) and estimating their parameters by Expectation Maximization (EM) algorithm, a new method has been proposed that firstly, the binary movement of the elderly is segmented from video sequences. Next, the occurrence of falls in older persons is done relying on anatomic body changes and Motion History Images (MHI). Elevation of the system performance was set up on a set of video frames received from the elderly residing in Mother Health Care Center in Sabzevar city and CAVIAR database containing the actual occurrence the of falling. Then, based on the standard deviation and the C-motion coefficient of the walking, suspected incident falls and actual falls are accurately segregated and finally, the sensitivity of 92.68% and the specificity of 96% were obtained which represent a desired capability of the output system. In overall, appropriate simulation of algorithms on the data set due to low error rate in which is less than 6% and meanwhile a careful monitoring of the elderlys falls will be provided by implementing this system in elderly nursing and residential homes.Keywords: Image processing, Motion history Image, Fall, Elderlies, Gaussian mixture model, Expectation maximization