فهرست مطالب
فصلنامه پردازش علائم و داده ها
سال هفتم شماره 1 (پیاپی 13، بهار و تابستان 1389)
- تاریخ انتشار: 1389/11/28
- تعداد عناوین: 7
-
-
صفحه 3روش های تبدیل ویژگی را می توان به دو دسته خطی و غیرخطی تقسیم کرد. روش های تبدیل ویژگی مبتنی بر هسته از جمله روش های غیرخطی هستند که اخیرا مورد توجه بیشتری قرار گرفته اند. در این روش ها، ایده اصلی نگاشت غیرخطی ویژگی ها به فضایی با ابعاد بالاتر است. این نگاشت با هدفها و معیارهای متفاوتی صورت می گیرد. در آنالیز متمایزساز خطی مبتنی بر هسته (KLDA)، معیار تفکیک پذیری بیشتر ویژگی ها در فضای جدید است، حال آنکه در آنالیز مولفه های اصلی مبتنی بر هسته (KPCA)، معیار متعامدسازی ویژگی ها در فضای حاصل است. در مقاله حاضر یک روش جدید مبتنی بر هسته پیشنهاد و فرموله می شود که بر کمینه کردن خطای کلاس بندی در فضای ایجاد شده توسط هسته (KMCE) تکیه دارد. معیارهای بهینه سازی در روش های KLDA و KPCA مستقل از خطای کلاس بندی می باشند در صورتی که در روش پیشنهادی علاوه بر بهره برداری از ایده ی نگاشت غیرخطی هسته، معیار کمینه سازی خطای کلاس بندی نیز مورد نظر قرار می گیرد. نتایج حاصل بر روی دادگان UCI و کلاس بندهای مختلف، نشان می دهند که روش پیشنهادی در مقایسه با روش های تبدیل ویژگی خطی و روش های شناخته شده تبدیل ویژگی مبتنی بر هسته، در مورد کلاس بندهای مبتنی بر فاصله، نرخ بازشناسی بهتری دارد و در مورد کلاس بندهای آماری و مبتنی بر درخت تصمیم نیز کارآیی قابل قبولی دارد. همچنین آزمایشات انجام شده روی دادگان گفتاری Aurora2 عملکرد مطلوب روش پیشنهادی را نسبت به روش های غیرخطی دیگر نشان می دهد.
کلیدواژگان: تبدیل ویژگی، آنالیز تفکیک پذیری خطی، روش آنالیز مولفه اصلی، خطای کلاس بند کمینه، تابع هسته -
صفحه 19اکثر مطالعات اخیر در حوزه خوشه بندی ترکیبی سعی می کنند ابتدا خوشه بندی های اولیه ای تولید کنند که تا حد ممکن دارای پراکندگی باشند، سپس با اعمال یک تابع توافقی همه این نتایج را با هم ترکیب می کنند. در این مقاله یک روش جدید خوشه بندی ترکیبی ارائه شده است که در آن به جای استفاده از تمام نتایج اولیه، تنها از زیرمجموعه ای از خوشه های اولیه استفاده می شود. ایده اصلی در این روش استفاده از خوشه های پایدار در ترکیب نهایی است. برای ترکیب خوشه های انتخابی، از تابع توافقی مبتنی بر ماتریس همبستگی استفاده شده است. از آن جایی که ساخت ماتریس همبستگی با در دسترس بودن تنها تعدادی از خوشه ها، با روش های موجود امکان پذیر نمی باشد، در این مقاله یک روش جدید به نام خوشه بندی انباشت مدارک توسعه یافته، برای ساخت ماتریس همبستگی از زیرمجموعه ای از خوشه ها پیشنهاد شده است. برای ارزیابی خوشه ها، از پایداری مبتنی بر اطلاعات متقابل استفاده شده است. نتایج تجربی روی چندین مجموعه داده استاندارد نشان می دهد که روش پیشنهادی به طور موثری نتایج خوشه بندی های اولیه را بهبود می دهد. همچنین، مقایسه نتایج در مقایسه با سایر روش های خوشه بندی ترکیبی نشان از کارایی بالای روش پیشنهادی دارد.
کلیدواژگان: خوشه بندی ترکیبی، پایداری خوشه، اطلاعات متقابل، ماتریس همبستگی -
صفحه 33در دهه اخیر به دلیل رشد سریع داده های موسیقی که به صورت فایل های صوتی در اینترنت و از طریق پایگاه داده های بسیار بزرگ قابل دسترس هستند، توجه محققین به روش های پردازش خودکار سیگنال های موسیقی بیشتر از گذشته شده است. شناسایی خودکار سبک موسیقی نیز به عنوان یکی از زمینه های تحقیقی جذاب در این عرصه می باشد. در این مقاله روش های مختلفی برای استخراج ویژگی، انتخاب ویژگی و مدلسازی برای شناسایی خودکار 8 سبک موسیقی شامل سبک های Celtic، Classic، Classic Piano، Jazz، Metal، Persian Classic، Relaxing و Dance که از آلبوم هایی با نوازنده های مختلف جمع آوری شدند، پیاده سازی و مورد ارزیابی قرار گرفت. از میان روش های رایج استخراج ویژگی که در حوزه تشخیص گفتار، شناسایی آلت موسیقی و همچنین شناسایی سبک موسقی مورد استفاده قرار می گیرند، انواع ویژگی های کوتاه مدت، میان مدت و بلند مدت بررسی شده و از ویژگی های بلند مدت به دلیل اینکه در تعیین سبک موسیقی کارآیی چندانی نداشتند، صرف نظر گردید. با استفاده از یک روش انتخاب ویژگی و مطالعه ترکیب های مختلف ویژگی ها، بردار ویژگی مناسب به دست آمد که نهایتا با استفاده از حدود 30 ویژگی برتر انتخاب شده از بین 122 ویژگی، به کارایی 90% در تشخیص سبک موسیقی دست یافتیم. مدلسازی سبک های موسیقی با و بدون در نظر گرفتن توالی زمانی مورد ارزیابی قرار گرفت. از روش های مدلسازی مانند شبکه های عصبی، مدل مخلوط گاوسی، درخت تصمیم، ماشین بردار پشتیبان به تنهایی و نیز در یک ساختار سلسه مراتبی که در آن شناسایی سبک موسیقی از کلاس های با تعداد بیشتری سبک موسیقی شروع و به کلاس های با تنها یک سبک موسیقی ختم می گردد استفاده شد. کارایی بدست آمده با استفاده از این ساختار سلسه مراتبی 88% و در حدود 2% از ساختار مسطح کمتر است، ضمن اینکه ساختار سلسله مراتبی برای تعیین سبک موسیقی در مواردی که با تعداد زیادی از سبک های موسیقی مواجه هستیم بدلیل نیاز به استفاده از تعداد کمتری طبقه بندی کننده در مرحله آزمایش، از سرعت بالاتری برخوردار است. علاوه بر این در یک ساختار سلسله مراتبی دیگر، سعی شد که دسته بندی کننده ها به صورت ترکیب موازی مورد استفاده قرار گرفته و تصمیم گیری بر اساس رای گیری نسبت به نتیجه به دست آمده از دسته بندی کننده ها انجام شود.پکلیدواژگان: شناسایی سبک موسیقی، ویژگی طیفی، کنتراست طیفی مبتنی بر معیار اکتاو، شدت سیگنال مبتنی بر معیار اکتاو، ضرائب کسپترال مبتنی بر معیار مل، تجمیع ویژگی
-
صفحه 53در این مقاله یک چارچوب الگوریتمی جدید برای مکان یابی منابع چندگانه صوتی در محیط انعکاسی معرفی می شود. مبنای مکان یابی بر اساس آمیزش چندین تخمین TDOA هر یک از منابع است که این تخمین ها با استفاده از الگوریتم جداسازی کور منابع (BSS) در حوزه زمان به دست می آیند. به این منظور یک الگوریتم BSS حوزه زمان جدید پیشنهاد شده که نسبت به روش مرجع کیفیت جداسازی و شناسایی کانال را بهبود داده و بار محاسباتی آن نیز در شرایطی کاهش یافته است. سپس برای رفع ابهام جایگشت عمومی که در ذات الگوریتم های BSS وجود دارد، پیشنهاد شده که از ویژگی های وابسته به گوینده سیگنال گفتار استفاده شود. در برابر معیار همبستگی مورد استفاده در مقاله مرجع، نتایج شبیه سازی توانایی خوب این ویژگی ها را در رفع ابهام جایگشت نشان می دهد.
کلیدواژگان: تخمین TDOA، بهینه سازی PSO، جداسازی کور منابع، رفع ابهام جایگشت عمومی BSS -
صفحه 65یکی از بزرگ ترین مشکلات در ترجمه ماشینی زبان انگلیسی به فارسی، ترجمه افعال گروهی1 زبان انگلیسی است که به وفور در این زبان یافت می شود. افعال گروهی از متداول ترین عباراتی هستند که از ترکیب یک فعل با یک حرف اضافه یا قید (ادات) تشکیل شده است. تشخیص این که ادات به فعل مرتبط است که در آن صورت فعل گروهی تشکیل می دهد یا این که به گروه اسمی ما بعد آن مرتبط است، از جمله فعالیت های تا حدودی پیچیده و مبهم در تجزیه نحوی زبان انگلیسی به شمار می آید. در این مقاله با استفاده از تجزیه گر احتمالاتی زبان انگلیسی در مرحله تجزیه از یک سیستم مترجم ماشینی مبتنی بر قاعده، تشخیص افعال گروهی ابهام زدایی می شود. هم چنین با استفاده از تعدادی قواعد زبان شناسی که به صورت مکاشفه ای به دست آمده اند، خروجی های حاصل از تجزیه گر احتمالاتی بررسی شده و در صورت تشخیص ناسازگاری ساختاری، تجزیه نحوی بهبود داده می شود. آزمایش ها بر روی 520 جمله حاوی افعال گروهی، نشان از کیفیت تشخیص افعال گروهی با استفاده از تجزیه گر احتمالاتی و قواعد مکاشفه ای تا حدود 87% است.
کلیدواژگان: ترجمه ماشینی، زبان فارسی، گرامر اتصال، درختی، تجزیه گر احتمالاتی -
صفحه 77یک سیستم شناسایی و طبقه بندی اسامی، سیستمی است که می تواند یک یا چند نوع از اسامی را در متن شناسایی و طبقه بندی کند این اسامی می توانند اسامی اشخاص، ارگان ها، شرکت ها، اسامی مکان ها (کشور، شهر، خیابان و مانند آن) اسامی زمان (تاریخ و ساعت) مقادیر مالی، درصدها و مانند آن باشد. هر چند که در دهه اخیر کارهای زیادی بر روی سیستم های شناسایی و طبقه بندی اسامی در زبان های مختلف و دامنه های مختلف انجام شده است، اما در زبان فارسی، با توجه به عدم وجود یک مجموعه داده کامل به همراه برچسب های غنی، تاکنون سیستمی برای طبقه بندی اسامی ایجاد نشده است. در این پژوهش از مجموعه داده پژوهشکده پردازش هوشمند علائم استفاده شده است. روش کار بدین صورت است که در ابتدا الگوریتم پیش پردازش اسامی را با استفاده از برچسب دستوری کلمات از داده ها جدا شده و سپس مصدر ها، اسامی زمان، اسامی شمارشی، اعداد را هم از مجموعه داده حذف می کند. این کار باعث می شود تا حجم طبقات در داده های آموزشی متوازن تر گردد؛ در استخراج ویژگی از تابع N-gramاستفاده شده است. پس از استخراج ویژگی، سیستم را با چهار طبقه بندی کننده خطی، بیزین، نزدیک ترین همسایگی و شبکه عصبی آموزش می دهیم. عدم تنوع در اسامی زمان و هم چنین عدم اختلاط و یا اختلاط کم این اسامی با اسامی طبقات دیگر، این امکان را فراهم می کند تا بتوان با استفاده از یک سیستم مبتنی بر حافظه، اسامی زمان را در یک متن شناسایی کرد. با استفاده از شبکه عصبی نتایج بسیار مناسبی در جداسازی اسامی مکان و افراد از بقیه اسامی به دست آمده است (99%) و طبقه بندی کننده KNN و طبقه بندی کننده خطی به طور میانگین اسامی مکان و افراد و اسامی عمومی طبقه بندی مقدار 91 % بر اساس معیار F-measure به دست آمده است. در طبقه بندی اسامی زمان با استفاده از یک فهرست کمکی مقدار 96 % بر اساس معیار F-measure به دست آمده است.
کلیدواژگان: پردازش زبان طبیعی، شناسایی و طبقه بندی اسامی، انتخاب ویژگی، تابع N، gram -
صفحه 89روش های تشخیص چهره که مبتنی بر ساختار چهره هستند، روش های بدون نظارتی می باشند که نسبت به تغییرات خطی که در تصویر رخ می دهد نتایج مناسبی را تولید می کنند. PCA یک تبدیل خطی است که ابزار قدرتمندی برای تجزیه و تحلیل داده هایی است که دارای تغییرات خطی می باشند؛ ولی برای تغییرات غیرخطی چهره ناشی از تغییرات حالت، روشنایی و ژست در تصویر چهره، مطلوب نمی باشد. فیلتر گابور یکی از روش های مبتنی بر ویژگی است که می تواند برای رفع نقطه ضعف PCA مورد استفاده قرار گیرد. در این مقاله روشی جدید برای تشخیص چهره با ترکیب روش های PCA و گابور ارایه شده است. بدین صورت که پس از اعمال فیلتر گابور بر روی هر چهره موجود در بانک اطلاعاتی، تعدادی تصویر حاصل از فیلتر گابور به دست می آید. میانگین تصاویر حاصل از فیلتر گابور به عنوان یک تصویر جدید در نظرگرفته می شود؛ سپس از مولفه های اصلی به دست آمده از اعمال PCA بر روی تصاویر میانگین برای تشخیص چهره استفاده می گردد. روش پیشنهادی بر روی پایگاه های داده تصویر YaleB و ORL تحت شرایط مختلف بررسی گردید. نتایج به دست آمده نشان می دهد روش پیشنهادی نسبت به روش PCA بهتر عمل می کند.
کلیدواژگان: تشخیص چهره، فیلتر گابور، تحلیل مولفه اصلی
-
Page 19Most of the recent studies have tried to create diversity in primary results and then applied a consensus function over all the obtained results to combine the weak partitions. In this paper a clustering ensemble method is proposed which is based on a subset of primary clusters. The main idea behind this method is using more stable clusters in the ensemble. The stability is applied as a goodness measure of the clusters. The clusters which satisfy a threshold of this measure are selected to participate in the ensemble. For combining the chosen clusters, a co-association based consensus function is applied. A new EAC based method which is called Extended Evidence Accumulation Clustering, EEAC, is proposed for constructing the Co-association Matrix from the subset of clusters. The proposed method is evaluated on five different UCI repository data sets. The empirical studies show the significant improvement of the proposed method in comparison with other ones.
-
Page 33Nowadays, automatic analysis of music signals has gained a considerable importance due to the growing amount of music data found on the Web. Music genre classification is one of the interesting research areas in music information retrieval systems. In this paper several techniques were implemented and evaluated for music genre classification including feature extraction, feature selection and music genre modeling on a database of 8 different music genres containing Celtic, Classic, Classic Piano, Jazz, Metal, Persian Classic, Relaxing and Dance music. This database was gathered from several albums composed by different musicians. Short, middle and long term features were studied and finally only short and middle term features were used in our experiments. The long term features were discarded due to their low performance in music genre classification. Two modeling types of the music genres were evaluated. In the first type, only distribution of the feature vectors was used and in the second type, the ordering of the feature vectors was taken into account. Some modeling techniques such as ANN, GMM, Decision Tree and SVM were used individually and in a hierarchical approach. We proposed a taxonomy which classifies the music genres in a hierarchy where there are a small number of classes in the root and large number of classes in leaves. In fact, each class at the root of taxonomy contains one or more music genres and each genre is represented as a leaf at the bottom of the taxonomy. In addition, several classifiers were used simultaneously, in a way that each of them classifies the music genres individually. The decision is finally made using a voting algorithm. Besides, several short-term feature extraction techniques which have successfully been applied in speech recognition, music instrument classification and also music genre classification were studied and after analysis of the experimental results using statistical measures and different combinations of features, a near optimal feature vector was selected.
-
Page 53this paper, a new algorithm is introduced for localization of multiple speakers in echoic environments. The origin of localization is based on combination of TDOA estimates of each source obtained by the BSS algorithm in the time domain. A new BSS algorithm is proposed which improves the quality and channel identification compared to a reference technique and also reduces the computational cost in some cases. To solve the global permutation ambiguity of BSS algorithms, speech features are used. Simulation results show the effectiveness of these features for solving the later problem.
-
Page 65Machine translation of English sentences faces a big problem when it deals with phrasal verbs. Phrasal verb is a common structure occurring in English as a combination of a verb and a preposition, a verb and an adverb, or a verb with both an adverb and a preposition. Meaning of a phrasal verb is not compositional. The second part of the phrasal verbs which often is a preposition is called particle. The process of detecting a preposition as a particle or as an attachment in a preposition phrase can be a challenging problem. In this paper, we present a method which uses a combination of linguistic heuristic rules with a probabilistic English parser to disambiguate the role of prepositions. The aim of this disambiguation is to correctly detect the phrasal verbs in English to Persian machine translation system. Experiments on a corpus containing 520 sentences show that the quality of phrasal verb recognition in this system grows up to 87%.
-
Page 77Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in different languages, but lack of a system with admissible performance in Farsi texts is quietly sensible. In this paper, the Corpus of Research Center of Intelligent Signal Processing has been used to create a Farsi NER. In our proposed NER system, there exist three stages: preprocessing, feature extraction and classification. To prepare a data set in the preprocessing stage, by using the part of speech (POS) feature, names are extracted from text and then infinitives, time related names, counting names, and numbers are removed from data. This gives a more balanced data set for learning and classification. In the feature extraction stage, N-gram is computed as feature, and four classifiers (linear, KNN, Bayesian, Neural Network) is learned in the classification stage. Because of lack of variety in the time related names and a few number of mixture of time related names with names in the other categories, an auxiliary list is used to identifying them. The results of research show, neural network have better performance (99%) in distinct between the names of places and people. In general, KNN and linear classifiers obtain 91% success based on F-measure scale in classifying the names of places and people and general names. In classifying the time related names, using an auxiliary list, based on an F-measure scale, a 96% success was obtained.
-
Page 89Methods for face recognition which are based on face structure are among techniques without supervision and produce unfavorable results in the presence of linear changes in images. PCA is a linear transform and a powerful tool for data analysis but does not produce good results for face recognition when there are non-linear changes resulting from changes in position, intensity and gesture in the face image. To overcome this problem, methods based on face features are used. Gabor filtering which can be considered as a feature based method can be used in these cases. This paper presents a new face recognition algorithm by combining PCA and Gabor filtering methods. After Gabor filtering of each face image, a number of images is produced. Then, mean of these images is calculated and PCA is applied to it. The resulted principal components are then used for face recognition. The presented algorithm has been applied to face images from YaleB and ORL databases under different conditions. Results show that the new algorithm performs better than PCA or Gabor filtering methods when they are applied to face images independently.