فهرست مطالب

پردازش علائم و داده ها - سال دوازدهم شماره 2 (پیاپی 24، تابستان 1394)

فصلنامه پردازش علائم و داده ها
سال دوازدهم شماره 2 (پیاپی 24، تابستان 1394)

  • تاریخ انتشار: 1394/07/14
  • تعداد عناوین: 8
|
  • راضیه طباطبایی، محمدرضا فیضی درخشی، سعید معصومی صفحه 3
    امروزه با افزایش منابع متنی در شبکه جهانی وب، هر روز بر گستره اطلاعات قابل دسترس برای کاربران افزوده می شود؛ بنابراین جهت نگهداری و بازیابی و پردازش آنها از سامانه های خلاصه سازی خودکار متن، استفاده می کنیم. میزان کیفیت خلاصه سازهای ماشینی، توسط انسان ها مورد بررسی قرار می گیرد؛ اما این کار نیروی متخصص و زمان زیادی را می طلبد و هزینه بر خواهد بود؛ بنابراین برای حل این مشکل، در این مقاله سامانه ای به نام TabEval برای ارزیابی سامانه های خلاصه سازی خودکار متن ارائه شده است.
    این سامانه با ایده و معماری جدید به محاسبه میزان تشابه ظاهری و معنایی بین خلاصه سامانه ای و خلاصه های انسانی (خلاصه های ایده آل) می پردازد. برای محاسبه میزان تشابه معنایی از شبکه واژه ها استفاده می شود. خروجی حاصل از این سامانه توسط نیروهای متخصص در زمینه ادبیات زبان فارسی مورد بررسی قرار گرفت. نتایج حاصل از بررسی ها حاکی از این بود که این سامانه همانند انسان، هوشمندانه عمل می کند.
    کلیدواژگان: ارزیابی هوشمند، خلاصه سازهای سامانه ای، پردازش زبان طبیعی، F، measure، معیار ارزیابی، پیوندهای هم رخداد، شبکه واژه ها
  • حبیب خدادادی، سعید راحتی قوچانی، اعظم استاجی صفحه 13
    گفتمان به هر قطعه یا پاره ای از زبان گفته می شود که به قصد برقراری ارتباط به کاربرده شده باشد. سامانه شناسایی روابط موجود در گفتمان، روابط موجود بین واحدهای متنی یک گفتمان را شناسایی می کند. یکی از روابط موجود در گفتمان های زبان فارسی رابطه تقابل است که شناسایی آن به توانایی تولید و درک گفتمان کمک می کند و در سامانه های متعددی مانند خلاصه ساز، تفسیر و... کاربرد دارد. رابطه تقابل می تواند به کمک نقش نماهای خاص رابطه تقابل مانند «اما» و «ولی» شناسایی شود؛ اما در بعضی موارد این نقش نماها حذف می شوند و شناسایی رابطه را با مشکل مواجه می کنند و باید از ویژگی هایی مانند زمان فعل ها، جفت کلمات و... برای شناسایی استفاده کرد. برای انجام آزمایش ها، 10000 نمونه از رابطه تقابل و سایر روابط از پیکره متنی پژوهشکده هوشمند علائم به عنوان مجموعه داده گردآوری شد. از این نمونه ها، بردار ویژگی استخراج شد و در نهایت برای دسته بندی و تشخیص رابطه تقابل از چند روش یادگیری باسرپرستی شامل ماشین بردار پشتیبان، K نزدیک ترین همسایه، پنجره پارزن و همچنین ترکیب این دسته بندها استفاده شد. بهترین میزان صحت 13/ 87 و مربوط به ترکیب دسته بندها در بهترین حالت است.
    کلیدواژگان: پردازش زبان طبیعی، گفتمان، نقش نمای گفتمان، شناسایی رابطه تقابل، یادگیری باسرپرستی
  • فاطمه حسین خانی، بابک ناصرشریف صفحه 23
    در بازشناسی الگو، یکی از روش های افزایش دقت بازشناسی، بهره گیری از روش های متمایزساز است. این روش ها یا به صورت تبدیل متمایزساز بر ویژگی ها به کار می روند یا از روش های یادگیری متمایزساز برای آموزش دسته بند استفاده می کنند. به طور معمول معیار تبدیلات متمایزساز متفاوت با معیار آموزش و یا خطای دسته بندهای متمایز ساز است. در مقاله حاضر، برای هماهنگ کردن معیار تبدیل ویژگی و نیز معیار دسته بندی ماشین بردار پشتیبان روشی برای تخمین تبدیل ویژگی با استفاده از الگوریتم ژنتیک (GA) پیشنهاد می شود که معیار تبدیل آن کمینه کردن خطای دسته بندی ماشین بردار پشتیبان است. علاوه بر این، روشی برای تخمین تبدیل ویژگی با استفاده از الگوریتم ژنتیک دوهدفه، پیشنهاد می شود که معیار این تبدیل بیشینه شدن تمایز بین دسته ای (مطابق با معیار روش های تبدیل ویژگی) و کمینه کردن خطای دسته بندی ماشین بردار پشتیبان به صورت هم زمان است. ارزیابی بر روی دادگان UCI نشان می دهد که استفاده از معیارهای هم زمان خطای دسته بندی و تمایز بین دسته ای در تبدیل ویژگی سبب بهبود عملکرد تبدیلات ویژگی متمایزساز متداول در افزایش دقت دسته بندی ماشین بردار پشتیبان می شود؛ علاوه بر اینکه استفاده از تبدیل ویژگی با معیار خطای دسته بندی نسبت به دیگر روش های شناخته شده تبدیل ویژگی و نیز روش دوهدفه، دقت دسته بندی ماشین بردار پشتیبان را بیشتر افزایش می دهد.
    کلیدواژگان: تبدیل ویژگی، متمایزسازی، ماشین بردار پشتیبان، الگوریتم ژنتیک، دسته بندی
  • فاطمه حسن زاده، سحر مقیمی، علی مقیمی، حسین شهابی صفحه 41
    در پژوهش حاضر شبکه های موثرمغزی مرتبط با احساسات شادی و غم در حین گوش کردن به موسیقی مورد مطالعه قرار می گیرند. الگوی ارتباط بین نواحی مختلف کانال های EEG با استفاده از مدل سازی خودبازگشتی چندمتغیره و کوهرنس جهت دار جزئی درحالی که داوطلبان به موسیقی گوش فرا داده اند استخراج شد. به عنوان محرک از موسیقی کلاسیک و سنتی ایرانی استفاده شد. داوطلبان در حین گوش دادن به موسیقی با استفاده از یک نرم افزار، قطعه مورد نظر را از لحاظ محتوای احساسی مورد مطالعه قرار دادند. از نتایج این ارزیابی برای طبقه بندی قطعات استفاده شد. ماتریس های ارتباط متناظر، تفاوت هایی را در حین گوش دادن به قطعات شاد و غمگین نشان دادند. همچنین پارامترهای ارتباط که از بخش های مشخصی از ماتریس های متناظر استخراج شده بودند، همبستگی معناداری را با ارزیابی شخصی افراد از محتوای احساسی قطعات، دارا بودند. میزان جاذبه گزارش شده توسط افراد در حین گوش کردن به قطعات شاد، با اندیس های ورودی به کانال های به خصوص ناحیه فرنتال، همبستگی مثبتی نشان داد. این مساله در مورد قطعات غمگین برعکس بود (مقادیر همبستگی منفی بودند). درنهایت با توجه به نتایج به دست آمده به نظر می رسد می توان از اندیس های مربوط به ارتباط نواحی مختلف جهت شناسایی درک احساسی افراد از موسیقی استفاده کرد.
    کلیدواژگان: الکتروانسفالوگرام، احساسات، موسیقی، کوهرنس جهت دار جزئی، شبکه موثر
  • استخراج پیکره موازی از اسناد قابل مقایسه برای بهبود کیفیت ترجمه در سامانه های ترجمه ماشینی
    زینب رحیمی، محمدحسین ثمنی، شهرام خدیوی صفحه 55
    امروزه با گسترش وسایل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشم گیری افزایش یافته است. یکی از مطرح ترین روش های ترجمه ماشینی، روش آماری است. پارامترهای سامانه1 ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دوزبانه) تخمین زده می شود؛ اما در برخی زبان ها، هنوز مساله نیاز پایه ای سامانه ترجمه ماشینی آماری یعنی پیکره های متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی جهت بهبود کیفیت پیکره های مستخرج از اسناد قابل مقایسه و درنتیجه بهبود کیفیت سامانه ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه داده های موازی نه به صورت جمله، بلکه به صورت قطعات زیرجمله ای ظاهر می شوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعه ای از ویژگی ها دارد که این ویژگی ها عبارت اند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیل دهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابی های انجام شده روش پیشنهادی کارایی مناسبی دارد؛ و علاوه بر اینکه از نظر دقت و بازخوانی از روش های موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی، بخشی از پیکره قابل مقایسه موجود، کارایی سامانه ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 33/ 0 تا 4/ 1 واحد بلو افزایش داده است.
    کلیدواژگان: پیکره قابل مقایسه، استخراج قطعات موازی، پیکره موازی، ترجمه ماشینی
  • مهراد قدوسی، علی مطیع نصرآبادی، شهلا ترابی، امین محمدیان، امیرحسین مهرنام صفحه 73
    از آنجا که پیش بینی می شد تلفیق دو روش ثبت دادگان کلاسیک و مغزی در چرخه تشخیص دانش فرد خطاکار می تواند منجر به افزایش صحت عملکرد سامانه دروغ سنجی در مقایسه با عملکرد جداگانه هر کدام از این روش ها شود، در این پژوهش، با بهره گیری از دانش موجود در هر دو حوزه، سعی به بررسی فرضیه بالا شده است. در این راستا ابتدا فاصله زمانی ارائه تحریک ها (ISI) و نیز نحوه چینش آنها، به گونه ای تنظیم شده است که امکان ثبت هم زمان مولفه P300 از پتانسیل های وابسته به رخداد مغزی و سیگنال های محیطی را فراهم نماید؛ همچنین سناریوی مناسبی از جرم ساختگی طراحی شده تا هم دربردارنده اطلاعات شناختی جرم و هم مبتنی بر اضطراب ناشی از دروغ باشد.
    پس از ثبت دادگان از 32 شرکت کننده، به استخراج ویژگی از سیگنال های پتانسیل برانگیخته مغزی و SCR (به عنوان یکی از مهم ترین سیگنال های محیطی) سوژه ها پرداخته شد؛ سپس با انتخاب ویژگی توسط الگوریتم ژنتیک و استفاده از طبقه بند LDA، درصد صحت های تشخیصی 67/ 76%، 33 /73% و 80% به ترتیب برای ویژگی های حاصل از دادگان مغزی، SCR و تلفیقی حاصل شدند؛ صحت های حاصل در وهله نخست بیان گر کیفیت مناسب سناریو و پروتکل طراحی شده در تحریک و ثبت هم زمان هر دو دسته سیگنال بوده و همچنین بیان گر بهبود نتایج طبقه بندی با استفاده از دادگان تلفیقی در مقایسه با دادگان جداگانه هستند.
    کلیدواژگان: الگوی ادبال، پتانسیل های وابسته به رخداد مغزی، دروغ سنجی تلفیقی، سیگنال های محیطی
  • سیده ساره صادقی، بهرام وزیرنژاد صفحه 87
    این پژوهش به طراحی و ایجاد یک سامانه خلاصه ساز متن که مبتنی بر نظریات شناختی است، می پردازد. نظریه مدل موقعیتی، مهم ترین نظریه در زمینه عملکرد ذهن در درک متن شناخته می شود که برای توضیح فرآیند درک متون روایی کاربرد دارد. در مقایسه با دیگر روش ها که به طور معمول رویکردی آماری دارند، این روش از این نظر که سامانه ای مبتنی بر عملکرد ذهن انسان است، روش نوینی محسوب می شود؛ به علاوه توانسته یکی از نظریات شناختی معتبر را در قالب یک سامانه خودکار خلاصه سازی به بوته آزمایش گذارد. نظریه شناختی مدل موقعیتی، بیان می کند که به هنگام خوانش متن، انسان به پنج ویژگی در سطح جمله، شامل تغییر زمان و مکان، روابط علی، میزان ارتباط با موضوع و شخصیت های اصلی توجه و چارچوبی ذهنی بر حسب آن ایجاد می کند تا جملات مهم متن شناسایی شوند. نتایج به دست آمده برای این روش دقتی رضایت بخش و قابل مقایسه با روش های روز آماری را به دست داده که از این جهت که مبتنی بر یک نظریه شناختی درک متن است، حائز اهمیت می باشد.
    کلیدواژگان: خلاصه سازی خودکار استخراجی، علوم شناختی، نظریه مدل موقعیتی، متون روایی
  • زینب محمدپوری، حسین مروی، امیدرضا معروضی صفحه 97
    در این مقاله یک روش بهسازی گفتار آماری با فرض توزیع مخلوط لاپلاس برای گفتار، جهت تخمین سیگنال گفتار تمیز (بدون نوفه) از سیگنال گفتار نوفه ای ارائه شده است. در روش پیشنهادی، ضرایب تبدیل فوریه زمان کوتاه گسسته سیگنال گفتار با استفاده از تخمین گر کم ترین میانگین مربعات خطا، به دست می آید. در این تخمین، فرض می شود تابع چگالی احتمال ضرایب تبدیل فوریه سیگنال تمیز و نوفه به ترتیب، مخلوط لاپلاس و گوسی با میانگین صفر است. نتایج حاصل از معیارهای SNRقطعه ای، LLR و PESQ نشان می دهد که روش پیشنهادی عملکرد بهتری نسبت به دو روش مبتنی بر توزیع گوسی و روش مبتنی بر توزیع لاپلاس دارد.
    کلیدواژگان: تخمین گر MMSE، الگوریتم EM، توزیع مخلوط لاپلاس، توزیع گوسی
|
  • Raziyeh Tabatabaei, Mohammad, Reza Feizi, Derakhshi, Saeid Masoumi Page 3
    Nowadays summarizers and machine translators have attracted much attention to themselves, and many activities on making such tools have been done around the world. For Farsi like the other languages there have been efforts in this field. So evaluating such tools has a great importance. Human evaluations of machine summarization are extensive but expensive. Human evaluations can take months to finish and involve human labor that cannot be reused.In this paper, we propose a method of automatic machine summarization evaluation that is quick, inexpensive, and language-independent, that correlates highly with human evaluation, and that has little marginal cost per run. This method has the metrics of determining auto summaries’ quality, through comparing them to the summaries produced by Human (ideal summaries). These metrics measures overlapping of system summaries and human ones in number of units like n-tuples, words string and pairs of words. Certainly for semantic comparing of texts in case of review summaries, the appearance of words are not enough and using of WordNet seems to be necessary. In the proposed method words network is used with an appropriate idea and has improved evaluation results significantly. The proposed method is the first method for the Persian language. Performance measurement of the tool was done during a specified and standard procedure and the results indicate acceptable yield of it. We present this method as an automated understudy to skilled human judges which substitutes for them when there is need for quick or frequent evaluations.
    Keywords: Natural Language Processing, Persian Language, System Summarizer Evaluation, Evaluation measure
  • Habib Khodadadi, Saeed Rahati Quchani, Azam Estaji Page 13
    Discourse is any section or part of the language used to establish communications. Discourse Relations Recognition System recognizes the relations between textual units of a discourse. Contrast is one of the relations in Persian discourse. Recognition of this relation helps produce and understand the discourse. It can be used in variant systems such as summarization systems, interpretation systems, and so on. The contrast relation can be recognized using certain contrast relation markers such as “اما” and “ولی” Nevertheless, these markers are sometimes omitted, making trouble for relation recognition. In these cases, features such as tense of verbs, word pairs, etc. should be used for recognition. To conduct the experiments, 10000 samples for the contrast recognition and other relations were collected from the Corpus of Research Center of Intelligent Signal Processing as the data set. Then, feature vector was extracted from these samples. Finally, several supervised learning methods such as Supporting Vector Machine, the k-Nearest Neighbors algorithm, Parzen-Window, and the integration of these methods, were used to categorize and recognize contrast relations. The highest accuracy was 87. 13, which belonged to the combination of category-clauses in its best shape.
    Keywords: Contrast Relation Recognition, Discourse, Discourse Marker, Natural Language Processing, Supervised Learning
  • Fatemeh Hoseinkhani, Babak Nasersharif Page 23
    Discriminative methods are used for increasing pattern recognition and classification accuracy. These methods can be used as discriminant transformations applied to features or they can be used as discriminative learning algorithms for the classifiers. Usually, discriminative transformations criteria are different from the criteria of discriminant classifiers training or their error. In this paper, for relating feature transformation criterion to classification rate, we obtain a feature transformation method using genetic algorithm where we choose fitness function as Support Vectomr Machine(SVM) classification error rate. In addition, we obtain a feature transformation method using multi-objective genetic algorithm in order to consider both between class discrimination (According to feature transformation criterion) and support vector machine classification error rate simultaneously. Experimental results on UCI dataset indicate that using both classification error and between class discrimination in feature transformation improve discriminative feature transformations performance in increasing SVM classification accuracy. Additionally, the use of feature transformation with classification error criterion increases SVM classification more than other conventional feature transformation and proposed two-objective methods.
    Keywords: Feature Transformation, Discrimination, Genetic Algorithms, Classification, Support Vector Machine
  • Fatemeh Hassanzadeh Gharecheshmeh, Sahar Moghimi, Ali Moghimi, Hossein Shahabi Page 41
    In this paper we investigate the brain effective networks corresponding to listening to happy and sad music. The connectivity patterns between EEG electrodes were extracted using multivariable autoregressive modeling and partial directed coherence, while participants listened to musical excerpts. Both classical and Iranian music were used as stimuli. The volunteers expressed their self-assessment using software. The results were utilized for classifying the musical excerpts. The corresponding connectivity matrices illustrated variations from happy to sad music. Also the extracted parameters from specific locations of the matrices demonstrated meaningful correlations with the subjective assessments of the emotional content of music pieces. The expressed valence was positively correlated with the input indices to the frontal channels, while this correlation was negative for sad excerpts. The proposed indices can be used for identifying the emotional perception of music pieces.
    Keywords: EEG, emotions, music, partial directed coherence, effective network
  • Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system
    Zeinab Rahimi, Mohammadhossein Samani, Shahram Khadivi Page 55
    Today, with the proliferation of media, especially the internet, need for automated translation process has increased noticeably. One of the most famous machine translation methods is statistical method. Parameters of statistical machine translation system are estimated using a large scale training data set (bilingual parallel corpora). but in many languages, basic need for statistical machine translation systems -large scale parallel text - is still unsolved. To resolve this problem, the proposed method is presented for improving the quality of extracted comparable corpora and thus to improve the quality of machine translation systems. We believe that very non-parallel corpora have none or few good sentence pairs; most of their parallel data exists at the sub-sentential level. So proposed system is implemented based on extracting fragment blocks from input related sentences using score calculated from special features such as fragment length, LLR score, relevance path specification in the block and translation coverage percent.According to evaluations, proposed method has very good performance. Not only it outperforms existing methods of fragment extraction in terms of precision and recall, but also adding extracted database to existing data, improved the performance of the basic machine translation system, ranging from 0.33 to 1.4 in Belu metric.
    Keywords: Comparable Corpora, Fragment Extraction, Parallel Corpora, Machine Translation
  • Mahrad Ghodousi, Ali Moti Nasrabadi, Shahla Torabi, Amin Mohammadian, Amirhossein Mehrnam Page 73
    Since it was being predicted that combination of psychophysiological and ERP signals, during the detection of a guilty person's knowledge can increase the performance of integrative lie detection system toward using the separate procedures; Using the knowledge of both aspects, in this study it has been tried to determine the proper Inter-Stimulus Intervals (ISI) together with suitable sequence of stimulations in order to simultaneous recording of P300 component of brain Event Related Potentials and peripheral signals. Also a proper mock crime scenario has been designed; it has the capability of exciting the cognitive aspect of mock crime and also was capable of provoking the subject’s concerns, based on telling lie about the crime.At the next stage, after recording data from 32 participants, features from their ERP and SCR (as one of the most important peripheral signals) signals have been extracted. Then, an LDA classifier was applied on selected features which were selected by Genetic algorithm and these accuracies: 76.67%, 73.33% & 80% have been obtained for EEG, SCR and Combined data respectively.The resulted accuracies at the first show the proper quality of scenario and protocol, in synchronous stimulation and recording of both signal categories, also the improvements which have been resulted by integrated data in compare with separate ones are observable.
    Keywords: Oddball Paradigm, Event Related Potentials, Integrated Lie Detection, Peripheral Signals
  • Seyede Sareh Sadeghi, Bahram Vazirnezhad Page 87
    This study describes a text summarization system based on cognitive models. The underlying theory is about comprehension and is used to explain comprehending narrative texts. Majority of previous methods have been used statistical approaches for summarization, and this method is different as it tries to build a system based on a cognitive theory and not statistical methods. Main principle of model is that as humans read a text, they will make a mental image based on temporality, causality, intentionality, protagonists, and place. Proposed system extracts five features for each sentence and identifies the most important sentences based on the five features. The results obtained from this method were satisfactory and comparable from modern statistical techniques.
    Keywords: Extractive summarization, Situational model theory, Cognitive Science, Narrative text
  • Zeinab Mohammadpoury, Hossein Marvi, Omidreza Maroozi Page 97
    In this paper an statistical speech enhancement method based on Laplacian Mixture Model assumption for speech in order to estimation of clean speech from noisy speech has been proposed. In the proposed method, the short time discrete Fourier transform coefficients (DFT) have been estimated by using the minimum mean square error estimator. We assume the mixture of Laplacians distribution for clean speech DFT coefficients and zero-mean Gaussian distribution for the DFT coefficients of noise. The results of segmental SNR, LLR and PESQ show that the proposed method has better performance than two estimators based on Gaussian and Laplacin model.
    Keywords: EM algorithm, Gaussian noise, Laplacian Mixture Model, Minimum Statistic, MMSE estimator