فهرست مطالب yasser shekofteh

  • مهسا هدایتی پور*، یاسر شکفته، محسن ابراهیمی مقدم

    لب خوانی یا فرآیند بازشناسی دیداری گفتار روش تشخیص گفتار از روی حرکات لب گوینده است. در سال های اخیر علاقه به لب خوانی خودکار رو به افزایش بوده و تحقیقات بسیاری در این زمینه انجام شده است و همچنان به عنوان یک موضوع تحقیقی پیشرو مطرح است. در این مقاله مروری بر تحقیقات انجام شده در زمینه لب خوانی خودکار ارایه شده است. فهرستی از پایگاه داده های مورد استفاده با در نظر گرفتن خصوصیاتی نظیر تعداد گوینده، محتوای گفتار و کیفیت تصاویر ارایه شده است. در این مقاله، تحقیقات متنوع لب خوانی در زمینه تشخیص اعداد، حروف، کلمات و جملات و روش های سنتی استخراج ویژگی و دسته بندی تا روش های جدید مبتنی بر یادگیری عمیق مرور شده اند. بعلاوه فعالیت های لب خوانی زبان فارسی شامل پایگاه داده های فراهم شده و تحقیقات مرتبط با جامعیت بیشتر معرفی شده است.

    کلید واژگان: لب خوانی, بازشناسی دیداری گفتار, استخراج ویژگی, یادگیری ماشینی, یادگیری عمیق, شناسایی الگو}
    Mahsa Hedayatipour *, Yasser Shekofteh, Mohsen Ebrahimi Moghadam

    Lip-reading or the process of visual recognition of speech is a way to distinguish speech from the movements of the speaker's lips. In recent years, the interest in automatic lip-reading has been increasing and a lot of researches have been done in this field and it is still a leading research topic. This paper provides an overview of researches in automatic lip-reading. A list of used databases in the researches is provided with specifications such as number of speakers, speech content and image quality. In this article, various lip-reading researches are reviewed from recognizing numbers, letters, words and sentences, and traditional methods of feature extraction and classification to the new methods based on deep learning. In addition, Persian lip-reading activities include provided databases and related researches are introduced more comprehensively.

    Keywords: Lip-Reading, Visua speech recognition, Feature Extraction, Machine Learning, Deep Learning, Pattern Recognition}
  • پیکره اعلام: یک پیکره استاندارد واحدهای اسمی برای زبان فارسی
    شادی حسین نژاد، یاسر شکفته *، طاهره امامی آزادی
    تشخیص واحدهای اسمی یکی از مسائل مطرح در پردازش زبان طبیعی است. کاربرد عمده شناسایی واحدهای اسمی در سامانه های خلاصه ساز متون، استخراج اطلاعات، پرسش و پاسخ، ترجمه ماشینی و دسته بندی اسناد است. یکی از روش های تهیه سامانه تشخیص واحدهای اسمی، استفاده از روش های مبتنی بر پیکره است. این مقاله نحوه و مراحل تهیه پیکره اعلام – یک پیکره استاندارد با برچسب واحدهای اسمی برای زبان فارسی- را شرح می دهد. مجموعه تهیه شده با داشتن سیزده برچسب واحدهای اسمی و حجم 250 هزار کلمه نیاز سامانه های برچسب گذاری خودکار در حوزه پردازش زبان طبیعی فارسی را برآورده می کند. با استفاده از این پیکره و به کارگیری روش یادگیری ماشین میدان تصادفی شرطی، سامانه ای برای شناسایی واحدهای اسمی جملات فارسی تهیه شده که دارای دقت 94/92 درصد و فراخوانی 48/78 درصد است.
    کلید واژگان: پردازش زبان طبیعی, تشخیص واحدهای اسمی, پیکره واحدهای اسمی, یادگیری ماشین, میدان تصادفی شرطی}
    A laam Corpus: A Standard Corpus of Named Entity for Persian Language
    Yasser Shekofteh *, Tahereh Emami Azadi
    Named entity recognition (NER) is a natural language processing (NLP) problem that is mainly used for text summarization, data mining, data retrieval, question and answering, machine translation, and document classification systems. A NER system is tasked with determining the border of each named entity, recognizing its type and classifying it into predefined categories. The categories of named entities include the names of persons, organizations, locations (e.g. city and country), expressions of times, quantities, monetary expressions, and percentages. In general, corpus-based NER approaches have been proved to be well suited for NER problem. Using a NER corpus, recognition of named entities can be done through ruled-based or machine-learning methods.
    Corpus-based NER systems need standard and appropriate annotated corpora. However, such corpora mainly exist in languages such as English, and are rarely found in Persian/Farsi or limited in volume. So, this paper is dedicated to describe the producing procedure of a standard named entity (NE) corpus - A’laam corpus - for Persian language. A’laam corpus contains about 250,000 tokens tagged with 13 NE tags. This corpus has been developed in the Research Center for Development of Advanced Technologies (RCDAT). Tokens of A’laam corpus are a part of Farsi Text Corpus. The Farsi Text Corpus is a standard Farsi corpus. This corpus, containing more than 100 million Farsi words, has been developed by the Research Center of Intelligent Signal Processing (changed to the Research Center for Development of Advanced Technologies in 2013). The words of this corpus, selected from diverse written and spoken sources, was tokenized and corrected manually. In addition, a part of the Farsi Text Corpus with 8 million words has part-of-speech (POS) tags at word level. Totally, about 8,400 sentences of the Farsi Text Corpus have been randomly selected to obtain about 250,000 tokens of A’laam Corpus. This corpus included words, POS tags, and named entity tags.
    To evaluate A’laam corpus, a Persian NER system was trained based on this corpus. This corpus was so divided into the train and test sections. The train section accounted for 90% of the corpus and the remaining 10% belonged to the test section. Using Conditional Random Fields (CRF) method, the Persian NER system resulted in a 92.94% Precision and 78.48% Recall.
    Keywords: Natural language Processing, Named Entity Recognition, Named Entity Corpus, Machine learning, Conditional Random Field}
  • یاسر شکفته، حسن قلی پور، محمدمحسن گودرزی، جهانشاه کبودیان، فرشاد الماس گنج، شقایق رضا، ایمان صراف رضایی
    یکی از مشکلات عمده ی سامانه های خودکار بازشناسی گفتار (ASR)، تنوعات موجود در بین گویند ه ها، کانال انتقال داده و محیط است که به علت وجود این تنوعات، کارایی این سامانه ها در شرایط کاربردی مختلف به شدت تغییر می کند. مقاوم سازی سیستم های بازشناسی جهت مقابله با این تغییرات از جمله مسائل حال حاضر در حوزه بازشناسی گفتار است. از جمله عواملی که باعث کاهش کارایی سیستم ها می شود، تمایز مشخصات صوتی آواهای یکسان تولید شده از گوینده های مختلف است. یکی از عوامل اصلی این مشکل ناشی از تفاوت موجود در طول مجرای صوتی (VTL) بین گوینده های مختلف می باشد. روش هنجارسازی طول مجرای صوتی (VTLN) از روش های رایج برای رفع این مشکل است که در آن برای هر گوینده یک ضریب پیچش فرکانسی تعیین می گردد. در این مقاله روش متداول تعیین ضریب پیچش با رویکرد مبتنی بر جستجو در یک سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف معرفی و مشکلات محاسباتی استفاده از این روش شرح داده شده است. در نهایت روشی مبتنی بر رگرسیون خطی از روی امتیاز محاسبه شده از مدلسازی تشخیص جنسیت جهت تخمین ضرایب پیچش پیشنهاد شده است که منجر به کاهش قابل ملاحظه هزینه محاسباتی روش مبتنی بر جستجو می شود. علاوه بر این، نتایج آزمایشات بر روی دادگان آزمون گفتار تلفنی محاوره ای، بیانگر بهبود 54/0 درصدی دقت تشخیص کلمه روش پیشنهادی نسبت به روش متداول مبتنی بر جستجو می باشد.
    کلید واژگان: بازشناسی گفتار, هنجارسازی طول مجرای صوتی, تشخیص جنسیت, رگرسیون خطی, ضریب پیچش فرکانسی}
    Yasser Shekofteh, Hasan Gholipor, M.Mohsen Goodarzi, Dr. Jahanshah Kabudian, Dr. Farshad Almasganj, Shaghayegh Reza, Iman Sarraf
    The performance of automatic speech recognition (ASR) systems is adversely affected by the variations in speakers, audio channels and environmental conditions. Making these systems robust to these variations is still a big challenge. One of the main sources of variations in the speakers is the differences between their Vocal Tract Length (VTL). Vocal Tract Length Normalization (VTLN) is an effective method introduced to cope with this variation. In this method, the speech spectrum of each speaker is frequency warped according to a specific warping factor of that speaker. In this paper, we first developed the common search-based method to obtain the appropriate warping factor over a HMM-based Persian continuous speech recognition system. Then pointing out the computational cost of search-based method, we proposed a linear regression process for estimating warping factor based on the scores generated by our gender detection system. Experimental results over a Persian conversational speech database shown an improvement about 0.54 percent in word recognition accuracy as well as a significant reduction in computational cost of estimating warping factor, compared to search-based approach.
    Keywords: speech recognition, Vocal Tract Length Normalization, gender detection, linear regression, warping factor}
  • یاسر شکفته*، فرشاد الماس گنج
    ویژگی الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژگی گفتاری MFCC) استخراج شده است. با ترکیب اطلاعات الگوهای زمانی (دینامیک زمان بلند) به دست آمده از حوزه های لگاریتم طیف و کپستروم به بردار ویژگی های پایه بازشناسی، شامل ویژگی های گفتاری متداول MFCC و مشتقات زمانی اول و دوم آن (دینامیک زمان کوتاه)، نشان داده شده است که دقت بازشناسی واج در شرایط دادگان آزمون تمیز، حدود 1 درصد نسبت به نتایج بهترین سیستم پایه بازشناسی بهبود می یابد. این در حالی است که ویژگی های به دست آمده از روش پیشنهادی، بازشناسی مقاومتری را در شرایط نویزی مختلف (تا حدود 13 درصد) حاصل می نمایند که نشان دهنده مقاوم به نویز بودن روش پیشنهادی است.
    کلید واژگان: بازشناسی گفتار, استخراج ویژگی, الگوهای زمانی, احتمال پسین, شبکه عصبی, مدل مخفی مارکوف}
    Yasser Shekofteh *, Farshad Almasganj
    Temporal Pattern feature of a speech signal could be either extracted from the time domain or via their front-end vectors. This feature includes long-term information of variations in the connected speech units. In this paper، the second approach is followed، i. e. the features which are the cases of temporal computations، consisting of Spectral-based (LFBE) and Cepstrum-based (MFCC) feature vectors، are considered. To extract these features، we use posterior probability-based output of the proposed MTMLP neural networks. The combination of the temporal patterns، which represents the long-term dynamics of the speech signal، together with some traditional features، composed of the MFCC and its first and second derivatives are evaluated in an ASR task. It is shown that the use of such a combined feature vector results in the increase of the phoneme recognition accuracy by more than 1 percent regarding the results of the baseline system، which does not benefit from the long-term temporal patterns. In addition، it is shown that the use of extracted features by the proposed method gives robust recognition under different noise conditions (by 13 percent) and، therefore، the proposed method is a robust feature extraction method.
    Keywords: Speech Recognition, Feature Extraction, Temporal Pattern, Posterior Probability, Neural Network, Hidden Markov Model}
  • Farzane Yousefipoor, Marzieh Mirhadi, Yasser Shekofteh
    The kinematic specification of hand movement has effective properties in diagnosis of neural-motional diseases such as schizophrenia, Parkinson, or emotional states. In this paper a device is presented which have the ability to extract such properties. It includes a resistance touch panel that is mounted on a color LCD. By drawing on the panel, information of hand movement could be extracted by ARM microprocessor and transferred to a computer for exact examination such as diseases recognition, through USB port with acceptable sampling rate. Then, accumulated data is recorded by the device microcontroller, and it displays hand movement at the same time on the LCD as an appropriate feedback for user and software. Using information processing modules and comparing them with normal situation, it could help treatment of special diseases or motional disabilities or training assistance objects for children.
    Keywords: kinematic movement, ARM microcontroller, USB connection, color LCD, touch screen, hand movement}
  • Yasser Shekofteh, Farshad Almasganj
    Unilateral vocal fold paralysis (UVFP) is a type of neurogenic laryngeal disorder, in which, vocal folds of patients do not have their normal behaviors, leading to abnormal talking voices. In this paper, a new noninvasive method for processing telephony speech signals is proposed to remotely diagnose the voice of the patients with UVFP disease. The proposed feature extraction method benefits from an adaptive decomposition method, the Matching Pursuit (MP) algorithm, to decompose involved signals to some predefined atoms. Then, the attributes of the obtained atoms assigned to the speech signal converts to a final feature vector so called MSDMP. Simulation results indicate the usefulness of the proposed feature vector with respect to a commonly used wavelet based features (EWPD). The MSDMP feature vector has improved the classification rate by 4.98% as compared to the EWPD feature vector.
    Keywords: pathological speech signal, unilateral vocal fold paralysis, feature extraction, matching pursuit, support vector machine}
  • Yasser Shekofteh, Shahriar Gharibzadeh, Farshad Almasganj
    The speech is an easily accessible signal which clearly represents the characteristics of larynx and vocal folds. Therefore, application of some proper machine learning algorithms on a small part of a recorded speech signal may help in non-invasive diagnosing of vocal fold diseases. Since there are some experimental evidences that suggest the existence of chaotic behavior in speech production system, in this paper a new method is proposed to predict vocal fold pathologies using its chaotic characteristics. The proposed method is based on modeling of pathological voice as a speech trajectory in the reconstructed phase space.
  • یاسر شکفته، فرشاد الماس گنج
    یکی از رویکردهای موثر در بهبود کارایی سامانه های بازشناسی گفتار، طراحی روش های متنوع استخراج ویژگی از سیگنال گفتار و ترکیب اطلاعات به دست آمده از آنهاست. تحقیقات اخیر نشان می دهد که سیگنال گفتار رفتار غیرخطی و آشوبی دارد؛ ولی از این مشخصه سیگنال گفتار در سامانه های بازشناسی پیوسته گفتار استفاده نمی شود. یکی از حوزه های مناسب برای نمایش مشخصه های پویا و غیرخطی سیگنال آشوبی، فضای بازسازی شده فاز (RPS) است، از این رو در این مقاله یک روش جدید استخراج ویژگی مبتنی بر RPS (LLRPS) پیشنهاد شده است. این ویژگی ها از امتیاز شباهت تراژکتوری سیگنال گفتار جاسازی شده در RPS با مجموعه ای از مانیفولدهای واجی از پیش تعیین شده محاسبه می شوند. سپس مقادیر احتمال پسین واجی به وسیله ساختار شبکه عصبی TMLP از روی ویژگی های LLRPS تخمین زده می شود. ساختار شبکه عصبی استفاده شده، به صورتی است که علاوه بر توانایی استخراج اطلاعات پویا، قابلیت پیاده سازی روش های متنوع ترکیب خروجی دارد. نتایج آزمایش ها برروی مجموعه دادگان گفتاری فارس دات نشان می دهد که ترکیب غیرخطی خروجی سامانه های بازشناسی، شامل ویژگی های متداول کپستروم MFCC و ویژگی های پیشنهادی LLRPS، به ترتیب منجر به بهبود 94/3 درصد در دقت بازشناسی قاب و 02/4 درصد در دقت بازشناسی واج نسبت به عمل کرد سامانه بازشناسی پایه شده است.
    کلید واژگان: بازشناسی گفتار پیوسته, استخراج ویژگی, فضای بازسازی شده فاز, مانیفولدهای واجی, امتیاز درست نمایی, شبکه عصبی}
    Yasser Shekofteh, Farshad Almasganj
    Design of new feature extraction methods out of the speech signal and combination of their obtained information are the most effective approaches to improve the performance of automatic speech recognition (ASR) system. Recent researches have been shown that the speech signal contains nonlinear and chaotic properties, but the effects of these properties were not used in the continuous ASR systems. Reconstructed phase space (RPS) is an appropriate domain to exhibit nonlinear properties of a chaotic signal. Therefore, in this paper a new method is proposed to utilize the RPS-based features (LLRPS). These features will be computed using similarity scores between the embedded speech signal in the RPS and a set of predefined phoneme manifolds. Then, TMLP-based neural network estimates phoneme posterior probability over the LLRPS features. This network includes some useful properties such as extracting dynamic information and output combination methods. Experimental results using Farsdat speech database show that nonlinear combination of the speech recognition outputs including traditional MFCC features and LLRPS features, leading to improvement of 3.94% and 4.02% in the accuracy of frame and phoneme recognition, respectively.
    Keywords: Continuous speech recognition, Feature extraction, Reconstructed phase space, Phoneme manifolds, Likelihood Score, Neural network}
