به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت

جستجوی مقالات مرتبط با کلیدواژه « speech recognition » در نشریات گروه « فنی و مهندسی »

  • حسین هادیان، سروش گوران، صدرا صبوری، سارا صادقی، یاسین امینی، حسین صامتی*

    این مقاله مروری است بر روش های سنتی و نیز روش های نوین بازشناسی گفتار. بازشناسی گفتار سابقه ای در حدود چندین دهه دارد و با روش های مبتنی بر پردازش سیگنال و پیچش زمانی پویا آغاز شده است. روش های آماری در دهه 1980 به بعد مورد توجه و استقبال قرار گرفت و روش های مبتنی بر مدل مخفی مارکوف به عنوان سرآمد این روش ها شناخته می شد. ولی از دهه 2000 میلادی به بعد روش های آماری کم کم جای خود را به مدل های مبتنی بر شبکه های عصبی دادند و با روی کار آمدن شبکه های عصبی ژرف، نتایج بهتری از این مدل ها نسبت به مدل مخفی مارکوف به دست آمد. مدل های مبتنی بر شبکه های عصبی ژرف نیز دچار تحول شدند و انواع مختلفی از آنها ابداع گردید. سپس مدل های مبتنی بر مبدل ها و مدل های از پیش آموزش دیده جای آنها را گرفتند و به دقت های بالاتری دست یافتند. در این مقاله بعد از مروری بر روش های مبتنی بر مدل مخفی مارکوف به روش های مبتنی بر شبکه های عصبی ژرف و ساختارهای متنوع آنها پرداخته می شود و در نهایت روش های مبتنی بر مدل های از پیش آموزش دیده تشریح می شود و آخرین روش های از این دست مورد بررسی قرار می گیرد. در انتها نیز نتایج به دست آمده از روش های تشریح شده براساس نرخ خطای کلمه ارایه می شود و مقایسه بین آنها صورت می گیرد.

    کلید واژگان: بازشناسی گفتار, مدل مخفی مارکوف, شبکه های عصبی ژرف, مبدل ها, مدل های از پیش آموزش دیده}
    Hossein Hadian, Soroush Gooran, Sadra Sabouri, Sara Sadeghi, Yasin Amini, Hossein Sameti *

    This article is a review of traditional and modern methods of speech recognition. Speech recognition has a history of several decades and started with methods based on signal processing and dynamic time warping. Statistical methods were noticed and welcomed in the 1980s and the methods based on the hidden Markov models were known as the leading methods. Since the 2000s, statistical methods gradually gave way to models based on neural networks, and with the use of deep neural networks, resulted in higher performances compared to the hidden Markov models. Models based on deep neural networks also were transformed and improved immensely. In the next step, models based on transformers and pre-trained models were proposed and achieved higher accuracies. In this article, after an overview of the methods based on the hidden Markov models, the methods based on deep neural networks and their various structures are discussed, and finally, the methods based on pre-trained models are explained and the latest methods of this kind are surveyed. Finally, the results obtained from the reviewed methods are presented and compared based on the word error rate measure.

    Keywords: Speech Recognition, Hidden Markov Model, Deep Neural networks, Transformers, Pre-trained Models}
  • هادی ویسی*، سید اکبر قریشی، اعظم باستان فرد

    هدف از تشخیص عبارت های گفتاری یا جستجوی کلیدواژه، تشخیص و جستجوی مجموعه ای از کلیدواژه ها در مجموعه ای از اسناد گفتاری (مانند سخنرانی ها، جلسه ها) است. در این پژوهش تشخیص عبارت های گفتاری فارسی برپایه سامانه های بازشناسی گفتار با کاربرد در بازیابی اطلاعات در بایگانی های گفتاری و ویدیویی سازمان صدا و سیما طراحی و پیاده سازی شده است. برای این کار، ابتدا اسناد گفتاری به متن، بازشناسی، سپس بر روی این متون جستجو انجام می شود. برای آموزش سامانه بازشناسی گفتار فارسی، دادگان فارس دات بزرگ به کار رفته است. این سامانه به نرخ خطای واژه 71/2 درصد بر روی همین دادگان و 23/28 درصد بر روی دادگان اخبار فارسی با استفاده از مدل زیر فضای مخلوط گوسی (SGMM) رسید. برای تشخیص عبارت های گفتاری از روش پایه واژگان نماینده استفاده شده و با استفاده از شبکه حافظه کوتاه-مدت ماندگار و دسته بندی زمانی پیوندگرا (LSTM-CTC) روشی برای بهبود تشخیص واژگان خارج از واژگان (OOV) پیشنهاد شده است. کارایی سامانه تشخیص عبارات با روش واژه های نماینده بر روی دادگان فارس دات بزرگ بر طبق معیار ارزش وزنی واقعی عبارت (ATWV) برابر با 9206/0 برای کلیدواژه های داخل واژگان و برابر با 2/0 برای کلیدواژه های خارج از واژگان رسید که این نرخ برای واژگان OOV با استفاده از روش LSTM-CTC با حدود پنجاه درصد بهبود به مقدار 3058/0 رسید؛ همچنین، در تشخیص عبارت های گفتاری بر روی دادگان اخبار فارسی، ATWV برابر 8008/0 حاصل شد.

    کلید واژگان: تشخیص عبارت های گفتاری فارسی, جستجوی کلیدواژه, بازشناسی گفتار, سازمان صداوسیما, کلدی}
    Hadi Veisi*, Sayed Akbar Ghoreishi, Azam Bastanfard

    Islamic Republic of Iran Broadcasting (IRIB) as one of the biggest broadcasting organizations, produces thousands of hours of media content daily. Accordingly, the IRIBchr('39')s archive is one of the richest archives in Iran containing a huge amount of multimedia data. Monitoring this massive volume of data, and brows and retrieval of this archive is one of the key issues for this broadcasting. The aim of this research is to design a content retrieval engine for the IRIB’s media and production using spoken term detection (STD) or keyword spotting. The goal of an STD system is to search for a set of keywords in a set of speech documents. One of the methods for STD is using a speech recognition system in which speech is recognized and converted into text and then, the text is searched for the keywords. Variety of speech documents and the limitation of speech recognition vocabulary are two challenges of this approach. Large vocabulary continuous speech recognition systems (LVCSR) usually have limited but large vocabulary and these systems canchr('39')t recognize out of vocabulary (OOV) words. Therefore, LVCSR-based STD systems suffer OOV problem and canchr('39')t spotting the OOV keywords. Methods such as the use of sub-word units (e.g., phonemes or syllables) and proxy words have been introduced to overcome the vocabulary limitation and to deal with the out of vocabulary (OOV) keywords. This paper proposes a Persian (Farsi) STD system based on speech recognition and uses the proxy words method to deal with OOV keywords. To improve the performance of this method, we have used Long Short-Term Memory-Connectionist Temporal Classification (LSTM-CTC) network. In our experiments, we have designed and implemented a large vocabulary continuous speech recognition systems for Farsi language. Large FarsDat dataset is used to train the speech recognition system. FarsDat contains 80 hours voices from 100 speakers. Kaldi toolkit is used to implement speech recognition system. Since limited dataset, Subspace Gaussian Mixture Models (SGMM) is used to train acoustic model of the speech recognition. Acoustic model is trained based context tri-phones and language model is probability tri-gram words model. Word Error Rate (WER) of Speech recognition system is 2. 71% on FARSDAT test set and also 28.23% on the Persian news collected from IRIB data. Term detection is designed based on weighted finite-state transducers (WFST). In this method, first a speech document is converted to a lattice by the speech recognizer (the lattice contains the full probability of speech recognition system instead of the most probable one), and then the lattice is converted to WFST. This WFST contains the full probability of words that speech recognition computed. Then, text retrieval is used to index and search over the WFST output. The proxy words method is used to deal with OOV. In this method, OOV words are represented by similarly pronunciation in-vocabulary words. To improve the performance of the proxy words methods, an LSTM-CTC network is proposed. This LSTM-CTC is trained based on charterers of words separately (not a continuous sentence). This LSTM-CTC recomputed the probabilities and re-verified proxy outputs. It improves proxy words methods dues to the fact that proxy words method suffers false alarms. Since LSTM-CTC is an end-to-end network and is trained based on the characters, it doesnchr('39')t need a phonetic lexicon and can support OOV words. As the LSTM-CTC is trained based on the separate words, it reduces the weight of the language model and focuses on acoustic model weight. The proposed STD achieve 0.9206 based Actual Term Weighted Value (ATWV) for in vocabulary keywords and for OOV keywords ATWV is 0.2 using proxy word method. Applying the proposed LSTM-CTC improves the ATWV rate to 0.3058. On Persian news dataset, the proposed method receives ATWV of 0.8008.

    Keywords: Persian Spoken Term Detection, IRIB, Persian News, Keyword Spotting, Speech Recognition, Kaldi}
  • امین معاون جولا، احمد اکبری *، بابک ناصر شریف

    شبکه های عصبی عمیق در سال های اخیر به طرز گسترده ای در سیستم های بازشناسی گفتار مورداستفاده قرارگرفته اند. بااین وجود، مقاوم سازی این مدل ها در حضور نویز محیط کمتر موردبررسی قرارگرفته است. در این مقاله دو راهکار برای مقاوم سازی مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به نویز جمع پذیر محیطی موردبررسی قرارگرفته است. راهکار اول افزایش مقاومت مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به حضور نویز است که با توجه به خصوصیت این شبکه ها در یادگیری رفتار بلندمدت نویز ارائه می شود. بدین منظور پیشنهاد می شود از گفتار نویزی برای آموزش مدل ها استفاده شود تا به صورت آگاه به نویز آموزش ببینند. نتایج روی مجموعه داده نویزی شده TIMIT نشان می دهد که اگر مدل ها به جای گفتار تمیز با گفتار نویزی آموزش ببینند، دقت بازشناسی تا 18 درصد بهبود خواهد یافت. راهکار دوم کاهش تاثیر نویز بر ویژگی های استخراج شده با استفاده از شبکه خود رمزگذار کاهنده نویز و استفاده از ویژگی های گلوگاه به منظور فشرده سازی بردار ویژگی و بازنمایی سطح بالاتر ویژگی های ورودی است. این راهکار باعث می شود مقاومت ویژگی ها نسبت به نویز بیشتر شده و درنتیجه دقت سیستم بازشناسی پیشنهادشده در راهکار اول، در حضور نویز 4 درصد افزایش یابد.

    کلید واژگان: بازشناسی گفتار, مقاومت نسبت به نویز, داده های چند شرطی, شبکه خود رمزگذار, شبکه حافظه کوتاه مدت ماندگار}
    Amin Moaven Joula, Ahmad Akbari*, Babak Naser Sharif

    Deep neural networks have been widely used in speech recognition systems in recent years. However, the robustness of these models in the presence of environmental noise has been less discussed. In this paper, we propose two approaches for the robustness of deep neural networks models against environmental additive noise. In the first approach, we propose to increase the robustness of long short-term memory (LSTM) networks in the presence of noise based on their abilities in learning long-term noise behavior. For this purpose, we propose to use noisy speech for training models. In this way, LSTMs are trained in a noise-aware manner. The results on the noisy TIMIT dataset show that if the models are trained with noisy speech rather than clean speech, recognition accuracy will be improved up to 18%. In the second approach, we propose to reduce noise effects on the extracted features using a denoised autoencoder network and to use the bottleneck features to compress the feature vector and represent the higher level of input features. This method increases the accuracy of the proposed recognition system in the first approach by 4% in the presence of noise.

    Keywords: Speech recognition, Noise robustness, Multicondition data, Autoencoder network, Long short term memory network}
  • mohammad rasoul kahrizi *, jahanshah kabudian
    Speech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, reducing the size of audio signals in communication and storage, and many other applications. Here, a novel robust feature named Long-Term Spectral Pseudo-Entropy (LTSPE) is proposed to detect speech and its purpose is to improve performance in combination with other features, increase accuracy and to have acceptable performance. To this end, the proposed method is compared to other new and well-known methods of this context in two different conditions, with uses a well-known speech enhancement algorithm to improve the quality of audio signals and without using speech enhancement algorithm. In this research, the MUSAN dataset has been used, which includes a large number of audio signals in the form of music, speech and noise. Also various known methods of machine learning have been used. As well as Criteria for measuring accuracy and error in this paper are the criteria for F-Score and Equal-Error Rate (EER) respectively. Experimental results on MUSAN dataset show that if our proposed feature LTSPE is combined with other features, the performance of the detector is improved. Moreover, this feature has higher accuracy and lower error compared to similar ones.
    Keywords: Audio Signal Processing, Speech Processing, Speech Activity Detection (SAD), Speech Recognition, Voice Activity Detection (VAD), Robust Feature, LTSPE}
  • تکتم ذوقی، محمد مهدی همایون پور*
    در حالی که سامانه های بازشناسی گفتار به طور پیوسته در حال ارتقا می باشند و شاهد استفاده گسترده از آن ها می باشیم، اما دقت این سامانه ها فاصله زیادی نسبت به توان بازشناسی انسان دارد و در شرایط ناسازگار این فاصله افزایش می یابد. یکی از علل اصلی این مسئله تغییرات زیاد سیگنال گفتار است. در سال های اخیر، استفاده از شبکه های عصبی عمیق در ترکیب با مدل مخفی مارکف، موفقیت های قابل توجهی در حوزه پردازش گفتار داشته است. این مقاله به دنبال مدل کردن بهتر گفتار با استفاده از تغییر ساختار در شبکه عصبی پیچشی عمیق است؛ به نحوی که با تنوعات بیان گویندگان در سیگنال گفتار منطبق تر شود. در این راه، مدل های موجود و انجام استنتاج بر روی آن ها را بهبود و گسترش خواهیم داد. در این مقاله با ارائه شبکه پیچشی عمیق با پنجره های قابل تطبیق سامانه بازشناسی گفتار را نسبت به تفاوت بیان در بین گویندگان و تفاوت در بیان های یک گوینده مقاوم خواهیم کرد. تحلیل ها و نتایج آزمایش های صورت گرفته بر روی دادگان گفتار فارس دات و TIMIT نشان داد که روش پیشنهادی خطای مطلق بازشناسی واج را نسبت به شبکه پیچشی عمیق به ترتیب به میزان 2/1 و 1/1 درصد کاهش می دهد که این مقدار در مسئله بازشناسی گفتار مقدار قابل توجهی است.
    کلید واژگان: بازشناسی گفتار, شبکه عصبی عمیق, شبکه عصبی پیچشی, پنجره های قابل تطبیق}
    Toktam Zoughi, Mohammad Mehdi Homayounpour *
    Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov model (HMM) leads to considerable performance achievement in speech recognition problem because deep networks model complex correlations between features. The main aim of this paper is to achieve a better acoustic modeling by changing the structure of deep Convolutional Neural Network (CNN) in order to adapt speaking variations. In this way, existing models and corresponding inference task have been improved and extended.
    Here, we propose adaptive windows convolutional neural network (AWCNN) to analyze joint temporal-spectral features variation. AWCNN changes the structure of CNN and estimates the probabilities of HMM states. We propose adaptive windows convolutional neural network in order to make the model more robust against the speech signal variations for both single speaker and among various speakers. This model can better model speech signals. The AWCNN method applies to the speech spectrogram and models time-frequency varieties.
    This network handles speaker feature variations, speech signal varieties, and variations in phone duration. The obtained results and analysis on FARSDAT and TIMIT datasets show that, for phone recognition task, the proposed structure achieves 1.2%, 1.1% absolute error reduction with respect to CNN models respectively, which is a considerable improvement in this problem. Based on the results obtained by the conducted experiments, we conclude that the use of speaker information is very beneficial for recognition accuracy.
    Keywords: Speech recognition, deep neural network, Convolutional neural network, Adaptive windows convolutional neural network}
  • امیدرضا عباسی *، علی اصغر آل شیخ
    امروزه نقشه ها به طور گسترده به منظور ناوبری در هنگام رانندگی یا دوچرخه سواری استفاده می شوند. در این موارد، برقراری ارتباط کاربر و نقشه با استفاده از دست غیرممکن و یا خطرناک است. علاوه بر این، افراد کم بینا در دیدن نشان ها و علائم کوچک مورد استفاده در صفحه مشکلاتی دارند. با توجه به این که گفتگو یک روش تعامل طبیعی در انسان است، ورودی های صوتی می توانند از پیچیدگی رابط های کاربر سیستم های اطلاعات مکانی عمومی بکاهند. از این رو، توسعه یک سامانه اطلاعات مکانی کاربرمحور دارای قابلیت تعامل با افراد کم بینا یا رانندگان و دوچرخه سواران ضروری می نماید. در این مقاله، ابتدا به بررسی سامانه های ناوبری موجود پرداخته شده است. سپس، نمونه اولیه یک سامانه اطلاعات مکانی تحت وب متن باز با رابط کاربر صوتی توسعه داده شده است. در این سامانه، کاربر بدون نیاز به استفاده از دست و تنها با استفاده از فرمان های صوتی به ناوبری نقشه می پردازد. به منظور برقراری ارتباط با موتور بازشناسی گفتار در مرورگر از کتابخانه annyang استفاده شده است. از مزایای این رابط کاربر نسبت به موارد مشابه پیشین می توان به عدم استفاده از دست، سازگاری با و انطباق بر فناوری های روز دنیای وب، عدم نیاز به تجهیزات سخت افزاری اضافی و در نتیجه هزینه اندک اشاره کرد. علاوه بر این، قابلیت استفاده از رابط کاربر گرافیکی نیز در این سامانه فراهم شده است. بدین ترتیب، امکان استفاده همزمان از رابط کاربر صوتی و رابط کاربر گرافیکی تعبیه شده است.
    کلید واژگان: سامانه اطلاعات مکانی تحت وب, رابط کاربر صوتی, بازشناسی گفتار, رابط کاربر چندحالته, تعامل انسان-رایانه}
    O. R. Abbasi*, A. A. Alesheikh
    Today, maps are commonly used for navigation purposes in driving and bicycling. In such situations, the interaction of a user with the map is impossible or, at least, dangerous. Moreover, individuals who have difficulties with their vision, may not see the icons and signs properly. As conversation is a natural way of interacting among people, audio inputs can reduce the existing complexities within general-purpose geospatial information systems (GIS). Therefore, the development of a user-oriented GIS which is able to interact with visually impaired individuals and drivers is important. In this paper, we first review the existing navigation systems, focusing on their user interface (UI). Then, the prototype of an audio-enabled open-source web-based GIS is presented. The users of this WebGIS can utilize its capabilties only using audio commands, without the need to use their hands. In order to establish a connection with the browser's speech recognition engine, the annyang library has been used. An audio user interface has some advantages over casual interfaces, namely being hands-free, the compatibility with up-to-date web technologies, not requiring additional hardware, and consequently being low-cost. Beside the audio user interface, a graphical user interface (GUI) has also been designed. Hence, the user can interact with both user interfaces simultaneously.
    Keywords: WebGIS, Audio User Interface, Speech Recognition, Multimodal User Interface, Human-Computer Interaction}
  • محمد مصلح، محمد خیراندیش، مهدی مصلح، نجمه حسین پور
    بازشناسی گفتار به عنوان یکی از مهمترین شاخه های پردازش گفتار از دیر باز مورد توجه پژوهشگران و محققین بوده است. بازشناسی گفتار تکنولوژی است که قادر است کلمه (کلمات) اداء شده را که با یک سیگنال آکوستیک نمایش داده می-شود، معین نماید. پیچیدگی سیستم های بازشناسی گفتار به ویژگی های استخراج شده، بعد آنها و نیز دسته بند بکار گرفته شده بستگی دارد. در این مقاله، یک دسته بند جدید پیشنهاد می شود که قادر است در فاز استخراج دانش، از طریق هم افزایی خوشه بندی و فراوانی مشاهدات، یک مدل مناسب برای هر کلمه مرجع، در قالب دو ماتریس "برنده" و "حداقل فاصله"، محاسبه نماید. در مرحله بازشناسی، روش پیشنهادی قادر است با استفاده از یک مکانیزم جریمه-پاداش، میزان شباهت بین گفتار ورودی ناشناخته و مدل های مرجع کلمات را معین نماید. به منظور ارزیابی روش پیشنهادی از پایگاه داده فارس دات استفاده شده است. نتایج حاصل از آزمایشات متعدد بر روی سیگنال های تمیز و نویزی نشان می دهند روش پیشنهادی از مقاوم پذیری بهتری در برابر نویز، دقت بالاتر و نیز پیچیدگی زمانی کمتری در مقایسه با سیستم های بازشناسی گفتار مبتنی بر مدل مخفی مارکوف برخوردار است.
    کلید واژگان: بازشناسی گفتار, دسته بندی, مدل های مخفی مارکوف, خوشه بندی, استخراج ویژگی, مقاوم پذیری}
    Mohammad Mosleh, Mohammad Kheyrandish, Najmeh Hosseinpour, Mahdi Mosleh
    Speech recognition as one of the important branches of speech processing has been attractive for researchers and scientist, from long time ago. Speech recognition is a kind of technology able to determine the pronounced word (s) shown by acoustic signal. The complexity of speech recognition systems depends on the extracted features, their dimensions and the applied classifier. In this paper, we propose a new classifier which is able to compute two matrices “winner” and “minimum distance” in a knowledge extraction phase, as a suitable model for any reference word using synergy clustering and frequency of observations. In the recognition phase, the proposed method is able to determine the similarity between inputted unknown speech and word reference models based on a penalty-reward mechanism. In order to evaluate the proposed method, the FARSDAT data set is used. The results of several experiments on clean and noisy signals show more resistant against noise, higher accuracy and less time complexity for the proposed method, in comparison to the HMM-based speech recognition system.
    Keywords: Classification, Feature Extraction, Hidden Markov Model (HMM), robustness, Clustering, Speech recognition}
  • روح الله دیانت، مرتضی علی احمدی *، یحیی اخلاقی، باقر باباعلی
    در این مقاله، یک پیش پردازش روی روش های بازیابی اطلاعات، ارائه می شود که برای بازیابی اطلاعات حاصل از متون بازشناسی شده ی گفتاری، مناسب است. این پیش پردازش، به شکل ترکیبی از اصلاح و گسترش پرس‏ و جو می ‏باشد. ورودی‏ های مسئله، اسناد متنی بدست آمده از بازشناسی گفتار و پرس‏ و جو می باشد و هدف، یافتن اسناد مرتبط با کلمه پرس ‏و جو است. مشکل آن است که متن حاصل از بازشناسی گفتار، همواره دارای درصد خطایی در بازشناسی است که ممکن است منجر به این شود که کلماتی که در واقع مرتبط هستند و به‏ علت وقوع خطای بازشناسی دگرگون شده‏ اند مرتبط تشخیص داده نشوند. ایده ی روش ارائه شده، تشخیص خطای بازشناسی در کلمات و در نظر گرفتن کلمات مشابه برای آن دسته از کلماتی است که به عنوان خطا تشخیص داده شده اند. برای تشخیص کلمه ی خطا، پارامتری به عنوان احتمال خطا در کلمه تعریف می‏ شود که بزرگ بودن آن بیانگر امکان بیشتر وقوع خطا در کلمه است. همچنین برای تشخیص کلمات مشابه، ابتدا با استفاده از معیار فاصله لونشتاین، کلمات مشابه اولیه را پیدا می کنیم. سپس احتمال تبدیل این کلمات مشابه به کلمه پرس ‏و جوی اصلی، محاسبه می شود. کلمات مشابه معنایی، از بین کلماتی که احتمال تبدیل بیشتری دارند، بر اساس یک سطح آستانه انتخاب می شوند. اکنون در الگوریتم بازیابی، علاوه‏ بر کلمه اصلی، کلمات مشابه آن نیز در جستجو، مرتبط در نظر گرفته می‏ شوند. نتایج پیاده‏سازی ها نشان می‏دهد که الگوریتم ارائه شده، معیار F را به میزان حداکثر 30 % بهبود می بخشد.
    کلید واژگان: بازیابی اطلاعات, بازشناسی گفتار, سند, پرس و جو, فاصله لونشتاین}
    Rouhollah Dianat, Morteza Ali Ahmadi *, Yahya Akhlaghi, Bagher Babaali
    In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus that generated from a speech recognition system and a query as inputs, want to search queries in these documents and find relevant documents. The main problem is that the typical speech recognized texts suffer from some percentage of recognition error. This problem causes terms to have erroneously assign to irrelevant documents.
    The idea of our proposed method, is to detect error-prone terms and to find similar words for each term. A parameter is defined which calculate the probability for occurring error in the error-prone words. To recognize similar words for each specific term, based on a criterian which is called average detection rate (ADR) and levenshtein distance criterion, some candidates are chosen as the initial similar words set. Then, a conversion probability is defined based on the conversion rate (CR) and the noisy channel model (NCM) and the words with higher probability based on a threshold level are selected as the final similar words. In the retrieval process, these words are considered in the search step in addition to the base word. Implementation result shows a significant improvement up to 30% in F-measure in information retrieval method with consideration this pre-processing.
    Keywords: Information retrieval, Speech recognition, Document, Query, Levenshtein Distance}
  • یاسر شکفته، حسن قلی پور، محمدمحسن گودرزی، جهانشاه کبودیان، فرشاد الماس گنج، شقایق رضا، ایمان صراف رضایی
    یکی از مشکلات عمده ی سامانه های خودکار بازشناسی گفتار (ASR)، تنوعات موجود در بین گویند ه ها، کانال انتقال داده و محیط است که به علت وجود این تنوعات، کارایی این سامانه ها در شرایط کاربردی مختلف به شدت تغییر می کند. مقاوم سازی سیستم های بازشناسی جهت مقابله با این تغییرات از جمله مسائل حال حاضر در حوزه بازشناسی گفتار است. از جمله عواملی که باعث کاهش کارایی سیستم ها می شود، تمایز مشخصات صوتی آواهای یکسان تولید شده از گوینده های مختلف است. یکی از عوامل اصلی این مشکل ناشی از تفاوت موجود در طول مجرای صوتی (VTL) بین گوینده های مختلف می باشد. روش هنجارسازی طول مجرای صوتی (VTLN) از روش های رایج برای رفع این مشکل است که در آن برای هر گوینده یک ضریب پیچش فرکانسی تعیین می گردد. در این مقاله روش متداول تعیین ضریب پیچش با رویکرد مبتنی بر جستجو در یک سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف معرفی و مشکلات محاسباتی استفاده از این روش شرح داده شده است. در نهایت روشی مبتنی بر رگرسیون خطی از روی امتیاز محاسبه شده از مدلسازی تشخیص جنسیت جهت تخمین ضرایب پیچش پیشنهاد شده است که منجر به کاهش قابل ملاحظه هزینه محاسباتی روش مبتنی بر جستجو می شود. علاوه بر این، نتایج آزمایشات بر روی دادگان آزمون گفتار تلفنی محاوره ای، بیانگر بهبود 54/0 درصدی دقت تشخیص کلمه روش پیشنهادی نسبت به روش متداول مبتنی بر جستجو می باشد.
    کلید واژگان: بازشناسی گفتار, هنجارسازی طول مجرای صوتی, تشخیص جنسیت, رگرسیون خطی, ضریب پیچش فرکانسی}
    Yasser Shekofteh, Hasan Gholipor, M.Mohsen Goodarzi, Dr. Jahanshah Kabudian, Dr. Farshad Almasganj, Shaghayegh Reza, Iman Sarraf
    The performance of automatic speech recognition (ASR) systems is adversely affected by the variations in speakers, audio channels and environmental conditions. Making these systems robust to these variations is still a big challenge. One of the main sources of variations in the speakers is the differences between their Vocal Tract Length (VTL). Vocal Tract Length Normalization (VTLN) is an effective method introduced to cope with this variation. In this method, the speech spectrum of each speaker is frequency warped according to a specific warping factor of that speaker. In this paper, we first developed the common search-based method to obtain the appropriate warping factor over a HMM-based Persian continuous speech recognition system. Then pointing out the computational cost of search-based method, we proposed a linear regression process for estimating warping factor based on the scores generated by our gender detection system. Experimental results over a Persian conversational speech database shown an improvement about 0.54 percent in word recognition accuracy as well as a significant reduction in computational cost of estimating warping factor, compared to search-based approach.
    Keywords: speech recognition, Vocal Tract Length Normalization, gender detection, linear regression, warping factor}
  • مجتبی غلامی پور *، بابک ناصرشریف
    کارآیی سیستمهای بازشناسی گفتار خودکار در شرایط نویزی بخاطر عدم تطابق میان شرایط اموزش و آزمایش به شدت کاهش می یابد. روش های متعدی برای رفع این عدم تطابق پیشنهاد شده اند. در سالهای اخیر شبکه های عصبی عمیق به طرز گسترده ای در سیستمهای بازشناسی گفتار و نیز در مقاوم سازی آنها و استخراج ویژگی های مقاوم گفتار مورد استفاده قرار گرفته اند. در این مقاله، پیشنهاد می شود که از شبکه باور عمیق به عنوان یک رروش پس پردازش برای جبران اثر نویز بر روی ویژگی های مل کپستروم استفاده شود.علاوه بر این از شبکه باور عمیق برای استخراج ویزگی های آبشاری (احتمالات پسین وقوع واجها) از ضرایب حذف نویز شده مل گپستروم استفاده شده است تا ویزگی های مقاوم تر و متمایزسازتری حاصل گردد. بردار ویزگی مقاوم نهایی شامل ویزگی های مل کپستروم حذف نویز شده و ویژگی های ابشاری ذکر شده است. نتایج ارزیابی بر روی دادگان گفتاری aurora 2 نشانگر ان است که بردار ویژگی پیشنهادی بهتر ازویژگی های متداول و مشابه آن عمل می کند، طوری که دقت بازشناسی را نسبت به ویژگی های مل کپستروم 28% افزایش می دهد.
    کلید واژگان: مل کپستروم, ویژگی آبشاری, شبکه باور عمیق, مقاوم سازی, بازشناسی گفتار}
    Mojatba Gholmipour *, Babak Nasersharif
    Performance of automatic speech recognition (ASR) systems degrades in noisy conditions due to mismatch between training and test environments. Many methods have been proposed for reducing this mismatch in ASR systems. In recent years, deep neural networks (DNNs) have been widely used in ASR systems and also robust speech recognition and feature extraction. In this paper, we propose to use deep belief network (DBN) as a post-processing method for de-noising Mel frequency cepstral coefficients (MFCCs). In addition, we use deep belief network for extracting tandem features (posterior probability of phones occurrence) from de-noised MFCCs (obtained from previous stage) to obtain more robust and discriminative features. The final robust feature vector consists of de-noised MFCCs concatenated to mentioned tandem features. Evaluation results on Aurora2 database show that the proposed feature vector performs better than similar and conventional techniques, where it increases recognition accuracy in average by 28% in comparison to MFCCs.
    Keywords: MFCC, Tandem feature, DBN, Robustness, Speech recognition}
  • یاسر شکفته*، فرشاد الماس گنج
    ویژگی الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژگی گفتاری MFCC) استخراج شده است. با ترکیب اطلاعات الگوهای زمانی (دینامیک زمان بلند) به دست آمده از حوزه های لگاریتم طیف و کپستروم به بردار ویژگی های پایه بازشناسی، شامل ویژگی های گفتاری متداول MFCC و مشتقات زمانی اول و دوم آن (دینامیک زمان کوتاه)، نشان داده شده است که دقت بازشناسی واج در شرایط دادگان آزمون تمیز، حدود 1 درصد نسبت به نتایج بهترین سیستم پایه بازشناسی بهبود می یابد. این در حالی است که ویژگی های به دست آمده از روش پیشنهادی، بازشناسی مقاومتری را در شرایط نویزی مختلف (تا حدود 13 درصد) حاصل می نمایند که نشان دهنده مقاوم به نویز بودن روش پیشنهادی است.
    کلید واژگان: بازشناسی گفتار, استخراج ویژگی, الگوهای زمانی, احتمال پسین, شبکه عصبی, مدل مخفی مارکوف}
    Yasser Shekofteh *, Farshad Almasganj
    Temporal Pattern feature of a speech signal could be either extracted from the time domain or via their front-end vectors. This feature includes long-term information of variations in the connected speech units. In this paper، the second approach is followed، i. e. the features which are the cases of temporal computations، consisting of Spectral-based (LFBE) and Cepstrum-based (MFCC) feature vectors، are considered. To extract these features، we use posterior probability-based output of the proposed MTMLP neural networks. The combination of the temporal patterns، which represents the long-term dynamics of the speech signal، together with some traditional features، composed of the MFCC and its first and second derivatives are evaluated in an ASR task. It is shown that the use of such a combined feature vector results in the increase of the phoneme recognition accuracy by more than 1 percent regarding the results of the baseline system، which does not benefit from the long-term temporal patterns. In addition، it is shown that the use of extracted features by the proposed method gives robust recognition under different noise conditions (by 13 percent) and، therefore، the proposed method is a robust feature extraction method.
    Keywords: Speech Recognition, Feature Extraction, Temporal Pattern, Posterior Probability, Neural Network, Hidden Markov Model}
  • Ali Hatami*, Ahmad Akbari, Babak Nasersharif
    Language modeling has many applications in a large variety of domains. Performance of this model depends on its adaptation to a particular style of data. Accordingly, adaptation methods endeavour to apply syntactic and semantic characteristics of the language for language modeling. The previous adaptation methods such as family of Dirichlet class language model (DCLM) extract class of history words. These methods due to lake of syntactic information are not suitable for high morphology languages such as Farsi. In this paper, we present an idea for using syntactic information such as part-of-speech (POS) in DCLM for combining with one of the language models of n-gram family. In our work, word clustering is based on POS of previous words and history words in DCLM. The performance of language models are evaluated on BijanKhan corpus using a hidden Markov model based ASR system. The results show that use of POS information along with history words and class of history words improves performance of language model, and decreases the perplexity on our corpus. Exploiting POS information along with DCLM, the word error rate of the ASR system decreases by 1.2% compared to DCLM.
    Keywords: Speech Recognition, Language Model Adaptation, Part, of, Speech, Perplexity, Word Error Rate}
  • یاسر شکفته*، فرشاد الماس گنج
    تحقیقات اخیر نشان می دهد که تظاهرات غیرخطی و آشوبی سیگنال گفتار می تواند در حوزه فضای بازسازی شده فاز (RPS) مطالعه شود. تیوری جاسازی برمبنای محورهای تاخیری، ابزار مناسبی برای بررسی تراژکتورهای گفتاری در RPS است. تاکنون از مشخصه های تراژکتورهای گفتاری به ندرت در سیستم های کاربردی بازشناسی گفتار استفاده شده است. از اینرو در این مقاله  روش استخراج ویژگی جدیدی براساس پارامترهای مدلسازی خطی مبتنی بر روش AR برداری (VAR) پیشنهاد شده است. در این روش بوسیله ماتریس ضرایب فیلتر و یا ضرایب انعکاسی به دست آمده از اعمال روش VAR بر مشخصه های استاتیک و دینامیک تراژکتوری های گفتاری شکل یافته در RPS، یک بردار ویژگی با بعد زیاد حاصل می شود که می توان از روش های نگاشت خطی برای کاهش بعد مناسب آن استفاده کرد. نتایج آزمایش های بازشناسی واج مجزا و پیوسته بر مجموعه دادگان گفتاری فارس دات نشان می دهد که کارایی این روش در مقایسه با دیگر روش های متداول استخراج ویژگی مبتنی بر حوزه زمان مانند روش LPC و LPREF بیشتر است.
    کلید واژگان: بازشناسی گفتار, استخراج ویژگی, فضای بازسازی شده فاز, جاسازی سیگنال, پیش بینی خطی, AR برداری}
    Yaser Shekofteh *, Farshad Almasganj
    Recent researches show that nonlinear and chaotic behavior of the speech signal can be studied in the reconstructed phase space (RPS). Delay embedding theorem is a useful tool to study embedded speech trajectories in the RPS. Characteristics of the speech trajectories have rarely used in the practical speech recognition systems. Therefore, in this paper, a new feature extraction (FE) method is proposed based on parameters of vector AR (VAR) analysis over the speech trajectories. In this method, using filter and reflection matrices obtained from applying VAR analysis on static and dynamic information of the speech trajectory in the RPS, a high-dimensional feature vector can be achieved. Then, different transformation methods are utilized to attain final feature vectors with appropriate dimension. Results of discrete and continuous phoneme recognition over FARSDAT speech corpus show that the efficiency of the proposed FE method is better than other time-domain-based FE methods such as LPC and LPREF.
    Keywords: Speech Recognition, Feature Extraction, reconstructed phase space, Signal Embedding, Linear Prediction, Vector AR}
  • محمدرضا یزدچی، سید علی سیدصالحی

    بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد. در مقاله حاضر با الهام از سیستم درک و بازشناسی در انسان، شبکه عصبی دوسویه جدیدی طراحی و پیاده سازی شده است. این شبکه قادر است تا با اتصالات بازگشتی ضمن مدل سازی دنباله واج نظیر کلمات مجزا، طی تکرارهای مختلف، دنباله واج استخراج شده از مدل صوتی را به دنباله واج مطلوب، اصلاح کند. برای این منظور پس از پیاده سازی روش مذکور بر روی 400 کلمه مجزا از دادگان فارس دات تلفنی، در بهترین حالت، افزایش 9/16٪ در صحت بازشناسی واج مدل صوتی مشاهده شد. تشکیل بستر جذب در این شبکه عصبی دوسویه، از مزایای این شبکه در برابر شبکه های عصبی تک سویه است. در ادامه، به کمک متوالی کردن مدل واژگانی مذکور با مدل صوتی، متغیرهای بازنمایی بر اساس روش های معکوس سازی شبکه های عصبی اصلاح گردید. بهسازی گفتار با این روش نتایج قابل ملاحظه ای در کاهش عدم تطابق دادگان آزمون و آموزش در پی داشت. در این مقاله کارایی مدل واژگانی و بهسازی گفتار در قالب افزایش صحت بازشناسی واج به میزان 18% نسبت به مدل صوتی نشان داده شده است.

    کلید واژگان: بازشناسی گفتار, بهسازی گفتار, معکوس سازی شبکه های عصبی, شبکه های عصبی دوسویه, مدلسازی واژگانی}
    Mohammad Reza Yazdchi, Seyed Ali Seyed Salehi

    One of the most important challenges in automatic speech recognition is in the case of difference between the training and testing data. To decrease this difference, the conventional methods try to enhance the speech or use the statistical model adaptation. Training the model in different situations is another example of these methods. The success rate in these methods compared to those of cognitive and recognition systems of human beings seems too much primary. In this paper, an inspiration from human being's recognition system helped us in developing and implementing a new connectionist lexical model. Integration of imputation and classification in a single NN for ASR with missing data was investigated. This can be considered as a variant of multi-task learning because we train the imputation and classification tasks in parallel fashion. Cascading of this model and the acoustic model corrects the sequence of the mined phonemes from the acoustic model to the desirable sequence. This approach was implemented on 400 isolated words of TFARSDAT Database (Actual telephone database). In the best case, the phoneme recognition correction increased in 16.9 percent. Incorporating prior knowledge (high level knowledge) in acoustic-phonetic information (lower level) can improve the recognition. By cascading the lexical model and the acoustic model, the feature parameters were corrected based on the inversion techniques in the neural networks. Speech enhancement by this method had a remarkable effect in the mismatch between the training and testing data. Efficiency of the lexical model and speech enhancement was observed by improving the phoneme's recognition correction in 18 percent compared to the acoustic model.

    Keywords: Speech Recognition, speech enhancement, Inversion Of Neural Networks, Bidirectional Neural Networks, Lexical Modeling}
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال