فهرست مطالب

پردازش علائم و داده ها - سال چهاردهم شماره 1 (پیاپی 31، بهار 1396)

فصلنامه پردازش علائم و داده ها
سال چهاردهم شماره 1 (پیاپی 31، بهار 1396)

  • تاریخ انتشار: 1396/05/24
  • تعداد عناوین: 10
|
  • فاطمه سادات لسانی*، فرانک فتوحی قزوینی، روح الله دیانت صفحات 3-14
    در این مقاله با استفاده از پردازش اطلاعات تصویری لب های کاربر، کلمه عبور با استفاده از دوربین گوشی دریافت می شود تا با استفاده از الگوریتم های لب خوانی، حرکات لب دنبال شده و تشخیص داده شود. تشخیص تصویری کلمه عبور، مانع از دزدیدن آن توسط نرم افزارهای واقعه نگار می شود. با این حال، سیار بودن گوشی همراه منجر به تغییر نور محیط می شود. در این پژوهش، روشی برای حل این چالش مطرح شده و در نهایت یک نمونه برنامه کاربردی برای اجرا در سیستم عامل اندروید طراحی و پیاده سازی شده است. این لب خوان به صورت غیر بر خط و بدون نیاز به ارتباطات اینترنتی و وجود یک سرور خارجی، عمل شناسایی کلمه عبور کاربر را انجام می دهد. موفقیت روش پیاده سازی شده در تشخیص،حدود 70 درصد است. این برنامه برای پردازش ویدیوی حرفی که 10 قاب دارد، به 3.8 ثانیه زمان و 628 کیلوبایت حافظه نیاز دارد که به راحتی در گوشی های تلفن همراه امروزی قابل دسترس است.
    کلیدواژگان: احراز هویت در تلفن همراه، لب خوانی خودکار، تجارت سیار، ردیابی لب، اندروید
  • مسعود عابسی، الهه حاجی گل یزدی *، حسن حسینی نسب، محمدباقر فخرزاد صفحات 15-28
    کشف پدیده های استثنایی پنهان در حجم انبوهی از رکوردهای موجود در پایگاه داده و استخراج دانش آن ها در این مطالعه مورد بررسی قرار گرفته است. پدیده های استثنایی به ندرت رخ می دهد و در حجم انبوهی از داده های عادی پنهان اند. دست یابی به دانش رفتاری این پدیده ها، ارزشمند و جذاب است. روش های موجود یادگیری، در هنگام پاک سازی پایگاه داده اغلب پدیده های استثنایی را به عنوان داده های پرت شناسایی کرده و از محاسبات خارج می کند و یا اینکه به دلیل تمایل به کلیت، قابلیت شناسایی و دسته بندی درست این پدیده ها را ندارند. به همین دلیل، ایجاد چارچوبی کارآمد برای کشف دانش و یادگیری رفتار پدیده های استثنایی معدود که در میان انبوه رکوردهای یک پایگاه داده مخفی هستند، حائز اهمیت است. در این پژوهش، با به ‏کارگیری تئوری استثنائات و تئور ی های اطلاعات و دانه بندی اطلاعات نسبت به استخراج دانش رفتار پدیده های استثنایی اقدام شده است. کارآیی روش پیشنهادی با در نظر گرفتن اطلاعات 30 ماهه سهام شرکت های فعال در بازار اوراق بهادار ایران به منظور شناسایی و یادگیری رفتار سهام استثنایی، سنجیده می شود.
    کلیدواژگان: داده کاوی، پدیده های استثنایی، تئوری استثنائات، رویکرد یادگیری پایین به بالا، تئوری اطلاعات کشف
  • ریحانه صباغ گل، نگین دانشپور* صفحات 29-40
    پایگاه داده تحلیلی منبعی برای ذخیره ‏سازی داده های تاریخی جهت تحلیل است. به طورمعمول زمان پاسخ به پرس ‏و‏جوهای تحلیلی، زمانی طولانی است. استفاده از دید به جای دسترسی مستقیم به پایگاه داده‏، سرعت پاسخ‏گویی را بهبود می ‏دهد. راه کارهای مختلفی برای ذخیره ‏سازی دید وجود دارد؛ که مناسب‏ترین راهکار برای ذخیره‏سازی دید، ذخیره ‍‏سازی دیدهای پراستفاده و پرکاربرد است. پرس ‏وجوهایی که درقبل مورد استفاده پایگاه داده‏ تحلیلی بود‏ه ‏اند، حاوی اطلاعات مهمی هستند که به احتمال زیاد در آینده نیز مورد استفاده خواهند بود‏. این مقاله، الگوریتمی برای ذخیره ‏سازی دیدهای پرکاربرد ارائه می ‏دهد. این الگوریتم با استفاده از پرس‏ وجوهای قبلی، دیدهای پرکاربرد را یافته و آن‏ها را ذخیره‏‏ می‏ کند. این دیدها توانایی پاسخ‏گویی را به بسیاری از پرس ‏وجوهایی که در آینده اتفاق خواهند ‏افتاد، دارند. روش پیشنهادی این مقاله از الگوریتم Index-BittableFI برای یافتن دیدهای پرتکرار استفاده ‏کرده ‏است که باعث بهبود روش ‏های قبلی و کاهش زمان پاسخ به پرس ‏وجوها شده است‏. آزمایش های انجام شده نشان می ‏دهند که الگوریتم پیشنهادی از لحاظ زمانی نسبت به الگوریتم‏ های قبلی 23 درصد و از لحاظ فضای ذخیره ‏سازی 50 درصد بهبود داشته است.
    کلیدواژگان: پایگاه داده تحلیلی، پرس و جو های پرتکرار، خوشه بندی، ذخیره سازی دید
  • نازنین گوهریان، سحر مقیمی*، هادی کلانی صفحات 41-52
    امروزه بررسی ارتباط بین سیگنال های نیرو و فعالیت الکتریکی عضله ها بسیار حائز اهمیت بوده و در مسائل مهمی مانند تحلیل حرکت، علوم ارتوپدی، توانبخشی، طراحی ارگونومیک و تعامل انسان- ماشین و کاربردهای پزشکی مانند کنترل پروتزهای مصنوعی کاربرد فراوانی دارد. از مزیت های استفاده از الکترودهای سطحی، ارزان تر و قابل حمل بودن آن ها در مقایسه با حس گرهای نیرو است که به طورمعمول گران هستند و ساختار حجیمی دارند. از آنجایی که اندازه گیری نیروی گاز گرفتن بسیار سخت و پیچیده است، در این مقاله می خواهیم توانایی شبکه های عصبی چند لایه پرسپترون (MLPANN) و توابع با پایه شعایی (RBFANN) را در پیش بینی نیروی گاز گرفتن توسط دندان پیشین از روی سیگنال های اکترومایوگرام صورت بررسی کنیم. بدین منظور سیگنال الکترومایوگرام عضلات گیجگاهی و ماضغه و نیروی گاز گرفتن به ترتیب به عنوان ورودی و خروجی شبکه های عصبی در نظر گرفته شده اند. برای پیدا کردن بهترین ساختار شبکه و تاخیر زمانی مناسب سیگنال های الکترومایوگرام، از الگوریتم ژنتیک (GA) استفاده شده است. نتایج نشان می دهند که سیگنال الکترومایوگرام عضلات یادشده شامل اطلاعات مفیدی از نیروی گازگرفتن هستند. روش های MLPANN و RBFANN دینامیک مورد نظر را با دقت مناسبی شناسایی می کنند. درصد میانگین مربع خطا در مرحله آموزش و آزمون به ترتیب 3/2%و 4/19% برای MLPANN و 3/8% و 7/22% برای RBFANN است. همچنین روش تحلیل واریانس نشان می دهد که تفاوت معناداری بین نتایج حاصله از MLPANN و RBFANN وجود ندارد.
    کلیدواژگان: سیگنال های الکترومایوگرام، نیروی گاز گرفتن، شبکه عصبی چند لایه پرسپترون، تابع پایه شعاعی، الگوریتم ژنتیک
  • طاهره زارع بیدکی*، محمد تقی صادقی، حمیدرضا ابوطالبی صفحات 53-70
    معیار فاصله، نقشی کلیدی در بسیاری از الگوریتم های آموزش ماشین و شناسایی آماری الگو دارد؛ به گونه ای که انتخاب تابع فاصله مناسب، تاثیر مستقیمی بر عملکرد این الگوریتم ها دارد. در سال های اخیر، آموزش معیار فاصله با استفاده از نمونه های برچسب دار و یا دیگر اطلاعات موجود، یکی از حوزه های بسیار فعال در حوزه آموزش ماشین شده است. پژوهش ها در این راستا، نشان داده است که معیارهای سنجش فاصله مبتنی بر یادگیری، عملکرد بسیار بهتری در مقایسه با معیارهای فاصله مرسوم از قبیل فاصله اقلیدسی دارند. با گسترش این الگوریتم ها، نوع مبتنی بر کرنل برخی از این الگوریتم ها نیز ارائه شده که در آنها با استفاده از تابع کرنل، نمونه ها به طور غیر صریح به فضای ویژگی جدیدی با ابعاد بالاتر نگاشت یافته و سپس در این فضای ویژگی جدید، معیار فاصله برای کاربرد مورد نظر آموزش داده می شود. برخلاف عملکرد بسیار خوب توابع کرنل در الگوریتم های مختلف، یکی از مسائلی که در این الگوریتم ها وجود دارد، انتخاب کرنل مناسب و یا پارامترهای مناسب برای یک کرنل مشخص است. استفاده از کرنل مرکب به جای استفاده از یک کرنل به تنهایی، بهترین راه حلی است که تاکنون برای این مسئله ارائه شده است. در فرآیند دست یابی به کرنل مرکب بهینه نیز، استفاده از الگوریتم های یادگیری اهمیت دارد. در این پژوهش، با ادغام این دو فرآیند یادگیری، ساختارهای نیمه نظارتی متفاوتی برای تعیین وزن کرنل ها در یک ترکیب کرنلی ارائه می شود. کرنل مرکب نهایی برای سنجش فاصله داده ها در کاربرد خوشه بندی مورد استفاده واقع می شود. در ساختارهای نیمه نظارتی بررسی شده، سعی بر آن است که در فرآیند بهینه سازی با تعیین تابع هدف مناسب، وزن کرنل ها به گونه ای تعیین شود که فاصله زوج های مشابه کمینه و فاصله زوج های نامشابه بیشینه شود. بررسی عملکرد این ساختارهای پیشنهادی بر روی داده مصنوعی XOR و همچنین مجموعه داده های پایگاه داده UCI نشان دهنده موثر بودن ساختارهای پیشنهادی است.
    کلیدواژگان: یادگیری معیار فاصله، یادگیری کرنل مرکب، زوج های مشابه، زوج های نامشابه، یادگیری نیمه نظارتی
  • مریم ایمانی، حسن قاسمیان* صفحات 71-82
    امروزه تصویربرداری ابرطیفی به منظور طبقه بندی داده های سطح زمین با دقت و جزئیات بالا بسیار مورد توجه است. به دلیل کمبود نمونه آموزشی در دسترس، کاهش ابعاد داده ابرطیفی به عنوان یک گام مهم پیش پردازش در تحلیل و طبقه بندی تصاویر ابرطیفی به شمار می رود. در این مقاله یک روش استخراج ویژگی پیشنهاد شده که سعی می کند، علاوه بر افزایش جدایی پذیری طبقه ها، ساختار داده را نیز حفظ کند. برای این منظور، دو تابع هدف پیشنهاد شده است. تابع هدف نخست از نمونه های آموزشی برچسب دار بهره می برد و سعی می کند نمونه های هم طبقه را در فضای کاهش یافته تا جای ممکن به هم نزدیک کند. تابع هدف دوم از نمونه های بدون برچسب خوشه بندی شده بهره برده و سعی می کند نمونه های متعلق به یک خوشه را در فضای کاهش یافته، تا جای ممکن به هم نزدیک گرداند. روش پیشنهادی بر روی سه داده ابرطیفی واقعی مورد آزمایش قرار گرفته و برتری آن از نظر دقت طبقه بندی نسبت به تعدادی از روش های پرکاربرد استخراج ویژگی نشان داده شده است.
    کلیدواژگان: ابعاد بالا، نمونه آموزشی کم، ابرطیفی، طبقه بندی، کاهش ویژگی
  • هادی گرایلو *، علی رجاییان صفحات 83-98
    همه ساله، بسیاری از مردم جان خود را در تصادفات جاده ای و در حین رانندگی از دست می دهند. یکی از عوامل اصلی وقوع این تصادفات، خستگی و خواب آلودگی است؛ بنابراین، تشخیص زودهنگام خواب آلودگی راننده تاثیر زیادی در کاهش آمار تصادفات جاده ای دارد. در این مقاله، ابتدا یک پایگاه داده شامل سیگنال های مغزی ده داوطلب مرد در شرایط مشخص، ثبت و گردآوری شده است؛ سپس، روشی برای تشخیص سطح خواب آلودگی فرد از روی سیگنال های مغزی پیشنهاد می شود که مبتنی بر تبدیل موجک و طبقه بند ماشین بردار پشتیبان، SVM، بوده و تنها از دو کانال سیگنال های مغزی استفاده می کند. در ادامه، یک سامانه سخت افزاری مبتنی بر پردازش گر سیگنال TMS320C5509A برای پیاده سازی عملی روش پیشنهادی، طراحی و ساخته شده است. این سامانه قابل حمل بوده و به کمک باتری قادر است تا حدود ده ساعت کار کند. نتایج نشان از دقت صد درصد در برخی نمونه ها داشته است.
    کلیدواژگان: سیگنال های مغزی، تشخیص خواب آلودگی راننده، پردازش گر سیگنال، پیاده سازی سخت افزاری
  • داود فانی، مهدی رضایی *، مریم سرحدی اول صفحات 99-110
    در این مقاله، یک الگوریتم کنترل نرخ بیت در سطح گروه تصاویر ((GOP برای استاندارد ویدئویی جدید H.265 جهت کاربردهایی با نرخ بیت متغیر با قید بافر ارائه شده است. با توجه به تغییرات ساختاری کدگذار استاندارد H.265 نسبت به استانداردهای قبلی، نیاز به طراحی الگوریتم های جدید کنترل نرخ بیت احساس می شود. در الگوریتم پیشنهادی، تغییرات پارامتر چندی سازی (QP) برای هر گروه تصاویر نسبت به گروه تصاویر قبلی با توجه به نرخ بیت هدف و وضعیت بافر محاسبه می شود. این روش امکان تغییرات کوتاه مدت هدفمند در نرخ بیت ویدئوی فشرده شده را به نحوی فراهم می کند تا ویدئوی بازسازی شده کیفیت دیداری یکنواخت تر و مطلوب تری داشته باشد. برخلاف روش های متداول، این الگوریتم به جای استفاده از مدل های نرخ-اعوجاج (R-D)، از یک جدول مراجعه بهره می برد که باعث کاهش چشم گیر حجم محاسبات شده است. نتایج پیاده سازی نشان می دهد، نه تنها نرخ بیت خروجی مطابق قید بافر به طورکامل کنترل می شود، بلکه کیفیت ویدئوی خروجی نیز نسبت به حالت بدون کنترل به خوبی حفظ می شود.
    کلیدواژگان: استاندارد H، 265، HEVC، جدول مراجعه (Lookup Table)، فشرده سازی ویدئو، کنترل نرخ بیت، نرخ بیت متغیر
  • جهانشاه کبودیان *، شقایق رضا صفحات 111-134
    شناسایی خودکار زبان گفتاری به تشخیص زبان از روی سیگنال گفتار گفته می شود. شناسایی زبان به طورمعمول به یکی از دو دسته روش آوایی و طیفی انجام می شود. در این مقاله، انواع روش های مختلف طیفی برای بازشناسی زبان گفتاری معرفی شده و نتایج به کارگیری آنها بر روی یک مجموعه دادگان گفتاری تلفنی محاوره ای مقایسه شده است. روش طیفی پایه شناسایی زبان، مدل مخلوط گوسی-مدل جهانی (GMM-UBM) است. برای بهبود مدل گوسی هر زبان از روش تمایزی MMI و برای مدل کردن دینامیک زبان از مدل پنهان مارکوف ارگودیک (EHMM) استفاده می شود. روش های GSV-SVM و روش نشانه گذار مبتنی بر GMM (GMM Tokenizer) نیز دو روش طیفی دیگر است که مورد بررسی قرار گرفته است. در این مقاله همچنین روش های جدید مدل سازی تنوعات کانال و گوینده (تحلیل توام عامل ها (JFA) و بردار شناسایی (i-Vector)) به کار رفته و برای بهبود نتایج آن از چند روش جبران سازی تنوعات استفاده شده است. علاوه براین برای سهولت تصمیم گیری و کاهش خطای سامانه شناسایی زبان، از پس پردازش امتیاز استفاده شده است. این مقاله بخشی از هفت سال پژوهش در زمینه شناسایی زبان گفتاری در پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی است و تنها خلاصه ای از روش ها و نتایج به دست آمده در این مقاله آورده شده است.
    کلیدواژگان: شناسایی خودکار زبان گفتاری، روش های طیفی، آموزش تمایزی، جبران سازی تنوعات کانال، بردار شناسایی
  • مسعود گراوانچی زاده*، علی فلاح صفحات 135-151
    در این مطالعه، مدل پیش گویی قابلیت فهم دوگوشی میکروسکوپی بر مبنای فیلتربانک مدولاسیون ارائه می شود. تاکنون در مدل های دوگوشی، از معیارهای طیفی مانند STI و SII و یا دیگر روابط تحلیلی برای تعیین میزان قابلیت فهم دوگوشی استفاده شده است. در مدل پیشنهادی، بر خلاف تمام مدل های پیش گویی قابلیت فهم دوگوشی، از بازشناساگر خودکار گفتار در قسمت پایانی به عنوان واحد تصمیم گیری استفاده می شود. یک مزیت استفاده از این روش، امکان تحلیل میزان بازشناسی قسمت های کوچک گفتار مانند واج و سیلاب است. مزیت دیگر این مدل استفاده از پیش پردازش هایی است که وجود آنها در دستگاه شنوایی انسان به اثبات رسیده است. با استفاده از ماتریس ویژگی پیشنهادی در بازشناساگر گفتار، این مدل دارای پیش گویی های خوبی در حضور یک منبع نوفه ایستان شبه گفتار است. مقایسه نتایج مدل با نتایج حاصل از آزمایش های شنوایی، مقادیر همبستگی بالا و میانگین قدر مطلق خطای پایین را نشان می دهد. همچنین، ماتریس های ابهام برای همخوان ها همبستگی بالایی را بین پیش گویی ها و اندازه گیری ها نشان می دهد. آستانه ادراک گفتار پیش گویی شده توسط مدل پیشنهادی دارای میانگین قدر مطلق خطای کمتری (6/0 دسیبل) در مقایسه با مدل مبنای BSIM است.
    کلیدواژگان: پیش گویی قابلیت فهم گفتار، مدل های دوگوشی، فیلتربانک مدولاسیون، مدل های میکروسکوپی، مدل های ماکروسکوپی
|
  • Fatemeh Sadat Lesani*, Faranak Fotouhi Ghazvini, Rouhollah Dianat Pages 3-14
    Today, mobile phones are one of the first instruments every individual person interacts with. There are lots of mobile applications used by people to achieve their goals. One of the most-used applications is mobile banks. Security in m-bank applications is very important, therefore modern methods of authentication is required. Most of m-bank applications use text passwords which can be stolen by key-loggers. Key-loggers are hidden software to record the keys struck by users. To overcome the key-logging issue, One-Time Passwords are used. They are secure but require additional tools to be used, therefore they cannot be user-friend. Moreover, the voice-based passwords are not secure enough, since they can be heard by other people easily. In other hand, Image-based passwords cannot satisfy users, cause of screen limitation in mobile phones.
    In this article, a new authentication method is introduced. The password is based on user lip’s motion which is received via a mobile cellphone camera. The visual information extracted from the user’s lips movement forms the password. Then the lip motion is tracked to recognize the password by incorporating the lip reading algorithms. The algorithm is based on the Viola-Jones method. It combines the method with a pixel-based approach to segment lips and extract features. After segmenting the lips, some special points of Region of Interests are selected. The information extracted from lips are saved in order to act as algorithm’s features. In addition, some normalizing methods are considered to normalize the features and prepare them to enter classification phase. In classification step, some known algorithms like Support Vector Machine and K-Nearest Neighbor are applied on features to recognize password and authenticate people. Visual passwords prevent key-loggers from stealing passwords. However, the mobility of a mobile user causes ambient lights to vary in different environments. In this research, a solution is designed to tackle this challenge. Finally a mobile banking application is designed and developed to run on android mobile phones platform. It incorporates a lip reader which recognizes the passwords in offline mode. The application is independent from the internet connection or a dedicated server. The implemented recognition method has achieved a 70% success rate. In this application a video capture of a letter with 10 frames could be processed in 3.8 seconds using 628 kilo bytes of memory. These resources are easily available in today’s mobile phones.
    Some mobile bank users tested the application to feedback about lip reading password. Most of them were satisfied when using it. They believed the lip reader is more trustable than text passwords and voice-based passwords. In addition, the user-friendliness of it, is a bit more than text password which means that the method can satisfies a mobile bank application user.
    Keywords: Mobile Phone Authentication, Automatic Lip Reading, Mobile Commerce, Lip Tracking, Android
  • Dr Masood Abessi, Elahe Hajigol Yazdi*, Dr Hasan Hoseini Nasab, Dr Mohammad Bagher Fakhrzad Pages 15-28
    Learning logic of exceptions is a substantial challenge in data mining and knowledge discovery. Exceptional phenomena detection takes place among huge records in a database which contains a large number of normal records and a few of exceptional ones. This is important to promote the confidence to a limited number of exceptional records for effective learning. In this study, a new approach based on the abnormality theory, information and information granulation theories are presented to detect exceptions and recognize their behavioral patterns. The efficiency of the proposed method was determined by using it to detect exceptional stocks from Iran stock market in a 30-month- period and learn their exceptional behavior. The proposed Enhanced-RISE algorithm (E-RISE) as a bottom-up learning approach was implemented to extract the knowledge of normal and exceptional behavior. The extracted knowledge was utilized to design an expert system based on the proposed abnormality theory to predict new exceptions from 6022 stocks. The superior findings show the results of this proposed approach in exceptional phenomena detection, is in accordance with expert's opinions.
    Keywords: Data mining, Exceptional phenomena, Abnormality theory, Bottom-Up learning approach, E-RISE Algorithm, Information theory
  • Dr. Negin Daneshpour* Pages 29-40
    A data warehouse is a source for storing historical data to support decision making. Usually analytic queries take much time. To solve response time problem it should be materialized some views to answer all queries in minimum response time. There are many solutions for view selection problems. The most appropriate solution for view selection is materializing frequent queries. Previously posed queries on the data warehouse have profitable information. These queries probably will be used in the future. So, previous queries are clustered using clustering algorithms. Then frequent queries are found using data mining algorithms. Therefore optimal queries are found in each cluster. In the last stage optimal queries are merged to produce one (query) view for each cluster, and materializes this view. This paper proposes an algorithm for materializing frequent queries. The algorithm finds profitable views using previously posed queries on the data warehouse. These views can answer the most of the queries being posed in the future. This paper uses Index-BittableFI algorithm for finding frequent views. Using this algorithm improves previous view selection algorithms and reduces the response time. The experiments show that the proposed algorithm has %23 improvement in response time and %50 improvement in storage space.
    Keywords: Data warehouse, Frequent queries, View materialization, Clustering
  • Nazanin Goharian, Sahar Moghimi*, Hadi Kalani Pages 41-52
    Human mastication is a common rhythmic behavior and a complex biomechanical process which is hard to reproduce. Today, investigating the relation between electrical activity of muscles and force signals is of high importance in many applications including gait analysis, orthopedics, rehabilitation, ergonomic design, haptic technology, tele-presence surgery and human-machine interaction. Surface electrodes have many advantages over force sensors which are often expensive and of massive structure, two of which are less expensive and portable. Since the biting force is too difficult to be measured, in this paper, we aim to investigate the ability of a Multi-Layer Perceptron artificial neural network (MLPANN) and Radial Basis Function artificial neural network (RBFANN) to predict the biting force of incisor teeth based on surface electromyography (EMG) signals. RBFANN and MLPANN are two of the most widely used neural network architecture. These two methods are both known as universal approximates for nonlinear input-output mapping. To do this, biting force and EMG signals from the masticatory muscles were recorded and used as output and input of neural networks, respectively. Genetic algorithm was applied to find the best structure for ANNs and the appropriate total time-delay of EMGs. Results show that the EMG signals recorded from aforementioned muscles contain useful information about the biting force. Furthermore, they indicate that MLPANN and RBFANN can detect the dynamics of the system with good precision. The mean percentage error in the training and validation phase is %2.3 and %19.4 for MLPANN and %8.3 and %22.7 for RBFANN, sequentially. Also the variance analysis technique shows that there is no significant difference between results achieved through MLPANN and RBFANN. The provided analysis will aid researchers in characterizing and investigating the mastication process, through the specification of SEMG signal patterns and the observation of the resulting biting force. Such models can provide clinical insight into the development of more effective rehabilitation therapies, and can aid in assessing the effects of an intervention. This methodology can be applied to any tele-operated robot or orthotic device (exoskeleton), either for rehabilitation or extension of human ability.
    Keywords: Electromyogram (EMG) signal, biting force, multi-Layer perceptron artificial neural networks (MLP), Radial basis function (RBF), Genetic algorithm
  • Tahereh Zare Bidoki*, Dr. Mohammad Taghi Sadeghi, Dr. Hamid Reza Abutalebi Pages 53-70
    Distance metric has a key role in many machine learning and computer vision algorithms so that choosing an appropriate distance metric has a direct effect on the performance of such algorithms. Recently, distance metric learning using labeled data or other available supervisory information has become a very active research area in machine learning applications. Studies in this area have shown that distance metric learning-based algorithms considerably outperform the commonly used distance metrics such as Euclidean distance. In the kernelized version of the metric learning algorithms, the data points are implicitly mapped into a new feature space using a non-linear kernel function. The associated distance metric is then learned in this new feature space. Utilizing kernel function improves the performance of pattern recognition algorithms, however choosing a proper kernel and tuning its parameter(s) are the main issues in such methods. Using of an appropriate composite kernel instead of a single kernel is one of the best solutions to this problem. In this research study, a multiple kernel is constructed using the weighted sum of a set of basis kernels. In this framework, we propose different learning approaches to determine the kernels weights. The proposed learning techniques arise from the distance metric learning concepts. These methods are performed within a semi supervised framework where different cost functions are considered and the learning process is performed using a limited amount of supervisory information. The supervisory information is in the form of a small set of similarity and/or dissimilarity pairs. We define four distance metric based cost functions in order to optimize the multiple kernel weight. In the first structure, the average distance between the similarity pairs is considered as the cost function. The cost function is minimized subject to maximizing of the average distance between the dissimilarity pairs. This is in fact, a commonly used goal in the distance metric learning problem. In the next structure, it is tried to preserve the topological structure of the data by using of the idea of graph Laplacian. For this purpose, we add a penalty term to the cost function which preserves the topological structure of the data. This penalty term is also used in the other two structures. In the third arrangement, the effect of each dissimilarity pair is considered as an independent constraint. Finally, in the last structure, maximization of the distance between the dissimilarity pairs is considered within the cost function not as a constraint. The proposed methods are examined in the clustering application using the kernel k-means clustering algorithm. Both synthetic (a XOR data set) and real data sets (the UCI data) used in the experiments and the performance of the clustering algorithm using single kernels, are considered as the baseline. Our experimental results confirm that using the multiple kernel not only improves the clustering result but also makes the algorithm independent of choosing the best kernel. The results also show that increasing of the number of constraints, as in the third structures, leads to instability of the algorithm which is expected.
    Keywords: Distance Metric Learning, Multiple Kernel Learning, Similarity pairs, Dissimilarity pairs, Semi supervised
  • Maryam Imani, Dr Hassan Ghassemian Pages 71-82
    Hyperspectral imaging with gathering hundreds spectral bands from the surface of the Earth allows us to separate materials with similar spectrum. Hyperspectral images can be used in many applications such as land chemical and physical parameter estimation, classification, target detection, unmixing, and so on. Among these applications, classification is especially interested. A hyperspectral image is a cube data containing two spatial dimensions and a spectral one. Generally, the Hughes phenomenon is occurred in the supervised classification of hyperspectral images due to the limited available labeled samples and the curse of dimensionality. So, feature reduction is an important preprocessing step for analysis and classification of hyperspectral data. Feature reduction methods are categorized into feature selection approaches and feature extraction ones. Our main focus in this paper is on feature extraction. The feature extraction methods are also divided into three main groups: supervised (with labeled samples), unsupervised (without labeled samples), and semi-supervised (with both labeled and unlabeled samples). The first group of feature extraction methods usually suffers from problems due to limited available training samples. These methods often consider the separability between classes, and so are efficient for classification applications. The second group has no need for training samples, but they often do not consider the separability between different classes and so, are not appropriate for classification. These methods are usually used for signal representation or preserving the local structure of data. The use of both labeled and unlabeled samples in the third group can increase the abilities of the feature extractor. A feature extraction method is proposed in this paper which belongs to the third group. The proposed method increases the class separability and tries to preserves the structure of data. The proposed feature extraction method uses the ability of unlabeled samples in addition to available limited training samples to improve the classification performance. The experimental results on three real hyperspectral images show the better performance of proposed method compared to some popular feature extraction methods in terms of classification accuracy.
    Keywords: high dimension, small training set, hyperspectral, classification, feature reduction
  • Hadi Grailu*, Ali Rajaeyan Pages 83-98
    Every year, many people lose their lives in road traffic accidents while driving vehicles throughout the world. Providing secure driving conditions highly reduces road traffic accidents and their associated death rates. Fatigue and drowsiness are two major causes of death in these accidents; therefore, early detection of driver drowsiness can greatly reduce such accidents. Results of NTSB investigations into serious and dangerous accidents, where drivers had survived the crash, pinpointed intense driver fatigue and drowsiness as their two major causes [1].
    This research study first developed a database including brain signals from ten male volunteers under certain conditions. A combination of Wavelet Transform (WT) and Support Vector Machine (SVM) classifier was then used to propose a drowsiness level detection method which used only two EEG signal channels. A hardware system was then adopted for practical implementation of the proposed method. The building blocks of this hardware system included a two-channel module for receiving and pre-processing EEG signals based on a TMS320C5509A digital signal processor. This processor was adopted in this study for the first time for detecting drowsiness level, and a real-time implementation of the SVM classifier revealed its functionality. This is a portable system backed by a battery for a 10-hour operation. Results from simulation and hardware implementation of the proposed method on ten volunteers indicated an up-to-100 percent accuracy.
    Works done on determining drowsiness level of drivers are two-fold: The first group uses shape and general conditions of the body with a focus on:Head movements
    Eye tracking
    Eye blink percent
    There are a few hardware systems developed for this group. The second group of research works use biometric signals (e.g. ECG and EEG) to detect drowsiness level in drivers [2-4]. EEG signals are the most applied biometric signals for drowsiness level determination purposed due to their low risk and high reliability [21, 28]. Accordingly, EEG Signals were used in this work for the same purpose.
    This research study first developed a database including brain signals from ten male volunteers under certain conditions. A combination of Wavelet Transform (WT) and Support Vector Machine (SVM) classifier was then used to propose a drowsiness level detection method which used only two EEG signal channels. A hardware system was then adopted for practical implementation of the proposed method. The building blocks of this hardware system included a two-channel module for receiving and pre-processing EEG signals based on a TMS320C5509A digital signal processor. This processor was adopted in this study for the first time for detecting drowsiness level, and a real-time implementation of the SVM classifier revealed its functionality. This is a portable system backed by a battery for a 10-hour operation. Results from simulation and hardware implementation of the proposed method on ten volunteers indicated an up-to-100 percent accuracy.
    A proper, valid, and accessible database with sufficient data entries plays an important role in the success rate of proposed approaches. On the other hand, available databases were either inaccessible or their data were in no good condition or were insufficient. Therefore, a new database including EEG signals of ten male volunteers with the mean age of 24 and at least two years road driving experience was first developed for the purpose of this study. EEG signals of volunteers were recorded in two alertness and drowsiness modes during driving simulation using a driving simulator and driving computer game.
    In most drowsiness level detection methods, more than two brain channels are usually used [20]; however, in this work, only two channels were used while maintaining the efficiency of drowsiness level determination. This made the system less cluttered for the driver, scaled down the processing workload for detecting and displaying the drowsiness level, reduced power consumption, and finally maximized the hardware system's operation time.
    Recorded signals were pre-processed to prepare them for the next stages including feature extraction and classification. Spectral features related to a number of bands (especially, Alpha and Theta) were the main features ever used for this purpose. So far, wavelet transform (WT) has been an important method for extracting these bands and computing their related features [7-9]. In addition, for this purpose, SVM and neural networks have been widely used as classifiers [15, 16, 18]. In this study, however, WT and the energy of some frequency bands were adopted for feature extraction whereas SVM was used for classification.
    Hardware-wise, very few studies have implemented their proposed approach. On the other hand, developments in applications of signal processors have raised their significance and also hope of using them in large scale processing algorithms, on a daily basis. Manufactured by Texas Instruments, TMS320C55xx family signal processors are an important and widely-used type [23]. Thanks to its low-consumption members, this family of processors is specialized for processing 1-D signals used in portable applications. Some of the main characteristics of this signal processors include low power consumption, fair prices, diverse functional peripherals (e.g. USB and McBSP), direct memory access (DMA), timer, LCD controller, supporting a number of major widely-used communication protocols, A/D converter, fast internal dual access memories, high operating frequency (typically 200 to 300 MHz), supporting dedicated signal processing instructions (such as the LMS and Viterbi algorithms), parallel execution of two commands. To the best of our knowledge, this signal processor has not been used for any drowsiness level detection applications. A major contribution of this paper was using a TMS320C5505A digital signal processor in a portable hardware system applied for drowsiness level detection of drivers.
    The frequency band of EEG signals usually ranges from 0.5 to 30 Hz that is partitioned into delta (0.5 to 4 Hz), theta (4 to 8 Hz), alpha (8 to 13 Hz) and beta (13 to 30 Hz) sub-bands. EEG signal's energy is raised in low frequency bands (e.g. delta and theta) during meditation, deep relaxation and the alertness-to-fatigue transition. With regards to these major sub-bands, an FIR band-pass filter with high and low cut-off frequencies set at 30 and 0.3 Hz, respectively, was designed using the windowing method.
    The developed hardware board had four inputs relating to two EEG signal channels (O1 and O2), a CZ reference channel and a ground signal. It had low power consumption (less than 25 mW) capable of operating for 10 hours with only two 3V CR2032 batteries. Using batteries with high A·h values would lead to longer circuit life. Signals from electrodes were pre-amplified and filtered in this board to remove noises outside the 0.5 to 30 Hz range.
    The electronic board designed and developed for EEG signal processing and alertness/drowsiness detection incorporated a TMS320C5509A digital signal processor made by Texas Instruments. For converting analog to digital signals, the TLV320AIC23B codec was used, and a TPS767D301 IC supplied power to the digital signal processor, both made by Texas Instruments. In the circuit's power supply section, a fuse and a Zener diode were placed consecutively in the path for supplying a 5V voltage to the power IC. These two items served as a protection circuit together. This protection circuit would automatically cut off the power once the current exceeds the 500 mA threshold, protecting the circuit against any damage. The 6.5V Zener diode prevents excessive supply of input voltage to the power IC. The power IC consisted of two inputs providing two output voltages (1.6V and 3.3V) for the switch, which distributed them throughout the circuit. The codec IC had one microphone input and one stereo input. The two received EEG signal channels entered the stereo input and exited the converter in a series arrangement. This IC included constants that should have been properly programmed before the conversion operation. This could be done by the I2C protocol using SDA and SCL pins connected to the processor.
    Keywords: Drowsiness detection, EEG, DSP Processor, TMS3205509A, Wavelet Transform
  • Davoud Fani, Mehdi Rezaei*, Maryam Sarhaddi Avval Pages 99-110
    A rate control algorithm at the group of picture (GOP) level is proposed in this paper for variable bit rate applications of the H.265/HEVC video coding standard with buffer constraint. Due to structural changes in the HEVC compared to the previous standards, new rate control algorithms are needed to be designed. In the proposed algorithm, quantization parameter (QP) of each GOP is obtained by modifying QP of previous GOP according to target bit rate and buffer status. Buffer status and target bit rate are input variables selected to expand a two dimensional lookup table. Output of the lookup table is provided in a way to allow short-term variations in bit rate, in order to reach better and more uniform visual quality of reconstructed video. In addition, a QP cascading technique is used for calculating QP of frames in each GOP that operates like a bit allocation scheme and causes suitable trade-off between quality and compression rate. Unlike conventional methods, proposed scheme uses a lookup table instead of using a rate-distortion model that significantly reduces the computational complexity. Several video sequences with completely different contents were used for experiments. Some short video sequences are concatenated to attain long video sequences which are closer to variable bit rate applications. Lookup table based (LUT) proposed algorithm is implemented on HM reference software and compared with λ-domain rate control algorithm (λ-RC) and constant QP (CQP) case that defined as anchor. In almost the same average bit rate (CQP: 1527.97, LUT: 1520.92, λ-RC: 1529.41), average QP (28.09, 28.18, 29.91) and average peak signal to noise ratio (PSNR) (37.88, 37.87, 37.76) of LUT is closer to CQP than that of λ-RC. Average values of QP standard deviation (1.13, 2.28, 4.27) and PSNR standard deviation (1.37, 2.11, 2.15) of LUT is smaller than λ-RC and closer to CQP. From rate control point of view, minimum buffering delay on average for all video sequences resulted by LUT is the same with that of λ-RC which is one of the best rate controllers proposed for the HEVC (0.94, 0.36, 0.35). Consequently, experimental results show that not only bit rate is perfectly controlled according to buffer constraints, but also the quality of reconstructed video is well maintained.
    Keywords: H.265, HEVC standard, Lookup table, Rate control algorithm, Variable bit rate, Video coding
  • Jahanshah Kabudian*, Shaghayegh Reza Pages 111-134
    Identifying spoken language automatically is to identify a language from the speech signal. Language identification systems can be divided into two categories, spectral-based methods and phonetic-based methods. In the former, short-time characteristics of speech spectrum are extracted as a multi-dimensional vector. The statistical model of these features is then obtained for each language. The Gaussian mixture model is the most common statistical model in spectral-based language identification systems. On the other hand, in phonetic-based methods, speech signals are divided into a sequence of tokens using the hidden Markov model (HMM) and a language model is trained using the obtained sequence. Approaches like PRLM, PPRLM, and PR-SVM are some examples of phonetic-based methods. In research papers, usually a combination of phonetic-based and spectral-based systems are used to achieve a high quality language identification system. Spectral-based methods have been the focus of researchers, since they have no need for labeled data and usually achieve better results than phonetic approaches. Therefore, in this paper, these methods used for language identification and different spectral methods, are introduced, implemented, and compared with spoken language recognition.
    The basic spectral language identification method is Gaussian Mixture Model-Universal Background Model (GMM-UBM). In this paper, the MMI discrimination method is used to improve the Gaussian model of each language. Moreover, in order to model the language dynamically, GMM is replaced with the ergodic hidden Markov model (EHMM). GSV-SVM and GMM tokenizer methods are also implemented as two popular spectral approaches. In this paper, novel speaker and channel variation modeling methods are used as language identification approaches, including joint factor analysis (JFA), identity vector (i-Vector) and several variations compensation methods exploited to improve the results of i-Vector.
    Furthermore, in order to boost the performance of language recognition systems, different post-processing methods are applied. For post-processing, each element of raw score vector indicates the degree by which the spoken signal belongs to a language. Post-processing methods are applied to this vector as a classifier and allows making better language detection decisions by mapping the raw score vector to a space of desired languages. Different studies have employed different post-processing methods, including GMM, NN, SVM, and LLR. This study exploits several score post-processing methods to improve the quality of language recognition.
    The goal of the experiments in this article is to detect and distinguish Farsi, English, and Arabic, individually and simultaneously from other languages. The latter is also called open-set language identification. The signals considered in this paper include two-sided conversations, whose quality is usually not desirable due to strong noise signals, background noises of individuals or music, accents, etc.
    Gaussian mixture-universal model (GMM-UBM) was implemented as the basic method. In this approach, mean EER of the three target languages (Farsi, English, and Arabic) was 13.58. Experimental results indicated that training the GMM language identification system with the MMI discrimination training algorithm is more efficient than systems only trained by the ML algorithm. More specifically, the mean EER of the three target languages was reduced about 8 percent in comparison to GMM-UBM. The GMM tokenizer method was also tested as a novel spectral approach. Using this method, the mean EER of the three target languages was also about 5 percent better than GMM-UBM.
    In this study, the GSV-SVM discrimination method was also used for language recognition. The results of this method were considerably better than those of common spectral approaches, such that the mean EER of the three target languages was reduced by 11 percent in comparison to GMM-UBM. This study improves the low speed of this method using a model pushing method.
    This study also implemented two novel methods, JFA and i-Vector. According to the results, both of these methods provide better results than GMM-UBM, such that the mean EER values of the three target languages in JFA and i-Vector are respectively reduced by 1% and 12%. Generally, experimental results showed that i-Vector provides better results than other spectral language identification systems.
    This study is a result of a seven-year research in spoken language identification in the advanced technology development center of Khajeh Nasiredin Tousi. The ongoing research includes studying and implementing novel spectral language identification algorithms like PLDA and state-of-the-art phonetic language identification methods to combine the two spectral and phonetic systems and eventually, achieving a high quality language identification system.
    Keywords: Automatic Spoken Language Recognition, Acoustic Approaches, Discriminative training, Channel compensation, Identity Vector
  • Dr. Masoud Geravanchizadeh*, Ali Fallah Pages 135-151
    In this study, a binaural microscopic model for the prediction of speech intelligibility based on the modulation filter bank is introduced. So far, the spectral criteria such as the STI and SII or other analytical methods have been used in the binaural models to determine the binaural intelligibility. In the proposed model, unlike all models of binaural intelligibility prediction, an automatic speech recognizer (ASR) is used in the back-end as the decision unit. One advantage of using this approach is the possibility of analyzing the recognition rate of small parts of speech such as phonemes and syllables. Another advantage of this model lies in the use of pre-processing that their existence in the human auditory system has been verified. Using the proposed feature matrix in the speech recognizer, this model has good predictions in the presence of one source of stationary speech-shaped noise. Comparing the results of the proposed model with those of listening tests show high correlations and low mean absolute error values. Also, the confusion matrices of the consonants represent high correlation between predictions and measurements. The predicted speech reception threshold by the proposed model has a smaller mean absolute error (0.6 dB) than the baseline model of BSIM.
    Keywords: Prediction of Speech Intelligibility, Binaural Models, Modulation Filter bank, Microscopic Models, Macroscopic Models