فهرست مطالب

پردازش علائم و داده ها - سال پانزدهم شماره 4 (پیاپی 38، زمستان 1397)

فصلنامه پردازش علائم و داده ها
سال پانزدهم شماره 4 (پیاپی 38، زمستان 1397)

  • تاریخ انتشار: 1398/01/25
  • تعداد عناوین: 10
|
  • مهدی افتخاری*، مریم مجیدی مومن آبادی، مجتبی خمر صفحات 3-16
    تشخیص خطاهای نرم افزار، یکی از بزرگ ترین چالش های توسعه نرم افزاراست و بیش ترین بودجه را در فرآیند توسعه نرم افزار به خود اختصاص می دهد. با توجه به اهمیت تشخیص خطاهای نرم افزار، در این مقاله روشی بر مبنای مجموعه های فازی و الگوریتم های تکاملی ارائه می شود. از آن جا که ماهیت مجموعه داده های تشخیص خطای نرم افزار نامتوازن است،  از مزایای الگوریتم های خوشه بندی فازی به منظور نمونه برداری از داده ها و توجه بیشتر به طبقه اقلیت استفاده شده است. روش پیشنهادی در واقع یک الگوریتم ترکیبی است که در ابتدا از روش خوشه بندی c میانگین فازی به منظور نمونه برداری بوت استراپ وزن دار استفاده می شود. وزن داده ها همان درجه عضویت آنهاست و درجه عضویت داده های طبقه اقلیت افزایش می یابد. در گام بعدی، از الگوریتم خوشه بندی کاهشی برای ایجاد طبقه بند استفاده می شود که توسط داده های تولید شده در مرحله قبل آموزش می بیند؛ همچنین از الگوریتم ژنتیک دودویی برای انتخاب ویژگی های مناسب استفاده می شود. نتایج به دست آمده و هم چنین مقایسه آنها با چندین روش معروف در این زمینه، کارایی مناسب روش پیشنهادی را نشان می دهد. برای انجام آزمایش ها از ده پایگاه داده معروف با گستره وسیعی از اندازه و نرخ عدم توازن، استفاده شده است و برای تایید نتایج از آزمون آماری تی بهره برده ایم.
    کلیدواژگان: الگوریتم های تکاملی، تشخیص خطای نرم افزار، طبقه بندی، مجموعه داده های نامتوازن، منطق فازی
  • علیرضا لطیفی پاکدهی، نگین دانشپور* صفحات 17-30
    خوشه بندی ترکیبی، به ترکیب نتایج حاصل از خوشه بندی های موجود می پردازد. پژوهش های دهه اخیر نشان می دهد، چنان چه به جای ترکیب همه خوشه بندی ها، تنها دست های از آن ها بر اساس کیفیت و تنوع انتخاب شوند، آن چه به عنوان خروجی خوشه بندی ترکیبی حاصل می شود، بسیار دقیق تر خواهد بود. این مقاله به ارائه یک روش جدید برای انتخاب خوشه بندی ها بر اساس دو معیار کیفیت و تنوع می پردازد. برای رسیدن به این منظور ابتدا خوشه بندی های مختلفی با استفاده از الگوریتم k-means ایجاد می شود که در هر بار اجرا، مقدار k یک عدد تصادفی است. در ادامه خوشه بندی هایی که به این نحو تولید شده اند، با استفاده از الگوریتم جدیدیکه براساس میزان شباهت بین خوشه بندی های مختلف عمل می کند، گروه بندی می شوند تا آن دسته از خوشه بندی هایی که به یکدیگر شبیه اند در یک دسته قرار گیرند؛ سپس از هر دسته، با استفاده از یک روش مبتنی بر رای گیری، با کیفیت ترین عضو آن برای ایجاد خوشه بندی ترکیبی انتخاب می شود. در این مقاله از سه تابع HPGA، CSPA و MCLA برای ترکیب خوشه بندی ها استفاده شده است. در انتها برای آزمایش  این روش جدید از  داده های واقعی موجود در پایگاه داده UCI استفاده شده است. نتایج نشان می دهد که روش جدید کارایی بیشتر و دقیق تری نسبت به روش های قبلی دارد.
    کلیدواژگان: خوشه بندی ترکیبی، انتخاب اعضا، شاخص های ارزیابی کیفیت
  • شادیه عزیزی، مائده عاشوری تلوکی*، حمید ملا صفحات 31-40
    در محاسبات چند سویه امن، گروهی از کاربران، نتیجه یک تابع ریاضی را بر روی داده محرمانه خود، با حفظ حریم خصوصی داده ها محاسبه می کنند. از موارد پرکاربرد محاسبات چند سویه امن، جمع چندسویه امن است که هدف آن انجام عملیات جمع بر روی داده محرمانه کاربران است. در برخی کاربردها ممکن است، هر عضو چندین مقدار محرمانه داشته و هدف، محاسبه مجموع داده های متناظر باشد؛ در این صورت لازم است، پروتکل جمع چندسویه امن، چندین بار برای محاسبه مجموع داده های گروه تکرار شود. در این پژوهش، مسئله جمع چندسویه امن با قابلیت تکرار، بدون افزایش هزینه محاسباتی و ارتباطی، مورد توجه قرار گرفته است؛ در این مسئله هر کاربر چندین مقدار محرمانه دارد و اعضا قصد دارند مجموع داده های محرمانه خود را به صورت نظیربه نظیر محاسبه کنند؛ به طوری که محرمانگی داده های هر کاربر حفظ شود. در این مقاله یک پروتکل کارا جهت محاسبه جمع چندسویه امن با قابلیت تکرار در مدل شبه درست کار ارائه شده است. راه کار پیشنهادی، بدون نیاز به کانال امن، محرمانگی داده های کاربران و نتایج حاصل جمع را تامین کرده و در مقابل تبانی جزئی کاربران تا سطح نفر ایمن و نسبت به روش های موجود، از نظر هزینه محاسبات و ارتباطات بسیار کاراست.
    کلیدواژگان: جمع چندسویه امن، کانال ناامن، تبانی جزئی، مدل شبه درست کار
  • میترا عبداللهی، حسین خسروی* صفحات 41-56
    سامانه های شناسایی خودکار پلاک خودرو (ANPR) کاربردهای بسیاری در سامانه های نظارت بر ترافیک روزانه و سامانه های کنترل عوارض جاده ای دارند. در این مقاله، الگوریتمی بی درنگ برای آشکارسازی و شناسایی پلاک در قاب های ویدئو (frames) و شناسایی هم زمان چند پلاک در یک قاب ویدئویی طراحی و پیاده سازی می کنیم. درقبل در زمینه تشخیص و شناسایی یک پلاک خودرو در یک صحنه، کارهایی صورت گرفته که در بیش تر آنها به بی درنگ بودن الگوریتم، توجه کمی شده است؛ درحالی که مساله افزایش سرعت شناسایی پلاک ها به همراه آشکارسازی و شناسایی صحیح چند پلاک خودرو در صحنه برای کاربردهای آن، اهمیت بالایی دارد. برخلاف روش هایی با پیچیدگی محاسباتی بالا، ما روش های موثر و ساده ای را برای بی درنگ بودن به کار گرفتیم. روش پیشنهادی روی ویدئوهایی از دوربین های بزرگراه ها ارزیابی شده و درصد آشکارسازی % 79/98 حاصل شد. این سامانه به زبان C++ و با استفاده از کتابخانه OpenCV پیاده سازی شده است. میانگین زمان پردازش هر قاب در مرحله Z آشکارسازی پلاک، 25 میلی ثانیه و میانگین زمان کلی پردازش هر قاب چهل میلی ثانیه است که می تواند در کاربردهای بی درنگ استفاده شود. درصد بازشناسی ارقام پلاک نیز % 83/97 به دست آمد. سامانه بی درنگ پیشنهادی می تواند چند پلاک را از انواع مختلف در هر قاب تشخیص داده و شناسایی کند. نتایج آزمایش ها نشان می دهد که روش و نحوه پیاده سازی ما نسبت به کارهای گذشته، سرعت بالاتر و درصد آشکارسازی و بازشناسی بهتری دارد؛ طوری که آن را برای کاربردهای بی درنگ بسیار مناسب ساخته است.
    کلیدواژگان: سامانه بی درنگ آشکارسازی و شناسایی پلاک خودرو، مدل مخلوط گاوسی، افکنش، تحلیل اجزای متصل به هم، شبکه عصبی
  • مرضیه رحیمی*، مرتضی زاهدی، هدی مشایخی صفحات 57-70
    بسیاری از مدل های موضوعی مانند LDA که مبتنی بر هم رخدادی واژگان در سطح یک سند هستند قادر به بهره گیری از روابط محلی واژگان نیستند. برخی از مدل های موضوعی مانند BTM سعی کرده اند با ترکیب موضوعات و مدل های زبانی n-gram، این مشکل را حل کنند. اما BTM مبتنی بر ترتیب دقیق واژگان است؛ بنابراین با مشکل تنکی روبه روست. در این مقاله یک مدل موضوعی احتمالاتی جدید معرفی شده که قادر به مدل کردن روابط محلی واژگان با استفاده از پنجره های هم پوشان است. بر اساس فرضیه هم رخدادی، رخداد هم زمان واژگان در پنجره های کوتاه تر، گواه محکم تری بر ارتباط معنایی آنهاست. در مدل پیشنهادی، هر سند، مجموعه ای از پنجره های هم پوشان فرض می شود، که هریک متناظر با یکی از واژگان متن است. موضوعات بر مبنای هم رخدادی واژگان در این پنجره های هم پوشان استخراج می شوند. به عبارت دیگر، مدل پیشنهادی، روابط محلی واژگان را بدون وابستگی به ترتیب دقیق آنها مدل می کند. آزمایش های ما نشان می دهد که روش پیشنهادی، موضوعات منسجم تری را تولید و در کاربرد خوشه بندی اسناد، دقیق تر از دو مدل LDA و BTM   عمل می کند.
    کلیدواژگان: مدل های موضوعی احتمالاتی، نمونه برداری گیبس، هم رخدادی، مدل های گرافیکی، خوشه بندی متن
  • جواد پاک سیما* صفحات 71-84
    بر اساس پژوهش های انجام شده روی موتورهای جستجو، بیش تر پرس وجوهای کاربران بیش از یک واژه است. برای پرس وجوهای با بیش از یک واژه دو مدل می توان ارائه داد. در مدل نخست فرض می شود واژگان پرس وجو مستقل از یکدیگر هستند و در مدل دوم محل و ترتیب واژگان وابسته فرض می شود. آزمایش ها نشان می دهد که در بیش تر پرس وجوها بین واژگان وابستگی وجود دارد. یکی از پارامترهایی که می تواند وابستگی بین واژگان پرس وجو را مشخص کند، فاصله بین واژگان پرس وجو در سند است. در این مقاله تعریف جدیدی از فاصله بر اساس کمینه جابه جایی وزن دار[1] واژگان سند به منظور تطبیق بر پرس وجو ارائه می شود. هم چنین با توجه به این که بیش تر الگوریتم های رتبه بندی از فرکانس رخداد یک واژه در سند[2] برای امتیاز دهی به اسناد استفاده می کنند و برای پرس وجو با بیش از یک واژه تعریف روشنی از این پارامتر وجود ندارد. در این مقاله پارامترهای فرکانس رخداد یک عبارت[3]  و معکوس فرکانس سند[4] با توجه به مفهوم جدید فاصله تعریف شده و الگوریتم هایی برای محاسبه آن ها ارائه شده است. همچنین نتایج الگوریتم پیشنهادی با چند الگوریتم مقایسه شده است که افزایش خوبی را در میانگین دقت نشان می دهد.
    کلیدواژگان: موتور جستجو، رتبه بندی، فاصله، وابستگی واژگان، فرکانس عبارت (PF)
  • نسیبه امامی*، زینب حسنی صفحات 85-94
    در مرحله نهایی نارسایی کلیه، پیوند کلیه می تواند عمر بیماران را طولانی کند و کیفیت زندگی بیمار را بسیار بهبود بخشد. بعد از عمل پیوند کلیه، بررسی میزان یا پیش بینی بقای کلیه پیوندی اهمیت زیادی دارد. این مطالعه بر روی بیماران کلیه پیوندی بیمارستان هایامام رضا(ع) و چهارمین شهید محراب کرمانشاه در سال های 2012- 2001 انجام شده است. از آن جایی که داده های نامتوازن باعث ناکارامدی مدل های یادگیری ماشین می شوند، ابتدا داده های نامتوازن با دو روش بیش نمونه برداری و زیر نمونه برداری متوازن شدند؛ سپس عوامل اثرگذار بر بقای پیوند کلیه به کمک الگوریتم فراابتکاری ژنتیک شناسایی شده و مدل یادگیر طبقه بند نزدیک ترین همسایه برای پیش بینی بقای پنج ساله کلیه پیوندی به کار گرفته شد. بقای کلیه پیوندی در روش بیش نمونه برداری با دقت 8/96 درصد و زیر نمونه برداری با دقت 2/89 درصد پیش بینی شد. هم چنین، ویژگی های وزن، سن دهنده و گیرنده، اوره قبل پیوند، کراتین قبل پیوند، هموگلوبین قبل و بعد پیوند، جنسیت دهنده، RH دهنده و گیرنده، بیماری اولیه، سن دهنده بالای سی و سن گیرنده بالای چهل، به عنوان ویژگی های تاثیرگذا ر در بقای کلیه پیوندی شناسایی شد. مقایسه نتایج به دست آمده از این پژوهش با مطالعات پیشین، برتری مدل پیشنهادی را از نقطه نظر دقت مدل نشان می دهد. به عبارتی متوازن سازی داده ها همراه با انتخاب ویژگی بهینه منجر به ارائه مدل پیش بینی دقیق تری می شود.
    کلیدواژگان: پیوند کلیه، داده های نامتوازن، الگوریتم ژنتیک، نزدیک ترین همسایگی
  • عطیه شریفی*، محمد امین مهدوی صفحات 95-110

    واژگان کلیدی، واژگان اصلی و کانونی یک متن و مضمون اصلی مطلب هستند. تهیه این واژگان به روش سنتی نیازمند صرف زمان و هم چنین دانش تخصصی راجع به موضوع متن است. از آن جا که واژگان کلیدی کاربردهای فراوانی در به کارگیری مستندات الکترونیکی دارند، شناسایی روش های خودکار و بهبودیافته برای استخراج این دسته از واژگان همیشه مورد توجه بوده است. رویکرد پژوهش حاضر یک روش باناظر برای استخراج واژگان کلیدی است که در آن با استفاده از زنجیره های لغوی واژگان متن، ویژگی های جدیدی برای هر واژه استخراج شده است. در ایجاد زنجیره های لغوی سعی بر شکل گیری روابط بین معنای واژگان بوده ایم، از این رو در مدل ارائه شده « فارس نت»  نقش مهمی در ایجاد آنها ایفا می کند. داده های مورد ارزیابی در این پژوهش مقالات علمی پژوهشی نشریات فارسی هستند. نتایج به دست آمده نشان می دهد که استفاده از روابط معنایی بین واژگان در کنار ویژگی های آماری، عملکرد مناسبی را در استخراج واژگان کلیدی از مقالات نتیجه می دهد.

    کلیدواژگان: اسناد فارسی، یادگیری باناظر، زنجیره لغوی، فارس نت
  • شادی جانبابایی، حسین قرایی*، ناصر محمد زاده صفحات 111-122
    اینترنت اشیا مفهوم جدیدی است که باعث حضور حس گرها در زندگی انسان شده است؛ به طوری که تمامی اطلاعات توسط همین حس گرها جمع آوری، پردازش و منتقل می شوند. برای برقراری یک ارتباط امن، با افزایش تعداد حس گرها، نخستین چالش، احراز اصالت بین آنها است. گمنامی، سبک وزنی و قابلیت اعتماد نیز از جمله مواردی هستند که باید مد نظر قرار گیرند. در این پژوهش پروتکل های احراز اصالت در حوزه اینترنت اشیا بررسی شده و محدودیت ها و آسیب پذیری های امنیتی آنها مورد تحلیل واقع شده اند. هم چنین پروتکل احراز اصالت جدیدی پیشنهاد می شود که گمنامی به عنوان یک پارامتر مهم، در آن لحاظ می شود. از طرفی تابع چکیده ساز و عمل گرهای منطقی نیز مورد استفاده قرار می گیرند تا هم پروتکل سبک باشد و هم حس گر ها بتوانند به عنوان موجودیت هایی محدود از لحاظ محاسباتی، از آنها استفاده کند. در این پروتکل نیازمندی های امنیتی از قبیل قابلیت عدم ردیابی، مقیاس پذیری، دسترس پذیری و غیره لحاظ شده اند و پروتکل در مقابل حملات مختلف از جمله حمله جعل هویت، تکرار، مرد میانی و... مقاوم است.
    کلیدواژگان: اینترنت اشیا، احراز اصالت، گمنامی، سبک وزنی و اعتماد
  • محمد بادپیما، فاطمه حورعلی، مریم حورعلی* صفحات 123-130
    برچسب گذاری ادات سخن یکی از مسائل مطرح در حوزه پردازش زبان های طبیعی است. هدف در این مسئله تعیین نقش واژگان در جمله است. برحسب این برچسب گذاری ویژگی های دستوری و نحوی واژگان نیز مشخص می شود. در این مقاله یک روش مبتنی بر آماری برای ادات سخن فارسی پیشنهاد شده است. در این روش محدودیت های روش های آماری با استفاده از معرفی یک مدل شبکه فازی کاهش پیدا کرده است؛ به طوری که در صورت وجود تعداد کمی داده آموزشی، مدل فازی پارامترهای قابل اطمینان تری را تخمین می زند. در این روش ابتدا هنجار سازی به عنوان پیش پردازش صورت گرفته و سپس فراوانی هر واژه با توجه به برچسب مربوطه به صورت یک تابع فازی تخمین زده و سپس مدل شبکه فازی  تشکیل شده و درجه هر یال در این شبکه با استفاده از یک شبکه عصبی و تابع عضویت مشخص می شود. درنهایت بعد از این که مدل شبکه فازی برای یک جمله ساخته شد، از الگوریتم ویتربی برای تعیین محتمل ترین مسیر در این شبکه استفاده شده است. نتایج آزمایش روی پیکره بی جن خان کارایی این روش را تایید کرده و نشان می دهد که روش پیشنهادی در شرایطی که داده های آموزشی کم تری در اختیار باشد، از روش های مشابه، مثل مدل مخفی مارکوف عملکرد بهتری دارد.
    کلیدواژگان: پردازش زبان های طبیعی، برچسب زنی اجزای سخن، زبان فارسی، فازی، شبکه عصبی
|
  • Mahdi Eftekhari*, Maryam Majidi Momenabadi, Mojtaba Khamar Pages 3-16
    Software defects detection is one of the most important challenges of software development and it is the most prohibitive process in software development. The early detection of fault-prone modules helps software project managers to allocate the limited cost, time, and effort of developers for testing the defect-prone modules more intensively.  In this paper, according to the importance of software defects detection, a method based on fuzzy sets and evolutionary algorithms is proposed. Due to the imbalanced nature of software defect detection datasets, benefits of fuzzy clustering algorithms were used to data sampling and more attention to the minority class. This method is a combined algorithm which, firstly has used fuzzy c-mean clustering as weighted bootstrap sampling. Weight of data (their membership’s degrees) increases for minority class. In the next step, the subtractive clustering algorithm is applied to produce the classifier which was trained by produced data in the previous step. The binary genetic algorithm was utilized to select appropriate features. The results and also comparisons with eight popular methods in software defect detection literature, show an acceptable performance of the proposed method. The experiments were performed on ten real-world datasets with a wide range of data sizes and imbalance rates. Also T-test is used as the statistical significance test for pair wise comparison of our proposed method against the others. The final results of T-test are shown in tables for three performance measures (G-mean, AUC and Balanced) over various datasets. (As the obtained results apparently show our proposed method has the ability to improve three aforementioned performance criteria simultaneously). Some methods just have improved the G-mean measure while the AUC and Balance criteria have lower values than the others. Securing a high level of three performance measures simultaneously illustrates the ability of our proposed algorithm for handling the imbalance problem of software defects detection datasets.
    Keywords: classification, evolutionary algorithm, fuzzy logic, imbalance datasets, software defect detection
  • Alireza Latifi Pakdehi, Negin Daneshpour* Pages 17-30
    Clustering is the process of division of a dataset into subsets that are called clusters, so that objects within a cluster are similar to each other and different from objects of the other clusters. So far, a lot of algorithms in different approaches have been created for the clustering. An effective choice (can combine) two or more of these algorithms for solving the clustering problem. Ensemble clustering combines results of existing clusterings to achieve better performance and higher accuracy. Instead of combining all of existing clusterings, recent decade researchers show, if only a set of clusterings is selected  based on quality and diversity, the result of ensemble clustering would be more accurate. This paper proposes a new method for ensemble clustering based on quality and diversity. For this purpose, firstly first we need a lot of different base clusterings to combine them. Different base clusterings are generated by k-means algorithm with random k in each execution. After the generation of base clusterings, they are put into different groups according to their similarities using a new grouping method. So that clusterings which are similar to each other are put together in one group. In this step, we use normalized mutual information (NMI) or adjusted rand index (ARI) for computing similarities and dissimilarities between the base clustering. Then from each group, a best qualified clustering is selected via a voting based method. In this method, Cluster-validity-indices were used to measure the quality of clustering. So that all members of the group are evaluated by the Cluster-validity-indices. In each group, clustering that optimizes the most number of Cluster-validity-indices is selected.  Finally, consensus functions combine all selected clustering. Consensus function is an algorithm for combining existing clusterings to produce final clusters. In this paper, three consensus functions including CSPA, MCLA, and HGPA have used for combining clustering. To evaluate proposed method, real datasets from UCI repository have used. In experiment section, the proposed method is compared with the well-known and powerful existing methods. Experimental results demonstrate that proposed algorithm has better performance and higher accuracy than previous works.
    Keywords: Ensemble clustering, select member, validity index
  • Shadi Azizi, Maede Ashouri, Talouki*, Hamid Mala Pages 31-40
    In secure multiparty computation (SMC), a group of users jointly and securely computes a mathematical function on their private inputs, such that the privacy of their private inputs will be preserved. One of the widely used applications of SMC is the secure multiparty summation which securely computes the summation value of the users’ private inputs. In this paper, we consider a secure multiparty summation problem where each group member has m private inputs and wants to efficiently and securely computes the summation values of their corresponding inputs; in other words, users compute m summation values where the first value is the summation of users’ first private inputs, the second one is the summation of users’ second private inputs and so on. We propose an efficient and secure protocol in the semi honest model, called frequent-sum, which computes the desired values while preserving the privacy of users’ private inputs as well as the privacy of the summation results.
    Let  be a set of n users and the private inputs of user  is denoted as . The proposed frequent-sum protocol includes three phases:

    In the first phase, each user  selects a random number , computes and publishes the vectors  of  components where each component  of  is of  form . After it,  computes the vector , such that each component  is of form.
    In the second phase, users jointly and securely compute their AV-net (Anonymous Veto network) masks and the Burmester-Desmedt (BD) conference key. To do so, each user  selects two random numbers  and  and publishes  to the group. Then,  computes and sends  to the group. Then, each user is able to compute  and ;  is the AV-net mask of  and  is the conference key.
    In the third phase, using the AV-net mask and the conference key, group members securely and collaboratively compute the summation of their random numbers , . To achieve this, each user broadcasts  to the group, where  is the AV-net mask of  and  is the ’s portion of the conference key. Multiplying all s results in canceling the AV-net mask and getting the value of . Then each member is able to compute  by the following Eq.:

    Now each user is able to compute  by subtracting  from each component of :
    It is shown that the proposed protocol is secure against collusion attack of at most  users. In other words, the frequent-sum protocol is secure against partial collusion attack; only a full collusion (collusion of  users) would break the privacy of the victim user, in this situation there is no reason for the victim user to join to such a group. The performance analysis shows that the proposed protocol is efficient in terms of the computation and communication costs, comparing with previous works. Also, the computation cost of the frequent-sum protocol is in-dependent of the number of inputs of each user  which makes the protocol more efficient than the previous works. Table 1 compares the proposed protocol with previous works.
    Keywords: secure multiparty sum, without secure channel, partial collusion, semi honest model
  • Mitra Abdollahi, Hossein Khosravi* Pages 41-56
    An automatic Number Plate Recognition (ANPR) is a popular topic in the field of image processing and is considered from different aspects, since early 90s. There are many challenges in this field, including; fast moving vehicles, different viewing angles and different distances from camera, complex and unpredictable backgrounds, poor quality images, existence of multiple plates in the scene, variable lighting conditions throughout the day, and so on. ANPR systems have many applications in today’s traffic monitoring and toll-gate systems.
    In this paper, a real-time algorithm is designed and implemented for simultaneous detection and recognition of multiple number plates in video sequences. Already some papers on plate localization and recognition in still? images have been existed , however, they do not consider real time processing. While for the related applications, real-time detection and recognition of multiple plates on the scene is very important. Unlike methods with high computational complexity, we apply simple and effective techniques for being real-time. At first, background is modeled using Gaussian Mixture Model (GMM) and moving objects are determined. Then, plate candidate regions are found by vertical edge detection and horizontal projection. After that, license plates are localized and extracted by morphological operations and connected components analysis. When plates were are detected, their characters are separated with another algorithm. Finally a neural network is applied for character recognition.
    This system is implemented in C++ using OpenCV library. The average localization time per frame is 25 ms and total processing time, including localization and recognition, is 40 ms that can be used in real-time applications. The proposed method is evaluated on videos from highway cameras and the detection rate of 98.79% and recognition rate of 97.83% is obtained. Our real-time system can also recognize multiple plates of different types in each frame. Experimental results show that our method have higher speed and better recognition rate than previous works therefore it is suitable for real-time applications.
    Keywords: Real-time License Plate Recognition System, Gaussian Mixture Model, Projection, Connected Components Analysis, Neural Network
  • Marziea Rahimi*, Morteza Zahedi, Hoda Mashayekhi Pages 57-70
    A probabilistic topic model assumes that documents are generated through a process involving topics and then tries to reverse this process, given the documents and extract topics. A topic is usually assumed to be a distribution over words. LDA is one of the first and most popular topic models introduced so far. In the document generation process assumed by LDA, each document is a distribution over topics and each word in the document is sampled from a chosen topic of that distribution. It assumes that a document is a bag of words and ignores the order of the words. Probabilistic topic models such as LDA which extract the topics based on documents-level word co-occurrences are not equipped to benefit from local word relationships. This problem is addressed by combining topics and n-grams, in models like Bigram Topic Model (BTM). BTM modifies the document generation process slightly by assuming that there are several different distributions of words for each topic, each of which correspond to a vocabulary word. Each word in a document is sampled from one of the distributions of its selected topic. The distribution is determined by its previous word. So BTM relies on exact word orders to extract local word relationships and thus is challenged by sparseness. Another way to solve the problem is to break each document into smaller parts for example paragraphs and use LDA on these parts to extract more local word relationships in these small parts. Again, we will be faced with sparseness and it is well-known that LDA does not work well on small documents. In this paper, a new probabilistic topic model is introduced which assumes a document is a set of overlapping windows but does not break the document into those parts and assumes the whole document as a single distribution over topics. Each window corresponds to a fixed number of words in the document. In the assumed generation process, we walk through windows and decide on the topic of their corresponding words. Topics are extracted based on words co-occurrences in the overlapping windows and the overlapping windows affect the process of document generation because; the topic of a word is considered in all the other windows overlapping on the word. On the other words, the proposed model encodes local word relationships without relying on exact word order or breaking the document into smaller parts. The model, however, takes the word order into account implicitly by assuming the windows are overlapped. The topics are still considered as distributions over words. The proposed model is evaluated based on its ability to extract coherent topics and its clustering performance on the 20 newsgroups dataset. The results show that the proposed model extracts more coherent topics and outperforms LDA and BTM in the application of document clustering.
    Keywords: probabilistic topic models, Gibbs sampling, co-occurrence, graphical models
  • Javad Paksima* Pages 71-84
    Finding high-quality web pages is one of the most important tasks of search engines. The relevance between the documents found and the query searched depends on the user observation and increases the complexity of ranking algorithms. The other issue is that users often explore just the first 10 to 20 results while millions of pages related to a query may exist. So search engines have to use suitable algorithms with high performance to find the most relevant pages.
    The ranking section is an important part of search engines. Ranking is a process in which the web page quality is estimated by the search engine. There are two main methods for ranking web pages. In the first method, ranking is done based on the documents’ content (traditional rankings). Models, such as Boolean model, probability model and vector space model are used to rank documents based on their contents. In the second method, based on the graph, web connections and the importance of web pages, ranking process is performed.
    Based on researches on search engines, the majority of user queries is more than one term. For queries with more than one term, two models can be used. The first model assumes that query terms are independent of each other while the second model considers a location and order dependency between query terms. Experiments show that in the majority of queries there are dependencies between terms. One of the parameters that can specify dependencies between query terms is the distance between query terms in the document. In this paper, a new definition of distance based on Minimum Weighted Displacement Model (MWDM) of document terms to accommodate the query terms is presented. In the Minimum Weighted Displacement Model (MWDM), we call the minimum number of words moving a text to match the query term by space.
    In addition, because most of the ranking algorithms use the TF (Term Frequency) to score documents and for queries more than one term, there is no clear definition of these parameters; in this paper, according to the new distance concept, Phrase Frequency and Inverted Document Frequency are defined. Also, algorithms to calculate them are presented. The results of the proposed algorithm compared with multiple corresponding algorithms shows a favorable increase in average precision.
    Keywords: Search engine, Ranking, Distance, Phrase Frequency
  • Nasibeh Emami*, Zeinab Hassani Pages 85-94
    Chronic kidney failure is one of the most widespread diseases in Iran and the world. In general, the disease is common in high health indexes societies due to increased longevity. Treatment for chronic kidney failure is dialysis and kidney transplantation. Kidney transplantation is an appropriate and effective strategy for patients with End-Stage Renal Disease (ESRD), and it provides a better life and reduces mortality risk for patients. In contrast to many benefits that kidney transplantation has in terms of improving physical and mental health and the life’s quality in kidney transplantation patients, it may be rejected because of host's immune response to the received kidney, and it consequences the need for another transplantation, or even death will have to. In fact, a patient that can survive for years with dialysis, he may lose his life with an inappropriate transplantation or be forced into high-risk surgical procedures.
     According to the above, the study of predicting the survival of kidney transplantation, its effective factors and providing a model for purposing of high prediction accuracy is essential. Studies in the field of survival of kidney transplantation include statistical studies, artificial intelligence and machine learning. In all of the studies in this feild, researchers have sought to identify a more effective set of features in survival of transplantation and the design of predictive models with higher accuracy and lower error rate.
    This study carried out on 756 kidney transplant patients with 21 features of Imam Reza and Fourth Shahid Merab hospital in Kermanshah from 2001 to 2012. Some features set to binary value and other features have real continuous values. Due to data are unbalance, which led to convergence of classification model to majority class, so over sampling and under sampling techniques has been used for achieving higher accuracy.
    To identify the more effective features on the survival of the kidney transplantation, the genetic meta-heuristic algorithm is used. For this purpose binary coding for each chromosome has been used; it is combining three single-point, two-point, and uniform operators to make better generations, better convergence and achieve higher accuracy rate. The genetic search algorithm plays a vital role in searching for such a space in a reasonable time because data search space is exponential. In fact, in balanced data, genetic algorithm determines the effective factors and the K-nearest neighbor model with precision of classification as the evaluator function was used to predict the five-year survival of the kidney transplantation. Based on the results of this study, in comparison to similar studies for prediction of survival transplanted kidney, the five-year survival rate of transplanted kidney was appropriate in these models. Also the effective factors in over sampling and under sampling methods with a precision of 96.8% and 89.2% are obtained respectively. in addition weight, donor and recipient age, pre-transplantation urea, pre-transplantation creatinine, hemoglobin before and after transplantation, donor gender, donor and recipient RH, primary illness, donor age up 30 and receipt age up 40 were identified as the effective features on kidney transplantation survival. Comparing the results of this study with previous studies shows the superiority of the proposed model from the point of view of the models' precision. In particular, balancing the data along the selection of optimal features leads to a high precision predictive model.
    Keywords: Kidney Transplantation, imbalance data, Genetic Algorithm, K- nearest neighbors
  • Atieh Sharifi*, M.Amin Mahdavi Pages 95-110

    Keywords are the main focal points of interest within a text, which intends to represent the principal concepts outlined in the document. Determining the keywords using traditional methods is a time consuming process and requires specialized knowledge of the subject. For the purposes of indexing the vast expanse of electronic documents, it is important to automate the keyword extraction task. Since keywords structure is coherent, we focus on the relation between words. Most of previous methods in Persian are based on statistical relation between words and didn’t consider the sense relations. However, by existing ambiguity in the meaning, using these statistic methods couldn’t help in determining relations between words. Our method for extracting keywords is a supervised method which by using lexical chain of words, new features are extracted for each word. Using these features beside of statistic features could be more effective in a supervised system. We have tried to map the relations amongst word senses by using lexical chains. Therefore, in the proposed model, “FarsNet” plays a key role in constructing the lexical chains. Lexical chain is created by using Galley and McKeown's algorithm that of course, some changes have been made to the algorithm. We used java version of hazm library to determine candidate words in the text. These words were identified by using POS tagging and Noun phrase chunking. Ten features are considered for each candidate word. Four features related to frequency and position of word in the text and the rest related to lexical chain of the word. After extracting the keywords by the classifier, post-processing performs for determining Two-word key phrases that were not obtained in the previous step. The dataset used in this research was chosen from among Persian scientific papers. We only used the title and abstract of these papers. The results depicted that using semantic relations, besides statistical features, would improve the overall performance of keyword extraction for papers. Also, the Naive Bayes classifier gives the best result among the investigated classifiers, of course, eliminating some of the features of the lexical chain improved its performance.

    Keywords: Persian Document, Supervised Learning, Lexical Chain, FarsNet
  • Shadi Janbabaei, Hossein Gharaee*, Naser Mohammadzadeh Pages 111-122
    The Internet of Things (IoT), is a new concept that its emergence has caused ubiquity of sensors in the human life. All data are collected, processed, and transmitted by these sensors. As the number of sensors increases,   the first challenge in establishing a secure connection is authentication between sensors. Anonymity, lightweight, and trust between entities are other main issues that should be considered. However, this challenge also requires some features so that the authentication is done properly. Anonymity, light weight and trust between entities are among the issues that need to be considered. In this study, we have evaluated the authentication protocols concerning the Internet of Things and analyzed the security vulnerabilities and limitations found in them. A new authentication protocol is also proposed using the hash function and logical operators, so that the sensors can use them as computationally limited entities. This protocol is performed in two phases and supports two types of intra-cluster and inter-cluster communication. The analysis of proposed protocol shows that security requirements have been met and the protocol is resistant against various attacks. In the end, confidentiality and authentication of the protocol are proved applying AVISPA tool and the veracity of the protocol using the BAN logic. Focusing on this issue, in this paper, we have evaluated the authentication protocols in the Internet of Things and analyzed their limitations and security vulnerabilities. Moreover, a new authentication protocol is presented which the anonymity is its main target. The hash function and logical operators are used not only to make the protocol lightweight but also to provide some computational resources for sensors. In compiling this protocol, we tried to take into account three main approaches to covering the true identifier, generating the session key, and the update process after the authentication process. As with most authentication protocols, this protocol is composed of two phases of registration and authentication that initially register entities in a trusted entity to be evaluated and authenticated at a later stage by the same entity. It is assumed that in the proposed protocol we have two types of entities; a weak entity and a strong entity. The poor availability of SNs has low computing power and strong entities of CH and HIoTS that can withstand high computational overhead and carry out heavy processing.
    We also consider strong entities in the proposed protocol as reliable entities since the main focus of this research is the relationship between SNs. On the other hand, given the authenticity of the sensors and the transfer of the key between them through these trusted entities, the authenticity of the sensors is confirmed, and the relationship between them is also reliable. This protocol supports two types of intra-cluster and inter-cluster communication. The analysis of the proposed protocol shows that security requirements such as untraceability, scalability, availability, etc. have been met and it is resistant against the various attacks like replay attack, eavesdropping attack.
    Keywords: Internet of things, Authentication, Anonymity, Lightweight
  • Mohammad Badpeima, Fatemeh Hourali, Maryam Hourali* Pages 123-130
    Part of speech tagging (POS tagging) is an ongoing research in natural language processing (NLP) applications. The process of classifying words into their parts of speech and labeling them accordingly is known as part-of-speech tagging, POS-tagging, or simply tagging. Parts of speech are also known as word classes or lexical categories. The purpose of POS tagging is determining the grammatical category of the words in a sentence. Grammatical and syntactical features of words are determined based on these tags.
    The function of existing tagging methods depends on the corpus. As if the educational and test data are extracted from a corpus, the methods are well-functioning, or if the number of educational data is low, especially in probabilistic methods, the accuracy level also decreases. The words used in sentences are often vague. For example, the word 'Mahrami' can be a noun or an adjective. Existing ambiguity can be eliminated by using neighbor words and an appropriate tagging method.
    Methods in this domain are divided into several categories such as:based on memory [2], rule based methods [5], statistical [6], and neural network [7]. The precision of more of these methods is an average of 95% [1]. In the paper [13], using the TnT probabilistic tagging and smoothing and variations on the estimation of the three-words likelihood function, a tagging model has been created that has reached 96.7% in total on the Penn Treebank and NEGRA entities. [14] Using the representation of the dependency network and extensive use of lexical features, such as the conditional continuity of the sequence of words, as well as the effective use of the foreground in the linear models of linear logarithms and fine-grained modeling of the unknown words, on the Penn Treebank WSJ model, 97.24% accuracy is achieved.
    The first work in Farsi that has used the word neighborhoods and the similarity distribution between them. The accuracy of the system is 57.5%. In [19], a Persian open source tagger called HunPoS was proposed. This tag uses the same TnT method based on the Hidden Markov model and a triple sequence of words, and 96.9% has reached on the ''Bi Jen Khan'' corpus.
    In this paper a statistical based method is proposed for Persian POS tagging. The limitations of statistical methods are reduced by introducing a fuzzy network model, such that the model is able to estimate more reliable parameters with a small set of training data. In this method, normalization is done as a preprocessing step and then the frequency of each word is estimated as a fuzzy function with respect to the corresponding tag. Then the fuzzy network model is formed and the weight of each edge is determined by means of a neural network and a membership function. Eventually, after the construction of a fuzzy network model for a sentence, the Viterbi algorithm as s subset of Hidden Markov Model (HMM) algorithms is used to specify the most probable path in the network.
    The goal of this paper is to solve a challenge of probabilistic methods when the data is low and estimation made by these models  is mistaken.
    The results of testing this method on ``Bi Jen Khan'' corpus verified that the proposed method has better performance than similar methods, like hidden Markov model, when fewer training examples are available. In this experiment, several times the data is divided into two groups of training and test with different sizes ascending. On the other hand, in the initial experiments, we reduced the train data size and, in subsequent experiments, increased its size and compared with the HMM algorithm.
    As shown in figure 4, the train and test set and are directly related to each other, as the error rate decreases with increasing the training set and vice versa. In tests, three criteria involving precision, recall and F1 have been used. In Table 4, the implementation of HMM models and a fuzzy network is compared with each other and the results are shown.
    Keywords: : Natural language processing, Part of speech (POS) tagging, Persian language, Fuzzy, Neural network