به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
فهرست مطالب نویسنده:

mohammad bahrani

  • فاطمه سلطان زاده*، آزاده میرزایی، محمد بحرانی، شهرام مدرس خیابانی

    تشخیص خودکار هویت نویسنده متن یکی از مسائل مهم زبان شناسی حقوقی تلقی می شود. در پژوهش حاضر تلاش می شود کارایی ویژگی های مبتنی بر مفاهیم دستور نقش گرای نظام مند هالیدی (هالیدی و متیسن، 2014) با کارایی واژ‎ه های دستوری در تشخیص هویت نویسنده مقایسه شود. به این منظور، در ابتدا، پیکره ای از آثار هفت نویسنده معاصر ایرانی گردآوری شد. در مرحله دوم، از واژه های دستوری استخراج شده از پیکره فهرستی تهیه شد؛ به علاوه، یک مجموعه واژگان براساس شبکه نظام حروف ربط، شبکه نظام افزوده وجه و شبکه نظام افزوده نگرشی با استفاده از منابع زبانی تهیه شد. سپس بسامد نسبی واژه های دستوری و ویژگی های مبتنی بر دستور نقش گرای نظام مند در هر متن محاسبه شد. طبقه بند پرسپترون چند لایه، نوعی شبکه عصبی، برای مرحله آموزش سامانه به کار گرفته شد و به دقت مطلوبی در مرحله ارزیابی منجر شد. بررسی نتایج ارزیابی سامانه نشان داد که روش محاسبه بسامد واژه های دستوری نسبت به روش مبتنی بر دستور نقش گرای نظام مند در تشخیص هویت نویسنده متون فارسی برتری دارد؛ باوجوداین، هنگامی که ویژگی های دستور نقش گرای نظام مند هالیدی درکنار ویژگی بسامد واژه های دستوری به کار روند، کارایی سامانه نسبت به حالتی که تنها از ویژگی بسامد واژه های دستوری استفاده شود، ارتقا می یابد.

    کلید واژگان: تشخیص هویت نویسنده, زبان شناسی حقوقی, دستور نقش گرای نظام‎مند, واژه های دستوری, افزوده ربطی, افزوده وجه, افزوده نگرشی
    Fatemeh Soltanzadeh *, Azadeh Mirzaei, Mohammad Bahrani, Shahram Modarres Khiabani

    Automated author identification is one of the important fields in forensic linguistics. In this study, the effectiveness of systemic functional grammar (Halliday and Matthiessen, 2014) features in Persian authorship attribution was compared with that of function words. First, a corpus composed of documents written by seven contemporary Iranian authors was collected. Second, a list of function words was extracted from the corpus. Moreover, conjunction, modality and comment adjunct system networks were applied to form a lexicon using linguistics resources. Then, the relative frequency of function words in addition to systemic functional features were calculated in each document. Multilayer perceptron classifier, a type of neural network, was used for learning phase which resulted in a desirable accuracy in evaluation phase. The results of the study showed that using function words method is superior to systemic functional approach alone in Persian author identification, however, simultaneous use of the two methods increases the effectiveness in comparison to each alone.

    Keywords: Author Identification, Forensic Linguistics, Systemic Functional Grammar, Function Words, Conjunctive Adjunct, Mood Adjunct, Comment Adjunct
  • فاطمه سلطان زاده*، آزاده میرزایی، محمد بحرانی، شهرام مدرس خیابانی
    امروزه پیکره های زبانی در تعیین سبک نگارش کاربرد فراوان دارند. در این پژوهش از پیکره ای به زبان فارسی برای تعیین سبک نگارش متون معاصر استفاده و کارآیی واژه های دستوری با واژه های محتوایی در راستای این هدف مقایسه شد. برای این منظور، پیکره ای از آثار هفت نویسنده معاصر به نام های هوشنگ گلشیری، بزرگ علوی، احمد محمود، محمود دولت آبادی، نادر ابراهیمی، جلال آل احمد و غلامحسین ساعدی انتخاب و گردآوری شد. سپس با استفاده از این پیکره و الگوریتم های یادگیری عمیق چون پرسپترون چندلایه و حافظه طولانی کوتاه مدت، کارآیی واژه های محتوایی و انواع واژه های دستوری در تشخیص سبک نگارش متن سنجیده شد. نتایج ارزیابی پژوهش نشان داد روش استفاده از واژه های دستوری عملکرد بهتری نسبت به روش واژه های محتوایی در تعیین سبک نگارش متن دارد. همچنین در میان انواع واژه های دستوری ضمایر خصوصا ضمایر شخصی و اشاره بیشترین نقش را در تفکیک سبک نویسندگان پیکره داشتند. به علاوه، حروف ربط و افعال کمکی در تعیین نویسندگان فارسی بسیار موثر بودند.
    کلید واژگان: واژه های دستوری, واژه های محتوایی, پیکره زبانی, تعیین سبک نگارش
    Fatemeh Soltanzadeh *, Azadeh Mirzaei, Mohammad Bahrani, Shahram Modarres Khiabani
    Nowadays, corpora are widely used in authorship attribution. In this research, a corpus of persian contemporary texts was applied to identify the authorship of texts and the effectiveness of function and content words in this task was compared. In order to reach this goal, seven contemporary writers named Hoshang Golshiri, Bozor Alavi, Ahmad Mahmoud, Mahmoud Dolatabadi, Nader Ebrahimi, Jalal Al Ahmad and Gholamhossein Saedi were selected and their books were collected. Then by using this corpus and deep learning algorithms like multilayer perceptron and Long Short Term Memory, effectiveness of function and content words was evaluated. The results of the research indicated that function words based method was superior to content words one in authorship attribution. In addition, pronouns, especially demonstrative and personal pronouns, showed the highest efficiency among the types of function words to determine the author of a text. Moreover, features based on conjunctions and auxiliary verbs were valuable to recognize persian writers.
    Keywords: Function words, Content words, corpus, Authorship Attribution
  • فروغ زاهد، محمد بحرانی*، علیرضا منصوری
    در این مقاله یک پیکره برچسب خورده، به منظور به کارگیری در تشخیص اخبار جعلی با حدود 5000 پست مربوط به اخبار همه گیری کووید-19 از پیام رسان تلگرام استخراج شده و برچسب زنی می شود. فرایند ساخت پیکره در دو مرحله انجام می پذیرد. مرحله اول شامل جمع آوری و پیش پردازش داده ها و مرحله دوم شامل برچسب گذاری آنها می باشد. در مرحله اول، داده ها فیلتر می شوند و بعد از انجام پردازش های لازم برروی آنها، در مرحله دوم، بر اساس یک شیوه نامه، اقدام به برچسب گذاری می شود. در مرحله برچسب گذاری، از هفت عنوان موردنظر برای وظایف، استفاده می گردد و هر پست خبری با توجه به این هفت وظیفه برچسب گذاری می شود. ایجاد یک چهارچوب مناسب (شیوه نامه) برای برچسب زنی یکی از اقدامات مهم در این مرحله می باشد. شیوه نامه در اختیار دو برچسب زن خبره که بدین منظور آموزش دیده اند قرار می گیرد و اخبار از لحاظ هفت وظیفه 1) صحیح یا جعلی بودن 2) سیاسی بودن 3) بالا بردن سطح آگاهی عمومی، دادن روحیه یا دادن یک توصیه به خواننده 4) مطالب مربوط به دارو و درمان یا مراقبت های بهداشتی 5) آمار مرگ و میر 6) داشتن محتوای حاوی مطالب تنفرآمیز، سرزنش، عیب جویی، منفی بافی و 7) ارزش داشتن برای بررسی واقعیت، مورد بررسی قرار گرفته و بر این اساس، برچسب درست، نادرست یا خنثی می گیرند. در صورت عدم توافق بین دو برچسب زن، از برچسب زن سوم نظرخواهی می شود. برچسب دهی اخبار طوری انجام می گیرد که در نهایت، دسته های متوازنی در وظیفه صحیح یا جعلی بودن اخبار به دست آید.
    کلید واژگان: اخبار جعلی, همه گیری کووید-19, دادگان برچسب خورده, شبکه های اجتماعی
    Forough Zahed, Mohammad Bahrani *, Alireza Mansouri
    Fake news detection using content features have attracted many researchers in the last few years. These approaches rely mainly on news datasets and analyzing their style and content. Although there are some fake news datasets in English, fake news detection in the Persian language suffers from the lack of suitable datasets. This article introduces a manually labeled Persian fake news dataset, containing about 5000 posts related to COVID-19 and extracted from Telegram messenger. The process of building the dataset is done in two stages: 1) data collection and pre-processing; and 2) labeling manually using a settled rule set and an established framework. In the labeling stage, seven tasks have been used for labeling, including: 1) Factual; 2) Hate, blame, and negative speech; 3) Rising moral, encouragement, and advise; 4) Political news; 5) Death statistics; 6) Cure, medicine, and health care; and 7) Worth to be considered for fact checking. For each labeling task, 3 labels including “Yes”, “No”, and “Can’t decide” are used. The main labeling task, i.e. “Factual” task is assigned to two annotators and in case of disagreement between annotators, the label assigned by third annotator is accepted. The kappa measure for inter-annotators agreement obtained equal to 0.706 that is in substantial range. This dataset is about 10 times larger in comparison to similar Persian datasets and can be used for not only fake news studies but also some other Persian Natural Language Processing (NLP) studies.
    Keywords: Fake News, COVID-19 pandemic, labeled dataset, social networks
  • Hassan Rashidi *, Zeynab Rashidi, Latifeh Pour Mohammad Bagher, Mohammad Bahrani
    In today's world, software tools play an important role in speeding up software development, reducing development costs and human efforts, as well as increasing reliability. In software development by tools, choosing a suitable tool will be a difficult task because many of them are available with different capabilities. On the other hand, little research has focused on the classification of these tools and their comparison. This paper aims to perform a literature review of software development tools and to propose architectures for the requirement of the Organization of Small Industries and Industrial Towns of Iran (OSIITI), in Iran. We did a survey over more than 50 software development and programming tools. The results of this survey identified ten classes, namely (a) Database Tools; (b) Integrated Development Environment; (c) Software Development Frameworks; (d) Data Science Tools; (e) Source Control Tools; (f) DevOps Tools; (g) Unified modeling Language (UML) Tools; (h) Cloud Tools for Software Development; (h) Prototyping Tools; and (j) Notifications Programs. For each class, we collected the most software tools that are currently used with their major features. After that, two architectures, based on layered and service-oriented patterns are proposed for OSIITI. The ten specified classes, along with the tools in each class, are very useful for organizations like OSIITI who want to develop software, for both small and large projects.
    Keywords: Software Development, Tools, programming
  • مهدی لطیفی فرد، مرجان صفاری*، رسول نوروزی سید حسینی، محمد بحرانی

    با ورود رسانه های اجتماعی، شبکه های اجتماعی آنلاین نیز به عنوان یکی از جدیدترین مباحث مدیریتی مورد توجه قرار گرفته است. شبکه های اجتماعی در ترویج و گردش اطلاعات رویدادهای بزرگ ورزشی نقش مهمی بازی می کنند. با توجه به این مسیله، هدف تحقیق حاضر بررسی و مقایسه نحوه ترویج بازی های المپیک ریو 2016 و توکیو 2020 در رسانه های اجتماعی است. برای بررسی شبکه ترویج بازی ها از رویکرد تحلیل شبکه اجتماعی استفاده شد که تمام توییت های صفحه رسمی این دو المپیک از بستر توییتر استخراج شدند. از صفحه رسمی المپیک ریو 2256 توییت و از صفحه رسمی المپیک توکیو 3287 توییت به دست آمد که در نهایت 436 توییت از المپیک ریو و 905 توییت از المپیک توکیو وارد تحلیل شدند. یافته ها نشان دادند که در هر دو المپیک ورزشکاران از نظر تعداد بازیگران در شبکه، نسبت به سایر ذی نفعان بیشتر بوده اند. درعین حال، وزن ارتباطات سازمان های بین المللی ورزشی بیشتر از سایر ذی نفعان بوده است. تحقیق حاضر نشان داد اگرچه ورزشکاران نسبت به سازمان های ورزشی ملی و بین المللی از طرفداران و در نتیجه دنبال کنندگان بیشتری برخوردار هستند از همین رو بیشتر می توانند به ترویج بازی ها کمک کنند؛ اما وزن ارتباط با سازمان های بین المللی ورزشی گویای این است که کمیته برگزاری بازی های المپیک با سازمان های بین المللی ورزشی مانند فدراسیون های جهانی ارتباط مستمری دارد. تحقیق حاضر نشان داد ترویج رویدادهای ورزشی در رسانه های اجتماعی بدون به کار گرفتن ذی نفعان متعدد ممکن نیست. با این حال با توجه به هدف سازمان ها و رویدادهای ورزشی الگوی خاص خودشان برای ترویج برند یا رویداد می تواند منحصر به فرد باشد.

    کلید واژگان: المپیک, تحلیل شبکه, توییتر, نظریه ذی نفعان
    Mahdi Latififard, Marjan Saffari *, Rasool Norouzi Seyed Hossini, Mohammad Bahrani

    With the advent of social media, social networks have also emerged as one of the newest management topics. Social networks play an essential role in promoting and circulating information in major sporting events. Concerning this, the purpose of this study is to investigate and compare how to promote the Rio 2016 and Tokyo 2020 Olympic Games on social media. The social network analysis approach used to examine the Games Promotion Network, for which all the tweets of the official page of the two Olympics extracted from Twitter. 2256 tweets obtained from the official page of the Rio Olympics and 3287 tweets from the official page of the Tokyo Olympics, which finally included 436 tweets from the Rio and 905 tweets from Tokyo. Findings showed that athletes were more numerous in both Olympics than other stakeholders regarding the number of actors in the network. At the same time, the communication weight of international sports organizations has been greater than that of other stakeholders. The present study showed that it is impossible to promote a sporting event on social media without employing multiple stakeholders. However, depending on the purpose of the sport and organizations, their pattern for brand or event promotion can be unique.

    Keywords: Network Analysis, Olympics, Stakeholder Theory, Twitter
  • مهدی لطیفی فرد، مرجان صفاری*، رسول نوروزی سید حسینی، محمد بحرانی

    رسانه های اجتماعی به عنوان یکی از ابزارهای مهم در سیاست های رسانه ای رویدادهای ورزشی تبدیل شده است. هدف تحقیق حاضر بررسی ارتباط ویژگی های محتوا و درگیری کاربران صفحه رسمی المپیک توکیو 2020 است. در این تحقیق 2364 توییت صفحه رسمی کمیته برگزاری بازی های المپیک 2020 از سال 2014، به همراه تعداد پسند و بازتوییت ها استخراج شد. برای کشف موضوع توییت ها از تحلیل محتوای کیفی استفاده شد که پنج دسته محتوا شامل اطلاع رسانی، فعال سازی، بازاریابی، شخصی سازی و فرهنگی کشف شد. یافته های پژوهش نشان داد که درگیری کاربران از نظر پسند و بازتوییت با محتوای فعال سازی و سپس اطلاع رسانی بیشتر است. علاوه بر این، هشتگ ها به عنوان یکی از ویژگی های پیام همبستگی قوی با بازتوییت و پسند دارد. برچسب ها به عنوان دیگر ویژگی محتوا، همبستگی ضعیفی با بازتوییت دارد. تحقیق حاضر نشان داد که استفاده از فراپیوندها سبب می شود درگیری کاربران با محتوا کاهش یابد. از سوی دیگر، ویژگی های چندرسانه ای محتوا، مانند عکس و ویدیو درگیری کاربران را افزایش می دهد.

    کلید واژگان: توییتر, تحلیل محتوا, درگیری کاربران, بازی های المپیک, توکیو 2020
    Mahdi Latifi Fard, Marjan Saffari *, Rasool Norouzi Seyed Hossini, Mohammad Bahrani

    The popularity of the Olympic Games is so great that Games hosting tries to use a wide range of tools to protect the Olympic brand, achieve hosting goals, and connect with audiences. As one of the tools, social media has become an important part of media policies of sport events. The aim of the present study is to investigate the use of Twitter, as a social media in the 2020 Tokyo Olympic Games. In this study, the official twitter account of the 2020 Olympic Games Organizing Committee was reviewed from 2014 to the end of 2019. Finally, with the text-mining of 2,364 tweets published online at the timeline of the Tokyo 2020 account hashtags, tags, number of likes, retweets, and multimedia including photos, videos and gifs used in tweets were extracted. What is generally evident in Twitter-related research that the most important operator on this platform is retweets. Despite the increase in the number of retweets, the main goals of an organization can be achieved on Twitter. In fact, hashtags, hyperlinks, tag, and the use of multimedia content are used to increase user engagement in terms of the number of retweets.

    Keywords: Twitter, Hashtag, Retweet, Olympic Games, Tokyo 2020
  • مهدی لطیفی فرد، مرجان صفاری*، رسول نوروزی سید حسینی، محمد بحرانی
    با رشد رسانه های اجتماعی، کارکرد آنها در ورزش، به طور مداوم افزایش یافته و توجه پژوهشگران ورزشی به این نقش و کارکرد، پیش از پیش جلب شده است. هدف پژوهش حاضر مرور تمامی مقالات منتشر شده در مجله های ورزشی طی 10 سال گذشته با رویکرد مرور نظام مند بوده است. بانک اولیه مقالات، 156 مقاله را شامل شده که با توجه به عنوان و واژگان کلیدی که (دربرگیرنده) یکی از واژه های رسانه اجتماعی، توییتر، فیس بوک، اینستاگرام، یوتیوب، پینتسرت یا اسنپ چت بوده، انتخاب شده اند. سپس و با توجه به تاریخ انتشار آنها (2010-2019) 137 مقاله، دانلود و در مرحله بعدی، با مطالعه کامل چکیده 23 مقاله از بانک مقالات کنار گذاشته شد. یافته ها نشان می دهد که تعداد مقالات انتشاریافته و نظریه های به کار گرفته شده در آنها از سال 2010 تا 2019 به مرور افزایش یافته است. گوناگونی نظریاتی که پشتوانه پژوهش های مرور شده بوده اند، موید این است که ورزش همچنان به عنوان یک حوزه چندوجهی در نظر گرفته می شود اما رویدادهای ورزشی مانند جام های جهانی و المپیک ها، حوزه ای هستند که در مطالعات رسانه های اجتماعی ورزشی کمتر به آنها توجه می شود.
    کلید واژگان: رسانه های اجتماعی, نظریه های ارتباطی, مرور نظام مند, کاربران, ارتباطات ورزشی
    Mehdi Latififard, Marjan Saffari *, Rsoul Norouzi Seyed Hossini, Mohammad Bahrani
    Social media function is constantly increasing and sports researchers have attended to this role and function more than ago. The purpose of this study was to review all articles published in sports magazines during the last 10 years with a systematic review approach. The initial article database consisted of 156 selected articles, which according to the title and keywords included one of the terms of Social Media, Twitter, Facebook, Instagram, YouTube, Pinterest or Snapshot. Then, according to the publication date (2010-2019) and studying abstracts, 137 articles were selected and downloaded. The findings showed that the number of published articles and theories used in them has increased from 2010 to 2019. The diversity of theories supporting the reviewed researches suggests that sport is still considered a multifaceted field, but sporting events such as the World Cup and the Olympics are areas that receive less attention in sports social media studies.
    Keywords: Social Media, Communication Theories, Systematic review, Users, Sports Communication
  • مینو نساجیان، راضیه شجاعی، محمد بحرانی*

    ساخت اضافه همواره در نظریه‎های مختلف زبان‎شناسی نظیر آوایی، ساختواژی و نحوی حایز اهمیت بوده است و زبان‎شناسان ایرانی تاکنون تحلیل‎های متفاوتی از این ساخت به دست داده‎اند. عدم تظاهر کسره اضافه در نوشتار، ابهامات بسیاری را در تحلیل و درک متون فارسی موجب شده است و برنامه‌های مختلف پردازش زبان اعم از برچسب‌زن اجزای کلام، تشخیص موجودیت‌های نام‌مند، تشخیص کلمات هم‌مرجع، تبدیل متن به گفتار، ترجمه ماشینی، تجزیه نحوی جملات و غیره را با چالش‌های بسیاری روبرو ساخته است. به همین روی، شناسایی جایگاه این عنصر از مهم‎ترین چالش‎های پردازش متون زبان فارسی به‎شمار می‎رود. پژوهش حاضر می‎کوشد تا به شیوه‎ای تحلیلی و پیکره‎بنیاد و از منظر دستور وابستگی به بررسی ساخت اضافه بپردازد. از آنجا که دستور وابستگی به لحاظ سادگی، استفاده کم از فضای حافظه رایانه و تسریع در امر پردازش در مطالعات پردازش متن در حوزه زبان‎شناسی رایانشی از اهمیت چشمگیری برخوردار است، بهترین پایگاه نظری را برای این دست مطالعات فراهم می‌آورد. به همین سبب، پژوهش حاضر در تلاش است تا با استفاده از این دستور روشی قاعده‌مند جهت تشخیص کلمات حاوی نشانه کسره اضافه در متون فارسی ارایه دهد. بدین منظور، با ارایه کلیه ساخت‌های نمونه‌ای که حاوی نشانه اضافه هستند و از پیکره وابستگی زبان فارسی دانشگاه اوپسالا استخراج شده‌اند، در چارچوب دستور وابستگی به تجزیه و تحلیل آن‌ها خواهیم پرداخت. از رهگذر این بررسی، تنها هفت قاعده منطقی برای درج کسره اضافه در گروه‌های غیرفعلی اعم از گروه‎های اسمی، صفتی، حرف‎ اضافه‎ای، قیدی، گروه‌هایی با بیش از یک وابسته پسین، گروه‌هایی با بیش از یک وابسته از نوع گروه و ساخت‌های همپایه استخراج می‎شود که با استناد به آن‌ها می‎توان در انواع پیکره‌های وابستگی و سامانه‎های رایانه‎ای مبتنی بر تجزیه وابستگی به شناسایی جایگاه نشانه اضافه پرداخت. افزون ‌بر این، در این پژوهش به جایگاه‌های نشانه اضافه‌‌ای نیز اشاره خواهد شد که تاکنون در پژوهش‌های نظری و رایانه‌ای پیشین به‌ آن‌ها پرداخته نشده است.

    کلید واژگان: نشانه اضافه, ساخت اضافه, دستور وابستگی, قواعد درج اضافه, پردازش متن فارسی
    Minoo Nassajian, Razieh Shojaei, Mohammad Bahrani *

    Ezafe construction is considered as one of the most important issues in various linguistic theories including phonetics, morphology and syntax and many Iranian linguists have analyzed this phenomenon from these different aspects. Ezafe marker is usually not written in Persian text. So, not only does it result in a high degree of ambiguity in reading, analyzing, and understanding Persian documents, but also it causes serious difficulties for a large number of natural language processing tasks (NLP) such as part-of-speech (POS) tagging, Named-Entity Recognition (NER), Co-reference Resolution, Converting Text to Speech, Machine Translation, syntactic parsing and so on. As a result, determining the positions of Ezafe in a given sentence is viewed as a controversial and challenging issue especially in these applications. Using a corpus-based analysis and dependency grammar, the current paper sets to study Ezafe positions. Due to the fact that dependency grammar applies a simple parsing, uses low memory and speeds up computer operations, this grammar is regarded as one of the important and practical grammars in the field of computational linguistics. Accordingly, this study will use a rule-based method within this framework to recognize Ezafe positions. For this purpose, all Ezafe constructions which are provided in Uppsala Persian Dependency Corpus (UPDC) are analyzed based on dependency relations. In the next step, only seven Ezafe rules are formulated consisting of such non-verbal phrases as noun phrases, adjective phrases, prepositional phrases, adverb phrases, phrases with more than one post-modifier, phrases with more than one post-modifier as a phrase and co-ordinations. The proposed rules can be used in Persian dependency corpora and a great number of language processing tasks which are based on dependency relations. In addition, in the present research, Ezafe positions which have not been mentioned in previous theoretical and computational studies will be elaborated.

    Keywords: Ezafe Marker, Ezafe Construction, Ezafe Insertion Rules, Dependency Grammar, Persian Text Processing
  • فاطمه سلطان زاده، محمد بحرانی، محرم اسلامی
    هدف مقاله حاضر ارائه روشی خودکار جهت تبدیل درخت تجزیه نحوی وابستگی به درخت تجزیه نحوی مبتنی بر دستور ساخت سازه ای معادل در زبان فارسی است. برای نیل بدین هدف، الگوریتمی قاعده مند جهت این نوع تبدیل طراحی شده است. به منظور دستیابی به درخت تجزیه نحوی ساخت سازه ای مناسب برای جملات زبان فارسی، دستور زبان فارسی مورد مطالعه قرار گرفته و قوانین خاص زبان فارسی استخراج و به الگوریتم مذکور افزوده شده است. نتایج حاصل از ارزیابی پژوهش، بیانگر این است که الگوریتم طراحی شده برای تبدیل ساختارها به F1 معادل با 05/96 درصد دست یافته است؛ سپس، الگوریتم مذکور بر روی پیکره وابستگی زبان فارسی با حدود سی هزار جمله اعمال و دادگان درخت نحوی ساخت سازه ای معادل حاصل شده است. علاوه بر این، تجزیه گر نحوی استنفورد بر روی پیکره ساخت سازه ای حاصل آموزش داده شده و تجزیه گر نحوی ترکیبی زبان فارسی با F1 معادل با 01/86 درصد به دست آمده است.
    کلید واژگان: تبدیل, دستور وابستگی, دستور ساخت سازه ای, پردازش زبان طبیعی, دادگان درخت نحوی, زبان فارسی
    Fatemeh Soltanzadeh, Mohammad Bahrani, Moharam Eslami
    In this paper, an automatic method in converting a dependency parse tree into its equivalent phrase structure one is introduced for the Persian language. In the first step, a rule-based algorithm is designed. Then, Persian specific dependency-to-phrase structure conversion rules merge to the algorithm. Subsequently, the Persian dependency treebank with about 30,000 sentences is used as an input for the algorithm and an equivalent phrase structure treebank is extracted. Finally, the statistical Stanford parser is trained using the resulting treebank. Experimental results show a F1 of 96.05% for the conversion algorithm and an F1 of 86.01% for Persian factored model parser.
    Keywords: Conversion, Dependency Grammar, Phrase Structure Grammar, Natural Language Processing, Treebank, Persian.
  • مهدی مرادی، محمد بحرانی
    با گسترش روز افزون استفاده از اینترنت، شاهد تبادل هزاران گیگابایت اطلاعات متنی در فضای مجازی هستیم. فضای سایبر این امکان را به اشخاص می دهد که هویت حقیقی خود را مخفی کنند و با هویت ساختگی جدیدی وارد آن شوند. از این رو اهمیت حفظ امنیت این فضا، کنترل بر محتوای تولید شده توسط کاربران و شناسایی مشخصات تولیدکنندگان محتوا هر روز پررنگتر می شود. موضوع مورد بررسی در این پژوهش که مربوط به حوزه شناسایی نویسنده است، شناسایی خودکار جنسیت نویسنده متن فارسی است. به منظور شناسایی جنسیت، با توجه به مطالعات زبان روان شناختی صورت گرفته، 48 ویژگی روان شناختی و سبک شناسی تعریف شد. دو پیکره متنی جهت آموزش طبقه بندها تهیه و سپس برای شناسایی جنسیت، سه الگوریتم یادگیری ماشینی مختلف (ماشین بردار پشتیبان، بیز ساده و درخت تصمیم) طراحی شد. نتایج اعتبارسنجی متقابل ده تایی نشان داد که بیش ترین دقت مربوط به طبقهبند درخت تصمیم با دقت %8/73 است.
    کلید واژگان: تشخیص جنسیت, شناسایی نویسنده, متن کاوی
    Mehdi Moradi, Mohammad Bahrani
    communities, cyberspace is vulnerable to attacks, false information and deception. It becomes increasingly important to design an efficient method to trace identity in this community. In order to investigate the problem of gender identification, we propose 48 features, and design three machine learning algorithms. The results of study showed that AD tree classifier had accuracy up to 73.8%.
    Keywords: Gender identification, author identification, text mining
  • زهرا محمودزاده، محمد بحرانی
    کاهش از جمله فرایندهای آوایی است که برای سیستم های بازشناسی گفتار یک چالش محسوب می شود. ازجمله این موارد، کاهش ارقام تلفنی مانند «دو-نه»، «هفت-هشت» و «سه-صفر» است. تجزیه و تحلیل آوایی سیگنال های تلفنی /sefr/-/se/ نشان می دهد که هر چند با حذف /r/ تمایز [sef]-[se] کاهش می یابد اما سرنخ های آکوستیکی باقی مانده در واکه /e/، همانند دیرش واکه و بسامد کانونی سازه های F2 و F3، تقابل واجی فوق را انتقال می دهند. استفاده از این سرنخ های آکوستیکی در بازشناسی گفتار، می تواند به بازیابی صورت های کاهش یافته کمک کند.
    کلید واژگان: کاهش, تحلیل آکوستیکی, سرنخ آوایی, گفتار تلفنی, بازشناسی گفتار
    Zahra Mahmoodzade, Mohammad Bahrani
    Phonetic reduction is consistently considered as a challenge for speech recognition systems. Among them is the reduction of Persian telephonic numerals /do-noh/ (2-9)، /haft-haʃt/ (7-8) and /se-sefr/ (3-0). The acoustic analysis of the telephonic signals /se-sefr/ shows that the deletion of /r/ diminishes the phonological distinctions between [se-sef] pairs، however the phonetic cues in particularly vowel /e/ including vowel duration، F2 and F3 locus equations can still transmit this phonological contrast. Word recognition systems can recover the reduced forms by implementing these acoustic cues.
    Keywords: reduction, acoustic analysis, phonetic cue, telephonic speech, speech recognition
  • پریا جمشیدلو*، محمد بحرانی

    درک زبان محاوره حوزه خاصی از درک زبان طبیعی را شامل می‌شود که در آن جملات بیان‌شده توسط کاربر به اندازه جملات زبان نوشتاری تابع دستور زبان نیستند. در این مقاله، سامانه محاوره مبتنی بر متن برای استخراج معنای جملات محاوره‎ای مربوط به حوزه ذخیره بلیت معرفی می شود. در طراحی این سامانه از شیوه‌های مبتنی بر داده استفاده شده است. معماری آن شامل دو بخش اصلی استخراج متغیرها و انتساب محتمل‌ترین برچسب‌های معنایی به دنباله‌ای از کلمات است. برای این کار از الگوی مخفی مارکوف استفاده می شود. برچسب‌زنی معنایی دنباله کلمات با استفاده از الگوریتم ویتربی صورت می‌گیرد. بدین منظور، ابتدا پیکره‌ای از جملات مورد استفاده در حوزه ذخیره بلیت جمع‌آوری و سپس به هر کلمه یا ترکیبی از کلمات یک برچسب معنایی تخصیص داده می شود. در مرحله آموزش با استفاده از پیکره برچسب‌خورده، دنباله برچسب‌های ممکن برای توالی کلمات مختلف یاد گرفته می‌شود. در مرحله آزمون با استفاده از احتمالات استخراج‌شده از مرحله آموزش، محتمل‌ترین برچسب معنایی برای هر کلمه یا ترکیبی از کلمات پیدا می‌شود. بر اساس آزمایش‌های انجام‌شده، دقت سامانه پیشنهادی در تشخیص سه برچسب کلیدی مبدا، مقصد و تاریخ 91 درصد است.

    کلید واژگان: درک معنا, سامانه محاوره ای, روش مبتنی بر داده, الگوی مخفی مارکوف, الگوریتم ویتربی
    Paria Jamshidlou*, Mohammad Bahrani

    Spoken language understanding is considered as a specific domain of natural language understanding in which the uttered sentences are not as well-formed as written sentences. In the present paper, a text-based system of spoken language understanding is introduced for ticket reservation domain. This system is developed according to the datadriven approach and its architecture includes two main parts: first, extracting parameters of the model and second, assigning the most likely semantic tags to the sequence of words. "Hidden Markov Model" and "Viterbi" algorithm are applied in order to train the parameters and to tag the sequence of words. For this purpose, a corpus of commonly-used sentences in ticket reservation domain is collected and a specific tag is assigned to each word or a combination of words. In the training step, by using the tagged corpus, a sequence of possible tags is learned for a sequence of various words and in the testing step the most likely tag is assigned to a word or a combination of words according to the probabilities calculated in the previous step. Evaluation of the accuracy of system in recognizing the three key tags of departure, arrival and date is 91%.

    Keywords: natural language understanding, spoken dialogue system, data, driven approach, Hidden Markov Model, Viterbi algorithm
  • محمدبحرانی، حسین صامتی
    در این مقاله یک سامانه بازشناسی گفتار پیوسته برای زبان فارسی معرفی می شود و نقش مدل آوایی و مدل زبانی در آن مورد بررسی قرار می گیرد. مدل های آوایی با روش های مستقل از بافت و وابسته به بافت در این سامانه به کار رفته و نتایج به کارگیری آن ها ارائه شده است. مدل زبانی سه کلمه ای نیز با روش های مبتنی بر کلمه، مبتنی بر مقوله نحوی و مبتنی بر طبقه، با استفاده از پیکره متنی زبان فارسی استخراج و در سامانه بازشناسی به کار گرفته شده است. همچنین مدل زبانی دستوری مبتنی بر دستور ساخت- گروهی تعمیم یافته در این سامانه پیاده سازی شده و نیز در ترکیب با مدل زبانی آماری به کار رفته است. نتایج حاصل نشان می دهد که مدل آوایی وابسته به بافت، مطابق انتظار، بهترین عملکرد را دارد. همچنین مدل زبانی سه کلمه ای مبتنی بر کلمه، نسبت به سایر روش های استخراج مدل زبانی آماری برتری دارد. درضمن ترکیب مدل زبانی دستوری با مدل زبانی آماری منجر به بهبود نتایج بازشناسی می شود. سامانه بازشناسی گفتار معرفی شده در این مقاله، اولین سامانه بازشناسی برای گفتار پیوسته فارسی بوده و با پشتوانه فعالیت های تحقیقاتی متعددی که برای پیاده سازی آن انجام شده است، قابلیت استفاده به صورت کاربردی را یافته است.
    کلید واژگان: بازشناسی گفتار پیوسته, مدل سازی آوایی, مدل سازی زبانی, مدل زبانی آماری, مدل زبانی دستوری
    Mohammad Bahrani, Hosein Sameti
    In this paper, a continuous speech recognition system for the Persian language is introduced and the roles of acoustic and language models are examined. Context-independent and context-dependent acoustic models are used in the system and the results of their employment are presented. Moreover, word-based, POS-based and class-based triphone language models are extracted using Persian text corpus and incorporated in the speech recognition system. In addition, a grammatical language model based on GPSG is implemented in the system and is used in combination with the statistical language model. Experimental results demonstrated hat as expected, context-dependent phonetic models show the best performances. Also, the word-based triphone language model showed superiority over other statistical language models. Moreover, the combination of grammatical language models with statistical ones proved to lead to better recognition results. The system introduced in this paper is the first Persian speech recognition system capable of practical usage and is based on numerous research works performed for its design and implementation.
    Keywords: continuous speech recognition, acoustic modeling, language modeling, statistical language model, grammatical language model
سامانه نویسندگان
  • محمد بحرانی
    محمد بحرانی
    استادیار دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبائی، تهران، ایران
اطلاعات نویسنده(گان) توسط ایشان ثبت و تکمیل شده‌است. برای مشاهده مشخصات و فهرست همه مطالب، صفحه رزومه ایشان را ببینید.
بدانید!
  • در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو می‌شود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشته‌های مختلف باشد.
  • همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته می‌توانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
  • در صورتی که می‌خواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال