بررسی تنوع الگوهای نگارش فارسی و تاثیر آن بر جامعیت بازیابی اطلاعات: مطالعه موردی: پیکره همشهری

پیام:
چکیده:
هدف

در سبک نگارش فارسی، برخی واژه ها را می توان با درج، حذف یا جایگزینی نویسه ای خاص نوشت و به این ترتیب، برای واژه ای واحد دو یا چند الگوی نگارشی متفاوت پدید آورد. این نایکدستی در الگوهای نگارش می تواند بر اثربخشی بازیابی اطلاعات فارسی تاثیر منفی داشته باشد. آشکار است که تلاش در جهت لحاظ کردن همه الگوها در الگوریتم های بازیابی اطلاعات فارسی، بر پیچیدگی آنها می افزاید و کارآیی سامانه های بازیابی اطلاعات را کاهش می دهد. از این رو، ضروری است با بررسی رفتارهای نگارندگان فارسی، میزان چندگانگی الگوها و تاثیر آن بر بازیابی اطلاعات در عمل و در نتیجه، ضرورت لحاظ کردن آنها در الگوریتم های فارسی آشکار گردد.
روش پژوهش: در پژوهش حاضر که به روش تحلیل محتوای مفهومی انجام گرفته است، 7 چالش از میان 43 چالش نگارشی که با مرور ادبیات مربوط، شناسایی شده بود انتخاب گردید و پس از محاسبه تنوع و فراوانی رویداد آنها در متون پیکره همشهری، میزان انطباق شیوه نگارش آنها با دستور خط مصوب فرهنگستان زبان و ادب فارسی بررسی شد.

یافته ها

نتایج پژوهش نشان داد نگارندگان متون پیکره به طور کلی تمایل به حذف یا جایگزینی نویسه های چالشی دارند. بنابراین، به نظر می رسد دست کم درباره هفت چالش مورد بررسی در این پژوهش، با نادیده گرفتن این چالش ها در سامانه های بازیابی اطلاعات، اثربخشی بازیابی چندان متاثر نمی شود. مقدار کلی شاخص«ضریب درگیری» برابر با 0/033 به دست آمد که بیانگر انطباق نداشتن گسترده الگوی نگارشی نگارندگان با دستور خط مصوب فرهنگستان است. از دلایل این امر می توان به تمایل نگارندگان به ساده نگاری در اثر «اصل کمترین کوشش» و عدم احساس ضرورت رعایت رسم الخط مرسوم عربی توصیه شده در دستور خط مصوب فرهنگستان، اشاره کرد.

زبان:
فارسی
در صفحه:
31
لینک کوتاه:
https://www.magiran.com/p1385444