استخراج فراداده های متنی از مقاله های علمی به زبان فارسی با مدل آماری CRF

نویسنده:

امیر تن سازان ، محمد امین مهدوی

چکیده:

مقدمه

استخراج فراداده های متنی از مقاله های علمی به شکل دستی کار زمان بر و پرهزینه ای است. وجود تنوع در قالب های ساختاری مقالات علمی نیز به پیچیدگی مسئله می افزاید. بنابراین، استخراج خودکار فراداده های متنی از مقاله های علمی به عنوان یک مسئله مطرح است و از الگوریتم های مختلفی می توان برای استخراج فراداده ها استفاده کرد. هدف این مقاله ارائه ی یک چارچوب برای استخراج فراداده های متنی از مقاله های علمی به زبان فارسی است. در این پژوهش از مدل آماری سی آر اف برای استخراج فراداده ها استفاده شده است.
روش شناسی:این مقاله یک پژوهش کاربردی است. در این مقاله با مطالعات کتابخانه ای و آزمایش سعی شده است یک چارچوب برای استخراج فراداده ها ارائه شود. چارچوب ارائه شده شامل شناسایی سرآیند و مراجع انگلیسی و فارسی مقاله است. از مدل آماری سی آر اف برای استخراج فراداده ها از سرآیند و مراجع فارسی و انگلیسی استفاده شده است. با تعریف ویژگی های مختلف این مدل آماری قابل تغییر است. آزمایش این روش بروی صد مقاله از مجلات علمی- پژوهشی ایران درصد موفقیت آن را نشان می دهد. مدل آماری سی آر اف در برچسب زنی متن نسبت به مدل های آماری دیگر مانند مدل مخفی مارکوف دقت بالاتری را ارائه می دهد. از سوی دیگر این مدل بر مبنای آمار و ریاضی برچسب زنی را انجام می دهد. استخراج فراداده ها از مقالات با قالب های مختلف به کمک آمار نسبت به روش های مبتنی بر قانون نتایج بهتری را به دنبال دارد. بنابراین استفاده از مدل آماری سی آر اف برای حل این مسئله مناسب است.

یافته ها

برای ارزیابی روش پیشنهاد شده از معیار اف استفاده شده است. مقدار معیار اف در این پژوهش برای هر توکن متنی محاسبه شده است. مقدار معیار اف به شکل میانگین برای فراداده های سرآیند، فراداده های مراجع فارسی و فراداده های مراجع انگلیسی به ترتیب 89/96 درصد، 87/93 درصد و 75/94 درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی مقایسه شده است. مقایسه میانگین نتایج به دست آمده نشان می دهد در فراداده های سرآیند نتایج پژوهش این مقاله بهتر از دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در سرآیند در پژوهش های زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش زبان فارسی، نتایج بهتری به دست آمده است. مقایسه میانگین نتایج استخراج فراداده های مراجع، نشان می دهد پژوهش های زبان انگلیسی دقت بالاتری ارائه داده اند. نتایج استخراج فراداده موسسه در مراجع فارسی نسبت به فراداده های دیگر ضعیف تر است.

بحث و نتیجه گیری

بررسی نتایج بدست آمده نشان می دهد که عملکرد مدل آماری سی آر اف برای استخراج فراداده ها خوب است. بیشترین دقت برای فراداده چکیده با معیار اف برابر 6/99 درصد است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فراداده ها دارد. دقت فراداده موسسه با معیار اف برابر 95/80 درصد کمتر از بقیه است. دو دلیل در کاهش دقت موثر است. تعداد این فراداده در پیکره متون نسبت به فراداده های دیگر کمتر است. علاوه بر این کلمات نحوی که در این فراداده به کار می رود، تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فراداده های مکان و موسسه به کار می رود. این مسئله باعث می شود در برخی از موارد فراداده های مکان و موسسه به اشتباه تشخیص داده شوند. در زبان فارسی کلماتی که به شکل مشترک در فراداده های مختلف به کار می روند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد به کار می رود با معانی دیگر در فراداده های دیگر استفاده می شود. این مسئله ممکن است باعث بروز خطا شود. اکثر خطاهای به وجود آمده در استخراج فراداده ها مربوط به توکن هایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی فارسی با فرمت پی دی اف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیت های این پژوهش به شمار می آید. در این پژوهش مجموعه ای از صد مقاله علمی استفاده شد. افزایش تعداد مقاله های علمی و تنوع بیشتر مقالات برای آزمایش می تواند در نتیجه ی بدست آمده تاثیر مثبتی داشته باشد. مجموعه ای از ویژگی های متنی در الگوریتم های برچسب زنی سی آر اف استفاده می شود. تغییر در این ویژگی ها می تواند موجب بهینه سازی روش شود.

کلیدواژگان:

استخراج فراداده های متنی ، مقاله های علمی ، پردازش زبان فارسی ، الگوریتم CRF

زبان:

فارسی

انتشار در:

پژوهش نامه کتابداری و اطلاع رسانی، سال هفتم شماره 1 (پیاپی 13، بهار و تابستان 1396)

صفحات:

304 تا 321

لینک کوتاه:

magiran.com/p1743837

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

دسترسی سراسری کاربران دانشگاه پیام نور!

اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

پژوهش نامه کتابداری و اطلاع رسانی

Library and Information Science Research

دوفصلنامه علوم انسانی

آخرین شماره | آرشیو

ISSN: 2251-6344 eISSN: 2538-4112

صاحب امتیاز:

دانشگاه فردوسی مشهد

مدیر مسئول و سردبیر:

دکتر محسن نوکاریزی

تلفن نشریه: ۰۵۱-۳۸۸۰۳۶۹۶

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

استخراج فراداده های متنی از مقاله های علمی به زبان فارسی با مدل آماری CRF

امیر تن سازان ، محمد امین مهدوی

استخراج فراداده های متنی ، مقاله های علمی ، پردازش زبان فارسی ، الگوریتم CRF

پژوهش نامه کتابداری و اطلاع رسانی

Library and Information Science Research