ارائه مدلی برای بازیابی اطلاعات متنی با استفاده از اعداد فاصله ای

نویسنده:

هومان تحیری* ، فرزاد قهرمانی

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

با گسترش و توسعه وب و افزایش محتوای آنلاین، اهمیت سیستم های بازیابی اطلاعات که بتوانند با دقت بالاتری به نیازهای اطلاعاتی کاربران پاسخ دهند، بیشتر از پیش مشخص است. یک بخش مهم در طراحی هر سیستم بازیابی اطلاعات، انتخاب روشی مناسب برای مدل کردن آن سیستم است که در این راستا تعیین روش وزن دهی به لغات جهت بیان میزان اهمیت آنها در اسناد و پرس وجوها، نقش به سزایی دارد. روش های مختلفی در خصوص چگونگی وزن دهی به لغات ارایه شده که غالبا یک وزن عددی را تخصیص می دهند اما نمی توان با قطعیت گفت که بهترین روش وزن دهی کدام است. با توجه به ابهام و عدم قطعیتی که در این زمینه وجود دارد، در این مقاله مدلی ارایه شده که به جای استفاده از یک مقدار وزنی، با استفاده از وزن های بدست آمده از تعدادی روش وزن دهی پایه که به دقت انتخاب شده اند، برای هر لغت بازه ای از وزن ها را به عنوان یک وزن فاصله ای محاسبه می کند. در این مدل با انجام تجمیع مناسب، میزان ارتباط هر سند با پرس-وجوی ورودی نیز به صورت یک وزن فاصله ای تعیین شده و برحسب آنها می توان با استفاده از یکی از سه روش پیشنهادی، اسناد را رتبه-بندی کرد. در آزمایش های انجام شده بر روی مجموعه داده های معتبر Cranfield و Medline، اثرات نرما ل سازی طول بردار وزن های پایه، استفاده از مولفه های مختلف در فاکتور فرکانس لغت و فاکتور فرکانس مجموعه مورد مطالعه و بحث قرار گرفته است و مشخص شد که انتخاب مجموعه ای مناسب از روش های وزن دهی پایه برای اعمال روش پیشنهادی، به همراه استفاده از روش رتبه بندی مناسب، تاثیر به سزایی در بهبود بازدهی سیستم خواهد داشت. با انتخاب های مناسب، برای دو مجموعه داده مذکور به ترتیب MAP با مقادیر 0.43323 و 0.54580 بدست آمد. این نتایج نشان داد که روش پیشنهادی نه تنها باعث بهبود نسبت به هر یک از روش های وزن دهی پایه می شود، بلکه در مقایسه با چند روش وزن دهی پیچیده اخیر نیز بهتر عمل می کند.

کلیدواژگان:

بازیابی اطلاعات متنی ، رتبه بندی اسناد ، وزن دهی لغات ، اعداد فاصله ای ، وزن فاصله ای

زبان:

فارسی

انتشار در:

نشریه فناوری اطلاعات و ارتباطات ایران، سال دوازدهم شماره 45 (پاییز و زمستان 1399)

صفحات:

71 تا 94

لینک کوتاه:

magiran.com/p2298714

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

نشریه فناوری اطلاعات و ارتباطات ایران

Journal of Information and Communication Technology

دوفصلنامه فنی مهندسی

آخرین شماره | آرشیو

صاحب امتیاز:

انجمن فناوری اطلاعات و ارتباطات ایران

مدیر مسئول:

دکتر مسعود شفیعی

سردبیر:

دکتر محمدشهرام معین

تلفن نشریه: ۰۲۱-۶۶۴۸۵۸۵۶

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

ارائه مدلی برای بازیابی اطلاعات متنی با استفاده از اعداد فاصله ای

هومان تحیری* ، فرزاد قهرمانی

بازیابی اطلاعات متنی ، رتبه بندی اسناد ، وزن دهی لغات ، اعداد فاصله ای ، وزن فاصله ای

نشریه فناوری اطلاعات و ارتباطات ایران

Journal of Information and Communication Technology