خلاصه سازی استخراجی متن با استقاده از مجموعه الگوریتم های خلاصه سازی و روش Sa-TRB
خلاصه سازی استخراجی متن یک تکنیک ضروری در پردازش زبان طبیعی است که با استخراج مهمترین جملات به تولید نسخه های فشرده از متن کمک می کند. در خلاصه سازی استخراجی جملاتی که حاوی اطلاعات مفید و مرتبط هستند برای خلاصه نهایی انتخاب می شوند. به منظور شناسایی این جملات الگوریتم های متفاوتی وجود دارند که عملکرد و خلاصه ایجاد شده از هرکدام بر اساس نوع متن و اندازه خلاصه مورد نیاز متفاوت است. در این مقاله روشی با نام Sa-TRB ارایه شده است، که برگرفته از دو الگوریتم TextRank و BERT بوده و علاوه بر استفاده از این دو روش از اشتراک جملات ایجاد شده سایر الگوریتم ها نیز بهره می برد تا دقت بالایی در انتخاب جملات خلاصه نهایی داشته باشد. مهمترین معیار برای ارزیابی عملکرد الگوریتم ها کیفیت خلاصه نهایی آنهاست، چنانکه هر چقدر خلاصه نهایی ایجاد شده توسط این الگوریتم ها به خلاصه ایجاد شده توسط انسان مشابه باشد، کیفیت خلاصه ایجاد شده بهتر است. برای به دست آوردن اندازه این تشابه از معیارهای روش ROUGE استفاده می شود. در نهایت با انجام آزمایش هایی روی دیتاست cnn-dailymail با اندازه خلاصه های مختلف نشان داده می شود که روش پیشنهادی با افزایش اندازه خلاصه مورد نیاز با وجود کاهش در معیار فراخوانی دارای دقت، امتیاز و در نتیجه کیفیت بالاتر خلاصه نهایی است، به طوری که در دو آزمایش آخر که نرخ فشردگی 20 و 25 درصد است، امتیاز روش پیشنهادی به 24.68 و 23.34 درصد رسیده است که تقریبا یک درصد از بهترین روش های آزمایش شده دیگر بهتر است.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.