مقایسه روش های مدل بندی پاسخ ترتیبی از قبیل درخت تصمیم، انباشت تصادفی ترتیبی و رگرسیون نسبت پیوسته جریمه شده در داده های با ابعاد بالا
در بسیاری از تحقیقات در حوزه های پزشکی و بهداشتی متغیر پاسخ ماهیت ترتیبی دارد. روش های مرسوم مبتنی بر فرض استقلال میان متغیرهای پیشگو و همچنین زیاد بودن تعداد نمونه ها (n) در مقایسه با تعداد کووریت ها (p) هستند. لذا برای داده های ژنتیکی با ابعاد بالا که در آن ها p>n می باشد، استفاده از مدل های مرسوم امکان پذیر نیست. در پژوهش حاضر از روش های رگرسیون نسبت پیوسته جریمه شده، درخت تصمیم و انباشت ترتیبی برای پیشبینی پاسخ های ترتیبی استفاده خواهد شد.
در مطالعه حاضر از سه دیتاست استفاده شد. مجموعه داده B-cell حاوی اطلاعات 12625 ژن در 128 بیمار که پاسخ در چهار سطح ترتیبی قرار داشت، داده HCC مرتبط با سرطان کبد شامل 1469 ژن در 56 بیمار که پاسخ در سه سطح ترتیبی قرار داشت و همچنین داده قلب شامل اطلاعات پنج متغیر در 294 بیمار تحت آنژیوگرافی که پاسخ در 5 سطح قرار داشت. عملکرد روش های مدنظر با استفاده از مجموعه داده یکسان آموزش و آزمون براساس شاخص هایی از قبیل دقت، گاما و کاپا مورد مقایسه قرار گرفت.
در دو مجموعه داده با ابعاد بالا مدل انباشت ترتیبی از توانایی پیش بینی بالاتری برخوردار بود. در حالی که برای مجموعه داده با ابعاد پایین مدل رگرسیون نسبت پیوسته جریمه شده عملکرد پیش بینی بهتری داشت.
انتخاب بهترین مدل پیش بینی از بین مدل های بکار رفته بستگی به مجموعه داده مورد استفاده دارد و برای هر مجموعه داده بایستی روش های مختلف را مورد بررسی قرار داد تا به بهترین مدل دست یافت.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.