جستجوی مقالات مرتبط با کلیدواژه "fellegi-sunter model" در نشریات گروه "آمار"

تکرار جستجوی کلیدواژه «fellegi-sunter model» در نشریات گروه «علوم پایه»

جستجوی fellegi-sunter model در مقالات مجلات علمی

انتخاب همه

بهبود مدل فلگی-سانتر در اتصال رکوردی با استفاده از مدل لگ خطی و اصلاح وزن

علیرضا موفقی اردستانی، زهرا رضایی قهرودی*

مجله علوم آماری، سال هفدهم شماره 1 (پیاپی 33، بهار و تابستان 1402)، صص 177 -199

امروزه با دسترسی روزافزون به پایگا‎‏ه های داده اداری و حجم بالای داده های ثبت شده در سازمان ها، روش های سنتی گردآوری و تحلیل داده ها به دلیل بار پاسخ گویی بالا کارایی لازم را ندار‏ند. بر این اساس، گذار از روش های گردآوری سنتی به روش های مدرن گردآوری و تحلیل داده ها با رویکرد آمارهای ثبتی مبنا بیش از پیش مورد توجه تحلیلگران داده ها قرار گرفته است. در روش های ثبتی مبنا، ایجاد یک پایگاه داده یکپارچه از طریق اتصال رکوردهای پایگاه های داده دستگاه های مختلف ‏اهمیت ویژه ای دارد. ‏بسیاری از الگوریتم های اتصال رکوردی بر پایه مدل فلگی و سانتر توسعه یافته است. یکی از نقص های مدل فلگی-سانتر این است که به درون اطلاعات موجود در مقادیر متغیرها نفوذ نمی کند و مقادیر متغیرهای رشته ای (رایج بودن یا نادر بودن مقدار ویژگی موردنظر) در آن اهمیت ندارد. در این ‎‏مقاله به معرفی روشی پرداخته می شود که بتواند با اصلاح وزن های جورسازی مدل فلگی-سانتر‏، این تفاوت ها را در مقادیر یک متغیر رشته ای در مدل فلگی-سانتر القا کند. ‏از‎‎ طرف دیگر‏، مدلی که فلگی و سانتر پیشنهاد داده اند و روشی که برای تعدیل وزن های جورسازی در اتصال فراوانی مبنای رکوردها معرفی می شود، بر اساس فرض استقلال شرطی بنا شده اند. در برخی مسایل اتصال رکوردی، در تطابق و عدم تطابق میان متغیرهای مشترک مورد استفاده در جورسازی، فرض استقلال شرطی برقرار نیست. یک راهکار مورد استفاده در چنین حالتی، استفاده از مدل لگ-خطی است که امکان وجود اثرات متقابل میان متغیرهای جورسازی در مدل را فراهم می کند. ‎‎‎
در این ‏مقاله به دو روش تعمیم مدل فلگی ‎‐‎سانتر، یکی با رویکرد اصلاح وزن های جورسازی و دیگری با رویکرد مدل لگ‎ ‎خطی با حضور اثرات متقابل میان متغیرهای اتصال دهنده در شرایطی که فرض استقلال شرطی برقرار نباشد‏، پرداخته می شود. روش های معرفی شده برای اتصال رکوردی در این مقاله، روی مجموعه داده های نیروی کار مرکز آمار ایران با استفاده از نرم افزار ‎R‎ پیاده سازی شده اند.

کلید واژگان: مدل فلگی-سانتر, جورسازی فراوانی مبنا, اصلاح وزن ها, استقلال شرطی, مدل لگ خطی

چکیده مشاهده متن مقاله پژوهشی/اصیل زبان: فارسی

Improving Fellegi-Sunter ‎model in record linkage using log-linear model and weight ‎adjustment ‎

Alireza Movaffaghi Ardestani, Zahra Rezaei Ghahroodi*

Journal of Statistical Sciences, Volume:17 Issue: 1, 2023, PP 177 -199

‎T‎oday, with the increasing access to administrative databases and the high volume of data registered in organizations, the traditional methods of data collection and analysis are not effective due to the response burden. Accordingly, the transition from traditional ‎survey methods to modern methods of data collection and analysis with the register-based statistics approach has received more and more attention from statistical data analysts. In register-based methods, it is especially important to create an integrated database by linking database records of different organizations. ‎Many record linkage algorithms have been developed using the Fellegi and Sunter ‎‎‎model‎. ‎The Fellegi-Sunter model does not leverage information contained in field values and does not care about specific possible values of a string variable (more common and less common values)‎. ‎In this ‎‏‎article‎, ‎a method that can be able to infuse these differences in specific possible values of a string variable in the Fellegi-Sunter model is presented‎.‎ ‎‎‎On the ‎other, ‎‎the ‎‎model proposed by Fellegi-Sunter‎, ‎as well as the method for adjusting the matching weights in the frequency-based record linkage‎, ‎binding in this paper, ‎are based on the assumption of conditional independence‎. ‎In some applications of record linkage‎, ‎this assumption is not met in agreement or disagreement of common variables which are used for matching‎. ‎One solution used in such a case is to use log-linear model which allows interactions between matching variables in the model‎.‎‎ In this ‎‏‎article‎, ‎we deal with two generalizations of Fellegi-Sunter ‎‎‎‎‎model, ‎one with the correction of the matching weights and the other with using a log-linear model with interactions in absence of conditional independence‎. ‎The proposed methods are implemented on labour force data set of Statistical Centre of Iran using R‎.

Keywords: Fellegi-Sunter model, ‎Frequency-based matching‎, ‎Adjusting weights‎, ‎Conditional independence‎, ‎Log-Linear model

Abstract View Paper Research/Original Article Original: Persian
اتصال رکوردی با روش های یادگیری ماشین

زهرا رضایی قهرودی*، ژینا آقامحمدی

مجله علوم آماری، سال شانزدهم شماره 1 (پیاپی 31، بهار و تابستان 1401)، صص 1 -24

با ظهور مه داده ها در دو دهه گذشته، به منظور بهره برداری و استفاده از این نوع داده ها، نیاز به یکپارچه سازی پایگاه داده ها با هدف تصمیم گیری براساس شواهد و اطلاعات قوی تر، بیش از پیش احساس می شود. لذا آشنایی با روش شناسی اتصال رکوردی به عنوان یکی از روش های یکپارچه سازی داده ها و همچنین استفاده از روش های یادگیری ماشین برای سهولت فرآیند اتصال رکوردها ضروری است. در این مقاله، ضمن تشریح فرایند اتصال رکوردی و برخی روش های مرتبط با آن، با استفاده از روش های یادگیری ماشین، برای افزایش سرعت یکپارچه سازی پایگاه داده ها، کاهش هزینه و بهبود عملکرد اتصال رکوردی، دو پایگاه داده چارچوب کارگاه های صنعتی مرکز آمار ایران و سازمان تامین اجتماعی به یکدیگر متصل شده اند.

کلید واژگان: اتصال رکوردی, یادگیری ماشین, مدل فلگی-سانتر, مقایسات زوجی جارو و وینکلر, آمار رسمی

چکیده مشاهده متن مقاله پژوهشی/اصیل زبان: فارسی

Record Linkage with Machine Learning Methods

Zahra Rezaei Ghahroodi*, Zhina Aghamohamadi

Journal of Statistical Sciences, Volume:16 Issue: 1, 2022, PP 1 -24

With the advent of big data in the last two decades, in order to exploit and use this type of data, the need to integrate databases for building a stronger evidence base for policy and service development is felt more than ever. Therefore, familiarity with the methodology of data linkage as one of the methods of data integration and the use of machine learning methods to facilitate the process of recording records is essential. In this paper, in addition to introducing the record linkage process and some related methods, machine learning algorithms are required to increase the speed of database integration, reduce costs and improve record linkage performance. In this paper, two databases of the Statistical Center of Iran and Social Security Organization are linked.

Keywords: Record Linkage, Machine Learning, Fellegi-Sunter Model, Jaro, Winkler String Comparison, Official Statistics

Abstract View Paper Research/Original Article Original: Persian

نکته

نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.

به جمع مشترکان مگیران بپیوندید!

جستجوی مقالات مرتبط با کلیدواژه "fellegi-sunter model" در نشریات گروه "آمار"