[صفحه اصلی ]   [Archive] [ English ]  
:: صفحه اصلي :: درباره نشريه :: آخرين شماره :: تمام شماره‌ها :: جستجو :: ثبت نام :: ارسال مقاله :: تماس با ما ::
بخش‌های اصلی
اطلاعات نشریه::
آرشیو مجله و مقالات::
ثبت نام و اشتراک::
ارسال مقاله::
پایگاه‌های مرتبط::
برای داوران::
اخلاق در پژوهش::
تماس با ما::
تسهیلات پایگاه::
::
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
Google Scholar Metrics

Citation Indices from GS

AllSince 2020
Citations4817
h-index32
i10-index00
..
ثبت شده در

AWT IMAGE


..
نماد اعتماد الکترونیکی
..
آمار نشریه
تعداد دوره های نشریه: 19
تعداد شماره ها: 37
تعداد مشاهده ی مقالات: 3391010
تعداد دریافت (دانلود) مقالات: 888186

مقالات دریافت شده: 862
مقالات پذیرفته شده: 358
مقالات رد شده: 490
مقالات منتشر شده: 355

نرخ پذیرش: 41.53
نرخ رد: 56.84

میانگین دریافت تا پذیرش: 403 روز
میانگین دریافت تا اولین داوری: 5.7 روز
میانگین پذیرش تا انتشار: 514.6 روز
____
..
:: جلد 17، شماره 1 - ( 6-1402 ) ::
جلد 17 شماره 1 صفحات 0-0 برگشت به فهرست نسخه ها
بهبود مدل فلگی-سانتر در اتصال رکوردی با استفاده از مدل لگ‌خطی و اصلاح وزن
علیرضا موفقی اردستانی ، زهرا رضائی قهرودی*
چکیده:   (2044 مشاهده)

امروزه با دسترسی روزافزون به پایگا‎‏ه‌های دادۀ اداری و حجم بالای داده‌های ثبت‌شده در سازمان‌ها، روش‌های سنتی گردآوری و تحلیل داده‌ها به دلیل بار پاسخ‌گویی بالا کارایی لازم را ندار‏ند. بر این اساس، گذار از روش‌های گردآوری سنتی به روش‌های مدرن گردآوری و تحلیل داده‌ها با رویکرد آمارهای ثبتی‌مبنا بیش از پیش مورد توجه تحلیلگران داده‌ها قرار گرفته ‌است. در روش‌های ثبتی‌مبنا، ایجاد یک پایگاه دادۀ یکپارچه از طریق اتصال رکوردهای پایگاه‌های دادۀ دستگاه‌های مختلف ‏اهمیت ویژه‌ای دارد. ‏بسیاری از الگوریتم‌های اتصال رکوردی بر پایهٔ مدل فلگی و سانتر توسعه یافته ‌است. یکی از نقص‌های مدل فلگی-سانتر این است که به درون اطلاعات موجود در مقادیر متغیرها نفوذ نمی‌کند و مقادیر متغیرهای رشته‌ای (رایج بودن یا نادر بودن مقدار ویژگی موردنظر) در آن اهمیت ندارد. در این ‎‏مقاله به معرفی روشی ‌پرداخته می‌شود که بتواند با اصلاح وزن‌های جورسازی مدل فلگی-سانتر‏، این تفاوت‌ها را در مقادیر یک متغیر رشته‌ای در مدل فلگی-سانتر القا کند. ‏از‎‎ طرف دیگر‏، مدلی که فلگی و سانتر پیشنهاد داده‌اند و روشی که برای تعدیل وزن‌های جورسازی در اتصال فراوانی‌مبنای رکوردها معرفی می‌شود، بر اساس فرض استقلال شرطی بنا شده‌اند. در برخی مسائل اتصال رکوردی، در تطابق و عدم تطابق میان متغیرهای مشترک مورد استفاده در جورسازی، فرض استقلال شرطی برقرار نیست. یک راهکار مورد استفاده در چنین حالتی، استفاده از مدل لگ-خطی است که امکان وجود اثرات متقابل میان متغیرهای جورسازی در مدل را فراهم می‌کند. ‎‎‎
در این ‏مقاله به دو روش تعمیم مدل فلگی ‎‐‎سانتر، یکی با رویکرد اصلاح وزن‌های جورسازی و دیگری با رویکرد مدل لگ‎‌‎خطی با حضور اثرات متقابل میان متغیرهای اتصال‌دهنده در شرایطی که فرض استقلال شرطی برقرار نباشد‏، پرداخته می‌شود. روش‌های معرفی شده برای اتصال رکوردی در این مقاله، روی مجموعه‌داده‌های نیروی کار مرکز آمار ایران با استفاده از نرم‌افزار ‎R‎ پیاده‌سازی شده‌اند. 
واژه‌های کلیدی: مدل فلگی-سانتر، جورسازی فراوانی‌مبنا، اصلاح وزن‌ها، استقلال شرطی، مدل لگ‌خطی
متن کامل [PDF 334 kb]   (1333 دریافت)    
نوع مطالعه: كاربردي و توسعه ای | موضوع مقاله: آمار رسمی
دریافت: 1401/5/20 | پذیرش: 1402/6/10 | انتشار: 1402/4/20
فهرست منابع
1. ‎‌آقامحمدی، ژ. و رضائی قهرودی، ز. ‎(1401)‎. اتصال رکوردی با روش‌های یادگیری ماشین‎‎ ‌، ‎مجله علوم آماری, جلد ١۶ ، شماره ١‎.
2. موفقی اردستانی ، ع. و رضائی قهرودی ‎ز. ‎(1401)‎. تعمیم چارچوب فلگی-سانتر در اتصال رکوردی فراوانی‌مبنا‎‎، پایان‌نامه، دانشگاه تهران‎.
3. ‎Arasu‎, ‎A.‎, ‎Götz‎, ‎M.‎, ‎and Kaushik‎, ‎R‎. ‎(2010)‎, ‎On Active Learning of Record Matching Packages‎, ‎Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data‎: ‎783-794‎. [DOI:10.1145/1807167.1807252]
4. ‎Beltadze‎, ‎D‎. ‎(2020)‎, ‎Developing Methodology for the Register-based Census in Estonia‎, Statistical Journal of The IAOS‎, 36‎: ‎159-164‎. [DOI:10.3233/SJI-190585]
5. ‎Blackwell‎, ‎L.‎, ‎Charlesworth‎, ‎A‎. ‎and Rogers‎, ‎N (2015)‎, ‎Linkage of Census and Administrative Data to Quality Assure the 2011 Census for England and Wales‎, Journal of Official Statistics‎, 31‎: ‎453-473‎. [DOI:10.1515/jos-2015-0027]
6. ‎Christen‎, ‎P‎. ‎(2012)‎, Data Matching‎: ‎Concepts and Techniques for Record Linkage‎, ‎Entity Resolution‎, ‎and Duplicate Detection}‎, ‎Springer‎. [DOI:10.1007/978-3-642-31164-2]
7. ‎Churches‎, ‎T‎. ‎(2003)‎, ‎A Proposed Architecture and Method of Operation for Improving the Potection of Privacy and Confidentiality in Disease Registers‎, BMC Medical Research Methodology, 3:1-13‎. [DOI:10.1186/1471-2288-3-1] [PMID] []
8. ‎Cochinwala‎, ‎M.‎, ‎Kurien‎, ‎V.‎, ‎Lalk‎, ‎G‎. ‎and Shasha‎, ‎D‎. ‎(2001)‎, ‎Efficient Data Reconciliation‎, Information Sciences‎, 137‎, ‎1-15. ‎‎ [DOI:10.1016/S0020-0255(00)00070-0]
9. Cochran, W. G. (1977). Sampling ‎techniques‎. John Wiley & Sons.
10. ‎Dunn‎, ‎H‎. ‎(1946)‎, ‎Record linkage‎, American Journal of Public Health and the Nations Health‎, 36‎, ‎1412-1416‎. [DOI:10.2105/AJPH.36.12.1412] []
11. ‎Elfeky‎, ‎M.‎, ‎Verykios‎, ‎V.‎, ‎Elmagarmid‎, ‎A.‎, ‎Ghanem‎, ‎T‎. ‎and Huwait‎, ‎A (2003)‎, Record linkage‎: ‎A Machine Learning Approach‎, ‎a Toolbox‎, ‎and a Digital Government Web Service‎, ‎Purdue University‎, ‎Department of Computer Science‎.
12. ‎Fair‎, ‎M‎. ‎(2004)‎, ‎Generalized Record Linkage System-Statistics Canada's Record Linkage Software‎, Austrian Journal of Statistics‎, 33‎, ‎37-53‎.
13. ‎Fellegi‎, ‎I‎. ‎and Sunter‎, ‎A‎. ‎(1969)‎, ‎A Theory for Record Linkage‎, Journal of the American Statistical Association‎, ‎ 64‎, ‎1183-1210‎. [DOI:10.2307/2286061]
14. ‎Gardner‎, ‎E.‎, ‎Miles‎, ‎H.‎, ‎Bahn‎, ‎A‎. ‎and Romano‎, ‎J‎. ‎(1963)‎. ‎All Psychiatric Experience in a Community‎: ‎A Cumulative Survey‎: ‎Report of the First Year's Experience‎, Archives of General Psychiatry‎, 9‎, ‎369-378‎. [DOI:10.1001/archpsyc.1963.01720160059007] [PMID]
15. Guha‎, ‎S.‎, ‎Reiter‎, ‎J‎. ‎and Mercatanti‎, ‎A‎. ‎(2020)‎. ‎Bayesian Causal Inference with Bipartite Record Linkage‎. ArXiv Preprint ArXiv:2002.09119‎.
16. ‎Han‎, ‎J.‎, ‎Pei‎, ‎J‎. ‎and Kamber‎, ‎M‎. ‎(2011)‎. Data Mining‎: ‎Concepts and Techniques‎, ‎Elsevier‎.
17. ‎Hovy‎, ‎D‎. ‎(2020)‎. ‎ Text Analysis in Python for Social Scientists‎: ‎Discovery and Exploration‎, ‎Cambridge University Press‎. [DOI:10.1017/9781108873352] [PMID] []
18. ‎James‎, ‎G.‎, ‎Witten‎, ‎D.‎, ‎Hastie‎, ‎T‎. ‎and Tibshirani‎, ‎R‎. ‎(2013)‎. An Introduction to Statistical Learning‎, ‎Springer‎.
19. ‎Jaro‎, ‎M‎. ‎(1989)‎. ‎Advances in Record-linkage Methodology as Applied to Matching the 1985 Census of Tampa‎, ‎Florida‎, Journal of the American Statistical Association‎, 84‎, ‎414-420‎. [DOI:10.2307/2289924]
20. Li, X., Xu, H., Shen, C., & Grannis, S. (2018). Automated linkage of patient records from disparate sources. Statistical Methods in Medical Research, 27 (1), 172-184. [DOI:10.1177/0962280215626180] [PMID]
21. ‎Mancini‎, ‎L.‎, ‎Valentino‎, ‎L.‎, ‎Borrelli‎, ‎F‎. ‎and Marcone‎, ‎L‎. ‎(2012)‎. ‎Record Linkage Between Large Dataset‎: ‎Evidence from the 15 th Italian Population Census‎, Quaderni Di Statistica‎, 14‎, ‎149-152‎.
22. ‎ McVeigh,‎ ‎B.‎, ‎Spahn‎, ‎B‎. ‎and Murray‎, ‎J‎. ‎(2019)‎. ‎Scaling Bayesian probabilistic record linkage with post-hoc blocking‎: ‎An application to the California Great Registers‎, ArXiv Preprint ArXiv:1905.05337‎.
23. ‎Michelson‎, ‎M‎. ‎and Knoblock‎, ‎C (2006)‎. ‎Learning Blocking Schemes for Record Linkage‎, American Association for Artificial Intelligence‎, 6‎, ‎440-445‎.
24. ‎Newcombe‎, ‎H‎. ‎and Kennedy‎, ‎J‎. ‎(1962)‎. ‎Record Linkage‎: ‎Making Maximum Use of the Discriminating Power of Identifying Information‎, Communications of the ACM‎, 5‎, ‎563-566‎. [DOI:10.1145/368996.369026]
25. ‎Newcombe‎, ‎H.‎, ‎Kennedy‎, ‎J.‎, ‎Axford‎, ‎S‎. ‎and James‎, ‎A (1959)‎. ‎Automatic Linkage of Vital Records‎, Science‎, 130‎, ‎954-959‎. [DOI:10.1126/science.130.3381.954] [PMID]
26. ‎Rahm‎, ‎E‎. ‎and Do‎, ‎H‎. ‎(2000)‎. ‎Data Cleaning‎: ‎Problems and Current Approaches‎, IEEE Data Eng‎. ‎Bull, 23‎, ‎3-13‎.
27. ‎Sadinle‎, ‎M‎. ‎(2017)‎. ‎Bayesian Estimation of Bipartite Matchings for Record Linkage‎, Journal of the American Statistical Association‎, 112‎, ‎600-612‎. [DOI:10.1080/01621459.2016.1148612]
28. ‎Sarawagi‎, ‎S‎. ‎(2008)‎. ‎Information extraction‎, ‎ Foundations and Trends in Databases‎, 1 (3)‎, ‎261-377‎, http://dx.doi.org/10.1561/1900000003‎. [DOI:10.1561/1900000003]
29. Schürle, J. (2005). A method for consideration of conditional dependencies in the Fellegi and Sunter model of record linkage. Statistical Papers, 46(3), 433-449 [DOI:10.1007/BF02762843]
30. ‎Winkler‎, ‎W‎. ‎E.‎, ‎& Thibaudeau‎, ‎Y‎. ‎(1991)‎. ‎An Application of the Fellegi-Sunter Model of Record Linkage to the 1990 US Decennial Census‎. ‎Washington‎, ‎DC‎: ‎US Bureau of the Census‎.
31. ‎Winkler‎, ‎W‎. ‎(1993)‎. ‎Improved Decision Rules in the Fellegi-Sunter Model of Record Linkage‎. ‎ Proceedings of the Section on Survey Research Methods‎, ‎American Statistical Association‎, ‎829-834‎.‎
32. ‎ ‎Xu, H., Li, X., & Grannis, S. (2022). A simple two-step procedure using the Fellegi-Sunter model for frequency-based record linkage. Journal of Applied Statistics, 49 (11), 2789-2804. [DOI:10.1080/02664763.2021.1922615] [PMID] []
ارسال پیام به نویسنده مسئول

ارسال نظر درباره این مقاله
نام کاربری یا پست الکترونیک شما:

CAPTCHA



XML   English Abstract   Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Movaffaghi Ardestani A, Rezaei Ghahroodi Z. Improving Fellegi-Sunter ‎model in record linkage using log-linear model and weight ‎adjustment ‎. JSS 2023; 17 (1)
URL: http://jss.irstat.ir/article-1-813-fa.html

موفقی اردستانی علیرضا، رضائی قهرودی زهرا. بهبود مدل فلگی-سانتر در اتصال رکوردی با استفاده از مدل لگ‌خطی و اصلاح وزن. مجله علوم آماری. 1402; 17 (1)

URL: http://jss.irstat.ir/article-1-813-fa.html



بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.
جلد 17، شماره 1 - ( 6-1402 ) برگشت به فهرست نسخه ها
مجله علوم آماری – نشریه علمی پژوهشی انجمن آمار ایران Journal of Statistical Sciences

Persian site map - English site map - Created in 0.07 seconds with 45 queries by YEKTAWEB 4703