Data Fusion in Official Statistics: An Evaluation of Classical versus Statistical Learning Approaches

  • Data fusions are becoming increasingly relevant in official statistics. The aim of a data fusion is to combine two or more data sources using statistical methods in order to be able to analyse different characteristics that were not jointly observed in one data source. Record linkage of official data sources using unique identifiers is often not possible due to methodological and legal restrictions. Appropriate data fusion methods are therefore of central importance in order to use the diverse data sources of official statistics more effectively and to be able to jointly analyse different characteristics. However, the literature lacks comprehensive evaluations of which fusion approaches provide promising results for which data constellations. Therefore, the central aim of this thesis is to evaluate a concrete plethora of possible fusion algorithms, which includes classical imputation approaches as well as statistical and machine learning methods, in selected data constellations. To specify and identify these data contexts, data and imputation-related scenario types of a data fusion are introduced: Explicit scenarios, implicit scenarios and imputation scenarios. From these three scenario types, fusion scenarios that are particularly relevant for official statistics are selected as the basis for the simulations and evaluations. The explicit scenarios are the fulfilment or violation of the Conditional Independence Assumption (CIA) and varying sample sizes of the data to be matched. Both aspects are likely to have a direct, that is, explicit, effect on the performance of different fusion methods. The summed sample size of the data sources to be fused and the scale level of the variable to be imputed are considered as implicit scenarios. Both aspects suggest or exclude the applicability of certain fusion methods due to the nature of the data. The univariate or simultaneous, multivariate imputation solution and the imputation of artificially generated or previously observed values in the case of metric characteristics serve as imputation scenarios. With regard to the concrete plethora of possible fusion algorithms, three classical imputation approaches are considered: Distance Hot Deck (DHD), the Regression Model (RM) and Predictive Mean Matching (PMM). With Decision Trees (DT) and Random Forest (RF), two prominent tree-based methods from the field of statistical learning are discussed in the context of data fusion. However, such prediction methods aim to predict individual values as accurately as possible, which can clash with the primary objective of data fusion, namely the reproduction of joint distributions. In addition, DT and RF only comprise univariate imputation solutions and, in the case of metric variables, artificially generated values are imputed instead of real observed values. Therefore, Predictive Value Matching (PVM) is introduced as a new, statistical learning-based nearest neighbour method, which could overcome the distributional disadvantages of DT and RF, offers a univariate and multivariate imputation solution and, in addition, imputes real and previously observed values for metric characteristics. All prediction methods can form the basis of the new PVM approach. In this thesis, PVM based on Decision Trees (PVM-DT) and Random Forest (PVM-RF) is considered. The underlying fusion methods are investigated in comprehensive simulations and evaluations. The evaluation of the various data fusion techniques focusses on the selected fusion scenarios. The basis for this is formed by two concrete and current use cases of data fusion in official statistics, the fusion of EU-SILC and the Household Budget Survey on the one hand and of the Tax Statistics and the Microcensus on the other. Both use cases show significant differences with regard to different fusion scenarios and thus serve the purpose of covering a variety of data constellations. Simulation designs are developed from both use cases, whereby the explicit scenarios in particular are incorporated into the simulations. The results show that PVM-RF in particular is a promising and universal fusion approach under compliance with the CIA. This is because PVM-RF provides satisfactory results for both categorical and metric variables to be imputed and also offers a univariate and multivariate imputation solution, regardless of the scale level. PMM also represents an adequate fusion method, but only in relation to metric characteristics. The results also imply that the application of statistical learning methods is both an opportunity and a risk. In the case of CIA violation, potential correlation-related exaggeration effects of DT and RF, and in some cases also of RM, can be useful. In contrast, the other methods induce poor results if the CIA is violated. However, if the CIA is fulfilled, there is a risk that the prediction methods RM, DT and RF will overestimate correlations. The size ratios of the studies to be fused in turn have a rather minor influence on the performance of fusion methods. This is an important indication that the larger dataset does not necessarily have to serve as a donor study, as was previously the case. The results of the simulations and evaluations provide concrete implications as to which data fusion methods should be used and considered under the selected data and imputation constellations. Science in general and official statistics in particular benefit from these implications. This is because they provide important indications for future data fusion projects in order to assess which specific data fusion method could provide adequate results along the data constellations analysed in this thesis. Furthermore, with PVM this thesis offers a promising methodological innovation for future data fusions and for imputation problems in general.
  • Datenfusionen sind in der amtlichen Statistik von stetig zunehmender Relevanz. Das Ziel einer Datenfusion besteht darin, zwei oder mehr Datenquellen über statistische Verfahren miteinander zu verbinden, um verschiedene Merkmale, die nicht zusammen in einer Datenquelle beobachtet wurden, gemeinsam auswerten zu können. Ein direktes Verknüpfen amtlicher Datenquellen anhand eindeutiger Identifikatoren ist aufgrund methodischer und rechtlicher Restriktionen häufig nicht möglich. Zielführende Datenfusionsmethoden sind daher von zentraler Bedeutung, um die vielfältigen Datenquellen der amtlichen Statistik effektiver nutzen und verschiedene Merkmale gemeinsam analysieren zu können. Allerdings fehlt es der Literatur an umfassenden Evaluationen dahingehend, welche Fusionsansätze unter welchen Datenkonstellationen vielversprechende Ergebnisse liefern. Das zentrale Ziel der vorliegenden Arbeit besteht deshalb darin, eine konkrete Bandbreite möglicher Fusionsalgorithmen, die neben klassischen Imputationsansätzen auch Verfahren des Statistical und Machine Learning umfasst, in ausgewählten Datenkonstellationen zu bewerten. Zur Spezifikation und Identifikation dieser Datenkontexte werden daten- und imputationsbezogene Szenarientypen einer Datenfusion eingeführt: Explizite Szenarien, implizite Szenarien und Imputationsszenarien. Aus diesen drei Szenarientypen werden für die amtliche Statistik besonders relevante Fusionsszenarien als Grundlage für die Simulationen und Evaluationen ausgewählt. Als explizite Szenarien dienen die Erfüllung oder Verletzung der zentralen Annahme bedingter Unabhängigkeit (CIA) sowie variierende Größenverhältnisse der zu fusionierenden Stichproben. Beide Aspekte dürften sich direkt, also explizit, auf die Performance verschiedener Fusionsmethoden auswirken. Als implizite Szenarien werden die addierte Stichprobengröße der zu fusionierenden Datenquellen sowie das Skalenniveau der zu imputierenden Variable betrachtet. Beide Aspekte legen aufgrund der Datenbeschaffenheit die Anwendbarkeit bestimmter Fusionsmethoden nahe oder schließen diese aus. Als Imputationsszenarien dienen die univariate oder simultane, multivariate Imputationslösung sowie die Imputation künstlich generierter oder bereits zuvor beobachteter Werte im Falle von metrischen Merkmalen. Bezüglich der konkreten Bandbreite möglicher Fusionsalgorithmen werden mit Distance Hot Deck (DHD), dem Regressionsmodell (RM) und Predictive Mean Matching (PMM) drei klassische Imputationsansätze betrachtet. Mit Decision Trees (DT) und Random Forest (RF) werden wiederum zwei prominente, baumbasierte Verfahren aus dem Statistical Learning-Bereich im Kontext der Datenfusion diskutiert. Derartige Prädiktionsverfahren zielen jedoch darauf ab, individuelle Werte möglichst präzise vorherzusagen, was mit dem vordergründigen Anspruch einer Datenfusion, der Reproduktion gemeinsamer Verteilungen, kollidieren kann. Zudem umfassen DT und RF lediglich univariate Imputationslösungen und es werden, im Falle metrischer Variablen, künstlich generierte statt real beobachtete Werte imputiert. Daher wird mit Predictive Value Matching (PVM) ein neues, Statistical Learning-basiertes Nächste-Nachbar-Verfahren vorgestellt, welches die verteilungstechnischen Nachteile von DT und RF überwinden könnte, eine uni- und multivariate Imputationslösung bietet und darüber hinaus, bezüglich metrischer Merkmale, reale und zuvor beobachtete Werte imputiert. Sämtliche Prädiktionsverfahren können dem neuen PVM-Ansatz zugrunde liegen. Im Rahmen dieser Arbeit wird PVM auf Basis von Decision Trees (PVM-DT) und Random Forest (PVM-RF) betrachtet. Die zugrundeliegenden Fusionsmethoden werden in umfassenden Simulationen und Evaluationen untersucht. Dabei fokussiert sich die Evaluation der verschiedenen Datenfusionsverfahren auf die ausgewählten Fusionsszenarien. Die Grundlage hierfür bilden zwei konkrete und aktuelle Anwendungsfälle der Datenfusion in der amtlichen Statistik, die Fusion von EU-SILC und Household Budget Survey einerseits sowie von Einkommensteuerstatistik und Mikrozensus andererseits. Beide Anwendungsfälle weisen wesentliche Unterschiede hinsichtlich verschiedener Fusionsszenarien auf und dienen somit dem Zweck, eine Vielzahl von Datenkonstellationen abzudecken. Aus beiden Anwendungsfällen werden Simulationsdesigns entwickelt, wobei insbesondere die expliziten Szenarien in die Simulationen eingearbeitet werden. Entlang der Ergebnisse erweist sich unter Erfüllung der CIA insbesondere PVM-RF als vielversprechender und universeller Fusionsansatz. Denn PVM-RF liefert sowohl für kategoriale, als auch für metrische zu imputierende Variablen zufriedenstellende Ergebnisse und bietet zudem, unabhängig vom Skalenniveau, eine uni- und multivariate Imputationslösung. Auch PMM stellt eine adäquate Fusionsmethode dar, jedoch nur in Bezug auf metrische Merkmale. Ebenfalls implizieren die Ergebnisse, dass die Anwendung der Statistical Learning-Methoden Chance und Risiko zugleich ist. Bei CIA-Verletzung können potentielle, auf Korrelationen bezogene Übertreibungseffekte von DT und RF, teilweise auch von RM, nützlich sein. Die übrigen Verfahren induzieren hingegen bei Verletzung der CIA schlechte Ergebnisse. Unter Erfüllung der CIA besteht jedoch das Risiko, dass die Prädiktionsmethoden RM, DT und RF Zusammenhänge überschätzen. Die Größenverhältnisse der zu fusionierenden Studien weisen wiederum einen eher untergeordneten Einfluss auf die Performance von Fusionsmethoden aus. Dies ist eine wichtige Implikation dahingehend, dass nicht zwangsläufig, wie bisher üblich, der größere Datensatz als Spenderstudie dienen muss. Die Ergebnisse der Simulationen und Evaluationen münden in konkrete Implikationen dahingehend, welche Datenfusionsmethoden unter den ausgewählten Daten- und Imputationskonstellationen verwendet und betrachtet werden sollten. Von diesen Implikationen profitiert die Wissenschaft im Allgemeinen sowie die amtliche Statistik im Besonderen. Denn sie bieten für künftige Datenfusionsvorhaben wichtige Anhaltspunkte, um zu beurteilen, welche konkrete Datenfusionsmethode adäquate Ergebnisse entlang der in dieser Arbeit untersuchten Datenkonstellationen liefern könnte. Ebenfalls bietet die Arbeit mit PVM eine vielversprechende, methodische Innovation für künftige Datenfusionen sowie für Imputationsprobleme im Allgemeinen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Jannik Schaller
URN:urn:nbn:de:hbz:385-1-22144
DOI:https://doi.org/10.25353/ubtr-a75e-12d4-4273
Referee:Ralf Münnich, Hans Kiesl
Advisor:Ralf Münnich
Document Type:Doctoral Thesis
Language:English
Date of completion:2024/03/12
Publishing institution:Universität Trier
Granting institution:Universität Trier, Fachbereich 4
Date of final exam:2023/10/18
Release Date:2024/03/19
Tag:Missing Data; Multi-Source Estimation; Official Statistics; Statistical Learning; Statistical Matching
GND Keyword:Amtliche Statistik; Datenfusion
Number of pages:xiv, 162 Seiten
First page:i
Last page:162
Licence (German):License LogoCC BY-NC-SA: Creative-Commons-Lizenz 4.0 International

$Rev: 13581 $