Regression Modelling with Complex Survey Data: An Investigation Using an Extended Close-to-Reality Simulated Household Population
- The Eurosystem's Household Finance and Consumption Survey (HFCS) collects micro data on private households' balance sheets, income and consumption. It is a stylised fact that wealth is unequally distributed and that the wealthiest own a large share of total wealth. For sample surveys which aim at measuring wealth and its distribution, this is a considerable problem. To overcome it, some of the country surveys under the HFCS umbrella try to sample a disproportionately large share of households that are likely to be wealthy, a technique referred to as oversampling. Ignoring such types of complex survey designs in the estimation of regression models can lead to severe problems. This thesis first illustrates such problems using data from the first wave of the HFCS and canonical regression models from the field of household finance and gives a first guideline for HFCS data users regarding the use of replicate weight sets for variance estimation using a variant of the bootstrap. A further investigation of the issue necessitates a design-based Monte Carlo simulation study. To this end, the already existing large close-to-reality synthetic simulation population AMELIA is extended with synthetic wealth data. We discuss different approaches to the generation of synthetic micro data in the context of the extension of a synthetic simulation population that was originally based on a different data source. We propose an additional approach that is suitable for the generation of highly skewed synthetic micro data in such a setting using a multiply-imputed survey data set. After a description of the survey designs employed in the first wave of the HFCS, we then construct new survey designs for AMELIA that share core features of the HFCS survey designs. A design-based Monte Carlo simulation study shows that while more conservative approaches to oversampling do not pose problems for the estimation of regression models if sampling weights are properly accounted for, the same does not necessarily hold for more extreme oversampling approaches. This issue should be further analysed in future research.
- Der Eurosystem Household Finance and Consumption Survey (HFCS) erhebt Mikrodaten zu Aktiva und Passiva, Einkommen und Konsumausgaben privater Haushalte. Es ist bekannt, dass Vermögen ungleich verteilt ist und dass die vermögendsten Personen bzw. Haushalte einen großen Anteil des Gesamtvermögens auf sich vereinigen. Für Stichprobenerhebungen deren Ziel die Messung des Vermögens und seiner Verteilung ist, stellt dieser Sachverhalt ein Problem dar. Um dieses zu lösen, versuchen einige der Erhebungen der HFCS-Initiative einen überproportional großen Anteil vermutlich vermögender Haushalte in die Stichprobe zu ziehen. Ein solches Vorgehen wird als Oversampling bezeichnet. Werden solche Arten komplexer Erhebungs-Designs bei der Schätzung von Regressionsmodellen ignoriert, so kann dies zu ernsthaften Problemen führen. Diese Arbeit zeigt zunächst solche Probleme anhand von Daten aus der ersten Welle des HFCS und von typischen Regressionsmodellen aus dem Bereich Household finance auf. Zudem wird eine erste Handlungsempfehlung an NutzerInnen der HFCS-Daten in Bezug auf die Nutzung von Replikationsgewicht-Sätzen für die Varianzschätzung mittels einer Variante des Bootstrap gegeben. Eine tiefergehende Untersuchung der Fragestellung verlangt eine design-basierte Monte-Carlo-Simulationsstudie. Zu diesem Zweck wird die bereits bestehende, große und realitätsnahe Simulationspopulation AMELIA um synthetische Vermögensdaten erweitert. Es werden verschiedene Methoden zur Generierung synthetischer Mikrodaten im Kontext der Erweiterung einer synthetischen Simulationspopulation, die auf einer anderen Datenbasis erzeugt wurde, diskutiert. Ein weiterer Ansatz, der zur Erzeugung stark schiefer, synthetischer Mikrodaten in einer solchen Ausgangslage mithilfe von mehrfach imputierten Erhebungsdaten geeignet ist, wird vorgeschlagen. Nach einer Beschreibung der in der ersten Welle des HFCS verwendeten Erhebungs-Designs werden neue Erhebungs-Designs für AMELIA erstellt. Diese spiegeln Kernaspekte der HFCS-Erhebungs-Designs wider. Eine design-basierte Monte-Carlo-Simulationsstudie zeigt, dass konservativere Varianten des Oversampling bei der Schätzung von Regressionsmodellen keine Probleme bereiten sofern Survey-Gewichte ordnungsgemäß eingebunden werden. Hingegen gilt dies nicht notwendigerweise für extremere Varianten des Oversampling. Dieses Problem sollte im Rahmen zukünftiger Forschung weiter untersucht werden.