Model-Based Prediction and Estimation Using Incomplete Survey Data
- Survey data can be viewed as incomplete or partially missing from a variety of perspectives and there are different ways of dealing with this kind of data in the prediction and the estimation of economic quantities. In this thesis, we present two selected research contexts in which the prediction or estimation of economic quantities is examined under incomplete survey data. These contexts are first the investigation of composite estimators in the German Microcensus (Chapters 3 and 4) and second extensions of multivariate Fay-Herriot (MFH) models (Chapters 5 and 6), which are applied to small area problems. Composite estimators are estimation methods that take into account the sample overlap in rotating panel surveys such as the German Microcensus in order to stabilise the estimation of the statistics of interest (e.g. employment statistics). Due to the partial sample overlaps, information from previous samples is only available for some of the respondents, so the data are partially missing. MFH models are model-based estimation methods that work with aggregated survey data in order to obtain more precise estimation results for small area problems compared to classical estimation methods. In these models, several variables of interest are modelled simultaneously. The survey estimates of these variables, which are used as input in the MFH models, are often partially missing. If the domains of interest are not explicitly accounted for in a sampling design, the sizes of the samples allocated to them can, by chance, be small. As a result, it can happen that either no estimates can be calculated at all or that the estimated values are not published by statistical offices because their variances are too large.
- Survey Daten können unter verschiedensten Blickwinkeln als unvollständig bzw. als partiell fehlend angesehen werden und es gibt verschiedene Möglichkeiten, mit diesen Daten in der Prädiktion und Schätzung interessierender volkswirtschaftlicher Größen umzugehen. In dieser Arbeit werden zwei ausgewählte Forschungskontexte vorgestellt, in denen die Prädiktion bzw. Schätzung unter unvollständigen Survey Daten untersucht wird. Diese Kontexte sind zum einen die Untersuchung zusammengesetzter Schätzer im deutschen Mikrozensus (Kapitel 3 und 4) und zum anderen Erweiterungen multivariater Fay-Herriot (MFH) Modelle (Kapitel 5 und 6), die bei Small Area Problemen Anwendung finden. Zusammengesetzte Schätzer sind Schätzmethoden, die die Stichprobenüberlappung in rotierenden Panel Surveys wie dem deutschen Mikrozensus zur Stabilisierung der Schätzung interessierender Größen (z.B. Erwerbsstatistiken) nutzen. Durch die partiellen Stichprobenüberlappungen in rotierenden Panel Surveys liegen immer nur für einen Teil der Befragten Informationen aus vorangegangenen Erhebungen vor. Die resultierenden Daten sind damit partiell fehlend. MFH Modelle sind modellbasierte Schätzmethoden, die mit aggregierten Survey Daten arbeiten, um im Vergleich zu klassischen Schätzmethoden präzisere Schätzergebnisse für Small Area Probleme zu erhalten. In den Modellen werden mehrere interessierende Größen gleichzeitig modelliert. Die Survey-Schätzwerte dieser Größen, die in MFH Modelle als Input eingehen, sind häufig partiell fehlend. Wenn die interessierenden Domains nicht explizit im Stichprobendesign berücksichtigt wurden, kann es sein, dass die Größe der Stichprobe, die auf sie entfällt, so klein ist, dass entweder gar keine Schätzwerte berechnet werden können oder aber die Schätzwerte von statistischen Ämtern nicht veröffentlicht werden, da ihre Varianzen zu groß ist. Nach einem Überblick zu theoretischen und methodischen Grundlagen der Survey Statistik in Kapitel 2 stellt Kapitel 3 die Generierung eines Längsschnittdatensatz vor, auf Basis dessen in Kapitel 4 designbasierte Simulationsstudien zum Einsatz von zusammengesetzten Schätzern im Mikrozensus durchgeführt werden. Für diese Studien wird ein Längsschnittdatensatz mit monatlichen Erwerbsinformationen benötigt, der die deutsche Wohnbevölkerung abbildet. Auf Grundlage des SIAB Datensatzes werden Prädiktionsmodelle für monatliche Erwerbsübergänge geschätzt, mit denen monatliche Erwerbsinformationen im RIFOSS Datensatz, einem halb-synthetischen Querschnittdatensatz der deutschen Wohnbevölkerung, generiert werden. Für die Prädiktionsmodelle werden mehrere generalisierte additive Modelle, die jeweils auf Substichproben der aufbereiteten SIAB Daten geschätzt werden (Subagging), zu optimal gewichteten Ensemble Modellen (Stacking) verbunden. In der Optimierung der Ensemble Gewichte wird eine in diesem Kapitel vorgestellte Erweiterung des Brier Scores verwendet. In Kapitel 4 wird der Einsatz von zusammengesetzten Schätzern für Erwerbsstatistiken im deutschen Mikrozensus untersucht. Das Design des deutschen Mikrozensus wurde 2020 wesentlichen Änderungen unterzogen, welche neue Möglichkeiten für den Einsatz dieser Schätzmethoden schaffen. In dem Kapitel wird analysiert, welche Einsatzmöglichkeiten sich für zusammengesetzte Schätzer aus dem neuen Mikrozensus Design ergeben. Beispielsweise bieten sich verschiedene Stichprobenüberlappungen zu vorangegangenen Zeitpunkten für die Nutzung in den zusammengesetzten Schätzern an. Zusätzlich werden Anpassungen der Formeln der zusammengesetzten Schätzer für die sich aus dem Mikrozensus Design ergebenden regional heterogenen Stichprobenüberlappungen vorgestellt. In einer designbasierten Simulationsstudie, deren Basis der in Kapitel 3 erstellte Datensatz ist, wird die Performanz der angepassten Methoden unter verschiedenen Sets an Stichprobenüberlappungen für verschiedene Erwerbsstatistiken verglichen. Im Fokus von Kapitel 5 und 6 stehen unvollständige aggregierte Survey-Schätzwerte, die zur Small Area Schätzung in MFH Modellen verwendet werden. Mit den Beiträgen der beiden Kapitel ist es möglich, die unter den jeweiligen Modellen sogenannten besten Prädiktoren multivariater Domain-Indikatoren zu berechnen, auch wenn die in die Modelle eingehenden Survey-Schätzwerte partiell fehlen. Kapitel 5 beschäftigt sich mit den besten Prädiktoren von (potenziell nicht-linearen) Indikatoren unter MFH Modellen. Ein nicht-linearer Indikator kann beispielsweise die Erwerbslosenrate sein. Für diese und andere Indikatoren werden häufig Plug-in Schätzer genutzt. Als Alternative werden in Kapitel 5 die MSE-optimalen Prädiktoren von Domain-Indikatoren unter MFH Modellen untersucht. Diese sind als mehrdimensionale Integrale gegeben, die sich im generellen Fall nicht analytisch berechnen lassen. Es werden deswegen verschiedene Methoden zur Approximation dieser Integrale verglichen. Zur MSE Schätzung werden parametrische Bootstrap Prozeduren vorgestellt. In modellbasierten Simulationsstudien werden die verschiedenen Approximationen evaluiert und ihre Performanz mit der Performanz der entsprechenden Plug-in Prädiktoren verglichen. Des Weiteren werden die MSE Schätzer evaluiert. Die vorgestellte Methode wird anhand der Schätzung der Erwerbslosenrate in Kreuzkombinationen spanischer Provinzen mit Alters- und Geschlechtsklassen illustriert. Dazu werden öffentlich zugängliche Mikrodaten der spanischen Arbeitskräfteerhebung verwendet. MFH Modelle können nur auf Grundlage der Domain-Informationen geschätzt werden, für die Survey-Schätzwerte für alle abhängigen Variablen vorliegen, was ihre Anwendbarkeit in der Praxis wesentlich beschränkt. In Kapitel 6 wird eine Generalisierung von MFH Modellen für partiell fehlende Werte, genannt MMFH Modelle, vorgestellt. Für die MMFH Modelle werden Algorithmen zur ML und REML Parameterschätzung gegeben und die Formeln für die besten Prädiktoren unter dem Modell sowie deren MSE Schätzer hergeleitet. In einer modellbasierten Simulationsstudie werden die vorgestellten MMFH Algorithmen und Formeln validiert. Des Weiteren wird ihre Performanz mit der Performanz der entsprechenden univariaten und multivariaten Fay-Herriot Modelle verglichen. Eine illustrative Anwendung basierend auf öffentlich zugänglichen Daten des U.S. Zensus Büros zeigt die praktische Notwendigkeit der vorgestellten Methode sowie ihre Anwendbarkeit. Kapitel 7 fasst die Beiträge und Ergebnisse der Arbeit abschließend zusammen.
Author: | Anna-Lena Wölwer |
---|---|
URN: | urn:nbn:de:hbz:385-1-19611 |
DOI: | https://doi.org/10.25353/ubtr-xxxx-25a6-5f2c |
Referee: | Ralf Münnich, Domingo Morales |
Advisor: | Ralf Münnich |
Document Type: | Doctoral Thesis |
Language: | English |
Date of completion: | 2023/01/29 |
Publishing institution: | Universität Trier |
Granting institution: | Universität Trier, Fachbereich 4 |
Date of final exam: | 2022/12/09 |
Release Date: | 2023/01/31 |
Tag: | employment estimation; missing data; small area estimation; statistical modelling; survey statistics |
GND Keyword: | Deutschland; Erwerbstätigkeitsstatistik; Mikrozensus; Schätzung; Unvollkommene Information |
Number of pages: | xix, 223 Blätter |
First page: | ii |
Last page: | 223 |
Institutes: | Fachbereich 4 |
Dewey Decimal Classification: | 3 Sozialwissenschaften / 33 Wirtschaft / 330 Wirtschaft |
Licence (German): | CC BY-SA: Creative-Commons-Lizenz 4.0 International |