• search hit 1 of 1
Back to Result List

## The interplay between sampling design and statistical modelling in small area estimation

### Das Zusammenspiel zwischen Stichprobendesign und statistischer Modellierung bei Small Area Schätzungen

• Surveys are commonly tailored to produce estimates of aggregate statistics with a desired level of precision. This may lead to very small sample sizes for subpopulations of interest, defined geographically or by content, which are not incorporated into the survey design. We refer to subpopulations where the sample size is too small to provide direct estimates with adequate precision as small areas or small domains. Despite the small sample sizes, reliable small area estimates are needed for economic and political decision making. Hence, model-based estimation techniques are used which increase the effective sample size by borrowing strength from other areas to provide accurate information for small areas. The paragraph above introduced small area estimation as a field of survey statistics where two conflicting philosophies of statistical inference meet: the design-based and the model-based approach. While the first approach is well suited for the precise estimation of aggregate statistics, the latter approach furnishes reliable small area estimates. In most applications, estimates for both large and small domains based on the same sample are needed. This poses a challenge to the survey planner, as the sampling design has to reflect different and potentially conflicting requirements simultaneously. In order to enable efficient design-based estimates for large domains, the sampling design should incorporate information related to the variables of interest. This may be achieved using stratification or sampling with unequal probabilities. Many model-based small area techniques require an ignorable sampling design such that after conditioning on the covariates the variable of interest does not contain further information about the sample membership. If this condition is not fulfilled, biased model-based estimates may result, as the model which holds for the sample is different from the one valid for the population. Hence, an optimisation of the sampling design without investigating the implications for model-based approaches will not be sufficient. Analogously, disregarding the design altogether and focussing only on the model is prone to failure as well. Instead, a profound knowledge of the interplay between the sample design and statistical modelling is a prerequisite for implementing an effective small area estimation strategy. In this work, we concentrate on two approaches to address this conflict. Our first approach takes the sampling design as given and can be used after the sample has been collected. It amounts to incorporate the survey design into the small area model to avoid biases stemming from informative sampling. Thus, once a model is validated for the sample, we know that it holds for the population as well. We derive such a procedure under a lognormal mixed model, which is a popular choice when the support of the dependent variable is limited to positive values. Besides, we propose a three pillar strategy to select the additional variable accounting for the design, based on a graphical examination of the relationship, a comparison of the predictive accuracy of the choices and a check regarding the normality assumptions.rnrnOur second approach to deal with the conflict is based on the notion that the design should allow applying a wide variety of analyses using the sample data. Thus, if the use of model-based estimation strategies can be anticipated before the sample is drawn, this should be reflected in the design. The same applies for the estimation of national statistics using design-based approaches. Therefore, we propose to construct the design such that the sampling mechanism is non-informative but allows for precise design-based estimates at an aggregate level.
• Traditionell werden Stichprobenerhebungen so geplant, dass nationale Statistiken mit einer adäquaten Präzision geschätzt werden können. Dies kann zu sehr kleinen Stichprobenumfängen für bestimmte Subpopulationen führen, so dass direkte, designbasierte Schätzmethoden keine Schätzungen für besagte Untergruppen mit einer akzeptablen Genauigkeit erlauben. Hier bietet sich die Verwendung modellbasierter Schätzverfahren an, welche auch bei kleinen Stichprobenumfängen noch präzise Schätzungen erlauben. Eine Besonderheit der modellbasierten Verfahren ist, dass in vielen Fällen keinerlei Designinformationen bei der Schätzung betrachtet werden. Hieraus können Verzerrungen resultieren, welche die Anwendbarkeit besagter modellbasierter Verfahren stark einschränken. Die vorliegende Arbeit beschäftigt sich daher speziell mit dem Zusammenspiel zwischen dem Stichprobendesign und statistischen Modellierungen im Bereich der Small Area " Statistik. Dabei werden insbesondere zwei Fragestellungen betrachtet: rn1. Wenn wir bereits wissen, dass wir später statistische Modelle für die Stichprobendaten schätzen müssen, wie können wir dann ein Stichprobendesign so ausgestalten, dass nationale Statistiken präzise geschätzt werden können, gleichzeitig aber keine Verzerrungen für modellbasierte Schätzverfahren resultieren?rn2. Wenn erst nach Ziehung der Stichprobe bekannt wird, dass modellbasierte Small Area " Schätzungen benötigt werden, wie können wir dabei das Stichprobendesign angemessen berücksichtigen, so dass Verzerrungen vermieden werden?rnrnIn dieser Arbeit werden nach einer Vorstellung des obigen Zielkonflikts designbasierte Schätzmethoden vorgestellt, die für große und geplante Domains ausreichend präzise Ergebnisse liefern. Anschließend werden gängige modellbasierte Small Area - Schätzverfahren vorgestellt, wobei neben der Mittelwertschätzung aus gemischten linearen Modellen ein Schwerpunkt auf die Small Area - Schätzung unter nicht-linearen Transformationen gelegt wird. Schließlich werden verschiedene Ansätze zur Auswahl eines geeigneten statistischen Modells sowie zur Überprüfung der Modellannahmen diskutiert und anhand zweier Datensätze illustriert.rnIm Folgenden wird das Problem der Verzerrungen modellbasierter Verfahren aufgrund des Stichprobendesigns ausführlich erörtert und verschiedene Lösungsstrategien für gemischte lineare Modelle präsentiert. Darauf aufbauend werden Vorschläge zur Vermeidung besagter Verzerrungen für den optimalen Schätzer unter einem lognormalverteilten gemischten Modell bei Unit Level " Informationen entwickelt. Dieses Problem wurde bislang in der Literatur noch vernachlässigt. Als Lösungsansatz wird in dieser Arbeit ein optimaler Schätzer unter einem erweiterten Modell vorgeschlagen, wobei das Modell durch die Berücksichtigung einer Funktion des Design-Gewichts als zusätzlicher Kovariable ergänzt wird. Für diesen Schätzer werden anschließend Ansätze zur Schätzung des mittleren quadratischen Fehlers (MSE) herausgearbeitet. Die Ergebnisse einer Simulationsstudie demonstrieren die Eignung des vorgeschlagenen Schätzers zur verlässlichen Schätzung trotz Verzerrungen aufgrund des Stichprobendesigns. rnAnschließend wird ein neues Konzept zur Vermeidung von informativen Stichprobendesigns erarbeitet, welches trotzdem eine präzise Schätzung von nationalen Statistiken mittels designbasierter Verfahren erlaubt. Das Konzept verfolgt die Idee, entsprechend einer Hilfsvariablen die Einheiten der Population so zu klumpen, dass die Einheiten innerhalb eines Klumpens möglichst heterogen sind. Es resultiert ein Stichprobendesign, welches die Schätzung von Modellen nicht stört, und für eine Vielzahl von praxisrelevanten Situationen eine präzise Schätzung nationaler Statistiken erlaubt. Dies wird für einige Modelle theoretisch nachgewiesen. Darüber hinaus erfolgt ein Vergleich mit anderen Varianzreduktionsverfahren im Rahmen von Simulationsstudien. Dabei zeigt sich auch das große Potenzial der entwickelten Methode zur Kompensation einer etwaigen Modellfehlspezifikation sowie zur präziseren modellbasierten Schätzung von Armutsgefährdungsquoten, wenn die Armutsgrenze aus der Stichprobe geschätzt werden soll.rnSchließlich werden in einem weiteren Kapitel ausgewählte Anwendungen von Small Area " Verfahren in einer designbasierten Umgebung mittels Simulationsstudien präsentiert. Die erste Anwendung bezieht sich auf die Small Area " Schätzung für Unternehmensstichproben. Hierbei stellt sich vor allem die Problematik extrem schiefer Verteilungen, so dass die Anwendbarkeit von Modellen sehr erschwert wird. Hiernach folgt die Schätzung von Beschäftigten- und Arbeitslosenzahlen anhand der Luxemburger Arbeitskräfteerhebung. Zum Schluss wird noch eine Studie zur Schätzung der Armutsgefährdungsquoten für Small Areas präsentiert. Hier wird neben der Frage, wie das Stichprobendesign aussehen könnte, insbesondere thematisiert, welche Art von Small Area " Modellierungen besonders aussichtsreich ist.

Author: Thomas Zimmermann urn:nbn:de:hbz:385-11208 https://doi.org/10.25353/UBTR-1671-5300-84XX Ralf Münnich Doctoral Thesis English 2018/02/09 Universität Trier Universität Trier, Fachbereich 4 2015/11/18 2018/02/09 Schätztheoriemodel-based estimation; official statistics Amtliche Statistik Fachbereich 4 / Wirtschaftswissenschaften 3 Sozialwissenschaften / 31 Statistiken / 310 Sammlungen allgemeiner Statistiken

\$Rev: 13581 \$