Optimization for Multivariate and Multi-domain Methods in Survey Statistics
Optimierung für multivariate Methoden unter Berücksichtigung mehrerer Schichtungsebenen in der Survey Statistik
- The dissertation deals with methods to improve design-based and model-assisted estimation techniques for surveys in a finite population framework. The focus is on the development of the statistical methodology as well as their implementation by means of tailor-made numerical optimization strategies. In that regard, the developed methods aim at computing statistics for several potentially conflicting variables of interest at aggregated and disaggregated levels of the population on the basis of one single survey. The work can be divided into two main research questions, which are briefly explained in the following sections.
First, an optimal multivariate allocation method is developed taking into account several stratification levels. This approach results in a multi-objective optimization problem due to the simultaneous consideration of several variables of interest. In preparation for the numerical solution, several scalarization and standardization techniques are presented, which represent the different preferences of potential users. In addition, it is shown that by solving the problem scalarized with a weighted sum for all combinations of weights, the entire Pareto frontier of the original problem can be generated. By exploiting the special structure of the problem, the scalarized problems can be efficiently solved by a semismooth Newton method. In order to apply this numerical method to other scalarization techniques as well, an alternative approach is suggested, which traces the problem back to the weighted sum case. To address regional estimation quality requirements at multiple stratification levels, the potential use of upper bounds for regional variances is integrated into the method. In addition to restrictions on regional estimates, the method enables the consideration of box-constraints for the stratum-specific sample sizes, allowing minimum and maximum stratum-specific sampling fractions to be defined.
In addition to the allocation method, a generalized calibration method is developed, which is supposed to achieve coherent and efficient estimates at different stratification levels. The developed calibration method takes into account a very large number of benchmarks at different stratification levels, which may be obtained from different sources such as registers, paradata or other surveys using different estimation techniques. In order to incorporate the heterogeneous quality and the multitude of benchmarks, a relaxation of selected benchmarks is proposed. In that regard, predefined tolerances are assigned to problematic benchmarks at low aggregation levels in order to avoid an exact fulfillment. In addition, the generalized calibration method allows the use of box-constraints for the correction weights in order to avoid an extremely high variation of the weights. Furthermore, a variance estimation by means of a rescaling bootstrap is presented.
Both developed methods are analyzed and compared with existing methods in extensive simulation studies on the basis of a realistic synthetic data set of all households in Germany. Due to the similar requirements and objectives, both methods can be successively applied to a single survey in order to combine their efficiency advantages. In addition, both methods can be solved in a time-efficient manner using very comparable optimization approaches. These are based on transformations of the optimality conditions. The dimension of the resulting system of equations is ultimately independent of the dimension of the original problem, which enables the application even for very large problem instances.
- Diese Dissertation behandelt Methoden zur Verbesserung der Schätzgüte von designbasierten und modell-assistierten Schätzern für Stichprobenerhebungen auf Basis finiter Populationen. Sie befasst sich sowohl mit der Entwicklung der statistischen Methoden als auch mit deren Umsetzung mittels darauf zugeschnittener numerischer Optimierungsstrategien. Dabei steht die Erstellung von Statistiken für mehrere potenziell konfliktäre interessierende Variablen auf unterschiedlichen Ebenen der Population anhand einer einzigen Erhebung in Mittelpunkt. Die Arbeit lässt sich in zwei Hauptforschungsfragen untergliedern, die in den folgenden beiden Abschnitten kurz erläutert werden.
Zum einen wird eine optimale multivariate Allokationsmethode unter Beachtung mehrerer Schichtungsebenen entwickelt. Durch die gleichzeitige Berücksichtigung verschiedener interessierender Variablen führt die Anwendung einer optimalen Allokation zu einem Mehrzieloptimierungsproblem. Als Vorbereitung der numerischen Lösung werden neben Standardisierungsverfahren insbesondere auch mehrere Skalarisierungsverfahren vorgestellt, die die unterschiedlichen Präferenzen möglicher Anwender abbilden. Zudem wird gezeigt, dass sich durch die Lösung des mit einer gewichteten Summe skalarisierten Problems für alle Gewichtekombinationen die gesamte Pareto Front des Ursprungsproblems erzeugen lässt. Durch die Nutzung der speziellen Struktur des mit einer gewichteten Summe skalarisierten Problems lässt sich dieses sehr effizient mit Hilfe eines semismooth Newton Verfahrens lösen. Um diese numerische Methode auch für andere Skalarisierungsmethoden anwenden zu können, wird eine alternative Vorgehensweise vorgeschlagen, die das Problem auf das gewichtete Summe Problem zurückführt. Zur Berücksichtigung von Anforderungen an regionale Schätzqualitäten auf mehreren Schichtungsebenen wird die Verwendung von unteren Schranken für die Schätzqualität in das Modell integriert. Neben den Restriktionen für regionale Schätzungen ermöglicht die Methode auch die Verwendung von Box-Constraints für die schichtspezifischen Stichprobenumfänge, wodurch minimale und maximale schichtspezifische Auswahlsätze festgelegt werden können.
Neben der Allokationsmethode wird eine generalisierte Kalibrierungsmethode zur Erzielung kohärenter und effizienter Schätzungen auf unterschiedlichen Schichtungsebenen vorgestellt. Die entwickelte Methode ermöglicht dabei die Berücksichtigung einer sehr hohen Anzahl von Benchmarks auf unterschiedlichen Schichtungsebenen, die möglicherweise aus unterschiedlichen Quellen wie Registern, Paradaten oder anderen Umfragen mit unterschiedlichen Schätzmethoden gewonnen wurden. Um der heterogenen Qualität und dieser Vielzahl von Benchmarks gerecht zu werden, wird eine Relaxierung ausgewählter Benchmarks vorgeschlagen. Dabei werden problematischen Benchmarks auf niedrigen Aggregationsebenen vordefinierte Toleranzen zugeordnet, um eine exakte Erfüllung zu vermeiden. Darüber hinaus ermöglicht die generalisierte Kalibrierungsmethode die Verwendung von Box-Constraints für die Korrekturgewichte, um eine zu hohe Variation der Gewichte zu vermeiden. Des Weiteren wird eine Varianzschätzung mittels eines Rescaling Bootstraps vorgestellt.
Beide entwickelten Methoden werden in umfangreichen Simulationsstudien auf Basis eines realitätsnahen synthetischen Datensatzes aller Haushalte Deutschlands analysiert und mit existierenden Methoden verglichen. Aufgrund der bereits genannten ähnlichen Grundvoraussetzungen und Zielsetzungen beider Verfahren lassen diese sich sukzessive auf eine einzelne Stichprobenerhebung anwenden, um die jeweiligen Effizienzvorteile zu kombinieren. Zudem lassen sich beide Methoden anhand vergleichbarer Optimierungsansätze zeiteffizient lösen. Durch Umformungen der Optimalitätsbedingungen ist die Dimension des resultierenden Gleichungssystems letztendlich unabhängig von der Dimension des ursprünglichen Problems, was die Anwendung auf sehr großen Problemstellungen ermöglicht.