Optimization Methods and Large-Scale Algorithms in Small Area Estimation
- Sample surveys are a widely used and cost effective tool to gain information about a population under consideration. Nowadays, there is an increasing demand not only for information on the population level but also on the level of subpopulations. For some of these subpopulations of interest, however, very small subsample sizes might occur such that the application of traditional estimation methods is not expedient. In order to provide reliable information also for those so called small areas, small area estimation (SAE) methods combine auxiliary information and the sample data via a statistical model.
The present thesis deals, among other aspects, with the development of highly flexible and close to reality small area models. For this purpose, the penalized spline method is adequately modified which allows to determine the model parameters via the solution of an unconstrained optimization problem. Due to this optimization framework, the incorporation of shape constraints into the modeling process is achieved in terms of additional linear inequality constraints on the optimization problem. This results in small area estimators that allow for both the utilization of the penalized spline method as a highly flexible modeling technique and the incorporation of arbitrary shape constraints on the underlying P-spline function.
In order to incorporate multiple covariates, a tensor product approach is employed to extend the penalized spline method to multiple input variables. This leads to high-dimensional optimization problems for which naive solution algorithms yield an unjustifiable complexity in terms of runtime and in terms of memory requirements. By exploiting the underlying tensor nature, the present thesis provides adequate computationally efficient solution algorithms for the considered optimization problems and the related memory efficient, i.e. matrix-free, implementations. The crucial point thereby is the (repetitive) application of a matrix-free conjugated gradient method, whose runtime is drastically reduced by a matrx-free multigrid preconditioner.
- Im Rahmen von Stichprobenerhebungen ist es immer häufiger von Interesse nicht nur Statistiken für eine Grundgesamtheit, sondern auch für bestimmte Unterpopulationen auszuweisen. Dabei können mitunter sehr kleine Teilstichprobenumfänge auftreten, so dass klassische Schätzverfahren keine Schätzungen mit ausreichender Genauigkeit für diese Subgruppen mehr erlauben. Um trotz der teilweise sehr geringen Teilstichprobenumfänge noch akkurate Schätzungen für diese so genannten Small Areas zu ermöglichen, verbinden Small Area-Verfahren die erhobenen Stichprobendaten mit weiteren verfügbaren Hilfsinformationen über ein geeignetes statistisches Modell.
Die vorliegende Dissertation befasst sich unter anderem mit der Entwicklung von sehr flexiblen und realitätsnahen Modellen für die Small Area-Statistik. Dazu wird die penalisierte Spline-Methode in geeigneter Weise modifiziert und ermöglicht die Bestimmung der Modellparameter über die Lösung eines Optimierungsproblems. Auf Basis dieser Reformulierung lassen sich schließlich beliebige Shape-Constraints in Form von linearen Ungleichungsnebenbedingungen in das Optimierungsproblem einarbeiten. Es resultiert ein innovativer Small Area-Schätzer, welcher sowohl hochgradig komplexe Zusammenhänge in den Daten als auch Informationen über deren globalen Verlauf berücksichtigt.
Zur Berücksichtigung multipler Hilfsinformationen wird ein Tensorprodukt-Ansatz verwendet, welcher in hochdimensionalen Optimierungsproblemen resultiert, deren naive Lösung zu einem unvertretbar hohen Speicher- und Rechenaufwand führt. Unter Ausnutzung der zugrunde liegenden Tensorprodukt-Struktur werden in dieser Dissertation recheneffiziente Lösungsalgorithmen für die betrachteten Optimierungsprobleme hergeleitet und speichereffizient, d.h. Matrix-frei, implementiert. Kernpunkt dabei ist die (wiederholte) Anwendung eines matrixfreien Verfahrens der konjugierten Gradienten, dessen Laufzeit durch ein matrixfreies Mehrgitterverfahren als Präkonditionierer wesentlich reduziert wird.