Design-based and model-based estimation in adaptive cluster sampling
Design-basierte und modell-basierte Schätzung in Adaptive-Cluster-Sampling-Methoden
- This dissertation looked at both design-based and model-based estimation for rare and clustered populations using the idea of the ACS design. The ACS design (Thompson, 2012, p. 319) starts with an initial sample that is selected by a probability sampling method. If any of the selected units meets a pre-specified condition, its neighboring units are added to the sample and observed. If any of the added units meets the pre-specified condition, its neighboring units are further added to the sample and observed. The procedure continues until there are no more units that meet the pre-specified condition. In this dissertation, the pre-specified condition is the detection of at least one animal in a selected unit. In the design-based estimation, three estimators were proposed under three specific design setting. The first design was stratified strip ACS design that is suitable for aerial or ship surveys. This was a case study in estimating population totals of African elephants. In this case, units/quadrant were observed only once during an aerial survey. The Des Raj estimator (Raj, 1956) was modified to obtain an unbiased estimate of the population total. The design was evaluated using simulated data with different levels of rarity and clusteredness. The design was also evaluated on real data of African elephants that was obtained from an aerial census conducted in parts of Kenya and Tanzania in October (dry season) 2013. In this study, the order in which the samples were observed was maintained. Re-ordering the samples by making use of the Murthy's estimator (Murthy, 1957) can produce more efficient estimates. Hence a possible extension of this study. The computation cost resulting from the n! permutations in the Murthy's estimator however, needs to be put into consideration. The second setting was when there exists an auxiliary variable that is negatively correlated with the study variable. The Murthy's estimator (Murthy, 1964) was modified. Situations when the modified estimator is preferable was given both in theory and simulations using simulated and two real data sets. The study variable for the real data sets was the distribution and counts of oryx and wildbeest. This was obtained from an aerial census that was conducted in parts of Kenya and Tanzania in October (dry season) 2013. Temperature was the auxiliary variable for two study variables. Temperature data was obtained from R package raster. The modified estimator provided more efficient estimates with lower bias compared to the original Murthy's estimator (Murthy, 1964). The modified estimator was also more efficient compared to the modified HH and the modified HT estimators of (Thompson, 2012, p. 319). In this study, one auxiliary variable is considered. A fruitful area for future research would be to incorporate multi-auxiliary information at the estimation phase of an ACS design. This could, in principle, be done by using for instance a multivariate extension of the product estimator (Singh, 1967) or by using the generalized regression estimator (Särndal et al., 1992). The third case under design-based estimation, studied the conjoint use of the stopping rule (Gattone and Di Battista, 2011) and the use of the without replacement of clusters (Dryver and Thompson, 2007). Each of these two methods was proposed to reduce the sampling cost though the use of the stopping rule results in biased estimates. Despite this bias, the new estimator resulted in higher efficiency gain in comparison to the without replacement of cluster design. It was also more efficient compared to the stratified design which is known to reduce final sample size when networks are truncated at stratum boundaries. The above evaluation was based on simulated and real data. The real data was the distribution and counts of hartebeest, elephants and oryx obtained in the same census as above. The bias attributed by the stopping rule has not been evaluated analytically. This may not be direct since the truncated network formed depends on the initial unit sampled (Gattone et al., 2016a). This and the order of the bias however, deserves further investigation as it may help in understanding the effect of the increase in the initial sample size together with the population characteristics on the efficiency of the proposed estimator. Chapter four modeled data that was obtained using the stratified strip ACS (as described in sub-section (3.1)). This was an extension of the model of Rapley and Welsh (2008) by modeling data that was obtained from a different design, the introduction of an auxiliary variable and the use of the without replacement of clusters mechanism. Ideally, model-based estimation does not depend on the design or rather how the sample was obtained. This is however, not the case if the design is informative; such as the ACS design. In this case, the procedure that was used to obtain the sample was incorporated in the model. Both model-based and design-based simulations were conducted using artificial and real data. The study and the auxiliary variable for the real data was the distribution and counts of elephants collected during an aerial census in parts of Kenya and Tanzania in October (dry season) and April (wet season) 2013 respectively. Areas of possible future research include predicting the population total of African elephants in all parks in Kenya. This can be achieved in an economical and reliable way by using the theory of SAE. Chapter five compared the different proposed strategies using the elephant data. Again the study variable was the elephant data from October (dry season) 2013 and the auxiliary variable was the elephant data from April (wet season) 2013. The results show that the choice of particular strategy to use depends on the characteristic of the population under study and the level and the direction of the correlation between the study and the auxiliary variable (if present). One general area of the ACS design that is still behind, is the implementation of the design in the field especially on animal populations. This is partly attributed by the challenges associated with the field implementation, some of which were discussed in section 2.3. Green et al. (2010) however, provides new insights in undertaking the ACS design during an aerial survey such as how the aircraft should turn while surveying neighboring units. A key point throughout the dissertation is the reduction of cost during a survey which can be seen by the reduction in the number of units in the final sample (through the use of stopping rule, use of stratification and truncating networks at stratum boundaries) and ensuring that units are observed only once (by using the without replacement of cluster sampling technique). The cost of surveying an edge unit(s) is assumed to be low in which case the efficiency of the ACS design relative to the non-adaptive design is achieved (Thompson and Collins, 2002). This is however not the case in aerial surveys as the aircraft flies at constant speed and height (Norton-Griffiths, 1978). Hence the cost of surveying an edge unit is the same as the cost of surveying a unit that meets the condition of interest. The without replacement of cluster technique plays a greater role of reducing the cost of sampling in such surveys. Other key points that motivated the sections in the dissertation include gains in efficiency (in all sections) and practicability of the designs in the specific setting. Even though the dissertation focused on animal populations, the methods can as well be implemented in any population that is rare and clustered such as in the study of forestry, plants, pollution, minerals and so on.
- In der vorliegenden Dissertation wurden sowohl design-, als auch modellbasierte Schätzverfahren für seltene und gleichzeitig geclusterte Populationen, unter Verwendung des ACS Designs, betrachtet. Das ACS Design (Thompson, 2012, p. 319) beginnt mit einer, mittels Probability Sampling, gezogenen Stichprobe. Falls eines der gezogenen Einheiten ein zuvor spezfiziertes Kriterium erfüllt, werden dessen benachbarten Einheiten der Stichprobe hinzugefügt und beobachtet. Falls die neu hinzugefügten Elemente ebenfalls die zuvor festgelegte Bedingung erfüllen, werden deren angrenzenden Einheiten ebenfalls zur Stichprobe hinzugefügt. Dieses Vorgehen wird so lange wiederholt, bis keines der ausgewählten Elemente mehr dem Auswahlkriterium entspricht. Im Rahmen der vorliegenden Dissertation ist das Auswahlkriterium als das Erfassen von mindestens einem Tier, in der betrachteten Einheit, definiert. Im Kontext der designbasierten Schätzung wurden jeweils drei Schätzer unter drei verschiedenen Designs untersucht. Das erste betrachtete Design ist stratified strip ACS, welches für Schiffs- oder auch Lufterhebungen geeignet ist. Anwendung fand dieses Vorgehen beispielsweise im Rahmen einer Fallstudie, welche den Totalwert afrikanischer Elefanten schätzte. In dieser Studie wurde jede Unit bzw. jeder Quadrant nur ein einziges mal während der Lufterhebung beobachtet. Der Des Raj Schätzer Raj (1956) wurde modifiziert, um unverzerrte Schätzer für den wahren Populationstotalwert zu erhalten. Die Evaluation des Designs wurde anhand eines simulierten Datensatzes mit unterschiedlichen Seltenheitsgraden und Clusterungsintensitäten durchgeführt. Ferner wurde ein Datensatz mit realen Beobachtungen afrikanischer Elefanten aus einem Luftzensus, welcher im Oktober (Trockenzeit) 2013 in Teilen Kenias und Tansanias durchgeführt wurde, zur Bewertung herangezogen. In der vorliegenden Studie wurde die Reihenfolge, in welcher die Stichproben beobachtet wurden, nicht verändert. Allerdings können durch Neuordnung und unter Verwendung des Murthy Schätzers (Murthy, 1957), effizientere Schätzwerte gewonnen werden - was eine denkbare Erweiterung dieser Arbeit darstellt. Die zusätzliche Berechnungszeit, die durch die n! Permutation bei der Verwendung des Murthy's Schätzer entsteht, muss bei einer solchen Überlegung allerdings berücksichtigt werden. Im zweiten betrachteten Design wurde eine Hilfsvariable verwendet, welche negativ mit der interessierenden Variable korreliert ist. Der Murthy Schätzer (Murthy, 1964) wurde hierfür modifiziert. Situationen, in denen der modifizierte Schätzer zu bevorzugen ist wurden sowohl theoretisch, als auch simulativ anhand synthetischer Daten und zwei realen Datensätzen dargestellt. Die Untersuchungsvariablen in den beiden realen Datensätzen waren jeweils das örtliche Vorkommen und die Anzahl von Gnus und Oryx Antilopen. Auch hier diente der Zensus aus Kenia und Tansania von 2013 als Datengrundlage. In beiden Studien wurde die Temperatur als Hilfsvariable herangezogen. Die Temperaturdaten wurden dem R Paket raster entnommen. Verglichen mit dem Originalschätzer nach Murthy (Murthy, 1964) lieferte der modifizierte Schätzer nicht nur effizientere Schätzwerte, sondern auch eine geringere Verzerrung. Darüber hinaus war der modifizierte Schätzer auch effizienter als die modifizierten HH und HT Schätzer nach (Thompson, 2012, p. 319). Im Rahmen dieser Arbeit wird lediglich eine Hilfsvariable betrachtet. Ein aussichtsreicher Bereich zukünftiger Forschung wäre es demnach, mehrere Hilfsvariablen in der Schätzphase eines ACS Designs zu berücksichtigen. Dies könnte grundsätzlich schon durch das Verwenden einer multivariaten Erweiterung des Produkt Schätzers (Singh, 1967) oder unter Zuhilfenahme des verallgemeinerten Regressionsschätzers (Särndal et al., 1992) erreicht werden. Der dritte, im designbasierten Kontext, betrachtete Fall untersuchte die Verwendung eines Abbruchkriteriums (Gattone and Di Battista, 2011) in Verbindung mit dem Nichtzurücklegen gezogener Cluster (Dryver and Thompson, 2007). Beide Methoden wurden jeweils entwickelt, um die Erhebungskosten zu reduzieren - wenngleich die Verwendung des Abbruchkriteriums zu verzerrten Ergebnissen führt. Trotz dieser Verzerrung resultierte der neue Schätzer in einem größeren Effizienzzuwachs als das alternative Design ohne Zurücklegen. Gleichzeitig war er ebenfalls effizienter als das stratifizierte Design, welches dafür bekannt ist, die endgültige Stichprobengröße zu verringern, wenn Netzwerke an Stratumgrenzen abgeschnitten werden. Die obige Evaluation basiert sowohl auf realen, wie auch synthetischen Daten. Die realen Daten, sowie die Anzahl und das örtliche Vorkommen von Elefanten und Oryx- und Kuhantilopen stammen aus dem bereits erwähnten Zensus zur Bestimmung des Wildbestands in Kenia und Tansania. Die Verzerrung, welche der Verwendung des Abbruchkriteriums zuzuschreiben ist, wurde nicht analytisch quantifiziert. Dieses Vorgehen mag nicht ganz korrekt sein, da das letztlich geformte, abgeschnittene Netzwerk von der ersten gezogenen Einheit abhängt (Gattone et al., 2016a). Weitere Nachforschungen bezüglich der Größenordnung der Verzerrungen sind daher erforderlich. Ziel ist es den Effekt, welcher die Erhöhung der ursprünglichen Stichprobengröße in Verbindung mit den Populationscharakteristika auf die Effizienz des vorgestellten Schätzers hat, besser nachvollziehen zu können. In Kapitel vier wurden Daten modelliert, welche anhand des stratified strip ACS (Unterkapitel (3.1)) gewonnen wurden. Dies stellt insofern eine Erweiterung des Modells von Rapley and Welsh (2008) dar, als dass die Daten anhand eines anderen als dem von den Autoren verwendeten Design modelliert werden und zusätzlich eine Hilfsvariable eingeführt wird. Im Idealfall hängt die modellbasierte Schätzung nicht vom gewählten Design beziehungsweise der Art wie die Stichprobe generiert wurde, ab. Dies trifft jedoch nicht zu, falls das Design informativ ist - wie es beim ACS Design der Fall ist. Also wurde in dieser Erweiterung die Vorgehensweise zur Stichprobengenerierung in das Modell integriert. Sowohl modell- als auch designbasierte Simulationen wurden mit realen und künstlichen Daten durchgeführt. Im Falle des Wildbestandzens, wäre ein potentiell denkbares Forschungsgebiet beispielsweise die Schätzung eines Populationstotalwertes aller in kenianischen Parks lebenden afrikanischen Elefanten. Dies kann über die Verwendung von SAE Methoden erreicht werden. In Kapitel 5 wurden die verschiedenen vorgeschlagenen Strategien anhand der Elefantendaten miteinander verglichen. Die Elefantendaten von Oktober (Trockenzeit) 2013 waren erneut die Studienvariable, während die Elefantendaten von April (Regenzeit) 2013 als Hilfsvariable fungierten. Die Resultate zeigen, dass die Wahl einer spezifischen Strategie sowohl von den Eigenschaften der Studienpopulation, als auch von der Stärke und der Richtung der Korrelation zwischen der Studienvariable und der Hilfsvariable abhängt (falls vorhanden). Ein Bereich des ACS Designs, in welchem immer noch Forschungsbedarf besteht, ist die Anwendung im Feld, besonders in Hinblick auf Tierpopulationen. Dieser Umstand kann nur zum Teil den Herausforderungen im Bereich der Feldimplementierung zugeschrieben werden, wie sie zum Teil in Kapitel 2.3 beschrieben wurden. Green et al. (2010) hingegen liefert neue Erkenntnisse wie das ACS Design während einer Lufterhebung angewendet werden kann - beispielsweise wie das Flugzeug sich drehen soll während benachbarte Einheiten erhoben werden. Die Kostenreduktion im Rahmen einer Erhebung stellt einen Kernpunkt der vorliegenden Dissertation dar. Eine solche ist an der verringerten Anzahl an Elementen in der finalen Stichprobe zu erkennen. Dies wurde wiederum durch die Verwendung eines Abbruchkriteriums, aber auch durch Stratifizierung und der Begrenzung von Netzwerken an Stratumgrenzen erreicht. Ebenso lassen sich die Kosten eines Surveys dadurch verringern, dass alle Einheiten nur ein einziges Mal observiert werden (durch das Ziehen von Clustern ohne Zurücklegen). Die Kosten, eine Randeinheit zu erheben, werden als gering angenommen. In diesem Fall ist das ACS Design effizienter als das nicht adaptive Design (Thompson and Collins, 2002). Dieses Ergebnis trifft allerdings nicht für Lufterhebungen zu. Da das Flugzeug mit einer konstanten Geschwindigkeit, sowie Höhe fliegt, sind die Kosten eine Randeinheit zu erheben identisch mit denen einer interessierenden Einheit (Norton-Griffiths, 1978). In solchen Erhebungen spielt das Ziehen von Clustern ohne Zurückzulegen eine wesentlich größere Rolle im Bereich der Kostenreduktion. Andere zentrale Punkte, welche die Kapitel dieser Dissertation motivierten, sind Effizienzzugewinne (in allen Kapiteln) und die Praktikabilität der Designs unter den spezifischen Rahmenbedingungen. Obwohl der Fokus der vorliegenden Arbeit auf dem Schätzen von Tierpopulationen liegt, können die vorgestellten Methoden auch in allen anderen Populationen umgesetzt werden, welche in kleiner Zahl und geclustert vorkommen. Als alternative Anwendungsfelder bieten sich demnach die Forstwirtschaft, Panzen, Umweltverschmutzung, Mineralien und Ähnliches an.
Author: | Esha Mohamed |
---|---|
URN: | urn:nbn:de:hbz:385-10421 |
DOI: | https://doi.org/10.25353/ubtr-xxxx-0fbc-27f5 |
Advisor: | Ralf Münnich |
Document Type: | Doctoral Thesis |
Language: | English |
Date of completion: | 2017/04/11 |
Publishing institution: | Universität Trier |
Granting institution: | Universität Trier, Fachbereich 4 |
Date of final exam: | 2017/02/17 |
Release Date: | 2017/04/11 |
Tag: | Abbruchregel; Adaptive Cluster Sampling; Bayesianische Analyse; Produktschätzer Adaptive Cluster Sampling; Bayesian analysis; Product estimator; Stopping rule |
GND Keyword: | Adaptives Verfahren; Bayes-Inferenz |
Institutes: | Fachbereich 4 / Wirtschaftswissenschaften |
Dewey Decimal Classification: | 0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke |