Fehlende Daten beim Record Linkage von Prozess- und Befragungsdaten
Beschreibung
"Zum Vergleich ausgewählter Missing Data Techniken nutzt dieses Papier eine Befragung, in der u. a. die Zustimmung zum Record Linkage der Befragungs- mit administrativen Prozessdaten abgefragt wurde. Bei nicht zustimmenden Befragten, werden ihre gegebenen Antworten auf 'fehlend' gesetzt, um so pseudo-fehlende Werte auf Basis eines empirischen (im Vergleich zu einem statistisch simulierten) Ausfallmechanismus zu erzeugen. Eine OLS Regression wird durchgeführt und dem Datenausfall wird jeweils durch eine Complete Case Analyse (CCA), Multiple Imputation (MI) und zwei Varianten des Heckmans Sample Selection Models (SSM) begegnet. Die Ergebnisse werden mit einer Regression auf Basis der vollständigen Daten verglichen, welche die 'wahren' Regressionsergebnisse liefert (Benchmark). Alle Verfahren führen zu nur wenigen Abweichungen vom Benchmark. Wenn nur eine unabhängige Variable fehlende Werte aufweist, liegt die MI näher zum Benchmark, wenn die abhängige ausfallbelastet ist, die CCA gefolgt von der Two-Step Variante des SSM. Bei fehlenden Werten in vielen oder allen unabhängigen Variablen zeigen sich alle Verfahren ähnlich geeignet zur Korrektur der Ausfälle, mit Ausnahme der Maximum Likelihood Variante des SSM." (Autorenreferat, IAB-Doku)
Zitationshinweis
Krug, Gerhard (2009): Fehlende Daten beim Record Linkage von Prozess- und Befragungsdaten. Ein empirischer Vergleich ausgewählter Missing Data Techniken. (IAB-Discussion Paper 07/2009), Nürnberg, 29 S.