Verbesserung der Qualität und Erweiterung der Anwendungsmöglichkeiten von Längsschnittdaten zur Bildungsforschung
Projektlaufzeit: 01.06.2019 bis 31.05.2021
Kurzbeschreibung
Hohe Teilnahme- und Antwortverweigerungsquoten (Unit und Item Non-Response) und steigende Kosten der Datenerhebung bedrohen die Datenqualität und reduzieren Anwendungsmöglichkeiten von longitudinalen Umfragen. Im Rahmen unseres Forschungsprojekts arbeiten wir deshalb zum einen an der Entwicklung neuer Verfahren zur Korrektur von Verzerrungen durch Verweigerung der Zustimmung zur Verknüpfung unterschiedlicher Datenquellen (Non-Consent). Zum anderen entwickeln wir Methoden Verzerrungen durch Non-Response in longitudinalen Untersuchungen zu messen und zu korrigieren. Alle Teilprojekte werden Daten des Nationalen Bildungspanels (NEPS) mit dem Ziel nutzen, Empfehlungen geben zu können, wie diese Probleme im NEPS reduziert werden können.
Das NEPS und viele andere Erhebungen verknüpfen ihre Daten mit großen administrativen Datensätzen. Unterschiede zwischen Consentern und Non-Consentern können dabei zu verzerrten Analysen auf Basis der verknüpften Daten führen. Mehrere Verfahren zur Reduktion dieser Verzerrungen sollen deshalb evaluiert werden. Die erste Methode basiert auf einer Idee, die eine gemeinsame Analyse nicht verknüpfter, vertikal partitionierter Datensätze ermöglicht. Eine Zustimmung zur Verknüpfung ist in diesem Fall nicht erforderlich, da die Informationen nicht auf Individualebene zusammengespielt werden müssen. Die zweite Methode basiert auf dem Ansatz, die Umfragedaten von Non-Consentern mit statistisch ähnlichen Personen aus den administrativen Daten zu verbinden (Statistical Matching). Wir schlagen eine innovative Statistical Matching Prozedur vor, die durch Imputation eines Teils der fehlenden Information, die Zahl der Matching Variablen erhöht. Darüber hinaus sollen Strategien entwickelt werden, die es erlauben, die Annahme der bedingten Unabhängigkeit, die bei Statistical Matching meist implizit getroffen wird, zu schwächen.
Mit Hilfe der administrativen Daten der Vorgängerstudie (ALWA) der NEPS Startkohorte 6, sollen zudem die negativen Effekte von Panel Attrition – dem Ausfall von Befragten bei longitudinalen Studien – evaluiert werden. Die administrativen Daten späterer Jahre sind auch für ALWA Teilnehmer verfügbar, die nicht bereit waren im NEPS teilzunehmen. Diese Daten können genutzt werden, um potentielle Panel Attrition Faktoren zu identifizieren und das Ausmaß der Verzerrung durch Attrition abzuschätzen. Darüber hinaus werden die verknüpften administrativen Daten genutzt, um Methoden zur Korrektur von Non-Response Verzerrung (zum Beispiel Gewichtung) zu verbessern. Die vorgeschlagene Strategie wird dann mit klassischen Methoden verglichen. Außerdem wird das Problem von Item Non-Response in longitudinalen Umfragen mit hierarchischen Datenstrukturen behandelt. Dafür werden neue Imputationsmethoden entwickelt, die mehrere Hierarchieebenen (zum Beispiel wiederholte Messungen von Schüler innerhalb der Schulen) berücksichtigen können. Diese werden dann mit existierenden Imputationsansätzen im longitudinalen Kontext verglichen.
Ziel
Projektziel ist die Verbesserung der Datenqualität durch Korrektur von Nonresponse und Nonconsent Bias.
Methoden
Record Linkage, Statistical Matching, Imputation