Statistische Identifikation gefälschter Interviews zur Verbesserung der Datenqualität
Projektlaufzeit: 01.07.2018 bis 31.05.2021
Kurzbeschreibung
Gefälschte Interviews können die Datenqualität erheblich negativ beeinträchtigen. Hierdurch können komplexe multivariate Analysen, Ergebnisse sowie daraus abgeleitete Prognosen erheblichen Verzerrungen unterliegen. Insbesondere für die Forschung und daran angegliederte Politikberatung können solche Ergebnisse problematische Folgen haben, da sie im schlimmsten Fall zu einer Fehlallokation von Steuergeldern führen können. Um solche Interviews daher frühzeitig zu identifizieren, beschäftigt sich dieses Projekt mit Methoden zur Identifikation von gefälschten Interviews. Hierbei sollen verschiedene bekannte – jedoch bisher wenig erprobte – statistische Identifikationsansätze detailliert evaluiert und neue Ansätze bzw. Strategien entwickelt und erprobt werden. Diese Ansätze nutzen systematische Unterschiede zwischen Daten echter Befragungspersonen und solchen, welche von fälschenden Interviewern erzeugt wurden, um mittels statistischer Verfahren oder Algorithmen auffällige Muster zu identifizieren. Hierzu eignen sich beispielsweise die Befragungsdaten selbst, aber auch Para- bzw. Metadaten. Werden solche Muster aufgefunden, muss die Arbeit der entsprechenden Interviewer kontrolliert werden. Auf langfristige Sicht sollen diese Methoden in automatisierter Form möglichst in allen Interviewer-gestützten Studien des IAB Anwendung finden. Ziel ist es, hieraus eine möglichst umfassende, effiziente sowie kostengünstige Strategie zur Qualitätssicherung der IAB Befragungsdaten abzuleiten, um so eine dauerhafte Verbesserung der Datenqualität im IAB zu gewährleisten.
Ziel
Verbesserung der Qualitätskontrollen und Methodenentwicklung zur Erkennung von gefälschten Interviews.