Identifikation von Interviewer Fälschungen mittels maschinellen Lernens

Projektlaufzeit: 05.11.2020 bis 31.12.2023

Kurzbeschreibung

Interviewer spielen eine wichtige Rolle für die Qualität von Befragungsdaten. Sie beeinflussen beispielsweise Response-Raten und sind dafür verantwortlich, die Fragen des Fragebogens korrekt zu präsentieren. Gleichzeitig können Interviewer aber auch bewusst von den vorgegebenen Regeln und Vorgaben des Interviews abweichen und im schlimmsten Fall vollständige Interviews fälschen. In der entsprechenden Literatur wurden bereits verschiedene Strategien diskutiert, um abweichendes Interviewerverhalten vorzubeugen und zu identifizieren. Allerdings sind diese Strategien oft sehr zeit- und arbeitsaufwändig und zusätzlich mit hohen kosten Verbunden. Eine Forschungslücke im Kontext der Identifikation von Fälschungen besteht in der Nutzung von Machine Learning Algorithmen. Einige Studien beschäftigen sich zwar mit der Nutzung von sogenannten „unsupervised“ Methoden, wie beispielsweise Clusteranalysen oder Hauptkomponentenanalysen, doch das Potential von ansonsten weitverbreiteten „supervised“ Methoden wie zum Beispiel Neuronale Netzwerke, Support-Vector-Machines, Entscheidungsbäume oder Naive Bayes ist weitgehend unerforscht. Dies ist vor allem durch den Mangel an geeigneten Test- und Trainingsdaten bedingt, welche meist zu wenig Fälle an gefälschten Interviews und Fälschern enthalten. Für dieses Forschungsprojekt kombinieren wir Daten aus einer Experimentalstudie – welche zu gleichen Teilen Fälschungsdaten sowie echte Daten enthalten – mit Befragungsdaten aus einer Panelstudie, in welcher einige Interviewer abweichendes Interviewerverhalten gezeigt haben. Hierdurch soll die Frage untersucht werden: Wie gut eignen sich „supervised“ Machine Learning Algorithmen, um zwischen echten und gefälschten Daten zu unterscheiden? Hierzu soll die Performance verschiedener Algorithmen, unter verschiedenen Bedingungen, evaluiert werden. Durch die Nutzung verschiedener Datenquellen sowie das Training und die Testung der Algorithmen innerhalb und zwischen den verschiedenen Datenquellen kann die externe Validität der Ergebnisse erhöht werden. Zusätzlich können so Rückschlüsse über die unterschiedlichen Fälschungsstrategien der Fälscher gezogen werden.

Ziel

Ziel des Projekts ist es, Qualitätskontrollen für Interviewer effizienter und kostengünstiger zu gestallten, sowie Rückschlüsse über das Verhalten von fälschenden Interviewer ziehen zu können.

Leitung

Prof. Dr. Joseph Sakshaug

05.11.2020 - 31.12.2023

Dr. Silvia Schwanhäuser

05.11.2020 - 31.12.2023

Team

Prof. Dr. Yuliya Kosyakova

05.11.2020 - 31.12.2023