Erzeugung synthetischer Datensätze durch multiple Imputation
Beschreibung
"In den letzten Jahren wurden in der Literatur verschiedene Varianten zur Erzeugung synthetischer Daten vorgeschlagen. Im Rahmen der hier vorgestellten Dissertation wurden diese Verfahren miteinander verglichen und jeweils auf das Betriebspanel des Instituts für Arbeitsmarkt- und Berufsforschung (IAB) der Bundesagentur für Arbeit angewendet. Ein wichtiges Ergebnis dieser Arbeit sind die synthetischen Datensätze der Welle 2007 des IAB-Betriebspanels, die seit Anfang 2011 über das Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung verfügbar sind. Außerdem wird ein neues zweistufiges Imputationsverfahren vorgestellt, das eine bessere Abwägung zwischen der Begrenzung des Re-Identifikationsrisikos und einer möglichst hohen Datenqualität zulässt. Daneben werden neue Maße vorgeschlagen, um das verbleibende Re-Identifikationsrisiko der synthetischen Datensätze zu messen. In dem Beitrag sollen die einzelnen Verfahrensvarianten und wichtige Ergebnisse der Arbeit kurz vorgestellt werden." (Textauszug, IAB-Doku)
Zitationshinweis
Drechsler, Jörg (2011): Erzeugung synthetischer Datensätze durch multiple Imputation. Theorie und Implementierung in der Praxis. Gerhard-Fürst-Preis. In: Wirtschaft und Statistik H. 4, S. 402-407.