Springe zum Inhalt

Publikation

An empirical evaluation of easily implemented, nonparametric methods for generating synthetic datasets

Beschreibung

Wenn Datenschutz nur mit umfangreicher redaktioneller Bearbeitung von personenbezogenen Daten möglich ist, dann können die statistischen Ämter auch synthetische Daten herausgeben, bei denen sensible Werte ersetzt werden durch Werte, welche durch statistische Modelle vertraulicher Daten gewonnen werden. Bei Verwendung herkömmlicher parametrischer Ansätze ist die Spezifikation präziser Synthesemodelle eine schwierige und arbeitsintensive Aufgabe. In dem Beitrag werden einfach zu implementierende nichtparametrische Synthesemethoden beschrieben und empirisch getestet, die auf maschinellem Lernen basieren: Klassifikations- und Regressionsbäume, Bagging, Random Forests sowie Support Vector Machine. Im Mittelpunkt steht die Frage, inwieweit die analytische Validität bewahrt und gleichzeitig das Enthüllungsrisiko minimiert werden kann. Die Ergebnisse zeigen, dass Synthesemethoden, die auf Klassifikationsbäumen basieren, einen hohen Nutzwert mit geringem Enthüllungsrisiko verbinden. (IAB)

Zitationshinweis

Drechsler, Jörg & Jerome P. Reiter (2011): An empirical evaluation of easily implemented, nonparametric methods for generating synthetic datasets. In: Europäische Kommission (Hrsg.) (2011): Proceedings of the Eurostat Conference on New Techniques and Technologies for Statistics (NTTS) 2011, Brussels, S. 1-12.

Bezugsmöglichkeiten

kostenfreier Zugang