Springe zum Inhalt

Publikation

Sampling with synthesis

Beschreibung

Viele statistische Ämter machen Stichproben personenbezogener Daten öffentlich zugänglich. Um den Datenschutz zu gewährleisten, werden jedoch vor der Freigabe der Mikrodaten sensible Werte durch Anonymisierungsverfahren wie Vergröberung, Perturbation oder Swapping geändert. Diese Verfahren verzerren allerdings die Verhältnisse und Verteilungen in den Originaldaten, vor allem wenn sie in hoher Intensität angewandt werden. Aufgrund dieser Defizite wird in dem Beitrag ein anderer Ansatz vorgestellt: bei der synthetisierten Stichprobe werden sensible Werte durch multiple Imputationsverfahren ersetzt. Es wird gezeigt, dass - im Vergleich mit herkömmlichen Anonymisierungsverfahren - die Qualität öffentlich zugänglicher Daten durch synthetisierte Stichproben verbessert werden kann. Dies wird durch die Ergebnisse von Simulationen belegt, die Online verfügbar sind. Methoden zur Analyse multipler Datensätze, die auf synthetisierten Stichproben basieren, sowie Algorithmen zur Auswahl der zur synthetisierenden Werte werden vorgestellt. Illustriert wird das Verfahren der synthetisierten Stichprobe durch Daten des US-amerikanischen Current Population Survey CPS. (IAB)

Zitationshinweis

Drechsler, Jörg & Jerome P. Reiter (2010): Sampling with synthesis. A new approach for releasing public use census microdata. In: Journal of the American Statistical Association, Jg. 105, H. 492, S. 1347-1357. DOI:10.1198/jasa.2010.ap09480