Springe zum Inhalt

Publikation

Improved variance estimation for fully synthetic datasets

Beschreibung

Vollständig synthetische Datensätze, d.h. Datensätze, die nur simulierte Werte enthalten, bieten zweifelsohne einen hohen Grad an Datenschutz. Da alle Werte simuliert werden, ist eine Wiedererkennung fast unmöglich. Das macht diesen Ansatz insbesondere attraktiv für die Bereitstellung sehr sensibler Daten, wie medizinische Datensätze. Für die etablierte Varianzschätzung vollständig synthetischer Datensätze gibt es allerdings zwei wesentliche Nachteile. Erstens kann sie positiv verzerrt werden, wobei die Verzerrung eine Funktion des Stichprobenanteils der Originaldaten ist. Zweitens kann sie negativ werden. In diesem Beitrag werden die negativen Effekte auf die Varianzschätzung illustriert und eine alternative Varianzschätzung vorgeschlagen, die weniger Variabilität zeigt, immer unverzerrt ist und nie negativ sein kann. Diese Varianzschätzung ist eng verbunden mit der Varianzschätzung für teilweise synthetische Datensätze. (IAB)

Zitationshinweis

Drechsler, Jörg (2011): Improved variance estimation for fully synthetic datasets. (Joint UNECE/Eurostat work session on statistical data confidentiality 2011. Working paper 18), New York, 13 S.

Bezugsmöglichkeiten

kostenfreier Zugang