Springe zum Inhalt

Publikation

Disclosure risk and data utility for partially synthetic data

Beschreibung

Wenn statistische Einrichtungen ihre Daten der Öffentlichkeit zugänglich machen, müssen sie die Identität der Befragungsteilnehmer und sensible Eigenschaften schützen. Zu diesem Zweck können sie die Daten der Befragten freigeben, wobei einige Daten, die zur Identifizierung des Befragten führen können, durch vermutete Daten ersetzt werden. Solche Daten heißen partiell synthetische Daten. Die Verfasser untersuchen den Trade-Off zwischen der Inferenzgenauigkeit und Datenschutzrisiken für partiell synthetische Daten unter besonderer Berücksichtigung der Bedeutung der Zahl der freigegebenen Datensätze. Sie stellen ein zweistufiges Verfahren zur Datenfingierung vor, das es statistischen Einrichtungen erlaubt, unterschiedlich viele Fiktionen für verschiedene Variablen vorzunehmen. So können im Vergleich zum typischen einstufigen Verfahren bei der gleichen Zahl freigegebener Datensätze das Risiko einer Freigabe gesenkt und die Nützlichkeit der Daten erhöht werden. Die empirische Analyse basiert auf einer partiellen Synthese des deutschen IAB-Betriebspanels. (IAB)

Zitationshinweis

Drechsler, Jörg & Jerome P. Reiter (2009): Disclosure risk and data utility for partially synthetic data. An empirical study using the German IAB Establishment Survey. In: Journal of official statistics, Jg. 25, H. 4, S. 589-603.