Springe zum Inhalt

Publikation

Using support vector machines for generating synthetic datasets

Beschreibung

Die Herstellung synthetischer Datensätze ist ein innovativer Ansatz zur Verbreitung von Daten. Werte, die mit einem Enthüllungsrisiko verbunden sind oder sogar der gesamte Datensatz werden durch Mehrfachziehungen aus statistischen Modellen ersetzt. Die Qualität dieser Daten hängt dabei in hohem Maße davon ab, inwieweit diese Modelle wichtige Beziehungen in den Originaldaten abbilden. Da die Entwicklung dieser Modelle schwierig und aufwändig ist, ist es sinnvoll, bei der Modellierung lernende Tools einzusetzen, um wichtige Beziehungen in den Daten zu identifizieren. In dem Beitrag werden erste Überlegungen angestellt, ob Support Vector Machines zur Entwicklung synthetischer Datensätze genutzt werden können. Die Anwendung beschränkt sich auf kategoriale Daten, eine Analyse kontinuierlicher Daten ist jedoch auch möglich. Das Konzept der Support Vector Machine sowie die notwendigen Anpassungen zur Generierung synthetischer Datensätze werden kurz beschrieben. Anhand des IAB-Betriebspanels wird die Leistungsfähigkeit des vorgeschlagenen Algorithmus getestet. Die Ergebnisse zeigen, dass mit Support Vector Machiness zwar eine Verbesserung der Daten erzielt werden kann; der Preis dafür ist jedoch ein erhöhtes Enthüllungsrisiko im Vergleich zu parametrischen Modellen und ein erhöhter Aufwand, um dieses Risiko zu minimieren. Dieses Thema wird abschließend diskutiert. (IAB)

Zitationshinweis

Drechsler, Jörg (2011): Using support vector machines for generating synthetic datasets. In: J. Domingo-Ferrer & E. Magkos (Hrsg.) (2011): Privacy in statistical databases : UNESCO Chair in Data Privacy, International Conference, PSD 2010, Corfu, Greece, September 22-24, 2010. Proceedings (Lecture notes in computer science, 6344), S. 148-161. DOI:10.1007/978-3-642-15838-4