synthetische Daten in der Statistik und Informatik - systematischer Vergleich und Weiterentwicklung der Methodik

Projektlaufzeit: 15.11.2022 bis 14.11.2025

Kurzbeschreibung

Die Datenschutzanforderungen bei der Bereitstellung sensibler Daten haben in den letzten Jahren deutlich zugenommen. In diesem Zusammenhang gewinnt die Erstellung synthetischer Daten zunehmend an Bedeutung. Bei diesem Verfahren werden die Originaldaten durch künstlich generierte Werte ersetzt. Diese Werte werden durch Modelle generiert, die auf den Originaldaten trainiert wurden. Verschiedene Ansätze zur Erstellung synthetischer Daten werden dabei seit Jahren weitgehend unabhängig in der Statistik und der Informatik entwickelt. Im Rahmen des Projekts soll ein systematischer Vergleich der Ansätze durchgeführt werden. Da die methodischen Schwerpunkte in den Disziplinen sehr unterschiedlich gelegt wurden, verspricht eine vergleichende Analyse neue Einsichten, die zu Verbesserungen in beiden Disziplinen führen können. Darüber hinaus sollen im Rahmen des Projekts die existierenden Ansätze methodisch weiterentwickelt werden, insbesondere um bereits bekannte Schwächen beispielsweise beim Einsatz sogenannter Deep Learning Verfahren aus der Informatik zu beheben.

Ziel

Das Projekt soll: - Unterschiede zwischen den Ansätzen in der Statistik und Informatik erarbeiten.- Stärken und Schwächen der verschiedenen Ansätze identifizieren. - existierende Verfahren methodisch weiterentwickeln.