How valid can data fusion be?

Beschreibung

Techniken der Datenfusion werden angewandt, um einen vollständigen Datensatz aus Daten verschiedener Erhebungen mit nicht identischen Variablenmengen zu erhalten. Üblicherweise geschieht die Verknüpfung der Datensätze auf der Basis von Variablen, die allen gemeinsam sind. Es ist bekannt, dass in diesen Ansätzen von einer konditionalen Unabhängigkeit der nicht gemeinsam beobachteten Variablen ausgegangen wird, obwohl in Wirklichkeit eine konditionale Abhängkeit existiert. In dem Beitrag wird die Machbarkeit von Datenfusionen diskutiert. Hierzu werden vier Ebenen der Validität unterschieden, die für die Fusionsprozeduren eine Rolle spielen können. Für den allgemeineren Fall wird eine Menge von Korrelationsmatrizen für die nicht gemeinsam beobachteten Variablen abgeleitet und ein neues Qualitätsmaß für Datenfusionen vorgeschlagen. Schließlich wird eine geeignete und effiziente Technik zur multiplen Imputation vorgestellt, die zusätzliche Informationen erschließt und die Annahme der konditionalen Unabhängkeit infrage stellt. (IAB)

Zitationshinweis

Kiesl, Hans & Susanne Rässler (2006): How valid can data fusion be? (IAB-Discussion Paper 15/2006), Nürnberg, 31 S.

Bezugsmöglichkeiten

kostenfreier Zugang