Etablieren eines Standardbaukastens für Text Mining
Projektlaufzeit: 01.09.2022 bis 31.12.2024
Kurzbeschreibung
Die rasante Zunahme digital verfügbarer Textdaten und die Fortschritte in der natürlichen Sprachverarbeitung (NLP) haben für das Text Mining enormes Potenzial geschaffen. Im Rahmen dieses Projekts wurde mit der „Temi-Box“ ein benutzerfreundlicher Baukasten für Text Mining entwickelt, der ohne tiefgehende Programmierkenntnisse genutzt werden kann. Die Temi-Box ermöglicht den Einsatz bewährter Methoden zur Textklassifikation und zum Textclustering und bietet die Möglichkeit, Ergebnisse anhand verschiedener Evaluationsmetriken zu vergleichen. Ursprünglich konzipiert für die automatisierte Themenzuordnung und Verschlagwortung von Publikationen der IAB-Infoplattform, wurde der im Projekt entwickelte Code der Temi-Box samt umfassender Dokumentation als Open-Source-Projekt zur Verfügung gestellt. Ein begleitender Forschungsbericht erläutert die methodischen Hintergründe und bietet anschauliche Anwendungsbeispiele.
Ziel
Durch den Einsatz des entwickelten und veröffentlichten Codes können Textdaten verarbeitet und die enthaltenen Methoden anhand etablierter Messgrößen verglichen werden.
Methoden
Text Mining