Springe zum Inhalt

Projekt

Etablieren eines Standardbaukastens für Text Mining

Projektlaufzeit: 01.09.2022 bis 31.12.2024

Kurzbeschreibung

Die rasante Zunahme digital verfügbarer Textdaten und die Fortschritte in der natürlichen Sprachverarbeitung (NLP) haben für das Text Mining enormes Potenzial geschaffen. Im Rahmen dieses Projekts wurde mit der „Temi-Box“ ein benutzerfreundlicher Baukasten für Text Mining entwickelt, der ohne tiefgehende Programmierkenntnisse genutzt werden kann. Die Temi-Box ermöglicht den Einsatz bewährter Methoden zur Textklassifikation und zum Textclustering und bietet die Möglichkeit, Ergebnisse anhand verschiedener Evaluationsmetriken zu vergleichen. Ursprünglich konzipiert für die automatisierte Themenzuordnung und Verschlagwortung von Publikationen der IAB-Infoplattform, wurde der im Projekt entwickelte Code der Temi-Box samt umfassender Dokumentation als Open-Source-Projekt zur Verfügung gestellt. Ein begleitender Forschungsbericht erläutert die methodischen Hintergründe und bietet anschauliche Anwendungsbeispiele.

Ziel

Durch den Einsatz des entwickelten und veröffentlichten Codes können Textdaten verarbeitet und die enthaltenen Methoden anhand etablierter Messgrößen verglichen werden.

Methoden

Text Mining

Leitung

01.09.2022 - 14.03.2023
15.03.2023 - 31.12.2024

Mitarbeiter

01.12.2022 - 31.12.2024