Text Mining mit der "Temi-Box"
Beschreibung
"Die stetig wachsende Menge digital verfügbarer Textdaten und Fortschritte in der natürlichen Sprachverarbeitung (NLP) haben Text Mining zu einer Schlüsseltechnologie gemacht. Die „Temi-Box“ ist ein modularer Baukasten für das Text Mining, der die automatisierte Textklassifikation, Themenzuordnung und Clusterbildung erleichtert, ohne dass tiefgehende Programmierkenntnisse erforderlich sind. Entwickelt anhand der Verschlagwortung und Themenzuordnung von Publikationen für die IAB-Infoplattform und finanziert durch EU-Mittel, steht sie als Open-Source-Projekt zur Verfügung. Dieser Forschungsbericht dokumentiert die Entwicklung und Anwendung der Temi-Box, veranschaulicht ihre Nutzungsmöglichkeiten und interpretiert die erzielten Ergebnisse. Text Mining extrahiert Wissen aus unstrukturierten Texten durch Methoden wie Klassifikation und Clustering. Die modular aufgebaute Temi-Box macht etablierte Methoden nutzerfreundlich zugänglich und unterstützt Anwenderinnen und Anwender durch eine Pipeline-Architektur, die standardisierte Prozesse wie Datenaufbereitung und Modelltraining vereinfacht. Sie integriert sowohl aktuelle als auch traditionelle Ansätze zur Textrepräsentation, wie BERT und TF-IDF, und bietet eine Vielzahl von Algorithmen zu Textklassifikation und -clustering, darunter K-Nearest Neighbors (KNN), binäre und multinomiale Klassifikatoren als Schichten in neuronalen Netzen sowie K-Means. Verschiedene Evaluationsmetriken ermöglichen es, die Leistung des Modells zu bewerten und unterschiedliche Ansätze miteinander zu vergleichen. Experimente zur automatisierten Themenzuordnung und zur Identifikation von Themenschwerpunkten veranschaulichen die Nutzung der Temi-Box und die Interpretation der Ergebnisse. Auf Basis eines Datensatzes mit 1.932 IAB-Veröffentlichungen und 105 Themen zeigen die Ergebnisse, dass BERT-basierte Modelle, wie GermanBERT, durchweg die besten Resultate erzielen. Binäre Klassifikatoren erweisen sich als besonders flexibel und präzise, während TF-IDF-basierte Ansätze robuste Alternativen bei geringerer Komplexität bieten. Clustering bleibt eine Herausforderung, insbesondere bei inhaltlichen Überschneidungen. Die Temi-Box ist vielseitig einsetzbar. Neben der in diesem Forschungsbericht beschriebenen Anwendung für die IAB-Infoplattform kann sie in zahlreichen Bereichen genutzt werden, etwa bei der Analyse von Stellenanzeigen, Berufs- und Unternehmensbeschreibungen, Verschlagwortung von Publikationen oder zur Stimmungsanalyse. Sie ist auch erweiterbar für den Einsatz in Frage-Antwort-Systemen oder zur Named Entity Recognition. Die Temi-Box erleichtert die Anwendung von Text Mining-Methoden für eine breite Nutzerbasis und bietet zahlreiche Anpassungsmöglichkeiten. Sie reduziert den Aufwand für die Entwicklung und den Vergleich von Modellen. Ihre Open-Source-Verfügbarkeit fördert die Weiterentwicklung und Integration der Temi-Box in verschiedene Forschungsprojekte. Dies ermöglicht es Anwenderinnen und Anwendern, die Plattform an spezifische Bedürfnisse anzupassen und neue Funktionen zu integrieren. Der Bericht zeigt das Potenzial der Temi-Box, die Digitalisierung und Automatisierung der Textdatenanalyse voranzutreiben. Gleichzeitig bleiben Herausforderungen wie die Sicherstellung der Datenqualität und die Interpretierbarkeit der Modelle. Diese Aspekte erfordern kontinuierliche Validierung und Weiterentwicklung, um die Effektivität und Zuverlässigkeit von Text Mining-Methoden weiter zu verbessern." (Autorenreferat, IAB-Doku)
Zitationshinweis
Hirmer, Christine & Lina-Jeanette Metzger (2025): Text Mining mit der "Temi-Box". (IAB-Forschungsbericht 13/2025), Nürnberg, 58 S. DOI:10.48720/IAB.FB.2513