DARIAH Topics Explorer
Das LDA (Latent Dirichlet Allocation) Topic Modeling ist eine Methode zur Analyse der Verteilung semantischer Wortgruppen in Textsammlungen, sogenannter "Topics". Sie eignet sich sowohl für die explorative Betrachtung der Inhalte eines Corpus als auch für die Gewinnung von Features für die computergestützte Textklassifikation. Topic Modeling analysiert inhaltliche Strukturen ausschließlich aus den untersuchten Texten heraus. Das Verfahren benötigt keine externen Wörterbücher, Trainingsdaten oder ähnliches und funktioniert im Prinzip unabhängig von Sprache oder orthographischen Konventionen. Allein die Häufigkeit, mit der Zeichen (auf Wortebene) gemeinsam in der Sammlung auftreten, wird statistisch ausgewertet und in vermutete semantische Zusammengehörigkeiten übersetzt.
Damit ist das Topic Modeling in Bezug auf seine Ansprüche an Textsorte und Textqualität eine besonders flexible Methode.
Der TopicsExplorer ist eine für das Einsteiger-Segment konzipierte Software, mit der interessierte Forschende Topic Modeling auf ihren eigenen Rechnern, und vor allem auch an ihren eigenen Texten, ausprobieren können. Der gesamte Analyseprozess, vom unverarbeiteten Text bis hin zu verschiedenen, teilweise interaktiven Visualisierungen der Ergebnisse wird durch eine graphische Nutzeroberfläche (GUI) unterstützt. Die Software erlaubt Usern ohne Programmierkenntnisse, Sammlungen von Plaintext- oder XML-Dateien einzulesen und mit Hilfe des LDA-Algorithmus zu analysieren. Es handelt sich dabei um eine vollwertige Stand-Alone-Software, die nach dem Herunterladen ohne weitere Vorbereitung auf gängigen Windows-, MacOS- und Linux-Systemen gestartet werden kann. Im Ergebnis werden in den Texten wiederkehrende semantische Wortgruppen aufgezeigt; User können sich anzeigen lassen, welche dieser Wortgruppen wie stark zu welchem Text beiträgt, und welche Texte sich inhaltlich besonders ähnlich sind. Ergebnisse können für die Weiterverarbeitung und Analyse in anderen Programmen im universell-lesbaren CSV-Format exportiert werden.
Der TopicsExplorer ist primär als didaktisches Mittel sowohl für den Unterricht als auch für autodidaktische Lernszenarien konzipiert. Er ermöglicht ohne Vorkenntnisse einen schnellen experimentellen Einstieg in die LDA-basierte Textanalyse, so dass User sich ohne größeren Aufwand ein Bild von den Möglichkeiten, und auch von den Grenzen der Methode machen können.
mehr lesen weniger lesen