DARIAH DKPro-Wrapper
Der Use Case "Narrative Techniken und Untergattungen im deutschen Roman" (2013-2016) sollte exemplarisch demonstrieren, wie eine große Sammlung literarischer Texte genutzt werden kann, um mit Hilfe quantitativer Verfahren die historische Entwicklung narrativer Techniken - und in weiterer Folge auch die Entwicklung darauf aufbauender literarischer Kategorien - zu analysieren. Datengrundlage war ein Korpus bestehend aus rund 2000 deutschsprachigen Romanen, das sich vor allem aus Werken des 18. und 19. Jahrhunderts zusammensetzt, und das für die Analyse einer ganzen Reihe linguistischer Vorverarbeitungsschritte unterzogen werden musste. Für die automatisierte linguistische Annotation digitalisierter Texte steht heutzutage eine Reihe verschiedener NLP-Werkzeuge (NLP = Natural Language Processing) zur Verfügung. Komplexere Methoden der Textanalyse erfordern allerdings, mehrere solcher Werkzeuge miteinander zu kombinieren, was normalerweise in sogenannten Programmier-Frameworks realisiert wird. Um interessierten Geisteswissenschaftlern die technischen Möglichkeiten eines solchen Rahmenwerks auch ohne erweiterte Programmierkenntnisse zumindest teilweise zugänglich zu machen, wurde der DARIAH-DKPro-Wrapper (DDW) entwickelt. Technische Grundlage ist das Darmstadt Knowledge Processing Software Repository (DKPro), ein Apache UIMA basiertes Rahmenwerk, das einen einheitlichen Zugang zu einer Vielzahl von NLP-Werkzeugen ermöglicht und dadurch die Entwicklung eigener Systeme vereinfacht. Der DDW vereint eine ganze Verarbeitungspipeline in einem einzigen, konfigurierbaren Java-Programm, das praktisch alle gängigen NLP-Annotationen in einem universell zugänglichen Tabellenformat ausgibt. Hierfür wurde eine umfangreiche Dokumentation erarbeitet, großenteils in Form von allgemeinverständlichen Programmier-”Rezepten”, die es TextwissenschaftlerInnen ermöglichen, auf die Komponenten des leistungsstarken DKPro Rahmenwerks zuzugreifen und anhand beliebter Skriptsprachen wie Python und R weiterzuverarbeiten. Software und Source Code des DARIAH-DKPro-Wrapper finden Sie auf Github (https://github.com/DARIAH-DE/DARIAH-DKPro-Wrapper) und hier wird auch ein Tutorial mit Rezepten für Beispielanwendungen angeboten (https://dariah-de.github.io/DARIAH-DKPro-Wrapper/tutorial.html).
mehr lesen weniger lesen