Suchergebnisse

Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen

Autor*in: Faaß, Gertrud

Erschienen: 2023

Verlag: Leibniz-Institut für Deutsche Sprache (IDS), Mannheim ; Gesellschaft für Sprachtechnologie und Computerlinguistik, Hildesheim

Bibliographische Angaben
Zugang

Zugang:

Resolving-System

Langzeitarchivierung Nationalbibliothek

Verlag (kostenfrei)

Export in Literaturverwaltung

Quelle:	DNB Sachgruppe Deutsche Sprache und Literatur
Beteiligt:	Schmid, Helmut (Verfasser); Wartena, Christian (Herausgeber); Schneider, Roman (Herausgeber); Faaß, Gertrud (Herausgeber)
Sprache:	Deutsch
Medientyp:	Unbestimmt
Format:	Online
Weitere Identifier:	doi: 10.21248/jlcl.36.2023.241 urn: urn:nbn:de:bsz:mh39-117416
Übergeordneter Titel:	In: Hildesheim : Gesellschaft für Sprachtechnologie und Computerlinguistik, (2023) In: Journal for Language Technology and Computational Linguistics 35.2023, 1, S. 151-170
Schlagworte:	Computerlinguistik; Deutsch; Korpus <Linguistik>; Prozessierung; Annotation; Apostroph; Zeichensetzung; Lyrics <Lyrik>
Weitere Schlagworte:	Faass, Bruno (1882-1951); POS Tagging; Segmentierung; Tokenisierung; Lindenberg-Archiv
Umfang:	Online-Ressource

Untersuchungen zur Prozessierung überlappender tRNA-Gene

Autor*in: Schuster, Jens

Bibliographische Angaben
Export

Export in Literaturverwaltung

RIS-Format
BibTeX-Format

Quelle:	Verbundkataloge
Sprache:	Deutsch
Medientyp:	Dissertation
Format:	Druck
DDC Klassifikation:	Biowissenschaften; Biologie (570)
Schlagworte:	Mitochondrium; Transfer-RNS; RNS-Edierung; Transfer-RNS; Transkript; Prozessierung
Umfang:	104 Bl., Ill., graph. Darst., 30 cm
Bemerkung(en):	Leipzig, Univ., Diss., 2004

Untersuchungen zur Prozessierung überlappender tRNA-Gene

Autor*in: Schuster, Jens

Erschienen: 2004

München: Technische Universität München, Universitätsbibliothek

Standort:

Technische Universität München, Universitätsbibliothek

Fernleihe:

uneingeschränkte Fernleihe, Kopie und Ausleihe

Link zum Verbundkatalog:

Bibliotheksverbund Bayern (BVB)

Regensburg: Universitätsbibliothek Regensburg

Standort:

Universitätsbibliothek Regensburg

Fernleihe:

uneingeschränkte Fernleihe, Kopie und Ausleihe

Link zum Verbundkatalog:

Bibliotheksverbund Bayern (BVB)

Export in Literaturverwaltung

RIS-Format
BibTeX-Format

Quelle:	Verbundkataloge
Sprache:	Deutsch
Medientyp:	Dissertation
DDC Klassifikation:	Biowissenschaften; Biologie (570)
Schlagworte:	Prozessierung; Mitochondrium; RNS-Edierung; Transfer-RNS; Transkript
Umfang:	104 Bl., Ill., graph. Darst., 30 cm
Bemerkung(en):	Leipzig, Univ., Diss., 2004

Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen

Autor*in: Faaß, Gertrud ; Schmid, Helmut

Erschienen: 2023

Verlag: Hildesheim : Gesellschaft für Sprachtechnologie und Computerlinguistik ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die... mehr

Volltext:	https://ids-pub.bsz-bw.de/frontdoor/index/index/docId/11741 https://ids-pub.bsz-bw.de/files/11741/Faass_Schmid_Segmentierung_2023.pdf
Zitierfähiger Link:	https://nbn-resolving.org/urn:nbn:de:bsz:mh39-117416 https://doi.org/10.21248/jlcl.36.2023.241

In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten ≥ 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.

Export in Literaturverwaltung

RIS-Format
BibTeX-Format

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Aufsatz aus einer Zeitschrift
Format:	Online
DDC Klassifikation:	Sprache (400)
Schlagworte:	Prozessierung; Annotation; Apostroph; Zeichensetzung; Lyrics <Lyrik>
Lizenz:	creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess

Filtern nach

Aktive Filter

Kategorien:

Bereich

Quelle

Format

Beteiligt

Medientyp

Sprache

Jahr

Letzte Suchanfragen

Ergebnisse für *

Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen

Untersuchungen zur Prozessierung überlappender tRNA-Gene

Untersuchungen zur Prozessierung überlappender tRNA-Gene

München: Technische Universität München, Universitätsbibliothek

Regensburg: Universitätsbibliothek Regensburg

Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen

Kontakt

Partner