Ergebnisse für *

Es wurden 4 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 4 von 4.

Sortieren

  1. Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen
    Erschienen: 2023
    Verlag:  Leibniz-Institut für Deutsche Sprache (IDS), Mannheim ; Gesellschaft für Sprachtechnologie und Computerlinguistik, Hildesheim

    Export in Literaturverwaltung
    Quelle: DNB Sachgruppe Deutsche Sprache und Literatur
    Beteiligt: Schmid, Helmut (Verfasser); Wartena, Christian (Herausgeber); Schneider, Roman (Herausgeber); Faaß, Gertrud (Herausgeber)
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    Weitere Identifier:
    Übergeordneter Titel: In: Hildesheim : Gesellschaft für Sprachtechnologie und Computerlinguistik, (2023)
    In: Journal for Language Technology and Computational Linguistics 35.2023, 1, S. 151-170
    Schlagworte: Computerlinguistik; Deutsch; Korpus <Linguistik>; Prozessierung; Annotation; Apostroph; Zeichensetzung; Lyrics <Lyrik>
    Weitere Schlagworte: Faass, Bruno (1882-1951); POS Tagging; Segmentierung; Tokenisierung; Lindenberg-Archiv
    Umfang: Online-Ressource
  2. Untersuchungen zur Prozessierung überlappender tRNA-Gene

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Dissertation
    Format: Druck
    DDC Klassifikation: Biowissenschaften; Biologie (570)
    Schlagworte: Mitochondrium; Transfer-RNS; RNS-Edierung; Transfer-RNS; Transkript; Prozessierung
    Umfang: 104 Bl., Ill., graph. Darst., 30 cm
    Bemerkung(en):

    Leipzig, Univ., Diss., 2004

  3. Untersuchungen zur Prozessierung überlappender tRNA-Gene
    Erschienen: 2004

    Technische Universität München, Universitätsbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Regensburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Dissertation
    DDC Klassifikation: Biowissenschaften; Biologie (570)
    Schlagworte: Prozessierung; Mitochondrium; RNS-Edierung; Transfer-RNS; Transkript
    Umfang: 104 Bl., Ill., graph. Darst., 30 cm
    Bemerkung(en):

    Leipzig, Univ., Diss., 2004

  4. Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen
    Erschienen: 2023
    Verlag:  Hildesheim : Gesellschaft für Sprachtechnologie und Computerlinguistik ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die... mehr

     

    In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten ≥ 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Prozessierung; Annotation; Apostroph; Zeichensetzung; Lyrics <Lyrik>
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess