Suchergebnisse

Wiederholungen in Texten

Autor*in: Golcher, Felix

Erschienen: 2013

Verlag: Humboldt-Universität zu Berlin, Philosophische Fakultät II

Abstract ; Diese Arbeit untersucht vollständige Zeichenkettenfrequenzverteilungen natürlichsprachiger Texte auf ihren linguistischen und anwendungsbezogenen Gehalt. Im ersten Teil wird auf dieser Datengrundlage ein unüberwachtes Lernverfahren... mehr

Volltext:	http://edoc.hu-berlin.de/18452/17519
Zitierfähiger Link:	https://doi.org/10.18452/16867 http://nbn-resolving.org/redirect/urn:nbn:de:kobv:11-100213989

Abstract ; Diese Arbeit untersucht vollständige Zeichenkettenfrequenzverteilungen natürlichsprachiger Texte auf ihren linguistischen und anwendungsbezogenen Gehalt. Im ersten Teil wird auf dieser Datengrundlage ein unüberwachtes Lernverfahren entwickelt, das Texte in Morpheme zerlegt. Die Zerlegung geht von der Satzebene aus und verwendet jegliche vorhandene Kontextinformation. Es ergibt sich ein sprachunabhängiger Algorithmus, der die gefundenen Morpheme teilweise zu Baumstrukturen zusammenordnet. Die Evaluation der Ergebnisse mit Hilfe statistischer Modelle ermöglicht die Identifizierung auch kleiner Performanzunterschiede. Diese sind einer linguistischen Interpretation zugänglich. Der zweite Teil der Arbeit besteht aus stilometrischen Untersuchungen anhand eines Textähnlichkeitsmaßes, das ebenfalls auf vollständigen Zeichenkettenfrequenzen beruht. Das Textähnlichkeitsmaß wird in verschiedenen Varianten definiert und anhand vielfältiger stilometrischer Fragestellungen und auf Grundlage unterschiedlicher Korpora ausgewertet. Dabei ist ein wiederholter Vergleich mit der Performanz bisheriger Forschungsansäzte möglich. Die Performanz moderner Maschinenlernverfahren kann mit dem hier vorgestellten konzeptuell einfacheren Verfahren reproduziert werden. Während die Segmentierung in Morpheme ein lokaler Vorgang ist, besteht Stilometrie im globalen Vergleich von Texten. Daher bietet die Untersuchung dieser zwei unverbunden scheinenden Fragestellungen sich gegenseitig ergänzende Perspektiven auf die untersuchten Häufigkeitsdaten. Darüber hinaus zeigt die Diskussion der rezipierten Literatur zu beiden Themen ihre Verbindungen durch verwandte Konzepte und Denkansätze auf. Aus der Gesamtheit der empirischen Untersuchungen zu beiden Fragestellungen kann abgeleitet werden, dass den längeren und damit selteneren Zeichenketten wesentlich mehr Informationsgehalt innewohnt, als in der bisherigen Forschung gemeinhin angenommen wird. ; Abstract ; This thesis investigates the linguistic and application specific content of complete character substring frequency distributions of natural language texts. The first part develops on this basis an unsupervised learning algorithm for segmenting text into morphemes. The segmentation starts from the sentence level and uses all available context information. The result is a language independent algorithm which arranges the found morphemes partly into tree like structures. The evaluation of the output using advanced statistical modelling allows for identifying even very small performance differences. These are accessible to linguistic interpretation. The second part of the thesis consists of stylometric investigations by means of a text similarity measure also rooted in complete substring frequency statistics. The similarity measure is defined in different variants and evaluated for various stylometric tasks and on the basis of diverse corpora. In most of the case studies the presented method can be compared with publicly available performance figures of previous research. The high performance of modern machine learning methods is reproduced by the considerably simpler algorithm developed in this thesis. While the segmentation into morphemes is a local process, stylometry consists in the global comparison of texts. For this reason investigating of these two seemingly unconnected problems offers complementary perspectives on the explored frequency data. The discussion of the recieved litarature concerning both subjects additionally shows their connectedness by related concepts and approaches. It can be deduced from the totality of the empirical studies on text segmentation and stylometry conducted in this thesis that the long and rare character sequences contain considerably more information then assumed in previous research.

Export in Literaturverwaltung

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Unbestimmt
Format:	Online
DDC Klassifikation:	Germanische Sprachen; Deutsch (430)
Schlagworte:	Vollständige Zeichenkettenfrequenzverteilungen; Stilometrie; Morphologische Induktion; lineare gemischte Modelle; generalisierte lineare gemischte Modelle; logarithmische Transformation; complete substring frequency distributions; Stylometry; Morphological Induction; linear mixed models; generalized linear mixed models; logarithmic transformation
Lizenz:	Namensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung ; creativecommons.org/licenses/by-nc-nd/3.0/de/

Heterogene Autorschaft und digitale Textanalyse : Ein Experiment zum kompilatorischen Erzählstil Konrads von Würzburg

Autor*in: Gebert, Bent

Erschienen: 2021

Bibliographische Angaben
Zugang

Volltext:	https://d-nb.info/1230756132/34 https://kops.uni-konstanz.de/handle/123456789/53303
Zitierfähiger Link:	https://nbn-resolving.org/urn:nbn:de:bsz:352-2-1xd38k4nlstir1

Export in Literaturverwaltung

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Unbestimmt
Format:	Online
DDC Klassifikation:	Literaturen germanischer Sprachen; Deutsche Literatur (830)
Schlagworte:	germanistische Mediävistik; Konrad von Würzburg; Trojanerkrieg; Stilometrie
Lizenz:	kostenfrei

Ein Delta-Rätsel

Autor*in: Dimpel, Friedrich Michael

Erschienen: 2017

Bibliographische Angaben
Zugang

Volltext:	https://d-nb.info/1147895643/34 http://webdoc.sub.gwdg.de/pub/mon/dariah-de/dwp-2017-25.pdf
Zitierfähiger Link:	https://nbn-resolving.org/urn:nbn:de:gbv:7-dariah-2017-5-1

Export in Literaturverwaltung

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Unbestimmt
Format:	Online
DDC Klassifikation:	Germanische Sprachen; Deutsch (430)
Schlagworte:	Stylometry; Authorship-Attribution Studies; Middle High German Texts; Normalization; Stilometrie; Autorschaftsattribution; Mittelhochdeutsche Texte; Normalisierung
Lizenz:	kostenfrei

Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg

Autor*in: Dimpel, Friedrich Michael ; Zeppezauer-Wachauer, Katharina ; Schlager, Daniel

Erschienen: 2019

Bibliographische Angaben
Zugang

Volltext:	https://d-nb.info/1188706373/34 http://nbn-resolving.de/urn:nbn:de:hbz:6-55189464392
Zitierfähiger Link:	https://doi.org/10.17879/55189462574 https://nbn-resolving.org/urn:nbn:de:hbz:6-55189464392

Export in Literaturverwaltung

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Unbestimmt
Format:	Online
DDC Klassifikation:	Germanische Sprachen; Deutsch (430)
Schlagworte:	Stilometrie; Autorschaft; Mittelhochdeutsch; Konrad von Würzburg; Mittelhochdeutsche Begriffsdatenbank; stylometry; authorship; Middle High German
Lizenz:	kostenfrei

Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta

Autor*in: Dimpel, F.M. (Friedrich) ; Zeppezauer-Wachauer, K. (Katharina) ; Schlager, D. (Daniel)

Erschienen: 2019

Begleitende Datenpublikation zum Aufsatz "Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg" von Friedrich Michael Dimpel, Katharina... mehr

Volltext:	https://miami.uni-muenster.de/Record/bc949a25-0d22-48e2-a1fb-c4ac1421f8e8 https://repositorium.uni-muenster.de/transfer/miami/bc949a25-0d22-48e2-a1fb-c4ac1421f8e8
Zitierfähiger Link:	https://nbn-resolving.org/urn:nbn:de:hbz:6-55189464392 https://doi.org/10.17879/55189462574

Begleitende Datenpublikation zum Aufsatz "Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg" von Friedrich Michael Dimpel, Katharina Zeppezauer-Wachauer und Daniel Schlager, der im Themenheft "Digitale Mediävistik" der Zeitschrift "Das Mittelalter", Band 24/1 (2019) erschien. Enthalten sind die Messdaten zum Beitrag in Form einer PDF-Präsentation.

Export in Literaturverwaltung

RIS-Format
BibTeX-Format

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Aufsatz aus einer Zeitschrift
Format:	Online
DDC Klassifikation:	Literaturen germanischer Sprachen; Deutsche Literatur (830)
Schlagworte:	Stilometrie; Autorschaft; Mittelhochdeutsch; Konrad von Würzburg; Mittelhochdeutsche Begriffsdatenbank; stylometry; authorship; Middle High German; German literature and literatures of related languages
Lizenz:	CC BY-NC 4.0 ; info:eu-repo/semantics/openAccess

Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg : Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta

Autor*in: Dimpel, Friedrich Michael ; Zeppezauer-Wachauer, Katharina ; Wachauer, Katharina Zeppezauer- ; Schlager, Daniel

Erschienen: 2019

Begleitende Datenpublikation zum Aufsatz "Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg" von Friedrich Michael Dimpel, Katharina... mehr

Volltext:	https://noah.nrw/doi/10.17879/55189462574
Zitierfähiger Link:	https://nbn-resolving.org/urn:nbn:de:hbz:6-55189464392 https://doi.org/10.17879/55189462574

Begleitende Datenpublikation zum Aufsatz "Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg" von Friedrich Michael Dimpel, Katharina Zeppezauer-Wachauer und Daniel Schlager, der im Themenheft "Digitale Mediävistik" der Zeitschrift "Das Mittelalter", Band 24/1 (2019) erschien. Enthalten sind die Messdaten zum Beitrag in Form einer PDF-Präsentation. ; Dimpel, Friedrich Michael; Zeppezauer-Wachauer, Katharina; Schlager, Daniel: Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. In: Das Mittelalter 24 (2019) 1 [Themenheft "Digitale Mediävistik"]

Export in Literaturverwaltung

RIS-Format
BibTeX-Format

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Aufsatz aus einer Zeitschrift
Format:	Online
DDC Klassifikation:	Literaturen germanischer Sprachen; Deutsche Literatur (830)
Schlagworte:	Stilometrie; Autorschaft; Mittelhochdeutsch; Konrad von Würzburg; Mittelhochdeutsche Begriffsdatenbank; stylometry; authorship; Middle High German
Lizenz:	cc-by-nc_4

Wiederholungen in Texten ; segmentieren und klassifizieren mit vollständigen Substringfrequenzen

Autor*in: Golcher, Felix

Erschienen: 2013

Verlag: Humboldt-Universität zu Berlin, Philosophische Fakultät II

Diese Arbeit untersucht vollständige Zeichenkettenfrequenzverteilungen natürlichsprachiger Texte auf ihren linguistischen und anwendungsbezogenen Gehalt. Im ersten Teil wird auf dieser Datengrundlage ein unüberwachtes Lernverfahren entwickelt, das... mehr

Volltext:	http://edoc.hu-berlin.de/18452/17519
Zitierfähiger Link:	https://nbn-resolving.org/urn:nbn:de:kobv:11-100213989 https://doi.org/10.18452/16867

Diese Arbeit untersucht vollständige Zeichenkettenfrequenzverteilungen natürlichsprachiger Texte auf ihren linguistischen und anwendungsbezogenen Gehalt. Im ersten Teil wird auf dieser Datengrundlage ein unüberwachtes Lernverfahren entwickelt, das Texte in Morpheme zerlegt. Die Zerlegung geht von der Satzebene aus und verwendet jegliche vorhandene Kontextinformation. Es ergibt sich ein sprachunabhängiger Algorithmus, der die gefundenen Morpheme teilweise zu Baumstrukturen zusammenordnet. Die Evaluation der Ergebnisse mit Hilfe statistischer Modelle ermöglicht die Identifizierung auch kleiner Performanzunterschiede. Diese sind einer linguistischen Interpretation zugänglich. Der zweite Teil der Arbeit besteht aus stilometrischen Untersuchungen anhand eines Textähnlichkeitsmaßes, das ebenfalls auf vollständigen Zeichenkettenfrequenzen beruht. Das Textähnlichkeitsmaß wird in verschiedenen Varianten definiert und anhand vielfältiger stilometrischer Fragestellungen und auf Grundlage unterschiedlicher Korpora ausgewertet. Dabei ist ein wiederholter Vergleich mit der Performanz bisheriger Forschungsansäzte möglich. Die Performanz moderner Maschinenlernverfahren kann mit dem hier vorgestellten konzeptuell einfacheren Verfahren reproduziert werden. Während die Segmentierung in Morpheme ein lokaler Vorgang ist, besteht Stilometrie im globalen Vergleich von Texten. Daher bietet die Untersuchung dieser zwei unverbunden scheinenden Fragestellungen sich gegenseitig ergänzende Perspektiven auf die untersuchten Häufigkeitsdaten. Darüber hinaus zeigt die Diskussion der rezipierten Literatur zu beiden Themen ihre Verbindungen durch verwandte Konzepte und Denkansätze auf. Aus der Gesamtheit der empirischen Untersuchungen zu beiden Fragestellungen kann abgeleitet werden, dass den längeren und damit selteneren Zeichenketten wesentlich mehr Informationsgehalt innewohnt, als in der bisherigen Forschung gemeinhin angenommen wird. ; This thesis investigates the linguistic and application specific content of complete character substring ...

Export in Literaturverwaltung

RIS-Format
BibTeX-Format

Quelle:	BASE Fachausschnitt Germanistik
Sprache:	Deutsch
Medientyp:	Dissertation
Format:	Online
DDC Klassifikation:	Germanische Sprachen; Deutsch (430)
Schlagworte:	Vollständige Zeichenkettenfrequenzverteilungen; Stilometrie; Morphologische Induktion; lineare gemischte Modelle; generalisierte lineare gemischte Modelle; logarithmische Transformation; complete substring frequency distributions; Stylometry; Morphological Induction; linear mixed models; generalized linear mixed models; logarithmic transformation
Lizenz:	Namensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung ; creativecommons.org/licenses/by-nc-nd/3.0/de/

Filtern nach

Aktive Filter

Kategorien:

Bereich

Quelle

Format

Beteiligt

Medientyp

Sprache

Jahr

Letzte Suchanfragen

Ergebnisse für *

Wiederholungen in Texten

Heterogene Autorschaft und digitale Textanalyse : Ein Experiment zum kompilatorischen Erzählstil Konrads von Würzburg

Ein Delta-Rätsel

Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg

Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta

Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg : Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta

Wiederholungen in Texten ; segmentieren und klassifizieren mit vollständigen Substringfrequenzen

Kontakt

Partner