Filtern nach
Letzte Suchanfragen

Ergebnisse für *

Es wurden 302 Ergebnisse gefunden.

Zeige Ergebnisse 151 bis 175 von 302.

Sortieren

  1. Clemens Räthel (Hg.): Den Ädelmodiga Abbedissan / Die edelmütige Äbtissin. Berliner Beiträge zur Skandinavistik, Band 28. Berlin: Nordeuropa-Institut 2021, 245 S.
  2. Patrick Ledderose: Dramatische Zeiten. Zeitkonzepte in skandinavischen Theatertexten um 1900 und 2000. Nordica, Band 28. Baden- Baden: Rombach Wissenschaft 2021, 391 S.
  3. „… ein Gemisch von Gehörtem und selbst Zugeseztem“ ; Nachschriften der ‚Kosmos-Vorträge‘ Alexander von Humboldts: Dokumentation, Kontextualisierung und exemplarische Analysen
    Erschienen: 2023
    Verlag:  Humboldt-Universität zu Berlin

    Diese Dissertationsschrift ist angesiedelt im Bereich Digitaler Edition archivalischer Quellen, deren Erschließung und (computergestützter) Analyse. Im Zentrum stehen die sog. Kosmos-Vorträge, die Alexander von Humboldts 1827/28 in zwei... mehr

     

    Diese Dissertationsschrift ist angesiedelt im Bereich Digitaler Edition archivalischer Quellen, deren Erschließung und (computergestützter) Analyse. Im Zentrum stehen die sog. Kosmos-Vorträge, die Alexander von Humboldts 1827/28 in zwei Vortragszyklen in Berlin gehalten hat. Diese werden als gleichwertige, zweifache Publikationen in Humboldts Werkbiographie eingeordnet. In einem zentralen Kapitel (Kap. 7) geht es mir um eine editionstheoretische Fundierung der Edition von Vorlesungsnachschriften, zunächst allgemein und dann bezogen auf die Nachschriften der Kosmos-Vorträge. Zuvor wird das Forschungsfeld beleuchtet, da über die Rahmenbedingungen und Inhalte der beiden Vortragsreihen bislang nur wenig bekannt war. Humboldts Motivation zu diesen Vorträgen, deren Zusammenhang mit dem Kosmos (1845–62) und weiteren seiner Publikationen, sowie die jeweiligen organisatorischen Rahmenbedingungen werden untersucht. Inhaltlich sind die Kosmos-Vorträge bislang wenig erforscht worden, unter anderem weil die wichtigsten Quellen nicht rezipiert wurden. Dank der Digitalisierung des Humboldt-Nachlasses und vor allem durch die Digitale Edition der Nachschriften aus dem Hörerkreis sind die Voraussetzungen dafür mittlerweile sehr viel besser. Um die künftige Arbeit mit diesen Dokumenten zu unterstützen, dokumentiere und reflektiere ich in Kapitel 8 die praktische Umsetzung des Editionsmodells gemäß den Richtlinien der Text Encoding Initiative (TEI). Anschließend stelle ich die edierten Nachschriften aus beiden Vortragszyklen vor und zeige, wie sich mit den digitalen Volltexten arbeiten lässt. Dabei kommen quantitative Untersuchungen und Verfahren wie automatische Kollation bzw. Plagiatssuche, aber auch ‚traditionell hermeneutische‘ Methoden zum Einsatz. Schließlich geht es mir in meiner Arbeit darum, die Grundlage für die weitere Erforschung der beiden Vortragsreihen wesentlich zu verbessern und anhand einiger exemplarischer Analysen erste Schritte in diese Richtung zu unternehmen. ; This dissertation is located in the field of ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
  4. Soziale Netzwerkanalysen zum mittelhochdeutschen Artusroman oder: Vorgreiflicher Versuch, Märchenhaftigkeit des Erzählens zu messen:Anhang
    Erschienen: 2019

    Begleitende Datenpublikation zum Aufsatz "Soziale Netzwerkanalysen zum mittelhochdeutschen Artusroman oder: Vorgreiflicher Versuch, Märchenhaftigkeit des Erzählens zu messen" von Manuel Braun und Nora Ketschik, der im Themenheft "Digitale... mehr

     

    Begleitende Datenpublikation zum Aufsatz "Soziale Netzwerkanalysen zum mittelhochdeutschen Artusroman oder: Vorgreiflicher Versuch, Märchenhaftigkeit des Erzählens zu messen" von Manuel Braun und Nora Ketschik, der im Themenheft "Digitale Mediävistik" der Zeitschrift "Das Mittelalter", Band 24/1 (2019) erschien. Enthalten sind die Abbildungen zum Beitrag.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Weitere
    Format: Online
    DDC Klassifikation: Literaturen germanischer Sprachen; Deutsche Literatur (830)
    Schlagworte: Soziale Netzwerkanalyse; Annotation; Entitätserkennung; Artusromane; europäische Volksmärchen; Social Network Analysis; Entity Extraction; Arthurian Romance; European Folktale; German literature and literatures of related languages
    Lizenz:

    CC BY-NC 4.0 ; info:eu-repo/semantics/openAccess

  5. Anschaulichkeit messen. Eine quantitative Metaphernanalyse an deutschsprachigen Erzählanfängen zwischen 1880 und 1926
    Erschienen: 2018

    Die vorliegende Arbeit erforscht mögliche Bedingungen des Zustandekommens eines Anschaulichkeitspotenzials deutschsprachiger Erzähltexte des Zeitraums 1880-1926. Das Vorgehen ist das einer quantitativen Analyse metaphorischen Sprachgebrauchs, wobei... mehr

     

    Die vorliegende Arbeit erforscht mögliche Bedingungen des Zustandekommens eines Anschaulichkeitspotenzials deutschsprachiger Erzähltexte des Zeitraums 1880-1926. Das Vorgehen ist das einer quantitativen Analyse metaphorischen Sprachgebrauchs, wobei ich eine Synthese von Kognitiver Linguistik, formalisierter Korpuslinguistik, gebrauchsbasierter Textlinguistik und traditioneller Rhetorik erprobe. Metaphorische Sprache, und zwar insbesondere konventionalisierte Metaphorik, wird dabei in Form der Hauptwortarten lexiko-grammatikalisch differenziert, um ausgehend von den typischen Diskursfunktionen der Wortarten (v. a. Referenzialierung von Objekten, Zuständen, Prozessen, Eigenschaften, und Relationen) Muster bezüglich eines Anschaulichkeitspotenzials zu erforschen. Das untersuchte Korpus wurde aus dem digitalen Referenzkorpus Deutsches Textarchiv extrahiert und besteht aus den Eingangspassagen 35 literarischer Werke. Der Texteingang wird als Schlüsselstelle der Kommunikation zwischen Text und Leser gewählt, die besondere Anforderungen an die Gestaltung des Diskurses stellt, indem sie repräsentative, aber auch persuasive Funktionen hat.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband; Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Literaturen germanischer Sprachen; Deutsche Literatur (830)
    Schlagworte: Digital Humanities; Metaphern; Anschaulichkeit; Annotation; Korpus; Stil; Moderne; Realismus
    Lizenz:

    CC0 1.0

  6. Lightweight grammatical annotation in the TEI: new perspectives
    Erschienen: 2018
    Verlag:  Paris, France : European language resources association (ELRA)

    In mid-2017, as part of our activities within the TEI Special Interest Group for Linguists (LingSIG), we submitted to the TEI Technical Council a proposal for a new attribute class that would gather attributes facilitating simple token-level... mehr

     

    In mid-2017, as part of our activities within the TEI Special Interest Group for Linguists (LingSIG), we submitted to the TEI Technical Council a proposal for a new attribute class that would gather attributes facilitating simple token-level linguistic annotation. With this proposal, we addressed community feedback complaining about the lack of a specific tagset for lightweight linguistic annotation within the TEI. Apart from @lemma and @lemmaRef, up till now TEI encoders could only resort to using the generic attribute @ana for inline linguistic annotation, or to the quite complex system of feature structures for robust linguistic annotation, the latter requiring relatively complex processing even for the most basic types of linguistic features. As a result, there now exists a small set of basic descriptive devices which have been made available at the cost of only very small changes to the TEI tagset. The merit of a predefined TEI tagset for lightweight linguistic annotation is the homogeneity of tagging and thus better interoperability of simple linguistic resources encoded in the TEI. The present paper introduces the new attributes, makes a case for one more addition, and presents the advantages of the new system over the legacy TEI solutions.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Text Encoding Initiative; Annotation
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  7. Aspekte der texttechnologischen Modellierung
    Erschienen: 2018
    Verlag:  Wiesbaden : VS Verlag für Sozialwissenschaften

  8. Dokumentgrammatiken als Grundlage von XML-Tools
    Erschienen: 2018
    Verlag:  Wiesbaden : VS Verlag für Sozialwissenschaften

  9. Textauszeichnungssprachen und Dokumentgrammatiken
    Erschienen: 2018
    Verlag:  Tübingen : Stauffenburg Verlag

  10. The role of generic and logical document structure in relational discourse analysis
    Erschienen: 2018
    Verlag:  Amsterdam/ Philadelphia : Benjamins

    This study examines what kind of cues and constraints for discourse interpretation can be derived from the logical and generic document structure of complex texts by the example of scientific journal articles. We performed statistical analysis on a... mehr

     

    This study examines what kind of cues and constraints for discourse interpretation can be derived from the logical and generic document structure of complex texts by the example of scientific journal articles. We performed statistical analysis on a corpus of scientific articles annotated on different annotations layers within the framework of XML-based multi-layer annotation. We introduce different discourse segment types that constrain the textual domains in which to identify rhetorical relation spans, and we show how a canonical sequence of text type structure categories is derived from the corpus annotations. Finally, we demonstrate how and which text type structure categories assigned to complex discourse segments of the type “block” statistically constrain the occurrence of rhetorical relation types.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Diskursanalyse; Texttechnologie; Korpus; Wissenschaftssprache; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  11. A syntax-based scheme for the annotation and segmentation of German spoken language interactions
    Erschienen: 2018
    Verlag:  Stroudsburg, PA, USA : Association for Computational Linguistics

    Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus... mehr

     

    Unlike corpora of written language where segmentation can mainly be derived from orthographic punctuation marks, the basis for segmenting spoken language corpora is not predetermined by the primary data, but rather has to be established by the corpus compilers. This impedes consistent querying and visualization of such data. Several ways of segmenting have been proposed, some of which are based on syntax. In this study, we developed and evaluated annotation and segmentation guidelines in reference to the topological field model for German. We can show that these guidelines are used consistently across annotators. We also investigated the influence of various interactional settings with a rather simple measure, the word-count per segment and unit-type. We observed that the word count and the distribution of each unit type differ in varying interactional settings and that our developed segmentation and annotation guidelines are used consistently across annotators. In conclusion, our syntax-based segmentations reflect interactional properties that are intrinsic to the social interactions that participants are involved in. This can be used for further analysis of social interaction and opens the possibility for automatic segmentation of transcripts.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Gesprochene Sprache; Korpus; Segmentierung; Annotation
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  12. Sprucing up the trees – error detection in treebanks
    Erschienen: 2018
    Verlag:  Stroudsburg PA, USA : The Association for Computational Linguistics

    We present a method for detecting annotation errors in manually and automatically annotated dependency parse trees, based on ensemble parsing in combination with Bayesian inference, guided by active learning. We evaluate our method in different... mehr

     

    We present a method for detecting annotation errors in manually and automatically annotated dependency parse trees, based on ensemble parsing in combination with Bayesian inference, guided by active learning. We evaluate our method in different scenarios: (i) for error detection in dependency treebanks and (ii) for improving parsing accuracy on in- and out-of-domain data.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Automatische Spracherkennung; Annotation; Parser
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  13. Universal Dependencies are hard to parse – or are they?
    Erschienen: 2018
    Verlag:  Linköping, Schweden : Linköping University Electronic Press

    Universal Dependency (UD) annotations, despite their usefulness for cross-lingual tasks and semantic applications, are not optimised for statistical parsing. In the paper, we ask what exactly causes the decrease in parsing accuracy when training a... mehr

     

    Universal Dependency (UD) annotations, despite their usefulness for cross-lingual tasks and semantic applications, are not optimised for statistical parsing. In the paper, we ask what exactly causes the decrease in parsing accuracy when training a parser on UD-style annotations and whether the effect is similarly strong for all languages. We conduct a series of experiments where we systematically modify individual annotation decisions taken in the UD scheme and show that this results in an increased accuracy for most, but not for all languages. We show that the encoding in the UD scheme, in particular the decision to encode content words as heads, causes an increase in dependency length for nearly all treebanks and an increase in arc direction entropy for many languages, and evaluate the effect this has on parsing accuracy.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Syntax; Annotation; Parser; Universalgrammatik
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  14. Detecting annotation noise in automatically labelled data
    Erschienen: 2018
    Verlag:  Stroudsburg PA, USA : The Association for Computational Linguistics

    We introduce a method for error detection in automatically annotated text, aimed at supporting the creation of high-quality language resources at affordable cost. Our method combines an unsupervised generative model with human supervision from active... mehr

     

    We introduce a method for error detection in automatically annotated text, aimed at supporting the creation of high-quality language resources at affordable cost. Our method combines an unsupervised generative model with human supervision from active learning. We test our approach on in-domain and out-of-domain data in two languages, in AL simulations and in a real world setting. For all settings, the results show that our method is able to detect annotation errors with high precision and high recall.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerlinguistik; Automatische Sprachverarbeitung; Annotation; Fehleranalyse
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  15. POS tagset refinement for linguistic analysis and the impact on statistical parsing
    Erschienen: 2018
    Verlag:  Tübingen : University of Tübingen

    The annotation of parts of speech (POS) in linguistically annotated corpora is a fundamental annotation layer which provides the basis for further syntactic analyses, and many NLP tools rely on POS information as input. However, most POS annotation... mehr

     

    The annotation of parts of speech (POS) in linguistically annotated corpora is a fundamental annotation layer which provides the basis for further syntactic analyses, and many NLP tools rely on POS information as input. However, most POS annotation schemes have been developed with written (newspaper) text in mind and thus do not carry over well to text from other domains and genres. Recent discussions have concentrated on the shortcomings of present POS annotation schemes with regard to their applicability to data from domains other than newspaper text.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Parts of speech; Syntaktische Analyse; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  16. Reply relations in CMC: types and annotation
    Erschienen: 2018
    Verlag:  Antwerpen : University of Antwerp

    This paper analyses reply relations in computer-mediated communication (CMC), which occur between post units in CMC interactions and which describe references between posts. We take a look at existing practices in the description and annotation of... mehr

     

    This paper analyses reply relations in computer-mediated communication (CMC), which occur between post units in CMC interactions and which describe references between posts. We take a look at existing practices in the description and annotation of such relations in chat, wiki talk, and blog corpora. We distinguish technical reply structures, indentation structures, and interpretative reply relations, which include reply relations induced by linguistic markers. We sort out the different levels of description and annotation that are involved and propose a solution for their combined representation within the TEI annotation framework.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Annotation; Text Encoding Initiative; Computerunterstützte Kommunikation
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  17. Reply relations in CMC: types and annotation
    Erschienen: 2018
    Verlag:  Antwerpen : University of Antwerp

    This paper analyses reply relations in computer-mediated communication (CMC), which occur between post units in CMC interactions and which describe references between posts. We take a look at existing practices in the description and annotation of... mehr

     

    This paper analyses reply relations in computer-mediated communication (CMC), which occur between post units in CMC interactions and which describe references between posts. We take a look at existing practices in the description and annotation of such relations in chat, wiki talk, and blog corpora. We distinguish technical reply structures, indentation structures, and interpretative reply relations, which include reply relations induced by linguistic markers. We sort out the different levels of description and annotation that are involved and propose a solution for their combined representation within the TEI annotation framework.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerunterstützte Kommunikation; Korpus; Annotation; Text Encoding Initiative; Antwort
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  18. Modeling and annotating complex data structures
    Erschienen: 2018
    Verlag:  London u.a. : Routledge, Taylor & Francis Group

  19. Redewiedergabe – Schritte zur automatischen Erkennung ; Speech, thought and writing representation – towards automatic detection
    Erschienen: 2019
    Verlag:  Berlin [u.a.] : de Gruyter

    This contribution presents a quantitative approach to speech, thought and writing representation (ST&WR) and steps towards its automatic detection. Automatic detection is necessary for studying ST&WR in a large number of texts and thus identifying... mehr

     

    This contribution presents a quantitative approach to speech, thought and writing representation (ST&WR) and steps towards its automatic detection. Automatic detection is necessary for studying ST&WR in a large number of texts and thus identifying developments in form and usage over time and in different types of texts. The contribution summarizes results of a pilot study: First, it describes the manual annotation of a corpus of short narrative texts in relation to linguistic descriptions of ST&WR. Then, two different techniques of automatic detection – a rule-based and a machine learning approach – are described and compared. Evaluation of the results shows success with automatic detection, especially for direct and indirect ST&WR.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Sprachstatistik; Automatische Sprachanalyse; Redewiedergabe; Annotation; Korpus
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  20. Das Redewiedergabe-Korpus. Eine neue Ressource
    Erschienen: 2019
    Verlag:  Frankfurt am Main : Zenodo

    In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines... mehr

     

    In diesem Beitrag wird das Redewiedergabe-Korpus (RW-Korpus) vorgestellt, ein historisches Korpus fiktionaler und nicht-fiktionaler Texte, das eine detaillierte manuelle Annotation mit Redewiedergabeformen enthält. Das Korpus entsteht im Rahmen eines laufenden DFG-Projekts und ist noch nicht endgültig abgeschlossen, jedoch ist für Frühjahr 2019 ein Beta-Release geplant, welches der Forschungsgemeinschaft zur Verfügung gestellt wird. Das endgültige Release soll im Frühjahr 2020 erfolgen. Das RW-Korpus stellt eine neuartige Ressource für die Redewiedergabe-Forschung dar, die in dieser Detailliertheit für das Deutsche bisher nicht verfügbar ist, und kann sowohl für quantitative linguistische und literaturwissenschaftliche Untersuchungen als auch als Trainingsmaterial für maschinelles Lernen dienen.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Redewiedergabe; Annotation; Automatische Spracherkennung; Deutsch
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess

  21. Guideline: Syntactic annotation and segmentation in the SegCor Project
    Erschienen: 2019
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

  22. Types and annotation of reply relations in computer-mediated communication
    Erschienen: 2019
    Verlag:  Berlin [u.a.] : de Gruyter

    This paper presents types and annotation layers of reply relations in computer- mediated communication (CMC). Reply relations hold between post units in CMC interactions and describe references from one given post to a previous post. We classify... mehr

     

    This paper presents types and annotation layers of reply relations in computer- mediated communication (CMC). Reply relations hold between post units in CMC interactions and describe references from one given post to a previous post. We classify three types of reply relations in CMC interactions: first, technical replies, i. e. the possibility to reply directly to a previous post by clicking a ‘reply’ button; second, indentations, e. g. in wiki talk pages in which users insert their contributions in the existing talk page by indenting them and third, interpretative reply relations, i. e. the reply action is not realised formally but signalled by other structural or linguistics means such as address markers ‘@’, greetings, citations and/or Q-A structures. We take a look at existing practices in the description and representation of such relations in corpora and examples of chat, Wikipedia talk pages, Twitter and blogs. We then provide an annotation proposal that combines the different levels of description and representation of reply relations and which adheres to the schemas and practices for encoding CMC corpus documents within the TEI framework as defined by the TEI CMC SIG. It constitutes a prerequisite for correctly identifying higher levels of interactional relations such as dialogue acts or discussion trees. ; Der vorliegende Artikel stellt Typen und Annotationsebenen von Antwortrelationen in der internetbasierten Kommunikation (IBK) vor. Antwortrelationen bestehen zwischen Posts in IBK-Interaktionen und beschreiben Referenzen, die zwischen einem Initialbeitrag und einem Folgebeitrag bestehen. Wir klassifizieren drei Arten von Antwortrelationen in IBK-Interaktionen: erstens, technische Antwortrelationen, welche dadurch gekennzeichnet sind, dass durch das Betätigen einer „Antwort“-Schaltfläche eine Antwort initiiert wird, bspw. in Blogs; zweitens, Einrückungen, z. B. auf Wikipedia-Diskussionsseiten, in denen Benutzer ihre Beiträge in die entsprechende Stelle des Diskussionsverlaufs einfügen, indem sie ihre ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerunterstützte Kommunikation; Korpus; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  23. Little strokes fell great oaks. Creating CoRoLa, the reference corpus of contemporary Romanian

    The paper presents the quite long-standing tradition of Romanian corpus acquisition and processing, which reaches its peak with the reference corpus of contemporary Romanian language (CoRoLa). The paper describes decisions behind the kinds of texts... mehr

     

    The paper presents the quite long-standing tradition of Romanian corpus acquisition and processing, which reaches its peak with the reference corpus of contemporary Romanian language (CoRoLa). The paper describes decisions behind the kinds of texts collected, as well as processing and annotation steps, highlighting the structure and importance of metadata to the corpus. The reader is also introduced to the three ways in which (s)he can plunge into the rich linguistic data of the corpus, waiting to be discovered. Besides querying the corpus, word embeddings extracted from it are useful to various natural language processing applications and for linguists, when user-friendly interfaces offer them the possibility to exploit the data.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Rumänisch; Korpus; Annotation; Metadaten
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  24. Translate and label! An encoder-decoder approach for cross-lingual semantic role labeling
    Erschienen: 2019
    Verlag:  Stroudsburg, PA, USA : The Association for Computational Linguistics

    We propose a Cross-lingual Encoder-Decoder model that simultaneously translates and generates sentences with Semantic Role Labeling annotations in a resource-poor target language. Unlike annotation projection techniques, our model does not need... mehr

     

    We propose a Cross-lingual Encoder-Decoder model that simultaneously translates and generates sentences with Semantic Role Labeling annotations in a resource-poor target language. Unlike annotation projection techniques, our model does not need parallel data during inference time. Our approach can be applied in monolingual, multilingual and cross-lingual settings and is able to produce dependencybased and span-based SRL annotations. We benchmark the labeling performance of our model in different monolingual and multilingual settings using well-known SRL datasets. We then train our model in a cross-lingual setting to generate new SRL labeled data. Finally, we measure the effectiveness of our method by using the generated data to augment the training basis for resource-poor languages and perform manual evaluation to show that it produces high-quality sentences and assigns accurate semantic role annotations. Our proposed architecture offers a flexible method for leveraging SRL data in multiple languages.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Simultanübersetzen; Automatische Sprachverarbeitung; Annotation; Computerlinguistik; Semantik
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  25. Uralic multimedia corpora: ISO/TEI corpus data in the project INEL
    Erschienen: 2020
    Verlag:  Stroudsburg, PA : Association for Computational Linguistics

    In this paper, we describe a data processing pipeline used for annotated spoken corpora of Uralic languages created in the INEL (Indigenous Northern Eurasian Languages) project. With this processing pipeline we convert the data into a loss-less... mehr

     

    In this paper, we describe a data processing pipeline used for annotated spoken corpora of Uralic languages created in the INEL (Indigenous Northern Eurasian Languages) project. With this processing pipeline we convert the data into a loss-less standard format (ISO/TEI) for long-term preservation while simultaneously enabling a powerful search in this version of the data. For each corpus, the input we are working with is a set of files in EXMARaLDA XML format, which contain transcriptions, multimedia alignment, morpheme segmentation and other kinds of annotation. The first step of processing is the conversion of the data into a certain subset of TEI following the ISO standard ’Transcription of spoken language’ with the help of an XSL transformation. The primary purpose of this step is to obtain a representation of our data in a standard format, which will ensure its long-term accessibility. The second step is the conversion of the ISO/TEI files to a JSON format used by the “Tsakorpus” search platform. This step allows us to make the corpora available through a web-based search interface. As an addition, the existence of such a converter allows other spoken corpora with ISO/TEI annotation to be made accessible online in the future. ; Tässä paperissa kuvataan aineistonnprosessointimenetelmä joka on käytössä uralilaisten puhuttujen korpusten luonnissa kieltedokumentointiprojekti INELissä. Prosessointimenetelmää käytetään konvertoimaan dataa häviöttömään ISO/TEI- standardiformaattiin pitkän aikavälin säilytystä varten sekä samanaikaisesti tehokkaisiin hakutoimintoihin tälle akineistoversiolle. Jokaisen korpuksen lähtöaineistona on joukko tiedostoja EXMARaLDAn XML-formaatissa, joka sisältää transkriptejä, multimediaa kohdennuksineen, morfeemijäsennyksiä ja muita annotaatiota. Ensimmäinen käsittelyaskel on aineiston konvertointi TEI:n osajoukkoon, joka muodostaa ISO-standardin puhutun kielen transkripteille, XSL-transformaatioita käyttäen. Tämän askelen ensisijainen tarkoitus on saada aineisto sellaiseen ...

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerlinguistik; Uralische Sprachen; Korpus; Text Encoding Initiative; Gesprochene Sprache; Annotation
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess