Filtern nach
Letzte Suchanfragen

Ergebnisse für *

Es wurden 28 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 25 von 28.

Sortieren

  1. Korpusdokumentation des SiGS-Korpus der Hexenverhörprotokolle

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    DDC Klassifikation: Deutsche Grammatik (435)
    Schlagworte: Annotation; Hexenverhörprotokolle; Belebtheit; Satzglied; semantische Rolle
    Lizenz:

    kostenfrei

  2. Historische Textmuster im Wandel
    neue Wege zu ihrer Erschließung
    Erschienen: [2023]
    Verlag:  de Gruyter, Berlin ; Walter de Gruyter GmbH

    Zugang:
    Resolving-System (kostenfrei)
    Universitätsbibliothek J. C. Senckenberg, Zentralbibliothek (ZB)
    keine Fernleihe
    Universität Frankfurt, Elektronische Ressourcen
    /
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Fachkatalog Germanistik
    Beteiligt: Haaf-Dumont, Susanne (Herausgeber); Thielert, Frauke (Mitwirkender)
    Sprache: Deutsch
    Medientyp: Ebook
    Format: Online
    ISBN: 9783111086538; 9783111086590
    Weitere Identifier:
    RVK Klassifikation: GC 7370 ; ET 785 ; GC 1015 ; ES 900
    DDC Klassifikation: Sprache (400); Linguistik (410); Germanische Sprachen; Deutsch (430)
    Schriftenreihe: Reihe Germanistische Linguistik ; 331
    Schlagworte: Deutsch; Sprache; Textsorte; Textlinguistik; Korpus <Linguistik>; Annotation; Sprachwandel
    Umfang: 1 Online-Ressource (VI, 472 Seiten)
  3. Historische Textmuster im Wandel
    neue Wege zu ihrer Erschließung
    Autor*in:
    Erschienen: 2023
    Verlag:  De Gruyer, Berlin

    Universitätsbibliothek J. C. Senckenberg, Zentralbibliothek (ZB)
    91.467.33
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Fachkatalog Germanistik
    Beteiligt: Schuster, Britt-Marie (Array); Haaf, Susanne (Array); Thielert, Frauke (Mitwirkender)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Druck
    ISBN: 9783111086279
    Weitere Identifier:
    9783111086279
    RVK Klassifikation: ES 900 ; ET 785 ; GC 1015 ; GC 7370
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schriftenreihe: Reihe Germanistische Linguistik ; 331
    Schlagworte: Deutsch; Sprache; Textsorte; Textlinguistik; Korpus <Linguistik>; Annotation; Sprachwandel
    Umfang: VI, 472 Seiten, Illustrationen, Diagramme
  4. Eine digitale Narratologie der Binnenerzählung
    Untersuchungen zu den Dramen und Novellen Heinrich von Kleists
    Erschienen: 2023
    Verlag:  Springer Berlin Heidelberg, Berlin, Heidelberg ; Springer International Publishing AG, Cham

    Universitätsbibliothek J. C. Senckenberg, Zentralbibliothek (ZB)
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Fachkatalog Germanistik
    Sprache: Deutsch
    Medientyp: Ebook
    Format: Online
    ISBN: 9783662670361; 3662670364
    Weitere Identifier:
    DDC Klassifikation: Literaturen germanischer Sprachen; Deutsche Literatur (830); Literatur und Rhetorik (800)
    Auflage/Ausgabe: 1st ed. 2023
    Schriftenreihe: Digitale Literaturwissenschaft
    Schlagworte: Drama; Novelle; Binnenerzählung; Annotation; Digital Humanities; Computerlinguistik; Erzähltechnik; Narration (Rhetoric); Narratology
    Weitere Schlagworte: Kleist, Heinrich von (1777-1811)
    Umfang: 1 Online-Ressource (XVI, 340 Seiten), 67 Abb., 22 Abb. in Farbe.
  5. Clemens Räthel (Hg.): Den Ädelmodiga Abbedissan / Die edelmütige Äbtissin. Berliner Beiträge zur Skandinavistik, Band 28. Berlin: Nordeuropa-Institut 2021, 245 S.
  6. Patrick Ledderose: Dramatische Zeiten. Zeitkonzepte in skandinavischen Theatertexten um 1900 und 2000. Nordica, Band 28. Baden- Baden: Rombach Wissenschaft 2021, 391 S.
  7. „… ein Gemisch von Gehörtem und selbst Zugeseztem“ ; Nachschriften der ‚Kosmos-Vorträge‘ Alexander von Humboldts: Dokumentation, Kontextualisierung und exemplarische Analysen
    Erschienen: 2023
    Verlag:  Humboldt-Universität zu Berlin

    Diese Dissertationsschrift ist angesiedelt im Bereich Digitaler Edition archivalischer Quellen, deren Erschließung und (computergestützter) Analyse. Im Zentrum stehen die sog. Kosmos-Vorträge, die Alexander von Humboldts 1827/28 in zwei... mehr

     

    Diese Dissertationsschrift ist angesiedelt im Bereich Digitaler Edition archivalischer Quellen, deren Erschließung und (computergestützter) Analyse. Im Zentrum stehen die sog. Kosmos-Vorträge, die Alexander von Humboldts 1827/28 in zwei Vortragszyklen in Berlin gehalten hat. Diese werden als gleichwertige, zweifache Publikationen in Humboldts Werkbiographie eingeordnet. In einem zentralen Kapitel (Kap. 7) geht es mir um eine editionstheoretische Fundierung der Edition von Vorlesungsnachschriften, zunächst allgemein und dann bezogen auf die Nachschriften der Kosmos-Vorträge. Zuvor wird das Forschungsfeld beleuchtet, da über die Rahmenbedingungen und Inhalte der beiden Vortragsreihen bislang nur wenig bekannt war. Humboldts Motivation zu diesen Vorträgen, deren Zusammenhang mit dem Kosmos (1845–62) und weiteren seiner Publikationen, sowie die jeweiligen organisatorischen Rahmenbedingungen werden untersucht. Inhaltlich sind die Kosmos-Vorträge bislang wenig erforscht worden, unter anderem weil die wichtigsten Quellen nicht rezipiert wurden. Dank der Digitalisierung des Humboldt-Nachlasses und vor allem durch die Digitale Edition der Nachschriften aus dem Hörerkreis sind die Voraussetzungen dafür mittlerweile sehr viel besser. Um die künftige Arbeit mit diesen Dokumenten zu unterstützen, dokumentiere und reflektiere ich in Kapitel 8 die praktische Umsetzung des Editionsmodells gemäß den Richtlinien der Text Encoding Initiative (TEI). Anschließend stelle ich die edierten Nachschriften aus beiden Vortragszyklen vor und zeige, wie sich mit den digitalen Volltexten arbeiten lässt. Dabei kommen quantitative Untersuchungen und Verfahren wie automatische Kollation bzw. Plagiatssuche, aber auch ‚traditionell hermeneutische‘ Methoden zum Einsatz. Schließlich geht es mir in meiner Arbeit darum, die Grundlage für die weitere Erforschung der beiden Vortragsreihen wesentlich zu verbessern und anhand einiger exemplarischer Analysen erste Schritte in diese Richtung zu unternehmen. ; This dissertation is located in the field of ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
  8. Clemens Räthel (Hg.): Den Ädelmodiga Abbedissan
  9. Patrick Ledderose: Dramatische Zeiten. Zeitkonzepte in skandinavischen Theatertexten um 1900 und 2000. Nordica, Band 28. Baden- Baden: Rombach Wissenschaft 2021, 391 S.
  10. Metadata formats for learner corpora: case study and discussion
    Erschienen: 2023
    Verlag:  Linköping : LiU Electronic Press ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Metadata provides important information relevant both to finding and understanding corpus data. Meaningful linguistic data requires both reasonable annotations and documentation of these annotations. This documentation is part of the metadata of a... mehr

     

    Metadata provides important information relevant both to finding and understanding corpus data. Meaningful linguistic data requires both reasonable annotations and documentation of these annotations. This documentation is part of the metadata of a dataset. While corpus documentation has often been provided in the form of accompanying publications, machinereadable metadata, both containing the bibliographic information and documenting the corpus data, has many advantages. Metadata standards allow for the development of common tools and interfaces. In this paper I want to add a new perspective from an archive’s point of view and look at the metadata provided for four learner corpora and discuss the suitability of established standards for machine-readable metadata. I am are aware that there is ongoing work towards metadata standards for learner corpora. However, I would like to keep the discussion going and add another point of view: increasing findability and reusability of learner corpora in an archiving context.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Metadaten; Korpus; Computerlinguistik; Annotation; Dokumentation; Datensatz; Archivierung
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  11. RefCo and its checker: improving language documentation corpora’s reusability through a semi-automatic review process
    Erschienen: 2023
    Verlag:  Paris : European Language Resources Association (ELRA) ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    The QUEST (QUality ESTablished) project aims at ensuring the reusability of audio-visual datasets (Wamprechtshammer et al., 2022) by devising quality criteria and curating processes. RefCo (Reference Corpora) is an initiative within QUEST in... mehr

     

    The QUEST (QUality ESTablished) project aims at ensuring the reusability of audio-visual datasets (Wamprechtshammer et al., 2022) by devising quality criteria and curating processes. RefCo (Reference Corpora) is an initiative within QUEST in collaboration with DoReCo (Documentation Reference Corpus, Paschen et al. (2020)) focusing on language documentation projects. Previously, Aznar and Seifart (2020) introduced a set of quality criteria dedicated to documenting fieldwork corpora. Based on these criteria, we establish a semi-automatic review process for existing and work-in-progress corpora, in particular for language documentation. The goal is to improve the quality of a corpus by increasing its reusability. A central part of this process is a template for machine-readable corpus documentation and automatic data verification based on this documentation. In addition to the documentation and automatic verification, the process involves a human review and potentially results in a RefCo certification of the corpus. For each of these steps, we provide guidelines and manuals. We describe the evaluation process in detail, highlight the current limits for automatic evaluation and how the manual review is organized accordingly.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Dokumentation; Datensatz; Zertifizierung; Richtlinie; Sprachdaten; Gesprochene Sprache; Annotation; Computerlinguistik
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  12. Lexicography and corpus linguistics
    Erschienen: 2023
    Verlag:  London/New York : Routledge ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    As Firth (1957:11) has rightly stated with his famous sentence: “You shall know a word by the company it keeps”, we need to look at the use of words before we attempt to describe them. A single human, or even a group of expert researchers, cannot be... mehr

     

    As Firth (1957:11) has rightly stated with his famous sentence: “You shall know a word by the company it keeps”, we need to look at the use of words before we attempt to describe them. A single human, or even a group of expert researchers, cannot be expected to know every use of every word or, more generally, of every linguistic phenomenon produced by all speakers of a language; we thus need to collect samples of language in use (and compile them in a way computationally that they can be studied by humans). It is moreover argued that such empiricism is an adequate practice aiming at widening the lexicographic (and linguistic) horizon, as Douglas Biber and Randi Reppen (2015:2) state: “corpus analyses have documented the existence of linguistic constructs that are not recognized by current linguistic theories”.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Lexikografie; Computerunterstützte Lexikografie; Korpus; Sprachgebrauch; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  13. Redewiedergabe in Heftromanen und Hochliteratur
    Erschienen: 2023
    Verlag:  Paderborn : Zenodo ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Die vorgestellte Studie untersucht die Anteile unterschiedlicher Redewiedergabeformen im Vergleich zwischen zwei Literaturtypen von gegensätzlichen Enden des Spektrums: Hochliteratur – definiert als Werke, die auf der Auswahlliste von... mehr

     

    Die vorgestellte Studie untersucht die Anteile unterschiedlicher Redewiedergabeformen im Vergleich zwischen zwei Literaturtypen von gegensätzlichen Enden des Spektrums: Hochliteratur – definiert als Werke, die auf der Auswahlliste von Literaturpreisen standen – und Heftromanen, massenproduzierten Erzählwerken, die zumeist über den Zeitschriftenhandel vertrieben werden und früher abwertend als „Romane der Unterschicht” (Nusser 1981) bezeichnet wurden. Unsere These ist, dass sich diese Literaturtypen hinsichtlich ihrer Erzählweise unterscheiden, und sich dies in den verwendeten Wiedergabeformen niederschlägt. Der Fokus der Untersuchung liegt auf der Dichotomie zwischen direkter und nicht-direkter Wiedergabe, die schon in der klassischen Rhetorik aufgemacht wurde.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Hochliteratur; Romanheft; Erzähltechnik; Annotation; Volltext
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  14. Das Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK). Zum Nutzen eines großen annotierten Korpus gesprochener Sprache für interaktionslinguistische Fragestellungen
    Erschienen: 2023
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Der Beitrag illustriert die Nutzung des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für interaktionslinguistische Fragestellungen anhand einer exemplarischen Studie. Zunächst werden die Stratifikation (Datenkomposition) des Korpus, das... mehr

     

    Der Beitrag illustriert die Nutzung des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für interaktionslinguistische Fragestellungen anhand einer exemplarischen Studie. Zunächst werden die Stratifikation (Datenkomposition) des Korpus, das zugrundeliegende Datenmodell und dessen Annotationsebenen sowie Typen von Untersuchungsinteressen vorgestellt, für die das Korpus nutzbar ist. Im Hauptteil wird Schritt für Schritt anhand einer Studie zur Verwendung des Formats was heißt X in der sozialen Interaktion gezeigt, wie mit FOLK relevante Daten gefunden und analysiert werden können. Abschließend weisen wir auf einige Vorsichtsmaßnahmen bei der Benutzung des Korpus hin.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Mündliche Kommunikation; Deutsch; Interaktion; Datenmodell; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  15. Korpora für die Diskursanalyse. Ressourcen und Lösungen im Discourse Lab
    Erschienen: 2023
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Der Beitrag thematisiert den Zusammenhang von Korpusaufbereitung, Datenanreicherung und Nutzungsszenarien im Kontext des Discourse Lab, das an der TU Darmstadt und der Universität Heidelberg betrieben und in linguistischen und interdisziplinären... mehr

     

    Der Beitrag thematisiert den Zusammenhang von Korpusaufbereitung, Datenanreicherung und Nutzungsszenarien im Kontext des Discourse Lab, das an der TU Darmstadt und der Universität Heidelberg betrieben und in linguistischen und interdisziplinären Forschungs- und Lehrprojekten genutzt wird. Für die Diskursforschung sind Korpora genauso konstitutiv wie die Einbeziehung von Kontexten des Sprachgebrauchs in die Analyse. Daher ist die Frage nach Repräsentationsformaten von Kontexten besonders wichtig. Eine große Rolle bei der korpuslinguistischen Kontextualisierung spielen auch Annotationen. Das wird am Darmstädter-Tagblatt-Korpus, den Plenarprotokollen des Deutschen Bundestags und den Korpora der DFG-Forschungsgruppe Kontroverse Diskurse diskutiert.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Diskursanalyse; Datenaufbereitung; Annotation; Sprachdaten
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  16. Akustisches Signal, Mehrebenenannotation und Aufgabendesign: flexible Korpusarchitektur als Voraussetzung für die Wiederverwendung gesprochener Korpora. Zur /eː/-Aussprache polnischer Deutschlerner/-innen
    Erschienen: 2023
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer... mehr

     

    Die erfolgreiche Wiederverwendung gesprochener Korpora muss fachspezifischen Evaluationskritierien genügen und erfordert daher eine flexible Korpusarchitektur, die durch multirepräsentationale (Verfügbarkeit eines akustischen Signals und einer Transliteration) und multisituationale Daten (Variabilität von Situationen bzw. Aufgaben) gekennzeichnet ist. Diese Kriterien werden in einer Fallstudie zur /eː/-Diphthongisierung polnischer Deutschlerner/-innen angewendet und diskutiert. Die Fallstudie repliziert die Ergebnisse der /eː/-Diphthongisierung bei Bildbenennungen von Nimz (2016). Vor der Wiederverwendung werden weitere fachspezifische Evaluationskriterien überprüft, wie Multisituationalität, Aufnahmequalitäten, Erweiterbarkeit, vorhandene Metadaten und vorhandene Dokumentation. Nach der Replikationsstudie werden die Herausforderungen für eine Umsetzung der Wiederverwendung bezüglich Datenmanagement, Workflows und Data Literacy in Forschungs- und Lehrkontexten diskutiert.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Akustisches Signal; Annotation; Korpus; Wiederverwendung; Aussprache; Deutsch; Sprachdaten; Fallstudie; Metadaten; Dokumentation; Datenmanagement; Arbeitsablauf; Datenkompetenz; Phonetik
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  17. GiesKaNe: Korpusaufbau zwischen Standard und Innovation
    Erschienen: 2023
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch... mehr

     

    Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Annotation; Deutsch; Interoperabilität; Maschinelles Lernen
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  18. Approximating the disambiguation of some German nominalizations by use of weak structural, lexical and corpus information ; Hacía la desambiguación de nominalizaciones en alemán a partir de información estructural, léxica y de corpus
    Erschienen: 2023
    Verlag:  Jaén : University of Jaén ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to... mehr

     

    Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to so-called lightweight semantics (Marek, 2009) we suggest to only make sparse use of semantic information. We describe an approximation model based upon flat underspecified discourse representation structures (FUDRSs, cf. Eberle, 2004) that weighs knowledge about context structure, lexical semantic restrictions and interpretation preferences. We give a catalogue of guidelines for human annotation of texts by corresponding indicators. Using this, the reliability of an analysis tool that implements the model can be tested with respect to annotation precision and disambiguation prediction and how both can be improved by bootstrapping the knowledge of the system using corpus information. For the balanced test corpus considered the recognition rate of the preferred reading is 80-90% (depending on the smoothing of parse errors). ; Entre el método clásico y simbólico de desambiguación de sentidos (WSD) que utiliza representaciones semánticas profundas de oraciones y textos, y el método estadístico que utiliza información relativa a la co-ocurrencia de palabras, existe una tendencia reciente a usar métodos híbridos. De manera similar a la llamada semántica light-weight (Marek, 2009), en este artículo se propone hacer uso de escasa información semántica. Describimos un modelo de aproximación sobre la base de Flat Underspecified Discourse Representation Structures (FUDRSs, cf. Eberle 2004) que valora conocimiento sobre estructura contextual, restricciones de semántica léxica e interpretaciones preferenciales. Presentamos una guía de anotación para la anotación por humanos de textos con los correspondientes indicadores. Mediante su uso, la fiabilidad de la herramienta que implementa el modelo puede ser testada con respecto a la precisión de anotación y a la predicción de ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Nominalisierung; Deutsch; Annotation; Ambiguität; Interpretative Semantik; Kontext
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  19. Applied corpus linguistics for lexicography: Sepedi negation as a case in point ; Eine korpuslinguistische Untersuchung der Sepedi-Negation für die Lexikographie
    Erschienen: 2023
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    So far, Sepedi negations have been considered more from the point of view of lexico­graphical treatment. Theoretical works on Sepedi have been used for this purpose, setting as an objective a neat description of these negations in a (paper)... mehr

     

    So far, Sepedi negations have been considered more from the point of view of lexico­graphical treatment. Theoretical works on Sepedi have been used for this purpose, setting as an objective a neat description of these negations in a (paper) dictionary. This paper is from a different perspective: instead of theoretical works, corpus linguistic methods are used: (1) a Sepedi corpus is examined on the basis of existing descriptions of the occurrences of a relevant verb, looking at its negated forms from a purely prescriptive point of view; (2) a "corpus-driven" strategy is employed, looking only for sequences of negation particles (or morphemes) in order to list occurring con­structions, without taking into account the verbs occurring in them, apart from their endings. The approach in (2) is only intended to show a possible methodology to extend existing theories on occurring negations. We would also like to try to help lexicographers to establish a frequency-based order of entries of possible negation forms in their dictionaries by showing them the number of respective occurrences. As with all corpus linguistic work, however, we must regard corpus evidence not as representative, but as tendencies of language use that can be detected and described. This is especially true for Sepedi, for which only few and small corpora exist. This paper also describes the resources and tools used to create the necessary corpus and also how it was annotated with part of speech and lemmas. Exploring the quality of available Sepedi part-of-speech taggers concerning verbs, negation morphemes and subject concords may be a positive side result. ; Bisher wurden Sepedi Negationen eher aus der Sicht der lexi­ko­graphischen Behandlung betrachtet. Hierfür wurden theoretische Werke über Sepedi ver­wendet, wobei als Zielsetzung eine saubere Beschreibung dieser Negationen in einem (Papier-)Wör­ter­buch gesetzt wurde. Dieser Beitrag ist aus einer anderen Perspektive: statt theoretischer Werke werden korpuslinguistische Methoden eingesetzt: (1) ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Lexikografie; Negation; Pedi-Sprache; Wörterbuch; Annotation
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  20. Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen
    Erschienen: 2023
    Verlag:  Hildesheim : Gesellschaft für Sprachtechnologie und Computerlinguistik ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die... mehr

     

    In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des song-korpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch -lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten ≥ 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Prozessierung; Annotation; Apostroph; Zeichensetzung; Lyrics <Lyrik>
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess

  21. From to ISOTiger – community driven developments for syntax annotation in SynAF
    Erschienen: 2023
    Verlag:  Tübingen : Universität Tübingen ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    In 2010, ISO published a standard for syntactic annotation, ISO 24615:2010 (SynAF). Back then, the document specified a comprehensive reference model for the representation of syntactic annotations, but no accompanying XML serialisation. ISO’s... mehr

     

    In 2010, ISO published a standard for syntactic annotation, ISO 24615:2010 (SynAF). Back then, the document specified a comprehensive reference model for the representation of syntactic annotations, but no accompanying XML serialisation. ISO’s subcommittee on language resource management (ISO TC 37/SC 4) is working on making the SynAF serialisation ISOTiger an additional part of the standard. This contribution addresses the current state of development of ISOTiger, along with a number of open issues on which we are seeking community feedback in order to ensure that ISOTiger becomes a useful extension to the SynAF reference model.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Syntax; Annotation; Standardisierung; Texttechnologie
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  22. Annotation and beyond – Using ATHEN Annotation and Text Highlighting Environment
    Erschienen: 2023
    Verlag:  Potsdam : Zenodo ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    The workshop presents ATHEN 1 (Annotation and Text Highlighting Environment), an extensible desktop-based annotation environment which supports more than just regular annotation. Besides being a general purpose annotation environment, ATHEN supports... mehr

     

    The workshop presents ATHEN 1 (Annotation and Text Highlighting Environment), an extensible desktop-based annotation environment which supports more than just regular annotation. Besides being a general purpose annotation environment, ATHEN supports indexing and querying support of your data as well as the ability to automatically preprocess your data with Meta information. It is especially suited for those who want to extend existing general purpose annotation tools by implementing their own custom features, which cannot be fulfilled by other available annotation environments. On the according gitlab, we provide online tutorials, which demonstrate the use of specific features of ATHEN

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Annotation; Indexierung; Datenverarbeitung; Textverarbeitung; Online-Dienst
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  23. Studying the distribution of reply relations in Wikipedia talk pages
    Erschienen: 2023
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    This paper presents an extended annotation and analysis of interpretative reply relations focusing on a comparison of reply relation types and targets between conflictual pages and neutral pages of German Wikipedia (WP) talk pages. We briefly present... mehr

     

    This paper presents an extended annotation and analysis of interpretative reply relations focusing on a comparison of reply relation types and targets between conflictual pages and neutral pages of German Wikipedia (WP) talk pages. We briefly present the different categories identified for interpretative reply relations to analyze the relationship between WP postings as well as linguistic cues for each category. We investigate referencing strategies of WP authors in discussion page postings, illustrated by means of reply relation types and targets taking into account the degree of disagreement displayed on a WP talk page. We provide richly annotated data that can be used for further analyses such as the identification of interactional relations on higher levels, or for training tasks in machine learning algorithms.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Wikipedia; Computerunterstützte Kommunikation; Annotation; Korpus
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  24. The IVK-Ler corpus of adolescent foreign-language learners of German
    Erschienen: 2023
    Verlag:  Tübingen : Narr Francke Attempto ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    This paper presents the IVK-Ler corpus, a longitudinal, annotated learner corpus of weekly writings produced by a group of 18 adolescents in a preparatory class. The corpus consists of 117 student texts collected between 2020 and 2021 and has a... mehr

     

    This paper presents the IVK-Ler corpus, a longitudinal, annotated learner corpus of weekly writings produced by a group of 18 adolescents in a preparatory class. The corpus consists of 117 student texts collected between 2020 and 2021 and has a structure layered by student and text number. It includes metadata that enables researchers to analyze and track individual student progress in terms of syntactic competence and literacy. The annotation schema, manual and automatic annotation processes, and corpus representation are described in detail. The corpus currently includes target hypotheses and gold standard part-of-speech tags. Future work could include additional annotation layers for topological fields and dependency relations, as well as semantic and discourse annotations to make the corpus usable for tasks beyond syntactic evaluations. ; Dieser Artikel präsentiert das IVK-Ler Korpus, ein longitudinal annotiertes Lernkorpus von wöchentlichen Aufsätzen, produziert von einer Gruppe von 18 Jugendlichen in einer Vorbereitungsklasse. Das Korpus besteht aus 117 Schülertexten, die zwischen 2020 und 2021 gesammelt wurden und hat eine Struktur, die nach Schüler und Textnummer geordnet ist. Es enthält Metadaten, die Forscher ermöglichen, den individuellen Fortschritt der Schüler hinsichtlich syntaktischer Kompetenz und Literacy zu analysieren und zu verfolgen. Das Annotation-Schema, die manuellen und automatischen Annotation-Prozesse sowie die Korpus-Darstellung werden detailliert beschrieben. Das Korpus enthält derzeit Zielhypothesen und Goldstandard-POS-Tags. Zukünftige Erweiterungen könnten zusätzliche Annotation-Schichten für topologische Felder und Abhängigkeitsbeziehungen sowie semantische und Diskurs-Annotationen beinhalten, um das Korpus für Aufgaben jenseits syntaktischer Bewertungen nutzbar zu machen.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Jugendlicher; Schüler; Annotation; Syntax
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  25. Projektvorstellung – Sprachanfragen. Empirisch gestützte Erforschung von Zweifelsfällen
    Erschienen: 2023
    Verlag:  Genf : Zenodo ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    "Das im Januar 2022 gestartete Projekt "Sprachanfragen" (https://www.ids-mannheim.de/gra/projekte2/sprachanfragen/) verfolgt erstmalig das Ziel, Sprachanfragedaten zu erfassen, aufzubereiten und ein wissenschaftsöffentliches Monitorkorpus aus ihnen... mehr

     

    "Das im Januar 2022 gestartete Projekt "Sprachanfragen" (https://www.ids-mannheim.de/gra/projekte2/sprachanfragen/) verfolgt erstmalig das Ziel, Sprachanfragedaten zu erfassen, aufzubereiten und ein wissenschaftsöffentliches Monitorkorpus aus ihnen zu erstellen. Dazukommend wird eine Rechercheschnittstelle entwickelt, mit der die Sprachanfragen systematisch wissenschaftlich analysierbar gemacht werden. Das Poster gibt einen Überblick über das Projekt, zeigt erste Ergebnisse und bietet einen Ausblick auf Überlegungen zur Konzeption eines Chatbots zur automatisierten Beantwortung von Sprachanfragen." Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Datenerfassung; Datenaufbereitung; Korpus; Chatbot; Digital Humanities; Computerlinguistik; Anonymisierung; Terminologie; Annotation
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess