Filtern nach
Letzte Suchanfragen

Ergebnisse für *

Es wurden 82 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 25 von 82.

Sortieren

  1. Datenübernahmerichtlinien des Leibniz-Instituts für Deutsche Sprache
    Erschienen: 2019
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Datenschutz; Forschungsdaten; Korpus
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/deed.de ; info:eu-repo/semantics/openAccess

  2. Multimedia Corpora (Media encoding and annotation) : Draft submitted to CLARIN WG 5.7. as input to CLARIN deliverable D5.C3 “Interoperability and Standards”

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Unbestimmt
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: gesprochene Sprache; Korpus; Notation; Standardisierung; Computerlinguistik; Multimedia
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  3. The database for spoken German - DGD2
    Erschienen: 2014
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Sprache (400)
    Schlagworte: gesprochene Sprache; Korpus <Linguistik>
    Weitere Schlagworte: Datenbank für gesprochenes Deutsch = DGD
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Proceedings of the ninth conference on international language resources and evaluation (LREC’14). - Reykjavik : European Language Resources Association (ELRA), 2014., S. 1451-1457

  4. User, who art thou? User profiling for oral corpus platforms
    Erschienen: 2016
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Frick, Elena (Verfasser); Hedeland, Hanna (Verfasser); Iliash, Anna (Verfasser); Jettka, Daniel (Verfasser); Meißner, Cordula (Verfasser); Schmidt, Thomas (Verfasser); Wallner, Franziska (Verfasser); Weigert, Kathrin (Verfasser); Westpfahl, Swantje (Verfasser); Calzolari, Nicoletta (Herausgeber); Choukri, Khalid (Herausgeber); Declerck, Thierry (Herausgeber); Goggi, Sara (Herausgeber); Grobelnik, Marko (Herausgeber); Maegaard, Bente (Herausgeber); Mariani, Joseph (Herausgeber); Mazo, Helene (Herausgeber); Moreno, Asunción (Herausgeber); Odijk, Jan (Herausgeber); Piperidis, Stelios (Herausgeber)
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Sprache (400)
    Schlagworte: Deutsch; Korpus <Linguistik>; Gesprochene Sprache; Benutzerforschung
    Weitere Schlagworte: oral corpus platform; user survey
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia. - Paris : European Language Resources Association (ELRA), 2016., S. 280-287, ISBN 978-2-9517408-9-1

  5. Leitfaden zur Beurteilung von Aufbereitungsaufwand und Nachnutzbarkeit von Korpora gesprochener Sprache
    Erschienen: 2013
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Wörner, Kai (Verfasser); Hedeland, Hanna (Verfasser); Lehmberg, Timm (Verfasser)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Sprache (400)
    Schlagworte: Deutsch; Gesprochene Sprache
    Weitere Schlagworte: Leitfaden; Korpora
    Umfang: Online-Ressource
  6. Computergestützte Transkription
    Modellierung und Visualisierung gesprochener Sprache mit texttechnologischen Mitteln
    Erschienen: 2005
    Verlag:  Lang, Frankfurt am Main [u.a.]

    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Universitätsbibliothek J. C. Senckenberg, Zentralbibliothek (ZB)
    87.872.86
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek J. C. Senckenberg, Mathematikbibliothek
    680 / 279
    keine Fernleihe
    Universitätsbibliothek Kassel, Standort Holländischer Platz
    25 Spr AF 0086
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Dissertation
    Format: Druck
    ISBN: 3631535147
    Weitere Identifier:
    9783631535141
    RVK Klassifikation: ES 945
    DDC Klassifikation: Datenverarbeitung; Informatik (004); Sprache (400)
    Schriftenreihe: Sprache, Sprechen und Computer ; 7
    Schlagworte: Gesprochene Sprache; Transkription; Modellierung; Visualisierung; Konversationsanalyse; Texttechnologie; Computerlinguistik
    Umfang: 360 S., graph. Darst.
    Bemerkung(en):

    Zugl.: Dortmund, Univ., Diss., 2004

  7. Multilingual corpora and multilingual corpus analysis
    Autor*in:
    Erschienen: 2012
    Verlag:  Benjamins, Amsterdam [u.a.]

    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Universitätsbibliothek J. C. Senckenberg, Zentralbibliothek (ZB)
    89.935.45
    keine Fernleihe
    Universitätsbibliothek J. C. Senckenberg, Zentralbibliothek (ZB)
    90.496.46
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universität Mainz, Bereichsbibliothek Translations-, Sprach- und Kulturwissenschaft
    TRA-ALLG 01:12
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universität Mainz, Zentralbibliothek
    272.454
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universität Marburg, Universitätsbibliothek
    001 ES 900 S349
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
  8. Multilingual Corpora and Multilingual Corpus Analysis
    Erschienen: 2012
    Verlag:  John Benjamins Publishing Company, Amsterdam/Philadelphia

    This paper presents the metadata model of the EXMARaLDA system and its implementations. It will first take a look on existing metadata schemes for transcriptions of spoken language as well as written texts and emphasize on their advantages and... mehr

    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Universität Frankfurt, Elektronische Ressourcen
    /
    keine Fernleihe

     

    This paper presents the metadata model of the EXMARaLDA system and its implementations. It will first take a look on existing metadata schemes for transcriptions of spoken language as well as written texts and emphasize on their advantages and disadvantages. The paper will justify the decisions against existing models that led to a new data model that does not prescribe many metadata items and relies on XML files. It will conclude with a brief outlook on ongoing efforts to standardize metadata.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Wörner, Kai
    Sprache: Englisch
    Medientyp: Ebook
    Format: Online
    ISBN: 9789027219343; 9789027273444 (Sekundärausgabe)
    RVK Klassifikation: ES 900 ; ES 700
    DDC Klassifikation: Sprache (400); Sozialwissenschaften (300)
    Schriftenreihe: Hamburg Studies on Multilingualism
    Schlagworte: Mehrsprachigkeit; Korpus <Linguistik>
    Umfang: 422 p.
    Bemerkung(en):

    Description based upon print version of record

    Online-Ausg.:

  9. A corpus-based lexical resource of spoken German in interaction
    Erschienen: 2019
    Verlag:  Brno, Czech Republic : Lexical Computing CZ s.r.o.

    This paper presents the prototype of a lexicographic resource for spoken German in interaction, which was conceived within the framework of the LeGeDe-project (LeGeDe=Lexik des gesprochenen Deutsch). First of all, it summarizes the theoretical and... mehr

     

    This paper presents the prototype of a lexicographic resource for spoken German in interaction, which was conceived within the framework of the LeGeDe-project (LeGeDe=Lexik des gesprochenen Deutsch). First of all, it summarizes the theoretical and methodological approaches that were used for the initial planning of the resource. The headword candidates were selected by analyzing corpus-based data. Therefore, the data of two corpora (written and spoken German) were compared with quantitative methods. The information that was gathered on the selected headword candidates can be assigned to two different sections: meanings and functions in interaction. Additionally, two studies on the expectations of future users towards the resource were carried out. The results of these two studies were also taken into account in the development of the prototype. Focusing on the presentation of the resource’s content, the paper shows both the different lexicographical information in selected dictionary entries, and the information offered by the provided hyperlinks and external texts. As a conclusion, it summarizes the most important innovative aspects that were specifically developed for the implementation of such a resource.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerunterstützte Lexikografie; Gesprochene Sprache; Korpus; Deutsch
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess

  10. Metaphor detection for German poetry
    Erschienen: 2019
    Verlag:  München [u.a.] : German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg

    This paper presents first steps towards metaphor detection in German poetry, in particular in expressionist poems. We create a dataset with adjective-noun pairs extracted from expressionist poems, manually annotated for metaphoricity. We discuss the... mehr

     

    This paper presents first steps towards metaphor detection in German poetry, in particular in expressionist poems. We create a dataset with adjective-noun pairs extracted from expressionist poems, manually annotated for metaphoricity. We discuss the annotation process and present models and experiments for metaphor detection where we investigate the impact of context and the domain dependence of the models.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Deutsch; Versdichtung; Expressionismus; Metapher; Automatische Sprachanalyse
    Lizenz:

    creativecommons.org/licenses/by-nc-sa/4.0/deed.de ; info:eu-repo/semantics/openAccess

  11. Detecting the boundaries of sentence-like units on spoken German
    Erschienen: 2019
    Verlag:  München [u.a.] : German Society for Computational Linguistics & Language Technology und Friedrich-Alexander-Universität Erlangen-Nürnberg

    Automatic division of spoken language transcripts into sentence-like units is a challenging problem, caused by disfluencies, ungrammatical structures and the lack of punctuation. We present experiments on dividing up German spoken dialogues where we... mehr

     

    Automatic division of spoken language transcripts into sentence-like units is a challenging problem, caused by disfluencies, ungrammatical structures and the lack of punctuation. We present experiments on dividing up German spoken dialogues where we investigate the impact of task setup and data representation, encoding of context information as well as different model architectures for this task.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Deutsch; Gesprochene Sprache; Automatische Sprachanalyse; Segmentierung; Satz
    Lizenz:

    creativecommons.org/licenses/by-nc-sa/4.0/deed.de ; info:eu-repo/semantics/openAccess

  12. Normalisieren mit OrthoNormal. Konventionen und Bedienungshinweise für die orthografische Normalisierung von FOLKER-Transkripten
  13. A corpus-based lexical resource of spoken German in interaction
    Erschienen: 2019
    Verlag:  Brno, Czech Republic : Lexical Computing CZ s.r.o.

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerunterstützte Lexikographie; Gesprochene Sprache; Korpus
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess

  14. CLARIN Web Services for TEI-annotated Transcripts of Spoken Language
    Erschienen: 2020
    Verlag:  Utrecht : CLARIN

    We present web services implementing a workflow for transcripts of spoken language following TEI guidelines, in particular ISO 24624:2016 "Language resource management - Transcription of spoken language". The web services are available at our website... mehr

     

    We present web services implementing a workflow for transcripts of spoken language following TEI guidelines, in particular ISO 24624:2016 "Language resource management - Transcription of spoken language". The web services are available at our website and will be available via the CLARIN infrastructure, including the Virtual Language Observatory and WebLicht.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Text Encoding Initiative; Gesprochene Sprache; Transkription; Computerlinguistik; Web Services
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  15. Maskierung von Audio- und Videoaufnahmen
    Erschienen: 2020
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Die folgenden Ausführungen zur Maskierung basieren auf den Erfahrungen bei der Aufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD). Sie sollen... mehr

     

    Die folgenden Ausführungen zur Maskierung basieren auf den Erfahrungen bei der Aufbereitung der Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) für die Veröffentlichung in der Datenbank für Gesprochenes Deutsch (DGD). Sie sollen anderen Forschern und Forschungsprojekten als praktische Hilfestellung für die Maskierung von Aufnahmen dienen, können aber selbstverständlich nicht die gesamte Bandbreite von Einzelfallentscheidungen und Pflichten der Forschenden abdecken. Es werden sowohl allgemeine Hinweise zur Maskierung von Audio- und Videoaufnahmen gegeben als auch praktische Tipps zur Umsetzung der Maskierung mit dem Transkriptionseditor FOLKER. Die in den Ausführungen geschilderten arbeitsteiligen Prozesse in größeren Projekten können in kleineren Projekten einzelner Forscher selbstverständlich auch von einer einzelnen Person ausgeführt werden.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Bericht
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Transkription; Gesprochene Sprache; Datenschutz
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/deed.de ; info:eu-repo/semantics/openAccess

  16. Technological and methodological challenges in creating, annotating and sharing a learner corpus of spoken German
    Erschienen: 2020
    Verlag:  Amsterdam : Benjamins

    This article discusses questions concerning the creation, annotation and sharing of spoken language corpora. We use the Hamburg Map Task Corpus (HAMATAC), a small corpus in which advanced learners of German were recorded solving a map task, as an... mehr

     

    This article discusses questions concerning the creation, annotation and sharing of spoken language corpora. We use the Hamburg Map Task Corpus (HAMATAC), a small corpus in which advanced learners of German were recorded solving a map task, as an example to illustrate our main points. We first give an overview of the corpus creation and annotation process including recording, metadata documentation, transcription and semi-automatic annotation of the data. We then discuss the manual annotation of disfluencies as an example case in which many of the typical and challenging problems for data reuse – in particular the reliability of interpretative annotations – are revealed.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Gesprochene Sprache; Korpus; Annotation; Transkription
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  17. Addressing Cha(lle)nges in Long-Term Archiving of Large Corpora
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association

    This paper addresses long-term archival for large corpora. Three aspects specific to language resources are focused, namely (1) the removal of resources for legal reasons, (2) versioning of (unchanged) objects in constantly growing resources,... mehr

     

    This paper addresses long-term archival for large corpora. Three aspects specific to language resources are focused, namely (1) the removal of resources for legal reasons, (2) versioning of (unchanged) objects in constantly growing resources, especially where objects can be part of multiple releases but also part of different collections, and (3) the conversion of data to new formats for digital preservation. It is motivated why language resources may have to be changed, and why formats may need to be converted. As a solution, the use of an intermediate proxy object called a signpost is suggested. The approach will be exemplified with respect to the corpora of the Leibniz Institute for the German Language in Mannheim, namely the German Reference Corpus (DeReKo) and the Archive for Spoken German (AGD).

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Langzeitarchivierung; Nutzungsrecht; Dateiformat
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  18. Using Full Text Indices for Querying Spoken Language Data
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association

    As a part of the ZuMult-project, we are currently modelling a backend architecture that should provide query access to corpora from the Archive of Spoken German (AGD) at the Leibniz-Institute for the German Language (IDS). We are exploring how to... mehr

     

    As a part of the ZuMult-project, we are currently modelling a backend architecture that should provide query access to corpora from the Archive of Spoken German (AGD) at the Leibniz-Institute for the German Language (IDS). We are exploring how to reuse existing search engine frameworks providing full text indices and allowing to query corpora by one of the corpus query languages (QLs) established and actively used in the corpus research community. For this purpose, we tested MTAS - an open source Lucene-based search engine for querying on text with multilevel annotations. We applied MTAS on three oral corpora stored in the TEI-based ISO standard for transcriptions of spoken language (ISO 24624:2016). These corpora differ from the corpus data that MTAS was developed for, because they include interactions with two and more speakers and are enriched, inter alia, with timeline-based annotations. In this contribution, we report our test results and address issues that arise when search frameworks originally developed for querying written corpora are being transferred into the field of spoken language.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Abfrage; Gesprochene Sprache; Text Encoding Initiative; Computerlinguistik
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  19. Improving Sentence Boundary Detection for Spoken Language Transcripts
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association

    This paper presents experiments on sentence boundary detection in transcripts of spoken dialogues. Segmenting spoken language into sentence-like units is a challenging task, due to disfluencies, ungrammatical or fragmented structures and the lack of... mehr

     

    This paper presents experiments on sentence boundary detection in transcripts of spoken dialogues. Segmenting spoken language into sentence-like units is a challenging task, due to disfluencies, ungrammatical or fragmented structures and the lack of punctuation. In addition, one of the main bottlenecks for many NLP applications for spoken language is the small size of the training data, as the transcription and annotation of spoken language is by far more time-consuming and labour-intensive than processing written language. We therefore investigate the benefits of data expansion and transfer learning and test different ML architectures for this task. Our results show that data expansion is not straightforward and even data from the same domain does not always improve results. They also highlight the importance of modelling, i.e. of finding the best architecture and data representation for the task at hand. For the detection of boundaries in spoken language transcripts, we achieve a substantial improvement when framing the boundary detection problem as a sentence pair classification task, as compared to a sequence tagging approach.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Automatische Spracherkennung; Gesprochene Sprache; Korpus; Satzende; Maschinelles Lernen
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  20. Fine-grained Named Entity Annotations for German Biographic Interviews
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association

    We present a fine-grained NER annotations scheme with 30 labels and apply it to German data. Building on the OntoNotes 5.0 NER inventory, our scheme is adapted for a corpus of transcripts of biographic interviews by adding categories for AGE and... mehr

     

    We present a fine-grained NER annotations scheme with 30 labels and apply it to German data. Building on the OntoNotes 5.0 NER inventory, our scheme is adapted for a corpus of transcripts of biographic interviews by adding categories for AGE and LAN(guage) and also adding label classes for various numeric and temporal expressions. Applying the scheme to the spoken data as well as a collection of teaser tweets from newspaper sites, we can confirm its generality for both domains, also achieving good inter-annotator agreement. We also show empirically how our inventory relates to the well-established 4-category NER inventory by re-annotating a subset of the GermEval 2014 NER coarse-grained dataset with our fine label inventory. Finally, we use a BERT-based system to establish some baselines for NER tagging on our two new datasets. Global results in in-domain testing are quite high on the two datasets, near what was achieved for the coarse inventory on the CoNLLL2003 data. Cross-domain testing produces much lower results due to the severe domain differences.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Gesprochene Sprache; Name; Annotation; Automatische Spracherkennung; Oral history
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  21. Treebanking User-Generated Content: A Proposal for a Unified Representation in Universal Dependencies

    The paper presents a discussion on the main linguistic phenomena of user-generated texts found in web and social media, and proposes a set of annotation guidelines for their treatment within the Universal Dependencies (UD) framework. Given on the one... mehr

     

    The paper presents a discussion on the main linguistic phenomena of user-generated texts found in web and social media, and proposes a set of annotation guidelines for their treatment within the Universal Dependencies (UD) framework. Given on the one hand the increasing number of treebanks featuring user-generated content, and its somewhat inconsistent treatment in these resources on the other, the aim of this paper is twofold: (1) to provide a short, though comprehensive, overview of such treebanks - based on available literature - along with their main features and a comparative analysis of their annotation criteria, and (2) to propose a set of tentative UD-based annotation guidelines, to promote consistent treatment of the particular phenomena found in these types of texts. The main goal of this paper is to provide a common framework for those teams interested in developing similar resources in UD, thus enabling cross-linguistic consistency, which is a principle that has always been in the spirit of UD.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Strukturbaum; Social Media; Annotation; Natürliche Sprache; User Generated Content
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  22. A New Resource for German Causal Language
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association

    We present a new resource for German causal language, with annotations in context for verbs, nouns and adpositions. Our dataset includes 4,390 annotated instances for more than 150 different triggers. The annotation scheme distinguishes three... mehr

     

    We present a new resource for German causal language, with annotations in context for verbs, nouns and adpositions. Our dataset includes 4,390 annotated instances for more than 150 different triggers. The annotation scheme distinguishes three different types of causal events (CONSEQUENCE, MOTIVATION, PURPOSE). We also provide annotations for semantic roles, i.e. of the cause and effect for the causal event as well as the actor and affected party, if present. In the paper, we present inter-annotator agreement scores for our dataset and discuss problems for annotating causal language. Finally, we present experiments where we frame causal annotation as a sequence labelling problem and report baseline results for the prediciton of causal arguments and for predicting different types of causation.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Kausalität; Korpus; Deutsch; Annotation; Natürliche Sprache
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  23. Using Automatic Speech Recognition in Spoken Corpus Curation
    Erschienen: 2020
    Verlag:  Paris : European Language Resources Association

    The newest generation of speech technology caused a huge increase of audio-visual data nowadays being enhanced with orthographic transcripts such as in automatic subtitling in online platforms. Research data centers and archives contain a range of... mehr

     

    The newest generation of speech technology caused a huge increase of audio-visual data nowadays being enhanced with orthographic transcripts such as in automatic subtitling in online platforms. Research data centers and archives contain a range of new and historical data, which are currently only partially transcribed and therefore only partially accessible for systematic querying. Automatic Speech Recognition (ASR) is one option of making that data accessible. This paper tests the usability of a state-of-the-art ASR-System on a historical (from the 1960s), but regionally balanced corpus of spoken German, and a relatively new corpus (from 2012) recorded in a narrow area. We observed a regional bias of the ASR-System with higher recognition scores for the north of Germany vs. lower scores for the south. A detailed analysis of the narrow region data revealed – despite relatively high ASR-confidence – some specific word errors due to a lack of regional adaptation. These findings need to be considered in decisions on further data processing and the curation of corpora, e.g. correcting transcripts or transcribing from scratch. Such geography-dependent analyses can also have the potential for ASR-development to make targeted data selection for training/adaptation and to increase the sensitivity towards varieties of pluricentric languages.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Automatische Spracherkennung; Gesprochene Sprache; Korpus; Plurizentrische Sprache; Sprachgeografie
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  24. STTS goes Kiez – Experiments on Annotating and Tagging Urban Youth Language
  25. Einführung in die Benutzung der Ressourcen DGD und FOLK für gesprächsanalytische Zwecke. Handreichung: Einfache Recherche-Anfragen als Übungsbeispiele
    Erschienen: 2016
    Verlag:  Mannheim : Institut für Deutsche Sprache

    Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand... mehr

     

    Diese Handreichung stellt die Datenbank für Gesprochenes Deutsch (DGD) und speziell das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) als Instrumente gesprächsanalytischer Arbeit vor. Nach einem kurzen einführenden Überblick werden anhand vier verschiedener Beispiele Schritt für Schritt die Ressourcen und Tools für systematische korpus- und datenbankgesteuerte Recherchen und Analysen vorgestellt und illustriert.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Bericht
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Gesprochene Sprache; Korpus; Konversationsanalyse
    Lizenz:

    creativecommons.org/licenses/by-nc/3.0/de/deed.de ; info:eu-repo/semantics/openAccess