Ergebnisse für *

Es wurden 15 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 15 von 15.

Sortieren

  1. Datenmanagement – Gegenstand und Dienst der Computerlinguistik. 40th Annual Conference of the German Linguistic Society. Stuttgart, Germany.
    Erschienen: 2021
    Verlag:  Konstanz : Deutsche Gesellschaft für Sprachwissenschaft ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Datenmanagement wird durch die Forschungsföderungsorganisationen (etwa in Horizon 2020 der EU, die Allianz der deutschen Wissenschaftsorganisationen oder in DFG geförderten Projekten) mehr und mehr Teil der Forschungslandschaft. Für die... mehr

     

    Datenmanagement wird durch die Forschungsföderungsorganisationen (etwa in Horizon 2020 der EU, die Allianz der deutschen Wissenschaftsorganisationen oder in DFG geförderten Projekten) mehr und mehr Teil der Forschungslandschaft. Für die Computerlinguistik ist das Forschungsdatenmanagement aber auch Teil des Forschungsgebietes: Datenmodellierung und Transformation für die nachhaltige Datenspeicherung gehören in den Bereich der Texttechnologie und Textlinguistik, ebenso die Modellierung der beschreibenden Daten zu Datensätzen.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Datenmanagement; Computerlinguistik; Forschungsdaten; Datenspeicherung; Texttechnologie; Textlinguistik; Datensatz; Metadaten; Sprachverarbeitung; Linked Data
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  2. Statistics in corpus linguistics research
    a new approach
    Autor*in: Wallis, Sean
    Erschienen: [2021]; © 2021
    Verlag:  Routledge, Taylor & Francis Group, New York

    Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky
    I s 2/255
    keine Fernleihe
    Universitätsbibliothek Heidelberg
    2021 A 693
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Mannheim
    500 ES 900 W214
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Druck
    ISBN: 9781138589377; 9781138589384
    RVK Klassifikation: ES 900
    Schlagworte: Korpus <Linguistik>; Statistik; Computerlinguistik;
    Umfang: xxvi, 355 Seiten, Diagramme
  3. Statistics in corpus linguistics research
    a new approach
    Autor*in: Wallis, Sean
    Erschienen: 2021
    Verlag:  Routledge, Taylor & Francis Group, New York ; London

    "Traditional approaches focused on significance tests have often been difficult for linguistics researchers to visualize. Statistics in Corpus Linguistics Research: A new approach breaks these significance tests down for researchers in corpus... mehr

    Universitätsbibliothek Bamberg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Eichstätt-Ingolstadt
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Erlangen-Nürnberg, Hauptbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Passau
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Würzburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe

     

    "Traditional approaches focused on significance tests have often been difficult for linguistics researchers to visualize. Statistics in Corpus Linguistics Research: A new approach breaks these significance tests down for researchers in corpus linguistics and linguistic analysis, promoting a visual approach to understanding the performance of tests with real data, and demonstrating how to derive new intervals and tests. Software agnostic, this book discusses the "why" behind the statistical model, allowing readers a greater facility for choosing their own methodologies. Accessibly written for those with little to no mathematical or statistical background, it explains the mathematical fundamentals of simple significance tests by relating them to confidence intervals. With sample data sets and easy-to-read visuals, this book focuses on practical issues, such as how to: pose research questions in terms of choice and constraint, employ confidence intervals correctly (including in graph plots), select optimal significance tests (and what results mean), measure the size of the effect of one variable on another, estimate the similarity of distribution patterns, and evaluate whether the results of two experiments significantly differ. Appropriate for anyone from the student just beginning their career to the seasoned researcher, this book is both a practical overview and valuable resource"--

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    ISBN: 9781138589384; 9781138589377
    RVK Klassifikation: ES 910 ; ES 900
    Schlagworte: Computerlinguistik; Statistik; Korpus <Linguistik>
    Weitere Schlagworte: Corpora (Linguistics) / Data processing; Linguistics / Statistical methods; Computational linguistics
    Umfang: xxvi, 355 Seiten, Illustrationen, Diagramme
  4. Multi-dimensional analysis
    research methods and current issues
    Autor*in:
    Erschienen: 2021
    Verlag:  Bloomsbury Academic, London

    Universitätsbibliothek Würzburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Sardinha, Tony Berber; Pinto, Marcia Veirano
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    ISBN: 9781350190405
    RVK Klassifikation: ES 900 ; ST 680
    Auflage/Ausgabe: Paperback edition
    Schlagworte: Multivariate Analyse; Computerlinguistik; Korpus <Linguistik>; Textanalyse
    Weitere Schlagworte: Discourse analysis / Data processing; Corpora (Linguistics); Computational linguistics; Computational linguistics; Corpora (Linguistics); Discourse analysis / Data processing
    Umfang: xiv, 260 Seiten, Diagramme, 24 cm
  5. Reading computer-generated texts
    Erschienen: 2021
    Verlag:  Cambridge University Press, Cambridge

    "Natural language generation (NLG) is the process wherein computers produce output in readable human languages. Such output takes many forms, including news articles, sports reports, prose fiction, and poetry. These computer-generated texts are often... mehr

    Universitätsbibliothek Passau
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Regensburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe

     

    "Natural language generation (NLG) is the process wherein computers produce output in readable human languages. Such output takes many forms, including news articles, sports reports, prose fiction, and poetry. These computer-generated texts are often indistinguishable from human-written texts, and they are increasingly prevalent. NLG is here, and it is everywhere. However, readers are often unaware that what they are reading has been computer-generated. This Element considers how NLG conforms to and confronts traditional understandings of authorship and what it means to be a reader. It argues that conventional conceptions of authorship, as well as of reader responsibility, change in instances of NLG. What is the social value of a computer-generated text? What does NLG mean for modern writing, publishing, and reading practices? Can an NLG system be considered an author? This Element explores such question, while presenting a theoretical basis for future studies." Klappentext

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    ISBN: 9781108822862
    RVK Klassifikation: ES 935 ; ST 306 ; EC 2020
    Schriftenreihe: Cambridge elements. Elements in publishing and book culture
    Schlagworte: Textproduktion; Automatische Sprachproduktion; Natürliche Sprache; Autorschaft; Computerlinguistik; Rezeptionsästhetik
    Umfang: 91 Seiten
  6. Mehrdeutigkeit, Ausdrucksvielfalt, kontextuelle Erwartung
    computerlinguistische Modelle zur Erforschung der menschlichen Sprachverwendung
    Erschienen: [2021]; © 2021
    Verlag:  Akademie der Wissenschaften und der Literatur, Mainz ; Franz Steiner Verlag, Stuttgart

    Universitätsbibliothek Freiburg
    AK 5/1-2021,1
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Badische Landesbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universität Konstanz, Kommunikations-, Informations-, Medienzentrum (KIM)
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Württembergische Landesbibliothek
    71C/80836
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Druck
    ISBN: 9783515130929
    Weitere Identifier:
    9783515130929
    RVK Klassifikation: ES 900
    Schriftenreihe: Abhandlungen der Geistes- und sozialwissenschaftlichen Klasse / Akademie der Wissenschaften und der Literatur ; Jahrgang 2021, Nr. 1
    Schlagworte: Computerlinguistik; Sprachgebrauch;
    Umfang: 24 Seiten, Illustrationen, Diagramme, 24 cm x 17 cm, 76 g
    Bemerkung(en):

    Vortrag gehalten in der Plenarsitzung am 11. November 2017

  7. Proceedings of the Workshop on Challenges in the Management of Large Corpora (CMLC-9) 2021. Limerick, 12 July 2021 (Online-Event)
    Erschienen: 2021
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    Contents: 1. Julien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary and Benoît Sagot: "Ungoliant: An Optimized Pipeline for the Generation of a Very Large-Scale Multilingual Web Corpus", S.1-9. 2. Markus Gärtner, Felicitas Kleinkopf, Melanie... mehr

     

    Contents: 1. Julien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary and Benoît Sagot: "Ungoliant: An Optimized Pipeline for the Generation of a Very Large-Scale Multilingual Web Corpus", S.1-9. 2. Markus Gärtner, Felicitas Kleinkopf, Melanie Andresen and Sibylle Hermann: "Corpus Reusability and Copyright - Challenges and Opportunities", S.10-19. 3. Nils Diewald, Eliza Margaretha and Marc Kupietz: "Lessons learned in Quality Management for Online Research Software Tools in Linguistics", S.20-26.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Datenmanagement; Computerlinguistik; Urheberrecht; Forschungsdaten
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  8. Ungoliant: An optimized pipeline for the generation of a very large-scale multilingual web corpus
    Erschienen: 2021
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available... mehr

     

    Since the introduction of large language models in Natural Language Processing, large raw corpora have played a crucial role in Computational Linguistics. However, most of these large raw corpora are either available only for English or not available to the general public due to copyright issues. Nevertheless, there are some examples of freely available multilingual corpora for training Deep Learning NLP models, such as the OSCAR and Paracrawl corpora. However, they have quality issues, especially for low-resource languages. Moreover, recreating or updating these corpora is very complex. In this work, we try to reproduce and improve the goclassy pipeline used to create the OSCAR corpus. We propose a new pipeline that is faster, modular, parameterizable, and well documented. We use it to create a corpus similar to OSCAR but larger and based on recent data. Also, unlike OSCAR, the metadata information is at the document level. We release our pipeline under an open source license and publish the corpus under a research-only license.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Natürliche Sprache; Automatische Sprachanalyse; Computerlinguistik; Urheberrecht; Open Source
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  9. When size matters. Legal perspective(s) on N-grams
    Erschienen: 2021
    Verlag:  Linköping : Linköping University Electronic Press

    N-grams are of utmost importance for modern linguistics and language technology. The legal status of n-grams, however, raises many practical questions. Traditionally, text snippets are considered copyrightable if they meet the originality criterion,... mehr

     

    N-grams are of utmost importance for modern linguistics and language technology. The legal status of n-grams, however, raises many practical questions. Traditionally, text snippets are considered copyrightable if they meet the originality criterion, but no clear indicators as to the minimum length of original snippets exist; moreover, the solutions adopted in some EU Member States (the paper cites German and French law as examples) are considerably different. Furthermore, recent developments in EU law (the CJEU's Pelham decision and the new right of press publishers) also provide interesting arguments in this debate. The paper presents the existing approaches to the legal protection of n-grams and tries to formulate some clear guidelines as to the length of n-grams that can be freely used and shared.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Recht (340); Sprache (400)
    Schlagworte: Urheberrecht; Rechtsfrage; Rechtsstellung; Rechtsschutz; Korpus; Computerlinguistik
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  10. Sharing is caring: a legal perspective on sharing language data containing personal data and the division of liability between researchers and research organisations

    The article focuses on determining responsible parties and the division of potential liability arising from sharing language data (LD) containing personal data (PD). A key issue here is to identify who has to make sure and guarantee the GDPR... mehr

     

    The article focuses on determining responsible parties and the division of potential liability arising from sharing language data (LD) containing personal data (PD). A key issue here is to identify who has to make sure and guarantee the GDPR compliance. The authors aim to answer 1) whether an individual researcher is a controller and 2) whether sharing LD results in joint controllership or separate controllership (whether the data's transferee becomes the controller, the joint controller or the processor). The article also analyses the legal relations of parties involved in data sharing and potential liability. The final section outlines data sharing in the CLARIN context. The analysis serves as a preliminary analytical background for redesigning the CLARIN contractual framework for sharing data.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Recht (340); Sprache (400)
    Schlagworte: Datenschutz; Personenbezogene Daten; Datenschutz-Grundverordnung; Rechtsstellung; Haftung; Korpus; Computerlinguistik
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  11. The TEI-based ISO standard “Transcription of Spoken Language” as an exchange format within CLARIN and beyond
    Erschienen: 2021
    Verlag:  Utrecht : CLARIN ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    This paper describes the TEI-based ISO standard 2462:2016 “Transcription of spoken language” and other formats used within CLARIN for spoken language resources. It assesses the current state of support for the standard and the interoperability... mehr

     

    This paper describes the TEI-based ISO standard 2462:2016 “Transcription of spoken language” and other formats used within CLARIN for spoken language resources. It assesses the current state of support for the standard and the interoperability between these formats and with relevant tools and services. The main idea behind the paper is that a digital infrastructure providing language resources and services to researchers should also allow the combined use of resources and/or services from different contexts. This requires syntactic and semantic interoperability. We propose a solution based on the ISO/TEI format and describe the necessary steps for this format to work as an exchange format with basic semantic interoperability for spoken language resources across the CLARIN infrastructure and beyond.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: ISO-Norm; Mündliche Kommunikation; Transkription; Text Encoding Initiative; Korpus; Computerlinguistik; Datenmanagement
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  12. Verbundprojekt: TextTransfer (Pilot) - Korpusgestützte Erkennung von Verwertungsmustern in wissenschaftlichen Texten. Abschlussbericht Gesamtprojekt nach Nr. 3.2. BNBest-BMBF 98
    Autor*in: Witt, Andreas
    Erschienen: 2021
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Die zentrale Aufgabenstellung des Verbundprojektes TextTransfer (Pilot) war eine Machbarkeitsprüfung für die Entwicklung eines Text-Mining-Verfahrens, mit dem Forschungsergebnisse automatisiert auf Hinweise zu Transfer- und Impactpotenzialen... mehr

     

    Die zentrale Aufgabenstellung des Verbundprojektes TextTransfer (Pilot) war eine Machbarkeitsprüfung für die Entwicklung eines Text-Mining-Verfahrens, mit dem Forschungsergebnisse automatisiert auf Hinweise zu Transfer- und Impactpotenzialen untersucht werden können. Das vom Projektkoordinator IDS verantwortete Teilprojekt konzentrierte sich dabei auf die Entwicklung der methodischen Grundlagen, während der Projektpartner TIB vornehmlich für die Bereitstellung eines geeigneten Datensatzes verantwortlich war. Solchen automatisierten Verfahren liegen zumeist textbasierte Daten als physisches Manifest wissenschaftlicher Erkenntnisse zugrunde, die im Falle von TextTransfer (Pilot) als empirische Grundlage herangezogen wurden. Das im Verbund zur Anwendung gebrachte maschinelle Lernverfahren stützte sich ausschließlich auf deutschsprachige Projektendberichte öffentlich geförderter Forschung. Diese Textgattung eignet sich insbesondere hinsichtlich ihrer öffentlichen Verfügbarkeit bei zuständigen Gedächtnisorganisationen und aufgrund ihrer im Vergleich zu anderen Formaten wissenschaftlicher Publikation relativen strukturellen wie sprachlichen Homogenität. TextTransfer (Pilot) ging daher grundsätzlich von der Annahme struktureller bzw. sprachlicher Ähnlichkeit in Berichtstexten aus, bei denen der Nachweis tatsächlich erfolgten Transfers zu erbringen war. Im Folgenden wird in diesen Fällen von Texten bzw. textgebundenen Forschungsergebnissen mit Transfer- und Impactpotenzial gesprochen werden. Es wurde ferner postuliert, dass sich diese Indizien von sprachlichen Eigenschaften in Texten zu Projekten ohne nachzuweisenden bzw. ggf. auch niemals erfolgtem, aber potenziell möglichem Transfer oder Impact unterscheiden lassen. Mit einer Verifizierung dieser Annahmen war es möglich, Transfer- oder Impactwahrscheinlichkeiten in großen Mengen von Berichtsdaten ohne eingehende Lektüre zu prognostizieren.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Bericht
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Text Mining; Maschinelles Lernen; Computerlinguistik; Korpus; Leibniz-Institut für Deutsche Sprache (IDS); Technische Informationsbibliothek (TIB)
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  13. Describing research data with CMDI — Challenges to establish contact with linked open data
    Erschienen: 2021
    Verlag:  Cambridge : MIT Press ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    In this chapter, we discuss steps toward extending CMDI’s semantic interoperability beyond the Social Sciences and Humanities: We stress the need for an initial data curation step, in part supported by a relation registry that helps impose some... mehr

     

    In this chapter, we discuss steps toward extending CMDI’s semantic interoperability beyond the Social Sciences and Humanities: We stress the need for an initial data curation step, in part supported by a relation registry that helps impose some structure on CMDI vocabulary; we describe the use of authority file information and other controlled vocabulary to help connecting CMDI-based metadata to existing Linked Data; we show how significant parts of CMDI-based metadata can be converted to bibliographic metadata standards and hence entered into library catalogs; and finally we describe first steps to convert CMDI-based metadata to RDF. The initial grassroots approach of CMDI (meaning that anybody can define metadata descriptors and components) mirrors the AAA slogan of the Semantic Web (“Anyone can say Anything about Any topic”). Ironically, this makes it hard to fully link CMDI-based metadata to other Semantic Web datasets. This paper discusses the challenges of this enterprise.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Computerlinguistik; Metadaten; Linked Data; Bibliothekskatalog; RDF; Datenmanagement
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/4.0/deed.de ; info:eu-repo/semantics/openAccess

  14. CLARIN data management activities in the PARTHENOS context
    Erschienen: 2021
    Verlag:  Utrecht : CLARIN ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Data Management is one of the core activities of all CLARIN centres providing data and services for the academia. In PARTHENOS, European initiatives and projects in the area of the humanities and social sciences assembled to compare policies and... mehr

     

    Data Management is one of the core activities of all CLARIN centres providing data and services for the academia. In PARTHENOS, European initiatives and projects in the area of the humanities and social sciences assembled to compare policies and procedures. One of the areas of interest is data management. The data management landscape shows a lot of proliferation, for which an abstraction level is introduced to help centres, such as CLARIN centres, in the process of providing the best possible services to users with data management needs.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Datenmanagement; Forschungsdaten; Sozialwissenschaften; Computerlinguistik
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  15. Mehrsprachigkeit in linguistischen Daten. Theoretische und praktische Aspekte ihrer Erfassung
    Erschienen: 2021
    Verlag:  Hamburg : Universität Hamburg ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)