Ergebnisse für *

Es wurden 10 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 10 von 10.

Sortieren

  1. Ausgangspunkte für die Betrachtung von Textqualität im digitalen Zeitalter
    Erschienen: 2023
    Verlag:  Berlin/Boston : De Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Dieser Beitrag gibt einen Überblick über die methodischen Ausgangspunkte des Projekts MIT. Qualität und stellt einige zentrale Erkenntnisse zur Modellbildung, der korpuslinguistischen Analyse und Akzeptabilitätserhebungen in der Sprachgemeinschaft... mehr

     

    Dieser Beitrag gibt einen Überblick über die methodischen Ausgangspunkte des Projekts MIT. Qualität und stellt einige zentrale Erkenntnisse zur Modellbildung, der korpuslinguistischen Analyse und Akzeptabilitätserhebungen in der Sprachgemeinschaft vor. Wir zeigen dabei, wie bestehende Textqualitätsmodelle anhand einer Analyse einschlägiger Ratgeberliteratur erweitert werden können. Es wurden zwei empirische Fallstudien durchgeführt, die beide auf die Herstellung von textueller Kohärenz mittels des Kausalkonnektors weil fokussieren. Wir stellen zunächst eine korpuskontrastive Analyse vor. Weiterhin zeigen wir, wie man anhand verschiedener Aufgabenstellungen diverse Aspekte von Akzeptabilität in der Sprachgemeinschaft abprüfen kann.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Konnektor; Fallstudie; Online-Medien; Kategorisierung; Sprachgemeinschaft; Empirie; Korpus
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  2. Bildungsrelevante Lektüre war und ist vorwiegend von Männern verfasste Literatur. Eine qualitativ-quantitative Auswertung von offiziellen Lektüreempfehlungen für den gymnasialen Deutschunterricht
    Erschienen: 2023
    Verlag:  Göttingen : V&R unipress ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Der Anlass dieser Untersuchung war zunächst anekdotische Evidenz: Eines der Kinder der Autor*innen macht 2022 Abitur und las in ihrer gesamten gymnasialen Laufbahn genau eine ›Ganzschrift‹ einer Autorin: Die Judenbuche von Annette von... mehr

     

    Der Anlass dieser Untersuchung war zunächst anekdotische Evidenz: Eines der Kinder der Autor*innen macht 2022 Abitur und las in ihrer gesamten gymnasialen Laufbahn genau eine ›Ganzschrift‹ einer Autorin: Die Judenbuche von Annette von Droste-Hülshoff. Zweifellos ein lesenswerter Text, aber konnte es wirklich sein, dass man in Deutschland 2022 Abitur macht, sogar Deutsch-Leistungskurs gewählt hat und sonst kein Buch einer Autorin im Deutschunterricht liest? Auch in den Pflichtlektüren für das Deutschabitur ist im entsprechenden Bundesland bei den empfohlenen Texten kein Roman und kein Drama einer Verfasserin verzeichnet. Neugierig geworden, recherchierten wir nach einer Liste, welche Literatur für den Deutschunterricht an Gymnasien in Baden-Württemberg (wo die Anekdote sich ereignete) insgesamt empfohlen wurde, und fanden auf den Seiten des Kultusministeriums eine umfangreiche Liste, auf der 298 Werke verzeichnet sind. Eine Auswertung nach dem Geschlecht der Verfasser*innen ergab, dass von den Einträgen auf dieser Liste 31 Titel bzw. Autor*innen (von) Frauen sind, d.h. rund 10 %.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Klassenlektüre; Literatur; Bildung; Deutschunterricht; Kanon; Ungleichheit; Geschlechterrolle
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  3. Tagesaktuelle Aufbereitung, Analyse und Exploration sprachlicher Daten aus RSS-Feeds. Herausforderungen und Entwicklungen
    Erschienen: 2023
    Verlag:  Wiesbaden : Springer Vieweg ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden,... mehr

     

    Ziel dieses Projekts ist es, Sprachdaten so nah wie möglich am Jetzt zu erheben und analysierbar zu machen. Wir möchten, dass möglichst viele Menschen, nicht nur Sprachwissenschaftlerinnen und Sprachwissenschaftler, in die Lage versetzt werden, Sprachdaten zu explorieren und zu nutzen. Hierzu erheben wir ein Korpus, d. h. eine aufbereitete Sammlung von Sprachdaten von RSS-Feeds deutschsprachiger Onlinequellen. Wir zeichnen die Entwicklung der Analysewerkzeuge von einem Prototyp hin zur aktuellen Form der Anwendung nach, die eine komplette Reimplementierung darstellt. Dabei gehen wir auf die Architektur, einige Analysebeispiele sowie Erweiterungsmöglichkeiten ein. Fragen der Skalierbarkeit und Performanz stehen dabei im Mittelpunkt. Unsere Darstellungen lassen sich daher auf andere Data-Science-Projekte verallgemeinern.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Sprachdaten; Datenaufbereitung; Datenanalyse; RSS; Korpus; Deutsch; Skalierbarkeit; Data Science
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  4. Tracking the acceptance of neologisms in German: Psycholinguistic factors and their correspondence with corpus-linguistic findings
    Erschienen: 2023
    Verlag:  Berlin : Springer ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Neologisms, i.e., new words or meanings, are finding their way into everyday language use all the time. In the process, already existing elements of a language are recombined or linguistic material from other languages is borrowed. But are borrowed... mehr

     

    Neologisms, i.e., new words or meanings, are finding their way into everyday language use all the time. In the process, already existing elements of a language are recombined or linguistic material from other languages is borrowed. But are borrowed neologisms accepted similarly well by the speech community as neologisms that were formed from “native” material? We investigate this question based on neologisms in German. Building on the corresponding results of a corpus study, we test the hypothesis of whether “native” neologisms are more readily accepted than those borrowed from English. To do so, we use a psycholinguistic experimental paradigm that allows us to estimate the degree of uncertainty of the participants based on the mouse trajectories of their responses. Unexpectedly, our results suggest that the neologisms borrowed from English are accepted more frequently, more quickly, and more easily than the “native” ones. These effects, however, are restricted to people born after 1980, the so-called millenials. We propose potential explanations for this mismatch between corpus results and experimental data and argue, among other things, for a reinterpretation of previous corpus studies.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Neologismus; Deutsch; Psycholinguistik; Korpus; Entlehnung; Datenanalyse
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  5. Is more always better? Testing the addition bias for German language statistics
    Erschienen: 2023
    Verlag:  Hoboken : Wiley ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    This replication study aims to investigate a potential bias toward addition in the German language, building upon previous findings of Winter and colleagues who identified a similar bias in English. Our results confirm a bias in word frequencies and... mehr

     

    This replication study aims to investigate a potential bias toward addition in the German language, building upon previous findings of Winter and colleagues who identified a similar bias in English. Our results confirm a bias in word frequencies and binomial expressions, aligning with these previous findings. However, the analysis of distributional semantics based on word vectors did not yield consistent results for German. Furthermore, our study emphasizes the crucial role of selecting appropriate translational equivalents, highlighting the significance of considering language-specific factors when testing for such biases for languages other than English.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Deutsch; Statistik; Bias; Worthäufigkeit; Semantische Analyse; Kognitive Semantik
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  6. A large quantitative analysis of written language challenges the idea that all languages are equally complex
    Erschienen: 2023
    Verlag:  Berlin : Springer Nature ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    One of the fundamental questions about human language is whether all languages are equally complex. Here, we approach this question from an information-theoretic perspective. We present a large scale quantitative cross-linguistic analysis of written... mehr

     

    One of the fundamental questions about human language is whether all languages are equally complex. Here, we approach this question from an information-theoretic perspective. We present a large scale quantitative cross-linguistic analysis of written language by training a language model on more than 6500 different documents as represented in 41 multilingual text collections consisting of ~ 3.5 billion words or ~ 9.0 billion characters and covering 2069 different languages that are spoken as a native language by more than 90% of the world population. We statistically infer the entropy of each language model as an index of what we call average prediction complexity. We compare complexity rankings across corpora and show that a language that tends to be more complex than another language in one corpus also tends to be more complex in another corpus. In addition, we show that speaker population size predicts entropy. We argue that both results constitute evidence against the equi-complexity hypothesis from an information-theoretic perspective.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Sprachstatistik; Komplexität; Informationstheorie; Korpus; Kontrastive Linguistik; Entropie
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  7. Filtern, Explorieren, Vergleichen: neue Zugriffsstrukturen und instruktive Potenziale von OWIDplus
    Erschienen: 2023
    Verlag:  Tübingen : Narr Francke Attempto ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen... mehr

     

    OWIDplus, das Zusatzangebot zur Wörterbuchplattform OWID, vereint verschiedenste lexikalische Datenbanken, Korpustools und visuell aufbereitete Analysen, die mithilfe von Textsuche und Kategorienfiltern so sortiert werden können, dass Benutzer*innen leicht die für sie interessanten Projekte entdecken können. Eine tiefergehende Beschäftigung mit den Einzelprojekten zeigt, wie bei aller oberflächlicher Ähnlichkeit oder gemeinsamen Themenbereichen ganz unterschiedliche methodische Zugänge zu sprachlichen Daten gewählt worden sind und wie Methodik und Forschungsfrage stets aufeinander abgestimmt werden müssen. Die Vielzahl potenzieller Forschungsfragen führt so unweigerlich zu einer Diversität von Projekten und somit einer Heterogenität, die, so hoffen die Autor*innen, in OWIDplus greifbar wird. ; OWIDplus, part of the online dictionary platform OWID, offers a wide variety of lexical databases, corpus tools, and visual presented analyses. The resources can be sorted by text and category filters in a way that users can easily find projects that might interest them. Despite the apparent visual similarity or common topics between the individual resources, closer examination reveals the different methodological approaches to linguistic data that have been taken, and how research questions and methodologies mutually depend on each other. The multitude of potential research questions inevitably leads to a heterogenous landscape of resources, and it is our hope that OWIDplus becomes an inspiring place to experience this diversity of linguistic research.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Sprachwandel; Wortschatz
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  8. Languages with more speakers tend to be harder to (machine-)learn
    Erschienen: 2023
    Verlag:  Berlin : Springer Nature ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Computational language models (LMs), most notably exemplified by the widespread success of OpenAI's ChatGPT chatbot, show impressive performance on a wide range of linguistic tasks, thus providing cognitive science and linguistics with a... mehr

     

    Computational language models (LMs), most notably exemplified by the widespread success of OpenAI's ChatGPT chatbot, show impressive performance on a wide range of linguistic tasks, thus providing cognitive science and linguistics with a computational working model to empirically study different aspects of human language. Here, we use LMs to test the hypothesis that languages with more speakers tend to be easier to learn. In two experiments, we train several LMs—ranging from very simple n-gram models to state-of-the-art deep neural networks—on written cross-linguistic corpus data covering 1293 different languages and statistically estimate learning difficulty. Using a variety of quantitative methods and machine learning techniques to account for phylogenetic relatedness and geographical proximity of languages, we show that there is robust evidence for a relationship between learning difficulty and speaker population size. However, contrary to expectations derived from previous research, our results suggest that languages with more speakers tend to be harder to learn.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Quantitative Methode; Korpus; Maschinelles Lernen; Künstliche Intelligenz; Kontrastive Linguistik
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  9. Human languages trade off complexity against efficiency
    Erschienen: 2023
    Verlag:  Mannheim : IDS-Verlag

    A central goal of linguistics is to understand the diverse ways in which human language can be organized (Gibson et al. 2019; Lupyan/Dale 2016). In our contribution, we present results of a large scale cross-linguistic analysis of the statistical... mehr

     

    A central goal of linguistics is to understand the diverse ways in which human language can be organized (Gibson et al. 2019; Lupyan/Dale 2016). In our contribution, we present results of a large scale cross-linguistic analysis of the statistical structure of written language (Koplenig/Wolfer/Meyer 2023) we approach this question from an information-theoretic perspective. To this end, we conduct a large scale quantitative cross-linguistic analysis of written language by training a language model on more than 6,500 different documents as represented in 41 multilingual text collections, so-called corpora, consisting of ~3.5 billion words or ~9.0 billion characters and covering 2,069 different languages that are spoken as a native language by more than 90% of the world population. We statistically infer the entropy of each language model as an index of un. To this end, we have trained a language model on more than 6,500 different documents as represented in 41 parallel/multilingual corpora consisting of ~3.5 billion words or ~9.0 billion characters and covering 2,069 different languages that are spoken as a native language by more than 90% of the world population or ~46% of all languages that have a standardized written representation. Figure 1 shows that our database covers a large variety of different text types, e.g. religious texts, legalese texts, subtitles for various movies and talks, newspaper texts, web crawls, Wikipedia articles, or translated example sentences from a free collaborative online database. Furthermore, we use word frequency information from the Crúbadán project that aims at creating text corpora for a large number of (especially under-resourced) languages (Scannell 2007). We statistically infer the entropy rate of each language model as an information-theoretic index of (un)predictability/complexity (Schürmann/Grassberger 1996; Takahira/Tanaka-Ishii/Dębowski 2016). Equipped with this database and information-theoretic estimation framework, we first evaluate the so-called ‘equi-complexity ...

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Sprachstatistik
    Lizenz:

    creativecommons.org/licenses/by-sa/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  10. Introducing DeReKoGram: A novel frequency dataset with lemma and part-of-speech information for German
    Erschienen: 2023
    Verlag:  Basel : MDPI ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is... mehr

     

    We introduce DeReKoGram, a novel frequency dataset containing lemma and part-of-speech (POS) information for 1-, 2-, and 3-grams from the German Reference Corpus. The dataset contains information based on a corpus of 43.2 billion tokens and is divided into 16 parts based on 16 corpus folds. We describe how the dataset was created and structured. By evaluating the distribution over the 16 folds, we show that it is possible to work with a subset of the folds in many use cases (e.g., to save computational resources). In a case study, we investigate the growth of vocabulary (as well as the number of hapax legomena) as an increasing number of folds are included in the analysis. We cross-combine this with the various cleaning stages of the dataset. We also give some guidance in the form of Python, R, and Stata markdown scripts on how to work with the resource.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Wortschatz; Korpus; Deutsch; Lemma; Sprachdaten; Datenanalyse
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess