Filtern nach
Letzte Suchanfragen

Ergebnisse für *

Es wurden 45 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 25 von 45.

Sortieren

  1. Korpusbasierte Diskursrecherche mit Rabbid
    Erschienen: 2018

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Diskurslinguistik
    Lizenz:

    kostenfrei

  2. Aufbau einer Korpusinfrastruktur für die Beobachtung des Schreibgebrauchs

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Unbestimmt
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Lizenz:

    kostenfrei

  3. Aufbau einer Korpusinfrastruktur für die Beobachtung des Schreibgebrauchs
    Erschienen: 2016
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Diewald, Nils (Verfasser); Kupietz, Marc (Verfasser); Witt, Andreas (Verfasser)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus <Linguistik>; Textproduktion; Rechtschreibung; Infrastruktur; Beobachtung; Gegenwartssprache; Wortart; Korpus <Linguistik>; Computerlinguistik; Rechtschreibung
    Umfang: Online-Ressource
    Bemerkung(en):

    In: DHd 2016. Modellierung - Vernetzung - Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. Konferenzabstracts. Universität Leipzig 7. bis 12. März 2016. - Duisburg : Nisaba, 2016., S. 310-312, ISBN 978-3-941379-05-3

  4. Möglichkeiten der Erforschung grammatischer Variation mithilfe von KorAP
    Autor*in: Kupietz, Marc
    Erschienen: 2017
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Diewald, Nils (Verfasser); Hanl, Michael (Verfasser); Margaretha, Eliza (Verfasser); Konopka, Marek (Herausgeber); Wöllstein, Angelika (Herausgeber)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Variation; Korpus <Linguistik>; Grammatik; Sprache; Annotation; Dependenzgrammatik; Anfrage; Korpus <Linguistik>; Grammatik
    Weitere Schlagworte: Korpusanalyseplattform (KorAP)
    Umfang: Online-Ressource
    Bemerkung(en):

    Lizenzpflichtig

    In: Grammatische Variation. Empirische Zugänge und theoretische Modellierung. - Berlin [u.a.] : De Gruyter, 2017., S. 319-329, ISBN 978-3-11-050115-5, Jahrbuch / Institut für Deutsche Sprache ; 2016

  5. Deutsch in Europa
    Sprachpolitisch, grammatisch, methodisch
    Autor*in:
    Erschienen: [2021]; ©2021
    Verlag:  De Gruyter, Berlin ; Walter de Gruyter GmbH

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen... mehr

    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe

     

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen methodischen Zugängen und Sprachressourcen das zu untersuchen ist. Der ständige Austausch zwischen diesen Sprachen und die politischen Rahmenbedingungen in der Europäischen Union werfen darüber hinaus konkrete sprach- und bildungspolitische Fragen auf. German has developed as part of a European language community. This volume asks interesting questions about how these languages influence each other and change, and which methodological approaches and linguistic resources can be used to analyse this. The constant interaction between these languages and the political framework of the EU also raise specific questions regarding language and educational policy.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
  6. Faserland ist abgebrannt
    Über die Romane Christian Krachts
    Autor*in: Diewald, Nils
    Erschienen: 2005

    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (kostenfrei)
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    RVK Klassifikation: GN 7441
    Schlagworte: Kracht, Christian; Roman;
    Umfang: 43 S.
    Bemerkung(en):

    Bielefeld, Univ., Bachelorarbeit, 2005

  7. Neues von KorAP
    Autor*in: Kupietz, Marc
    Erschienen: [2019]; © 2019

    Staats- und Universitätsbibliothek Bremen
    Niedersächsische Staats- und Universitätsbibliothek Göttingen
    keine Fernleihe
    Universitätsbibliothek Kiel, Zentralbibliothek
    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Diewald, Nils (VerfasserIn); Margaretha, Eliza (VerfasserIn); Bodmer Mory, Franck (VerfasserIn); Krause, Helge (VerfasserIn); Harders, Peter (VerfasserIn)
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: Enthalten in: Institut für Deutsche Sprache (54. : 2018 : Mannheim); Neues vom heutigen Deutsch; Berlin : De Gruyter, 2019; (2019), Seite [345]-349; XX, 364 Seiten

  8. Möglichkeiten der Erforschung grammatischer Variation mithilfe von KorAP
    Autor*in: Kupietz, Marc
    Erschienen: [2017]; © 2017

    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Diewald, Nils (VerfasserIn); Hanl, Michael (VerfasserIn); Margaretha, Eliza (VerfasserIn)
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: Enthalten in: Institut für Deutsche Sprache (52. : 2016 : Mannheim); Grammatische Variation; Berlin : De Gruyter, 2017; (2017), Seite [319]-329; XV, 356 Seiten

  9. Faserland ist abgebrannt
    Über die Romane Christian Krachts
    Autor*in: Diewald, Nils
    Erschienen: 2005

    Universitätsbibliothek Augsburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (kostenfrei)
    Quelle: Verbundkataloge
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    RVK Klassifikation: GN 7441
    Schlagworte: Roman
    Weitere Schlagworte: Kracht, Christian (1966-)
    Umfang: 1 Online-Ressource (43 S.)
    Bemerkung(en):

    Bielefeld, Univ., Bachelorarbeit, 2005

  10. Deutsch in Europa
    Sprachpolitisch, grammatisch, methodisch
    Autor*in:
    Erschienen: [2021]; ©2021
    Verlag:  De Gruyter, Berlin ; Boston

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen... mehr

    Zugang:
    Hochschulbibliothek der Fachhochschule Aachen
    Universitätsbibliothek der RWTH Aachen
    Fachhochschule Bielefeld, Hochschulbibliothek
    Hochschule Bochum, Hochschulbibliothek
    Ruhr-Universität Bochum, Universitätsbibliothek
    Universitäts- und Landesbibliothek Bonn
    Fachhochschule Dortmund, Hochschulbibliothek
    Universitätsbibliothek Duisburg-Essen, Campus Essen
    Westfälische Hochschule Gelsenkirchen Bocholt Recklinghausen, Hochschulbibliothek
    Universitätsbibliothek der Fernuniversität
    Katholische Hochschule Nordrhein-Westfalen (katho), Hochschulbibliothek
    Technische Hochschule Köln, Hochschulbibliothek
    Zentralbibliothek der Sportwissenschaften der Deutschen Sporthochschule Köln
    Hochschule Ruhr West, Hochschulbibliothek, Zweigbibliothek Bottrop
    Hochschule Ruhr West, Hochschulbibliothek
    Universitäts- und Landesbibliothek Münster

     

    Die deutsche Sprache hat sich innerhalb Europas als Teil einer europäischen Sprachengemeinschaft entwickelt. Von besonderem wissenschaftlichen Interesse ist die Frage, wie sich Sprachen untereinander beeinflussen, verändern und mit welchen methodischen Zugängen und Sprachressourcen das zu untersuchen ist. Der ständige Austausch zwischen diesen Sprachen und die politischen Rahmenbedingungen in der Europäischen Union werfen darüber hinaus konkrete sprach- und bildungspolitische Fragen auf German has developed as part of a European language community. This volume asks interesting questions about how these languages influence each other and change, and which methodological approaches and linguistic resources can be used to analyse this. The constant interaction between these languages and the political framework of the EU also raise specific questions regarding language and educational policy

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Beteiligt: Albert, Marina Foschi (Sonstige); Auer, Peter (Sonstige); Barbaresi, Adrien (Sonstige); Bański, Piotr (Sonstige); Beyer, Rahel (Sonstige); Bodmer, Franck (Sonstige); Bopp, Jutta (Sonstige); Czapka, Sophia (Sonstige); Diewald, Nils (Sonstige); Dovalil, Vít (Sonstige); Ebert, Johannes (Sonstige); Falke, Stefan (Sonstige); Fischer, Patricia (Sonstige); Fuhrhop, Nanna (Sonstige); Gagarina, Natalia (Sonstige); Geyken, Alexander (Sonstige); Gunkel, Lutz (Sonstige); Harders, Peter (Sonstige); Hartmann, Jutta M. (Sonstige); Hinrichs, Erhard (Sonstige); Hirschmann, Hagen (Sonstige); Irimia, Elena (Sonstige); Krifka, Manfred (Sonstige); Kupietz, Marc (Sonstige); Káňa, Tomáš (Sonstige)
    Sprache: Deutsch
    Medientyp: Ebook
    Format: Online
    ISBN: 9783110731514
    Weitere Identifier:
    Schriftenreihe: Jahrbuch des Instituts für Deutsche Sprache ; 2020
    Weitere Schlagworte: Deutsch/Sprache; Europa/Sprache; Kontrastive Linguistik; Sprachpolitik; FOREIGN LANGUAGE STUDY / German
    Umfang: 1 online resource (XVIII, 332 p.)
  11. KORAP und EuReCo - Recherchieren in mehrsprachigen vergleichbaren Korpora
    Autor*in: Diewald, Nils
    Erschienen: [2021]; © 2021

    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Niedersächsische Staats- und Universitätsbibliothek Göttingen
    keine Fernleihe
    Universitätsbibliothek Kiel, Zentralbibliothek
    keine Fernleihe
    Leibniz-Institut für Deutsche Sprache (IDS), Bibliothek
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Leibniz-Institut für Deutsche Sprache, Bibliothek
    Beteiligt: Bodmer Mory, Franck (VerfasserIn); Harders, Peter (VerfasserIn); Irimia, Elena (VerfasserIn); Kupietz, Marc (VerfasserIn); Margaretha, Eliza (VerfasserIn); Krause, Helge (VerfasserIn)
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Druck
    Übergeordneter Titel: Enthalten in: Jahrestagung des Instituts für Deutsche Sprache (56. : 2020 : Mannheim); Deutsch in Europa; Berlin : de Gruyter, 2021; (2021), Seite 287-293; XVII, 332 Seiten

  12. Orthographie in Wissenschaft und Gesellschaft
    Schriftsystem - Norm - Schreibgebrauch
    Autor*in:
    Erschienen: 2024; ©2024
    Verlag:  De Gruyter, Berlin ; Walter de Gruyter GmbH

    Der Band nimmt die Orthographie aus den Blickwinkeln Wissenschaft und Gesellschaft in den Fokus und setzt folgende drei Schwerpunkte: Theorie und Empirie, Vermittlung orthographischen Wissens im Bildungsbereich und Orthographie im öffentlichen Raum.... mehr

    Universität Frankfurt, Elektronische Ressourcen
    /
    keine Fernleihe

     

    Der Band nimmt die Orthographie aus den Blickwinkeln Wissenschaft und Gesellschaft in den Fokus und setzt folgende drei Schwerpunkte: Theorie und Empirie, Vermittlung orthographischen Wissens im Bildungsbereich und Orthographie im öffentlichen Raum. This volume focuses on orthography from the perspective of science and society, emphasizing the following three aspects: theory and empiricism, orthographical knowledge transfer in the field of education, and orthography in the public sphere.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Fachkatalog Germanistik
    Beteiligt: Adolphs, Leonie (Mitwirkender); Antonioli, Giorgio (Mitwirkender); Becker-Mrotzek, Michael (Mitwirkender); Behr, Dorothée (Mitwirkender); Berg, Kristian (Mitwirkender); Bredel, Ursula (Mitwirkender); Diewald, Nils (Mitwirkender); Dorer, Brita (Mitwirkender); Feilke, Helmuth (Mitwirkender); Felder, Ekkehard (Mitwirkender); Ferstl, Evelyn C. (Mitwirkender); Fuhrhop, Nanna (Mitwirkender); Gierke, Marco (Mitwirkender); Habermann, Mechthild (Mitwirkender); Hensler, Andrea (Mitwirkender); Jost, Jörg (Mitwirkender); Kirchmeier, Sabine (Mitwirkender); Kretzschmar, Franziska (Mitwirkender); Krome, Sabine (Mitwirkender); Kunkel-Razum, Kathrin (Mitwirkender); Kupietz, Marc (Mitwirkender); Lang, Christian (Mitwirkender); Lobin, Henning (Mitwirkender); Lüngen, Harald (Mitwirkender); Meletis, Dimitrios (Mitwirkender); Nerius, Dieter (Mitwirkender); Neuert, Cornelia (Mitwirkender); Nübling, Damaris (Mitwirkender); Ossner, Jakob (Mitwirkender); Osterwinter, Ralf (Mitwirkender); Ransmayr, Jutta (Mitwirkender); Reinken, Niklas (Mitwirkender); Romstadt, Jonas (Mitwirkender); Schneider, Roman (Mitwirkender); Steinhauer, Anja (Mitwirkender); Stirnemann, Knut (Mitwirkender); Strombach, Theresa (Mitwirkender); Wöllstein, Angelika (Mitwirkender)
    Sprache: Deutsch
    Medientyp: Ebook
    Format: Online
    ISBN: 9783111389219
    Weitere Identifier:
    RVK Klassifikation: GC 1573
    Schriftenreihe: Jahrbuch des Instituts für Deutsche Sprache ; 2023
    Schlagworte: Rechtschreibung
    Umfang: 1 Online-Ressource (XVIII, 436 p.)
  13. KorAP und EuReCo – Recherchieren in mehrsprachigen vergleichbaren Korpora

    Die Korpusanalyseplattform KorAP ist von Grund auf sprachenunabhängig konzipiert. Dies gilt sowohl in Bezug auf die Lokalisierung der Benutzeroberfläche als auch hinsichtlich unterschiedlicher Anfragesprachen und der Unterstützung fremdsprachiger... mehr

     

    Die Korpusanalyseplattform KorAP ist von Grund auf sprachenunabhängig konzipiert. Dies gilt sowohl in Bezug auf die Lokalisierung der Benutzeroberfläche als auch hinsichtlich unterschiedlicher Anfragesprachen und der Unterstützung fremdsprachiger Korpora und ihren Annotationen. Diese Eigenschaften dienen im Rahmen der EuReCo Initiative aktuell besonders der Bereitstellung weiterer National- und Referenzkorpora neben DeReKo. EuReCo versucht, Kompetenzen beim Aufbau großer Korpora zu bündeln und durch die Verfügbarmachung vergleichbarer Korpora quantitative Sprachvergleichsforschung zu erleichtern. Hierzu bietet KorAP inzwischen, neben dem Zugang durch die Benutzeroberfläche, einen Web API Client an, der statistische Erhebungen, auch korpusübergreifend, vereinfacht.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Kontrastive Linguistik; Forschungsmethode
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  14. Lessons learned in quality management for online research software tools in linguistics
    Erschienen: 2021
    Verlag:  Mannheim : Leibniz-Institut für Deutsche Sprache

    In this paper, we present our experiences and decisions in dealing with challenges in developing, maintaining and operating online research software tools in the field of linguistics. In particular, we highlight reproducibility, dependability, and... mehr

     

    In this paper, we present our experiences and decisions in dealing with challenges in developing, maintaining and operating online research software tools in the field of linguistics. In particular, we highlight reproducibility, dependability, and security as important aspects of quality management – taking into account the special circumstances in which research software is usually created.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Korpus; Datenqualität; Software
    Lizenz:

    creativecommons.org/licenses/by/4.0/deed.de ; info:eu-repo/semantics/openAccess

  15. Abfrage und Analyse von Korpusbelegen
    Erschienen: 2022
    Verlag:  Paderborn : Wilhelm Fink ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    In diesem Kapitel stellen wir zunächst grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vor. Diese Konzepte sollen Ihnen helfen, die einzelnen Abfragesprachen besser zu verstehen und vergleichen zu können. Die... mehr

     

    In diesem Kapitel stellen wir zunächst grundlegende Konzepte von Abfragesystemen und Abfragesprachen für die Suche in Korpora vor. Diese Konzepte sollen Ihnen helfen, die einzelnen Abfragesprachen besser zu verstehen und vergleichen zu können. Die gängigen Abfragesprachen unterscheiden sich in vielen Details. Diese Details und die Möglichkeiten und Grenzen der einzelnen Abfragesprachen stellen wir im zweiten Teil mit vielen Beispielaufgaben und dazu passenden Lösungen in jeweils drei Abfragesprachen vor.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Sprachdaten; Korpus; Abfragesprache; Datenbank; Forschungsdaten
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  16. Matrix and double-array representations for efficient finite state tokenization
    Autor*in: Diewald, Nils
    Erschienen: 2022
    Verlag:  Paris : European Language Resources Association (ELRA) ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    This paper presents an algorithm and an implementation for efficient tokenization of texts of space-delimited languages based on a deterministic finite state automaton. Two representations of the underlying data structure are presented and a model... mehr

     

    This paper presents an algorithm and an implementation for efficient tokenization of texts of space-delimited languages based on a deterministic finite state automaton. Two representations of the underlying data structure are presented and a model implementation for German is compared with state-of-the-art approaches. The presented solution is faster than other tools while maintaining comparable quality.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Algorithmus; Endlicher Zustandsraum; Datenstruktur; Deutsch; Korpus
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess

  17. Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level
    Erschienen: 2022
    Verlag:  Mannheim : IDS-Verlag

    When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research... mehr

     

    When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research purposes, however, other criteria also play a role – not least sufficient speed to process the data in an acceptable amount of time. In this paper we evaluate several state-ofthe-art tokenization tools for German – including our own – with regard to theses criteria. We conclude that while not all tools are applicable in this setting, no compromises regarding quality need to be made.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Englisch, Altenglisch (420)
    Schlagworte: Korpus; Software; Automatische Sprachanalyse; Daten; Deutsch
    Lizenz:

    creativecommons.org/licenses/by-sa/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  18. Tokenizing on scale. Preprocessing large text corpora on the lexical and sentence level
    Erschienen: 2022
    Verlag:  Mannheim : IDS-Verlag ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research... mehr

     

    When comparing different tools in the field of natural language processing (NLP), the quality of their results usually has first priority. This is also true for tokenization. In the context of large and diverse corpora for linguistic research purposes, however, other criteria also play a role – not least sufficient speed to process the data in an acceptable amount of time. In this paper we evaluate several state of the art tokenization tools for German – including our own – with regard to theses criteria. We conclude that while not all tools are applicable in this setting, no compromises regarding quality need to be made.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Englisch, Altenglisch (420)
    Schlagworte: Korpus
    Lizenz:

    creativecommons.org/licenses/by-sa/4.0/deed.de ; info:eu-repo/semantics/openAccess

  19. Building paths to corpus data. A multi-level least effort and maximum return approach
    Erschienen: 2022
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS)

    Enabling appropriate access to linguistic research data, both for many researchers and for innovative research applications, is a challenging task. In this chapter, we describe how we address this challenge in the context of the German Reference... mehr

     

    Enabling appropriate access to linguistic research data, both for many researchers and for innovative research applications, is a challenging task. In this chapter, we describe how we address this challenge in the context of the German Reference Corpus DeReKo and the corpus analysis platform KorAP. The core of our approach, which is based on and tightly integrated into the CLARIN infrastructure, is to offer access at different levels. The graduated access levels make it possible to find a low-loss compromise between the possibilities opened up and the costs incurred by users and providers for each individual use case, so that, viewed over many applications, the ratio between effort and results achieved can be effectively optimized. We also report on experiences with the current state of this approach.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Sprache (400)
    Schlagworte: Sprachdaten; Deutsches Referenzkorpus (DeReKo); Korpus; Technische Infrastruktur; Nachhaltigkeit
    Lizenz:

    creativecommons.org/licenses/by/4.0/ ; info:eu-repo/semantics/openAccess

  20. Das Gesamtkonzept des Deutschen Referenzkorpus DeReKo. Vom Design bis zur Verwendung und darüber hinaus
    Erschienen: 2023
    Verlag:  Berlin/Boston : de Gruyter ; Mannheim : Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]

    Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in... mehr

     

    Das Deutsche Referenzkorpus DeReKo dient als eine empirische Grundlage für die germanistische Linguistik. In diesem Beitrag geben wir einen Überblick über Grundlagen und Neuigkeiten zu DeReKo und seine Verwendungsmöglichkeiten sowie einen Einblick in seine strategische Gesamtkonzeption, die zum Ziel hat, DeReKo trotz begrenzter Ressourcen für einerseits möglichst viele und andererseits auch für innovative und anspruchsvolle Anwendungen nutzbar zu machen. Insbesondere erläutern wir dabei Strategien zur Aufbereitung sehr großer Korpora mit notwendigerweise heuristischen Verfahren und Herausforderungen, die sich auf dem Weg zur linguistischen Erschließung solcher Korpora stellen.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus; Empirische Linguistik; Germanistik; Datenaufbereitung; Sprachdaten; Heuristik; Forschungsdaten; Kontrastive Linguistik
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  21. Access control by query rewriting: the case of KorAP
    Erschienen: 2014
    Verlag:  Reykjavik : European Language Resources Association (ELRA)

    We present an approach to an aspect of managing complex access scenarios to large and heterogeneous corpora that involves handling user queries that, intentionally or due to the complexity of the queried resource, target texts or annotations outside... mehr

     

    We present an approach to an aspect of managing complex access scenarios to large and heterogeneous corpora that involves handling user queries that, intentionally or due to the complexity of the queried resource, target texts or annotations outside of the given user’s permissions. We first outline the overall architecture of the corpus analysis platform KorAP, devoting some attention to the way in which it handles multiple query languages, by implementing ISO CQLF (Corpus Query Lingua Franca), which in turn constitutes a component crucial for the functionality discussed here. Next, we look at query rewriting as it is used by KorAP and zoom in on one kind of this procedure, namely the rewriting of queries that is forced by data access restrictions.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  22. KorAP: the new corpus analysis platform at IDS Mannheim
    Erschienen: 2014
    Verlag:  Poznań : Uniwersytet im. Adama Mickiewicza w Poznaniu

    The KorAP project (“Korpusanalyseplattform der nächste Generation”, “Corpus-analysis platform of the next generation”), carried out at the Institut fUr Deutsche Sprache (IDS) in Mannheim, Germany, has as its goal the development of a modem,... mehr

     

    The KorAP project (“Korpusanalyseplattform der nächste Generation”, “Corpus-analysis platform of the next generation”), carried out at the Institut fUr Deutsche Sprache (IDS) in Mannheim, Germany, has as its goal the development of a modem, state-of-the-art corpus-analysis platform, capable of handling very large corpora and opening the perspectives for innovative linguistic research. The platform will facilitate new linguistic findings by making it possible to manage and analyse extremely large amounts of primary data and annotations, while at the same time allowing an undistorted view of the primary un-annotated text, and thus fully satisfying expectations associated with a scientific tool. The project started in July 2011 and is funded till June 2014. The demo presentation in December will be the first version following a preliminary feature freeze, and will open the alpha testing phase of the project.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  23. KoralQuery - a General Corpus Query Protocol
    Erschienen: 2015
    Verlag:  Linköping University Electronic Press, Linköpings universitet

    The task-oriented and format-driven development of corpus query systems has led to the creation of numerous corpus query languages (QLs) that vary strongly in expressiveness and syntax. This is a severe impediment for the interoperability of corpus... mehr

     

    The task-oriented and format-driven development of corpus query systems has led to the creation of numerous corpus query languages (QLs) that vary strongly in expressiveness and syntax. This is a severe impediment for the interoperability of corpus analysis systems, which lack a common protocol. In this paper, we present KoralQuery, a JSON-LD based general corpus query protocol, aiming to be independent of particular QLs, tasks and corpus formats. In addition to describing the system of types and operations that Koral- Query is built on, we exemplify the representation of corpus queries in the serialized format and illustrate use cases in the KorAP project.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Computerlinguistik; Automatische Sprachverarbeitung
    Lizenz:

    creativecommons.org/licenses/by-nd/4.0/ ; info:eu-repo/semantics/openAccess

  24. Texttechnologie an der Universität Bielefeld
    Erschienen: 2016
    Verlag:  Paderborn : Mentis-Verlag

    In the mid-1990s, the Faculty of Linguistics and Literary-Studies at Bielefeld University began to establish the field Text technology, both in research and education. Text technology is a new field of research on the border of Computational... mehr

     

    In the mid-1990s, the Faculty of Linguistics and Literary-Studies at Bielefeld University began to establish the field Text technology, both in research and education. Text technology is a new field of research on the border of Computational Linguistics and Computational Philology. This paper focuses on Text technology in academic education. In 2002, Text Technology was introduced as a minor subject for B.A. Programs. It is organized in modules: Module 1 introduces the characteristics of electronic texts and documents, typography, typesetting systems and hypertext. Module 2 introduces one or two programming languages relevant to the field of humanities computing. Markup languages and the principles of information structuring are the main topics of Module 3. The formal fundamentals of computer-based text processing, as formal languages and their grammars, Logics et cetera are subjects of another module. The paper ends with a short description of other Bachelor- and Master-Programs at Bielefeld University which contain text technological themes.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Deutsch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Linguistische Datenverarbeitung; Computerlinguistik; Studiengang
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  25. KorAP architecture – diving in the deep sea of corpus data
    Erschienen: 2016
    Verlag:  Paris : European Language Resources Association (ELRA)

    KorAP is a corpus search and analysis platform, developed at the Institute for the German Language (IDS). It supports very large corpora with multiple annotation layers, multiple query languages, and complex licensing scenarios. KorAP’s design aims... mehr

     

    KorAP is a corpus search and analysis platform, developed at the Institute for the German Language (IDS). It supports very large corpora with multiple annotation layers, multiple query languages, and complex licensing scenarios. KorAP’s design aims to be scalable, flexible, and sustainable to serve the German Reference Corpus DEREKO for at least the next decade. To meet these requirements, we have adopted a highly modular microservice-based architecture. This paper outlines our approach: An architecture consisting of small components that are easy to extend, replace, and maintain. The components include a search backend, a user and corpus license management system, and a web-based user frontend. We also describe a general corpus query protocol used by all microservices for internal communications. KorAP is open source, licensed under BSD-2, and available on GitHub.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Germanische Sprachen; Deutsch (430)
    Schlagworte: Korpus
    Lizenz:

    creativecommons.org/licenses/by-nc/4.0/ ; info:eu-repo/semantics/openAccess