Ergebnisse für *

Es wurden 25 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 25 von 25.

Sortieren

  1. Corpus linguistics and linguistically annotated corpora
    Erschienen: 2015
    Verlag:  Bloomsbury, London [u.a.]

    Freie Universität Berlin, Universitätsbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, Haus Unter den Linden
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universität Potsdam, Universitätsbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Zinsmeister, Heike (Verfasser)
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    ISBN: 9781441164476; 9781441116758; 9781441119919; 9781441119803
    RVK Klassifikation: ER 765 ; ES 900
    Auflage/Ausgabe: 1. ed.
    Schlagworte: Corpora (Linguistics); Compuational linguistics; LANGUAGE ARTS & DISCIPLINES / Linguistics / General; Linguistik; Sprachanalyse; Annotation; Korpus <Linguistik>
    Umfang: VIII, 312 S., Ill., graph. Darst.
  2. Corpus linguistics and linguistically annotated corpora
    Erschienen: 2015
    Verlag:  Bloomsbury, London [u.a.]

    Humboldt-Universität zu Berlin, Universitätsbibliothek, Jacob-und-Wilhelm-Grimm-Zentrum
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (URL des Erstveröffentlichers)
    Quelle: Verbundkataloge
    Beteiligt: Zinsmeister, Heike (Verfasser)
    Sprache: Englisch
    Medientyp: Ebook
    Format: Online
    ISBN: 9781472593573; 9781441119919
    RVK Klassifikation: ES 900 ; ER 765
    Schlagworte: Corpora (Linguistics); Compuational linguistics; LANGUAGE ARTS & DISCIPLINES / Linguistics / General; Linguistik; Sprachanalyse; Annotation; Korpus <Linguistik>
    Umfang: 1 Online-Ressource (viii, 312 Seiten), Illustrationen
  3. Multi-Dimensional Markup: N-way relations as a generalisation over possible relations between annotation layers
    Erschienen: 2015
    Verlag:  Institut für Deutsche Sprache, Bibliothek, Mannheim

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Witt, Andreas (Verfasser); Opas-Hänninen, Lisa Lena (Herausgeber); Jokelainen, Mikko (Herausgeber); Juuso, Ilkka (Herausgeber); Seppänen, Tapio (Herausgeber)
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Mathematik (510)
    Schlagworte: Digital Humanities; Auszeichnungssprache; Annotation
    Umfang: Online-Ressource
    Bemerkung(en):

    In: Digital Humanities 2008. Book of Abstracts. - Oulu : University of Oulu, 2008., S. 254-255, ISBN 978-951-42-8838-8

  4. Handbuch Textannotation
    Potsdamer Kommentarkorpus 2.0
    Autor*in:
    Erschienen: 2015
    Verlag:  Universität Potsdam, Potsdam

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Stede, Manfred (Herausgeber)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    Schriftenreihe: Potsdam Cognitive Science Series ; 8
    Schlagworte: Deutsch; Korpus <Linguistik>; Annotation
    Weitere Schlagworte: linguistische Annotation; linguistisches Korpus; Textstruktur; Zeitungskommentare; linguistic annotation; linguistic corpus; text structure; newspaper commentary
    Umfang: Online-Ressource
  5. Handbuch Textannotation
    Potsdamer Kommentarkorpus 2.0
    Autor*in:
    Erschienen: 2015
    Verlag:  Universität Potsdam, Potsdam

    Zugang:
    Verlag (kostenfrei)
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Hessisches BibliotheksInformationsSystem HeBIS
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Verbundkataloge
    Beteiligt: Stede, Manfred (Herausgeber)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    DDC Klassifikation: Germanische Sprachen; Deutsch (430); Datenverarbeitung; Informatik (004)
    Schriftenreihe: Potsdam Cognitive Science Series ; 8
    Schlagworte: Deutsch; Korpus <Linguistik>; Annotation
    Umfang: Online-Ressource
  6. "Losing my religion"
    Einsatz der Videoannotationsdatenbank Pand.do/ra in der kunstgeschichtlichen Analyse von Musikvideos
    Autor*in:
    Erschienen: 2015

    In dem vorliegenden Beitrag werden die Möglichkeiten sowie der daraus resultierende Mehrwert der Anwendung einer webbasierten Datenbank für Videoannotationen (Pan.do/ra) in der kulturwissenschaftlichen Untersuchung von Bewegtbildmaterial beleuchtet.... mehr

    HeiBIB - Die Heidelberger Universitätsbibliographie
    keine Fernleihe
    Deutsches Historisches Institut Paris, Bibliothek
    keine Fernleihe
    Herzog August Bibliothek Wolfenbüttel
    keine Fernleihe

     

    In dem vorliegenden Beitrag werden die Möglichkeiten sowie der daraus resultierende Mehrwert der Anwendung einer webbasierten Datenbank für Videoannotationen (Pan.do/ra) in der kulturwissenschaftlichen Untersuchung von Bewegtbildmaterial beleuchtet. Der erste Teil beschäftigt sich am Beispiel eines Musikvideos konkret mit einer Anzahl von Nutzungsmöglichkeiten, während der anschließende zweite Teil das verwendete System in einen allgemeineren Kontext einbettet.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (OpenAccess Lizenz (Creative Commons License))
    Quelle: Herzog August Bibliothek Wolfenbüttel
    Beteiligt: Wübbena, Thorsten (VerfasserIn); Decker, Eric (VerfasserIn); Arnold, Matthias (VerfasserIn)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Online
    Weitere Identifier:
    Übergeordneter Titel: Enthalten in: Grenzen und Möglichkeiten der Digital Humanities; Wolfenbüttel : Forschungsverbund Marbach Weimar Wolfenbüttel, 2015; Bd. 1.2015, Artikel18; Online-Ressource (HTML, XML, PDF)

    Schriftenreihe: Array ; 1
    Schlagworte: Musikvideo; Computerunterstütztes Verfahren; Annotation;
    Bemerkung(en):

    Lizenz: CC BY-SA 4.0. - Medienrechte liegen bei den Autoren

  7. Corpus linguistics and linguistically annotated corpora
    Erschienen: 2015
    Verlag:  Bloomsbury, London [u.a.]

    Universitätsbibliothek Augsburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Bamberg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Erlangen-Nürnberg, Hauptbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek der LMU München
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Regensburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Würzburg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Beteiligt: Zinsmeister, Heike (Verfasser)
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    ISBN: 9781441164476; 9781441116758; 9781441119919; 9781441119803
    RVK Klassifikation: ER 765 ; ES 900
    Auflage/Ausgabe: 1. ed.
    Schlagworte: Corpora (Linguistics); Compuational linguistics; LANGUAGE ARTS & DISCIPLINES / Linguistics / General; Linguistik; Sprachanalyse; Annotation; Korpus <Linguistik>
    Umfang: VIII, 312 S., Ill., graph. Darst.
  8. Corpus linguistics and linguistically annotated corpora
    Erschienen: 2015
    Verlag:  Bloomsbury, London [u.a.]

    Universitätsbibliothek der LMU München
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Volltext (URL des Erstveröffentlichers)
    Quelle: Verbundkataloge
    Beteiligt: Zinsmeister, Heike (Verfasser)
    Sprache: Englisch
    Medientyp: Ebook
    Format: Online
    ISBN: 9781472593573; 9781441119919
    RVK Klassifikation: ES 900 ; ER 765
    Schlagworte: Corpora (Linguistics); Compuational linguistics; LANGUAGE ARTS & DISCIPLINES / Linguistics / General; Linguistik; Sprachanalyse; Annotation; Korpus <Linguistik>
    Umfang: 1 Online-Ressource (viii, 312 Seiten), Illustrationen
  9. Corpus linguistics and linguistically annotated corpora
    Erschienen: 2015
    Verlag:  Bloomsbury, London [u.a.]

    Universitätsbibliothek Bielefeld
    NA185.50 K95
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Ruhr-Universität Bochum, Fakultät für Philologie, Sprachwissenschaftliches Institut, Bibliothek
    10.10 388.2
    keine Fernleihe
    Universität Bonn, Institut für Anglistik, Amerikanistik und Keltologie, Bibliothek
    C AL-880
    keine Fernleihe
    Universitätsbibliothek Duisburg-Essen, Campus Essen
    BFP3854
    Institut für Deutsche Sprache und Literatur mit Volkskundlicher Abteilung, Bibliothek
    405/Sp2.3/4758
    keine Fernleihe
    Bibliotheken Romanisches Seminar und Institut für Slavistik
    AS 340/95
    keine Fernleihe
    Universitätsbibliothek Siegen
    11BFP4177
    Universitätsbibliothek Trier
    TC/mb21617
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Beteiligt: Zinsmeister, Heike (Verfasser)
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    ISBN: 9781441164476; 9781441116758
    RVK Klassifikation: ES 900 ; ER 765
    Schlagworte: Annotation; Korpus <Linguistik>; Sprachanalyse
    Umfang: VIII, 312 S., graph. Darst.
  10. Proceedings of the 3rd Workshop on Challenges in the Management of Large Corpora (CMLC-3)
    Erschienen: 2015
    Verlag:  Mannheim : Institut für Deutsche Sprache

    Contents: 1. Michal Křen: Recent Developments in the Czech National Corpus, S. 1 2. Dan Tufiş, Verginica Barbu Mititelu, Elena Irimia, Stefan Dumitrescu, Tiberiu Boros, Horia Nicolai Teodorescu: CoRoLa Starts Blooming – An update on the Reference... mehr

     

    Contents: 1. Michal Křen: Recent Developments in the Czech National Corpus, S. 1 2. Dan Tufiş, Verginica Barbu Mititelu, Elena Irimia, Stefan Dumitrescu, Tiberiu Boros, Horia Nicolai Teodorescu: CoRoLa Starts Blooming – An update on the Reference Corpus of Contemporary Romanian Language, S. 5 3. Sebastian Buschjäger, Lukas Pfahler, Katharina Morik: Discovering Subtle Word Relations in Large German Corpora, S. 11 4. Johannes Graën, Simon Clematide: Challenges in the Alignment, Management and Exploitation of Large and Richly Annotated Multi-Parallel Corpora, S. 15 5. Stefan Evert, Andrew Hardie: Ziggurat: A new data model and indexing format for large annotated text corpora, S. 21 6. Roland Schäfer: Processing and querying large web corpora with the COW14 architecture, S. 28 7. Jochen Tiepmar: Release of the MySQL-based implementation of the CTS protocol, S. 35

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Datenbanksystem; Annotation; Computerlinguistik; Konferenz
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  11. Discovering Subtle Word Relations in Large German Corpora
    Erschienen: 2015
    Verlag:  Mannheim : Institut für Deutsche Sprache

    With an increasing amount of text data available it is possible to automatically extract a variety of information about language. One way to obtain knowledge about subtle relations and analogies between words is to observe words which are used in the... mehr

     

    With an increasing amount of text data available it is possible to automatically extract a variety of information about language. One way to obtain knowledge about subtle relations and analogies between words is to observe words which are used in the same context. Recently, Mikolov et al. proposed a method to efficiently compute Euclidean word representations which seem to capture subtle relations and analogies between words in the English language. We demonstrate that this method also captures analogies in the German language. Furthermore, we show that we can transfer information extracted from large non-annotated corpora into small annotated corpora, which are then, in turn, used for training NLP systems.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Datenbanksystem; Annotation
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  12. Ziggurat: A new data model and indexing format for large annotated text corpora
    Erschienen: 2015
    Verlag:  Mannheim : Institut für Deutsche Sprache

    The IMS Open Corpus Workbench (CWB) software currently uses a simple tabular data model with proven limitations. We outline and justify the need for a new data model to underlie the next major version of CWB. This data model, dubbed Ziggurat, defines... mehr

     

    The IMS Open Corpus Workbench (CWB) software currently uses a simple tabular data model with proven limitations. We outline and justify the need for a new data model to underlie the next major version of CWB. This data model, dubbed Ziggurat, defines a series of types of data layer to represent different structures and relations within an annotated corpus; each such layer may contain variables of different types. Ziggurat will allow us to gradually extend and enhance CWB’s existing CQP-syntax for corpus queries, and also make possible more radical departures relative not only to the current version of CWB but also to other contemporary corpus-analysis software.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Annotation; Datenbanksystem
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  13. Challenges in the Alignment, Management and Exploitation of Large and Richly Annotated Multi-Parallel Corpora
    Erschienen: 2015
    Verlag:  Mannheim : Institut für Deutsche Sprache

    The availability of large multi-parallel corpora offers an enormous wealth of material to contrastive corpus linguists, translators and language learners, if we can exploit the data properly. Necessary preparation steps include sentence and word... mehr

     

    The availability of large multi-parallel corpora offers an enormous wealth of material to contrastive corpus linguists, translators and language learners, if we can exploit the data properly. Necessary preparation steps include sentence and word alignment across multiple languages. Additionally, linguistic annotation such as partof- speech tagging, lemmatisation, chunking, and dependency parsing facilitate precise querying of linguistic properties and can be used to extend word alignment to sub-sentential groups. Such highly interconnected data is stored in a relational database to allow for efficient retrieval and linguistic data mining, which may include the statistics-based selection of good example sentences. The varying information needs of contrastive linguists require a flexible linguistic query language for ad hoc searches. Such queries in the format of generalised treebank query languages will be automatically translated into SQL queries.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Annotation; Datenbanksystem
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  14. Recent Developments in the Czech National Corpus
    Autor*in: Křen, Michal
    Erschienen: 2015
    Verlag:  Mannheim : Institut für Deutsche Sprache

    The Czech National Corpus (CNC) is a longterm project striving for extensive and continuous mapping of the Czech language. This effort results mostly in compilation, maintenance and providing free public access to a range of various corpora with the... mehr

     

    The Czech National Corpus (CNC) is a longterm project striving for extensive and continuous mapping of the Czech language. This effort results mostly in compilation, maintenance and providing free public access to a range of various corpora with the aim to offer a diverse, representative, and high-quality data for empirical research mainly in linguistics. Since 2012, the CNC is officially recognized as a research infrastructure funded by the Czech Ministry of Education, Youth and Sports which has caused a recent shift towards user service-oriented operation of the project. All project-related resources are now integrated into the CNC research portal at www.korpus.cz. Currently, the CNC has an established and growing user community of more than 4,500 active users in the Czech Republic and abroad who put almost 1,900 queries per day using one of the user interfaces. The paper discusses the main CNC objectives for each particular domain, aiming at an overview of the current situation supplemented by an outline of future plans.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Annotation; Datenbanksystem; Tschechisch
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  15. Processing and querying large web corpora with the COW14 architecture
    Erschienen: 2015
    Verlag:  Mannheim : Institut für Deutsche Sprache

    In this paper, I present the COW14 tool chain, which comprises a web corpus creation tool called texrex, wrappers for existing linguistic annotation tools as well as an online query software called Colibri2. By detailed descriptions of the... mehr

     

    In this paper, I present the COW14 tool chain, which comprises a web corpus creation tool called texrex, wrappers for existing linguistic annotation tools as well as an online query software called Colibri2. By detailed descriptions of the implementation and systematic evaluations of the performance of the software on different types of systems, I show that the COW14 architecture is capable of handling the creation of corpora of up to at least 100 billion tokens. I also introduce our running demo system which currently serves corpora of up to roughly 20 billion tokens in Dutch, English, French, German, Spanish, and Swedish

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Annotation; Datenbanksystem
    Lizenz:

    creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de ; info:eu-repo/semantics/openAccess

  16. An XML Annotation Schema for speech, thought and writing representation
    Erschienen: 2015

    This contribution presents an XML Schema for annotating a high level narratological category: speech, thought and writing representation (ST&WR). It focusses on two aspects: Firstly, the original Schema is presented as an example for the challenge to... mehr

     

    This contribution presents an XML Schema for annotating a high level narratological category: speech, thought and writing representation (ST&WR). It focusses on two aspects: Firstly, the original Schema is presented as an example for the challenge to encode a narrative feature in a structured and flexible way and secondly, ways of adapting this Schema to TEI are considered, in Order to make it usable for other, TEI-based projects.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Automatische Sprachanalyse; Annotation; Prosa; Redeerwähnung; Direkte Rede
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  17. Building and Annotating a Corpus of German-Language Newsgroups
    Erschienen: 2015
    Verlag:  German Society for Computational Linguistics & Language Technology (GSCL)

    Usenet is a large online resource containing user-generated messages (news articles) organised in discussion groups (newsgroups) which deal with a wide variety of different topics. We describe the download, conversion, and annotation of a... mehr

     

    Usenet is a large online resource containing user-generated messages (news articles) organised in discussion groups (newsgroups) which deal with a wide variety of different topics. We describe the download, conversion, and annotation of a comprehensive German news corpus for integration in DeReKo, the German Reference Corpus hosted at the Institut für Deutsche Sprache in Mannheim.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  18. Adding Value to CMC Corpora: CLARINification and Part-of-speech Annotation of the Dortmund Chat Corpus
    Erschienen: 2015
    Verlag:  German Society for Computational Linguistics & Language Technology (GSCL)

  19. The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities, and Pitfalls
    Erschienen: 2015
    Verlag:  Tübingen : Narr

    The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The... mehr

     

    The paper discusses from various angles the morphosyntactic annotation of DeReKo, the Archive of General Reference Corpora of Contemporary Written German at the Institut für Deutsche Sprache (IDS), Mannheim. The paper is divided into two parts. The first part covers the practical and technical aspects of this endeavor. We present results from a recent evaluation of tools for the annotation of German text resources that have been applied to DeReKo. These tools include commercial products, especially Xerox' Finite State Tools and the Machinese products developed by the Finnish company Connexor Oy, as well as software for which academic licenses are available free of charge for academic institutions, e.g. Helmut Schmid's Tree Tagger. The second part focuses on the linguistic interpretability of the corpus annotations and more general methodological considerations concerning scientifically sound empirical linguistic research. The main challenge here is that unlike the texts themselves, the morphosyntactic annotations of DeReKo do not have the status of observed data; instead they constitute a theory and implementation-dependent interpretation. In addition, because of the enormous size of DeReKo, a systematic manual verification of the automatic annotations is not feasible. In consequence, the expected degree of inaccuracy is very high, particularly wherever linguistically challenging phenomena, such as lexical or grammatical variation, are concerned. Given these facts, a researcher using the annotations blindly will run the risk of not actually studying the language but rather the annotation tool or the theory behind it. The paper gives an overview of possible pitfalls and ways to circumvent them and discusses the opportunities offered by using annotations in corpus-based and corpus-driven grammatical research against the background of a scientifically sound methodology.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Annotation; Schriftsprache
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  20. SusTEInability of linguistic resources through feature structures
    Erschienen: 2015
    Verlag:  Oxford : Oxford University Press

    This article shows that the TEI tag set for feature structures can be adopted to represent a heterogeneous set of linguistic corpora. The majority of corpora is annotated using markup languages that are based on the Annotation Graph framework, the... mehr

     

    This article shows that the TEI tag set for feature structures can be adopted to represent a heterogeneous set of linguistic corpora. The majority of corpora is annotated using markup languages that are based on the Annotation Graph framework, the upcoming Linguistic Annotation Format ISO standard, or according to tag sets defined by or based upon the TEI guidelines. A unified representation comprises the separation of conceptually different annotation layers contained in the original corpus data (e.g. syntax, phonology, and semantics) into multiple XML files. These annotation layers are linked to each other implicitly by the identical textual content of all files. A suitable data structure for the representation of these annotations is a multi-rooted tree that again can be represented by the TEI and ISO tag set for feature structures. The mapping process and representational issues are discussed as well as the advantages and drawbacks associated with the use of the TEI tag set for feature structures as a storage and exchange format for linguistically annotated data.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einer Zeitschrift
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Programmiersprache; Annotation; Text Encoding Initiative (TEI)
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  21. Guidance through the standards jungle for linguistic resources
    Erschienen: 2015
    Verlag:  Paris : European Language Resources Association (ELRA)

    Research today is often performed in collaborated projects composed of project partners with different backgrounds and from different institutions and countries. Standards can be a crucial tool to help harmonizing these differences and to create... mehr

     

    Research today is often performed in collaborated projects composed of project partners with different backgrounds and from different institutions and countries. Standards can be a crucial tool to help harmonizing these differences and to create sustainable resources. However, choosing a standard depends on having enough information to evaluate and compare different annotation and metadata formats. In this paper we present ongoing work on an interactive, collaborative website that collects information on standards in the field of linguistics as a means to guide interested researchers.

     

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Computerlinguistik; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  22. Different Views on Markup
    Erschienen: 2015
    Verlag:  Dordrecht : Springer

    In this chapter, two different ways of grouping information represented in document markup are examined: annotation levels, referring to conceptual levels of description, and annotation layers, referring to the technical realisation of markup using... mehr

     

    In this chapter, two different ways of grouping information represented in document markup are examined: annotation levels, referring to conceptual levels of description, and annotation layers, referring to the technical realisation of markup using e.g. document grammars. In many current XML annotation projects, multiple levels are integrated into one layer, often leading to the problem of having to deal with overlapping hierarchies. As a solution, we propose a framework for XML-based multiple, independent XML annotation layers for one text, based on an abstract representation of XML documents with logical predicates. Two realisations of the abstract representation are presented, a Prolog fact base format together with an application architecture, and a specification for XML native databases. We conclude with a discussion of projects that have currently adopted this framework.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Computerlinguistik; XML; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  23. Integrated Linguistic Annotation Models and Their Application in the Domain of Antecedent Detection
    Erschienen: 2015
    Verlag:  Berlin/Heidelberg : Springer

    Seamless integration of various, often heterogeneous linguistic resources in terms of their output formats and a combined analysis of the respective annotation layers are crucial tasks for linguistic research. After a decade of concentration on the... mehr

     

    Seamless integration of various, often heterogeneous linguistic resources in terms of their output formats and a combined analysis of the respective annotation layers are crucial tasks for linguistic research. After a decade of concentration on the development of formats to structure single annotations for specific linguistic issues, in the last years a variety of specifications to store multiple annotations over the same primary data has been developed. The paper focuses on the integration of the knowledge resource logical document structure information into a text document to enhance the task of automatic anaphora resolution both for the task of candidate detection and antecedent selection. The paper investigates data structures necessary for knowledge integration and retrieval.

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Aufsatz aus einem Sammelband
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Computerlinguistik; Annotation; Automatische Sprachanalyse
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess

  24. Multi-Dimensional Markup: N-way relations as a generalisation over possible relations between annotation layers
    Erschienen: 2015
    Verlag:  Oulu : University of Oulu

  25. Corpus Masking: Legally Bypassing Licensing Restrictions for the Free Distribution of Text Collections
    Erschienen: 2015
    Verlag:  Urbana-Champaign : University of Illinois

    Export in Literaturverwaltung
    Quelle: BASE Fachausschnitt Germanistik
    Sprache: Englisch
    Medientyp: Konferenzveröffentlichung
    Format: Online
    DDC Klassifikation: Linguistik (410)
    Schlagworte: Korpus; Auszeichnungssprache; Annotation
    Lizenz:

    rightsstatements.org/page/InC/1.0/ ; info:eu-repo/semantics/openAccess