Ergebnisse für *

Es wurden 4 Ergebnisse gefunden.

Zeige Ergebnisse 1 bis 4 von 4.

Sortieren

  1. Web Corpus Construction
    Erschienen: [2013]; © 2013
    Verlag:  Morgan & Claypool Publishers, [San Rafael]

    The World Wide Web constitutes the largest existing source of texts written in a great variety of languages. A feasible and sound way of exploiting this data for linguistic research is to compile a static corpus for a given language. There are... mehr

    Universität Potsdam, Universitätsbibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe

     

    The World Wide Web constitutes the largest existing source of texts written in a great variety of languages. A feasible and sound way of exploiting this data for linguistic research is to compile a static corpus for a given language. There are several advantages of this approach: (i) Working with such corpora obviates the problems encountered when using Internet search engines in quantitative linguistic research (such as non-transparent ranking algorithms). (ii) Creating a corpus from web data is virtually free. (iii) The size of corpora compiled from the WWW may exceed by several orders of magnitudes the size of language resources offered elsewhere. (iv) The data is locally available to the user, and it can be linguistically post-processed and queried with the tools preferred by her/him. This book addresses the main practical tasks in the creation of web corpora up to giga-token size. Among these tasks are the sampling process (i. e., web crawling) and the usual cleanups including boilerplate removal and removal of duplicated content. Linguistic processing and problems with linguistic processing coming from the different kinds of noise in web corpora are also covered. Finally, the authors show how web corpora can be evaluated and compared to other corpora (such as traditionally compiled corpora) 1. Web corpora -- 2. Data collection -- 2.1 Introduction -- 2.2 The structure of the web -- 2.2.1 General properties -- 2.2.2 Accessibility and stability of web pages -- 2.2.3 What's in a (national) top level domain? -- 2.2.4 Problematic segments of the web -- 2.3 Crawling basics -- 2.3.1 Introduction -- 2.3.2 Corpus construction from search engine results -- 2.3.3 Crawlers and crawler performance -- 2.3.4 Configuration details and politeness -- 2.3.5 Seed URL generation -- 2.4 More on crawling strategies -- 2.4.1 Introduction -- 2.4.2 Biases and the pagerank -- 2.4.3 Focused crawling -- 3. Post-processing -- 3.1 Introduction -- 3.2 Basic cleanups -- 3.2.1 HTML stripping -- 3.2.2 Character references and entities -- 3.2.3 Character sets and conversion -- 3.2.4 Further normalization -- 3.3 Boilerplate removal -- 3.3.1 Introduction to boilerplate -- 3.3.2 Feature extraction -- 3.3.3 Choice of the machine learning method -- 3.4 Language identification -- 3.5 Duplicate detection -- 3.5.1 Types of duplication -- 3.5.2 Perfect duplicates and hashing -- 3.5.3 Near duplicates, Jaccard coefficients, and shingling -- 4. Linguistic processing -- 4.1 Introduction -- 4.2 Basics of tokenization, part-of-speech tagging, and lemmatization -- 4.2.1 Tokenization -- 4.2.2 Part-of-speech tagging -- 4.2.3 Lemmatization -- 4.3 Linguistic post-processing of noisy data -- 4.3.1 Introduction -- 4.3.2 Treatment of noisy data -- 4.4 Tokenizing web texts -- 4.4.1 Example: missing whitespace -- 4.4.2 Example: emoticons -- 4.5 POS tagging and lemmatization of web texts -- 4.5.1 Tracing back errors in POS tagging -- 4.6 Orthographic normalization -- 4.7 Software for linguistic post-processing -- 5. Corpus evaluation and comparison -- 5.1 Introduction -- 5.2 Rough quality check -- 5.2.1 Word and sentence lengths -- 5.2.2 Duplication -- 5.3 Measuring corpus similarity -- 5.3.1 Inspecting frequency lists -- 5.3.2 Hypothesis testing with -- 5.3.3 Hypothesis testing with Spearman's rank correlation -- 5.3.4 Using test statistics without hypothesis testing -- 5.4 Comparing keywords -- 5.4.1 Keyword extraction with x2 -- 5.4.2 Keyword extraction using the ratio of relative frequencies -- 5.4.3 Variants and refinements -- 5.5 Extrinsic evaluation -- 5.6 Corpus composition -- 5.6.1 Estimating corpus composition -- 5.6.2 Measuring corpus composition -- 5.6.3 Interpreting corpus composition -- 5.7 Summary -- Bibliography -- Authors' biographies

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Beteiligt: Bildhauer, Felix (VerfasserIn)
    Sprache: Englisch
    Medientyp: Ebook
    Format: Online
    ISBN: 9781608459841
    Weitere Identifier:
    RVK Klassifikation: ES 900
    Schriftenreihe: Synthesis Lectures on Human Language Technologies ; #22
    Schlagworte: Web search engines; Computational linguistics; Corpora (Linguistics)
    Umfang: 1 Online-Ressource (222 Seiten), Illustrationen
    Bemerkung(en):

    Description based upon print version of record

    Also available in print.

    :

    :

    :

    :

    :

    :

  2. Web Corpus Construction
    Erschienen: [2013]; © 2013
    Verlag:  Morgan & Claypool Publishers, [San Rafael]

    The World Wide Web constitutes the largest existing source of texts written in a great variety of languages. A feasible and sound way of exploiting this data for linguistic research is to compile a static corpus for a given language. There are... mehr

    Universität Potsdam, Universitätsbibliothek
    keine Fernleihe

     

    The World Wide Web constitutes the largest existing source of texts written in a great variety of languages. A feasible and sound way of exploiting this data for linguistic research is to compile a static corpus for a given language. There are several advantages of this approach: (i) Working with such corpora obviates the problems encountered when using Internet search engines in quantitative linguistic research (such as non-transparent ranking algorithms). (ii) Creating a corpus from web data is virtually free. (iii) The size of corpora compiled from the WWW may exceed by several orders of magnitudes the size of language resources offered elsewhere. (iv) The data is locally available to the user, and it can be linguistically post-processed and queried with the tools preferred by her/him. This book addresses the main practical tasks in the creation of web corpora up to giga-token size. Among these tasks are the sampling process (i. e., web crawling) and the usual cleanups including boilerplate removal and removal of duplicated content. Linguistic processing and problems with linguistic processing coming from the different kinds of noise in web corpora are also covered. Finally, the authors show how web corpora can be evaluated and compared to other corpora (such as traditionally compiled corpora) 1. Web corpora -- 2. Data collection -- 2.1 Introduction -- 2.2 The structure of the web -- 2.2.1 General properties -- 2.2.2 Accessibility and stability of web pages -- 2.2.3 What's in a (national) top level domain? -- 2.2.4 Problematic segments of the web -- 2.3 Crawling basics -- 2.3.1 Introduction -- 2.3.2 Corpus construction from search engine results -- 2.3.3 Crawlers and crawler performance -- 2.3.4 Configuration details and politeness -- 2.3.5 Seed URL generation -- 2.4 More on crawling strategies -- 2.4.1 Introduction -- 2.4.2 Biases and the pagerank -- 2.4.3 Focused crawling -- 3. Post-processing -- 3.1 Introduction -- 3.2 Basic cleanups -- 3.2.1 HTML stripping -- 3.2.2 Character references and entities -- 3.2.3 Character sets and conversion -- 3.2.4 Further normalization -- 3.3 Boilerplate removal -- 3.3.1 Introduction to boilerplate -- 3.3.2 Feature extraction -- 3.3.3 Choice of the machine learning method -- 3.4 Language identification -- 3.5 Duplicate detection -- 3.5.1 Types of duplication -- 3.5.2 Perfect duplicates and hashing -- 3.5.3 Near duplicates, Jaccard coefficients, and shingling -- 4. Linguistic processing -- 4.1 Introduction -- 4.2 Basics of tokenization, part-of-speech tagging, and lemmatization -- 4.2.1 Tokenization -- 4.2.2 Part-of-speech tagging -- 4.2.3 Lemmatization -- 4.3 Linguistic post-processing of noisy data -- 4.3.1 Introduction -- 4.3.2 Treatment of noisy data -- 4.4 Tokenizing web texts -- 4.4.1 Example: missing whitespace -- 4.4.2 Example: emoticons -- 4.5 POS tagging and lemmatization of web texts -- 4.5.1 Tracing back errors in POS tagging -- 4.6 Orthographic normalization -- 4.7 Software for linguistic post-processing -- 5. Corpus evaluation and comparison -- 5.1 Introduction -- 5.2 Rough quality check -- 5.2.1 Word and sentence lengths -- 5.2.2 Duplication -- 5.3 Measuring corpus similarity -- 5.3.1 Inspecting frequency lists -- 5.3.2 Hypothesis testing with -- 5.3.3 Hypothesis testing with Spearman's rank correlation -- 5.3.4 Using test statistics without hypothesis testing -- 5.4 Comparing keywords -- 5.4.1 Keyword extraction with x2 -- 5.4.2 Keyword extraction using the ratio of relative frequencies -- 5.4.3 Variants and refinements -- 5.5 Extrinsic evaluation -- 5.6 Corpus composition -- 5.6.1 Estimating corpus composition -- 5.6.2 Measuring corpus composition -- 5.6.3 Interpreting corpus composition -- 5.7 Summary -- Bibliography -- Authors' biographies

     

    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Verbundkataloge
    Beteiligt: Bildhauer, Felix (VerfasserIn)
    Sprache: Englisch
    Medientyp: Ebook
    Format: Online
    ISBN: 9781608459841
    Weitere Identifier:
    RVK Klassifikation: ES 900
    Schriftenreihe: Synthesis Lectures on Human Language Technologies ; #22
    Schlagworte: Web search engines; Computational linguistics; Corpora (Linguistics)
    Umfang: 1 Online-Ressource (222 Seiten), Illustrationen
    Bemerkung(en):

    Description based upon print version of record

    Also available in print.

    :

    :

    :

    :

    :

    :

  3. Handbuch Internet-Suchmaschinen
    Autor*in:
    Erschienen: 2009-2013
    Verlag:  AKA, Berlin

    Bundesinstitut für Risikobewertung, Bibliothek
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, Haus Potsdamer Straße
    keine Fernleihe
    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Staats- und Universitätsbibliothek Bremen
    keine Fernleihe
    Fachhochschule Erfurt, Hochschulbibliothek
    keine Fernleihe
    Universitätsbibliothek Erfurt / Forschungsbibliothek Gotha, Universitätsbibliothek Erfurt
    keine Fernleihe
    Universitätsbibliothek Greifswald
    keine Fernleihe
    Max-Planck-Institut zur Erforschung multireligiöser und multiethnischer Gesellschaften, Bibliothek
    keine Fernleihe
    Universitäts- und Landesbibliothek Sachsen-Anhalt / Zentrale
    keine Fernleihe
    Helmut-Schmidt-Universität, Universität der Bundeswehr Hamburg, Universitätsbibliothek
    keine Fernleihe
    Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky
    keine Fernleihe
    Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky
    keine Fernleihe
    Hochschule für Angewandte Wissenschaften Hamburg, Hochschulinformations- und Bibliotheksservice (HIBS), Fachbibliothek Technik, Wirtschaft, Informatik
    keine Fernleihe
    Technische Universität Hamburg, Universitätsbibliothek
    keine Fernleihe
    Bibliothek der Hochschule Hannover
    keine Fernleihe
    Bibliothek im Kurt-Schwitters-Forum
    keine Fernleihe
    Gottfried Wilhelm Leibniz Bibliothek - Niedersächsische Landesbibliothek
    keine Fernleihe
    Medizinische Hochschule Hannover, Bibliothek
    MD 9063
    Technische Informationsbibliothek (TIB) / Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek
    keine Fernleihe
    Technische Informationsbibliothek (TIB) / Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek
    keine Fernleihe
    Universitätsbibliothek Hildesheim
    keine Fernleihe
    Universitätsbibliothek Ilmenau
    keine Fernleihe
    Thüringer Universitäts- und Landesbibliothek
    keine Fernleihe
    Max Rubner-Institut, Bundesforschungsinstitut für Ernährung und Lebensmittel, Standort Karlsruhe, Bibliothek, Information und Dokumentation
    Einzelsignatur
    keine Fernleihe
    Universitätsbibliothek Kiel, Zentralbibliothek
    keine Fernleihe
    Universitätsbibliothek Kiel, Zentralbibliothek
    H I 1471
    keine Fernleihe
    Hochschule Anhalt , Hochschulbibliothek
    Leuphana Universität Lüneburg, Medien- und Informationszentrum, Universitätsbibliothek
    keine Fernleihe
    Hochschule Magdeburg-Stendal, Hochschulbibliothek
    keine Fernleihe
    Max-Planck-Institut für Dynamik Komplexer Technischer Systeme, Bibliothek
    keine Fernleihe
    Otto-von-Guericke-Universität, Universitätsbibliothek
    keine Fernleihe
    Bibliotheks-und Informationssystem der Carl von Ossietzky Universität Oldenburg (BIS)
    keine Fernleihe
    Landesbibliothek Oldenburg
    keine Fernleihe
    Hochschule Osnabrück, Bibliothek Campus Westerberg
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universität Potsdam, Universitätsbibliothek
    keine Fernleihe
    Universitätsbibliothek Rostock
    keine Fernleihe
    Hochschule Schmalkalden, Cellarius Bibliothek
    keine Fernleihe
    Landesbibliothek Mecklenburg-Vorpommern Günther Uecker im Landesamt für Kultur und Denkmalpflege
    keine Fernleihe
    Klassik Stiftung Weimar / Herzogin Anna Amalia Bibliothek
    keine Fernleihe
    UB Weimar
    keine Fernleihe
    Jade Hochschule Wilhelmshaven/Oldenburg/Elsfleth, Campus Wilhelmshaven, Bibliothek
    GETA 352
    Hochschule Wismar, University of Applied Sciences: Technology, Business and Design, Hochschulbibliothek
    keine Fernleihe
    Herzog August Bibliothek Wolfenbüttel
    keine Fernleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Quelle: Herzog August Bibliothek Wolfenbüttel; Herzogin Anna Amalia Bibliothek
    Beteiligt: Lewandowski, Dirk (HerausgeberIn)
    Sprache: Deutsch
    Medientyp: Buch (Monographie)
    Format: Druck
    RVK Klassifikation: AN 95000 ; ST 205
    Schlagworte: Internet searching; Web search engines
    Weitere Schlagworte: Internet; Science; Handbooks
    Umfang:
  4. Digital methods
    Erschienen: [2013]; © 2013
    Verlag:  The MIT Press, Cambridge, Massachusetts

    Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, Haus Potsdamer Straße
    1 A 881071
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Staats- und Universitätsbibliothek Bremen
    a inf 032 e/287
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Erfurt / Forschungsbibliothek Gotha, Universitätsbibliothek Erfurt
    AP 15950 R728
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitäts- und Landesbibliothek Sachsen-Anhalt / Zentrale
    17 SA 974
    keine Fernleihe
    Hochschule für Angewandte Wissenschaften Hamburg, Hochschulinformations- und Bibliotheksservice (HIBS), Fachbibliothek Technik, Wirtschaft, Informatik
    BID 172 060
    keine Fernleihe
    Bibliothek im Kurt-Schwitters-Forum
    Meb 6.5-262
    keine Fernleihe
    Gottfried Wilhelm Leibniz Bibliothek - Niedersächsische Landesbibliothek
    2017/4683
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Universitätsbibliothek Ilmenau
    MDW AP 18420 R728
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Thüringer Universitäts- und Landesbibliothek
    KMW:TI::Roge::2013
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Leuphana Universität Lüneburg, Medien- und Informationszentrum, Universitätsbibliothek
    13-13759
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Otto-von-Guericke-Universität, Universitätsbibliothek
    2017.05469:1
    keine Fernleihe
    Bibliotheks-und Informationssystem der Carl von Ossietzky Universität Oldenburg (BIS)
    soz 550.3 DD 1801
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Herzog August Bibliothek Wolfenbüttel
    66.1650
    uneingeschränkte Fernleihe, Kopie und Ausleihe
    Export in Literaturverwaltung   RIS-Format
      BibTeX-Format
    Hinweise zum Inhalt
    Quelle: Herzog August Bibliothek Wolfenbüttel
    Sprache: Englisch
    Medientyp: Buch (Monographie)
    Format: Druck
    ISBN: 0262018837; 9780262018838
    RVK Klassifikation: AN 95000 ; AP 15942 ; AP 15640 ; AP 15950 ; ST 205 ; AP 18420
    Schlagworte: Internet research; Internet searching; Web search engines; World Wide Web; Social media; Webometrics; Internet
    Umfang: 274 Seiten, Illustrationen, Diagramme, Karten, 24 cm
    Bemerkung(en):

    Literaturverzeichnis: Seiten 233-259

    :