Das deutsch-dänische XPEROHS-Korpus wurde als Datengrundlage für ein dreijähriges Projekt in der Hassrede-Forschung an der Süddänischen Universität erstellt. Es handelt sich um ein Monitorkorpus mit Material aus den sozialen Medien Twitter und Facebook, wobei das Interesse sich einerseits auf die Diskriminierung von ethnischen und religiösen Minoritäten richtet, andererseits auf den Vergleich der deutschen und dänischen Daten. Insgesamt enthält das Korpus über 3 Milliarden Wörter, wobei das Verhältnis zwischen Dänisch und Deutsch in etwa das Größenverhältnis der entsprechenden Sprachgemeinschaften widerspiegelt. Das gesamte Korpus wurde mehrfach mit speziell für das Genre angepassten und laufend verbesserten Parsern annotiert (GerGram und DanGram). Dabei wurden fast alle linguistischen Ebenen berücksichtigt, neben Morphologie (Flexion, Lemmatisierung, Zusammensetzungen, orthographische Variation und Fehlererkennung usw.) auch syntaktische Funktionen und Dependenzstrukturen sowie semantische Klassifizierung von Inhaltswörtern und Prädikationen (Ontologien, Framenet). Auch nicht lexikalische Information wie Emoticons/Emojis und Hashtags wurden berücksichtigt. Die morphologische Fehlerrate lag bei ca. 3%, die syntaktische bei 8%. Suchanfragen im Korpus sind über eine graphische Benutzeroberfläche (CorpusEye) möglich, die sowohl Tag-basierte als auch strukturelle Abfragen erlaubt und insbesondere das Wechselspiel zwischen qualitativer und quantitativer Auswertung unterstützt.
|