lexikographische Daten in Wikidata: Wörter, Wörter, Wörter
Die Erweiterung von Wikidata um Sprachdaten ist eine spannende neue Anwendung. Während strukturierte Daten über die Summe allen menschlichen Wissens Maschinen und künstlicher Intelligenz helfen können, die Welt zu verstehen, können sprachliche Daten in Wikidata ihnen helfen zu verstehen, wie Menschen ihr Wissen mit Wörtern ausdrücken. Mit all den Sprachkombinationen, die wir in Wikimedia-Projekten haben, eröffnen sich ganz neue Möglichkeiten: Übersetzungen aus dem Estnischen ins Maltesische oder von Tamil nach Zulu – obwohl ein gedrucktes Wörterbuch für diese Kombinationen wahrscheinlich nicht existiert, kann es mit strukturierten Daten über Sprachen generiert werden.
Datenobjekte in Wikidata beschreiben bislang einen Gegenstand, eine Person oder ein Konzept in dieser Welt. Was Wikidata bis 2018 nicht hatte, war die sprachliche Seite der Dinge: die Wörter, um diese Objekte so zu beschreiben, wie sie in einer Sprache erscheinen, ihre grammatikalischen Formen und Bedeutungen. Seit 2017 haben wir Funktionen in Wikidata und der Software Wikibase entwickelt, die es ermöglichen, sprachliche Daten zu beschreiben. Wir nennen diese lexikographische Daten. Als offizieller Teil Wikidatas wurden sie im Mai 2018 eingeführt. Zeit, einen genaueren Blick darauf zu werfen.
Lexikographische Daten bedeuten genau das: Daten, die in einem Lexikon vorkommen können. Womit wir es hier zu tun haben, ist die linguistische Seite der Wörter. Da das Wort "Wort" bereits sehr überladen ist, verwenden wir den sprachwissenschaftlichen Begriff Lexem — ein Lexem ist ein Eintrag in einem Wörterbuch.
Das erste Lexem innerhalb Wikidata ist das sumerische Wort für "Mutter". Da das Sumerische eine der ältesten Sprachen ist, die wir kennen, und das Wort für Mutter eines der grundlegendsten Wörter in jeder Sprache ist, ist es gut möglich, dass es sich dabei um eine der frühesten sprachlichen Äußerungen der Menschheitsgeschichte handelt.
Jedes Lexem hat Bedeutungen, die anzeigen, was ein Wort in verschiedenen Sprachen bedeutet. Es gibt auch Formen, die beschreiben, wie sich das Lexem grammatikalisch ändern kann – etwa die 15 Fälle, in denen ein Substantiv in der finnischen Sprache verwendet werden kann.
Natürlich können lexikographische Daten genauso abgefragt werden, wie andere Daten auch. Über Abfragen können beispielsweise tolle neue Anwendungen erstellt werden. Einer der häufigsten Gründe für Kopfschmerzen bei Deutschlernenden sind die Artikel von Substantiven: der, die, das. Dabei scheint es nur wenig Logik zu geben, was meist bedeutet, dass Artikel auswendig gelernt werden müssen. Zum Glück gibt es ein Spiel, das lexikographische Daten in Wikidata verwendet, um das Auswendiglernen einfacher zu machen: DerDieDas. Wer schafft 10 zufällig ausgewählte deutsche Substantive mit dem richtigen Artikel? Für diejenigen, die bereits Deutsch sprechen, gibt es auch eine französische und eine dänische Version.
Wikidata verfügt derzeit (Stand März 2019) über 43.440 Lexeme in 315 verschiedenen Sprachen, Dialekten oder Schriften. Das ist zwar bereits ein guter Anfang, aber es ist eindeutig nur der erste Schritt. Die Erforschung lexikographischer Daten auf Wikidata kann also beginnen – zusammen können wir einen neuen Fundus für Freies Wissen an Sprachdaten aufbauen!
- Blog: Lexikographische Daten in Wikidata
- Artikelspiel: deutsch, französisch, dänisch
Wikipedia Aktionstag