Zufallskarte

Macraucheni...
Image Detail
Valid XHTML 1.0 Strict CSS ist valide!

Zukunftsmusik : Semantik in der Wikipedia = Semantic Media Wiki

Zukunftsmusik : Semantik in der Wikipedia = Semantic Media Wiki (Wordle) (Teil 2)
Vielversprechender ist der Ansatz des Projekts Semantic MediaWiki. Dieses versucht gleich, die Fakten zu liefern ohne den Umweg, sie umständlich aus Texten heraussuchen zu müssen. Dazu muss die Wikipedia-Software um die Fähigkeit erweitert werden, Zusammenhänge darzustellen.

Wer denkt, dies ist ein taufrisches Projekt, der irrt. Bereits seit 2005 gibt es die Wikipedia-Enthusiasten, die die Online-Enzyklopädie von einer Textsammlung in eine Wissenssammlung transferieren möchten.
Die Idee verspricht „traumhafte Zustände“ innerhalb der Wikipedia, denn in einer semantischen Wikipedia gäbe es keine Inkonsistenzen mehr. Semantik erlaubt es nämlich, logische und faktische Verknüpfungen in einer Datenbank abzubilden. Aufs Wesentliche heruntergebrochen lässt sich die Idee dahinter wie folgt beschreiben. In der Wikipedia existiert der Satz „Berlin ist die Hauptstadt Deutschlands“ in den 250 Sprachversionen. Bei der semantischen Wikipedia wird die Beziehung zwischen Deutschland und Berlin ein einziges Mal an einer zentralen Stelle festgelegt. Dieser Fakt wäre dann für alle Artikel über Berlin (in allen Sprachen) abrufbar und er könnte außerdem automatisch die Länderartikel über Deutschland ergänzen. Ferner ließe sich automatisch eine Liste aller Hauptstädte erstellen, die – wenn man es gleich richtig macht – sich auch nach der Größe der Hauptstädte oder nach den Kontinenten sortieren ließe. Nicht dass es solche Listen heute in der Wikipedia nicht gäbe. Sie werden bisher allerdings per Hand erstellt.
Mehr als 200 Wikis setzen bisher die Software ein und damit den neuen Ansatz um. Doch ausgerechnet die Mutter aller Online-Wissensspeicher tut sich schwer damit. Der Grund ist simpel und alles andere als trivial. Um eine saubere Datenmigration zu gewährleisten, wären bei den riesigen Datenmengen der Wikipedia aufwendige Tests notwendig.

Man kann es sich eigentlich gar nicht vorstellen, aber noch vor 5 Jahren wäre so etwas in einer Hauruck-Aktion möglich gewesen. Im Januar 2005 trafen sich in Berlin rund zwei Dutzend Wikipedia-Liebhaber, um für 15.000 Artikeln über Personen (sogenannte Namensartikel) die Grunddaten wie Name, Vorname und Geburtsdatum festzuhalten. So konnten die Wikipedia-Artikel mit der Personendatei der Deutschen Nationalbibliothek aus Leipzig verknüpft werden. Nun ist es möglich, automatisierte Literaturlisten abzurufen.

Diese Einfachheit ist dem Projekt in der Zwischenzeit abhanden gekommen. Die deutschsprachige Wikipedia ist um das fünffache angewachsen. Auch die anderen Sprachversionen verzeichneten ein starkes Wachstum. Sollte je der Schritt gewagt werden, müssen sich die Autoren der Wikipedia zunächst auf grundlegende Prinzipien festlegen, z. B. welche Fakten und Beziehungen überhaupt für die Maschinen lesbar gemacht werden sollen. Auch das ist wiederum kein einfaches Unterfangen. Allein für die Fläche von Frankreich finden sich drei unterschiedliche Werte – je nachdem, welche Gebiete mitgezählt werden. Was für den Menschen in Worten relativ einfach ausdrückbar ist, wird bei der logischen Verknüpfung von Fakten tricky. Defacto muss jede mögliche Beziehung zwischen zwei Begriffen vorhergesehen werden, sonst scheitert das System.
Von der Automatisierung profitieren werden wahrscheinlich vor allem die kleinen Wikipedia-Ausgaben. Letztlich kann das Semantic MediaWiki keine eigenen Texte schreiben, aber mit den Fakten aus den großen Wikipedia-Ausgaben gäbe es ein solides Grundgerüst, auf das sich aufbauen lässt.

Never change a running system!

Doch es gibt noch einen weiteren Grund, warum die Umsetzung der maschinenlesbaren Wikipedia nicht so flott fortschreitet. Viele Wikipedianer wollen den aktuellen Status quo behalten. Was sie beschäftigt, ist die Frage: Wenn es ganz einfach ist, zentrale Fakten zu verändern – wie kann dann verhindert werden, dass damit Schindluder getrieben wird und mehr Unsinn in Online-Enzyklopädie gelangt?
Letztlich ist die Langsamkeit des Editionsprozesses auch eine Art von Qualitätssicherung. Um dauerhaft Informationen einzubringen, muss man sich sehr gut im System auskennen. Schnell werden von dem Heer der Freiwilligen offensichtliche Falschinformationen aussortiert und gelöscht. In der IT gibt es das geflügelte Wort: Never change a running system!
Zum Glück oder vielleicht auch zu ihrem Unglück gibt es bei der Wikipedia keinen Chef, der den Wandel von oben mit entsprechendem Druck durchsetzen könnte.

Fußnote: DBpedia

Worauf der Zeit-Artikel nicht eingeht ist das DBpedia Projekt. Es handelt sich dabei um ein Gemeinschaftsprojekt der Universität Leipzig, der Freien Universität Berlin und der OpenLink Software. Hier werden bereits Inhalte aus der Wikipedia in der für das Semantik-Web so wichtigen maschinenlesbaren Form aufbereitet. Sie können dann von anderen Web-Anwendungen genutzt werden, um ihre Angebote mit weiteren Informationen anzureichern. Die DBpedia bildet eine der Säulen der Linked Open Data-Cloud.

 

Zurück zu Teil 1: Zukunftsmusik : Semantik in der Wikipedia = maschinenlesbares Wissen für die Welt

 


Quellen:

Aktualisiert ( Dienstag, 14. Februar 2012 um 08:12 Uhr )
 

© H[AGE]: Langenwetzendorf (2008 - 2011)