Zufallskarte

Sammler
Image Detail
Valid XHTML 1.0 Strict CSS ist valide!

Wortlänge: Nicht auf die Häufigkeit kommt es an sondern auf den Informationsgehalt

Wortlänge: Nicht auf die Häufigkeit kommt es an sondern auf den Informationsgehalt (Wordle) Hätten Sie’s gedacht, dass lange Wörter mehr Informationen transportieren als kurze Wörter?
Ja?! Dann haben Sie das eigentlich recht logische und naheliegende erkannt. Allerdings gingen die Sprachforscher bisher von einem anderen Ansatz aus. Demnach würde die Wortlänge letztlich die Häufigkeit des Vorkommens des Wortes widerspiegeln. Kurze Wörter wären deshalb kurz, da sie sehr häufig benutzt werden.

Forscher aus den USA sind nun diesen Fragen nachgegangen und analysierten mit Hilfe von Computern 10 verschiedene europäische Sprachen. Die Auswertungen der Wissenschaftler vom Massachusetts Institute of Technology können nun belegen, dass  der Informationsgehalt eines Wortes stärker mit dessen Länge als mit dessen Häufigkeit korreliert. Das berichten Steven Piantadosi und sein Team im Fachmagazin Nature.

Menschen sind faul, deswegen wollen sie beim Schreiben den Aufwand so gering wie möglich halten.

Die Theorie, dass die Wortlänge mit der Häufigkeit des Wortes in Verbindung steht, basiert auf George Kingsley Zipf. Der Linguist war überzeugt davon, dass wir den Aufwand beim Sprechen und Schreiben so gering wie möglich halten möchten. Deswegen wären häufig gebrauchte Wörter kürzer. Zipf spricht in diesem Zusammenhang vom Prinzip der geringsten Anstrengung.

Piantadosi jedoch sieht nach der Auswertung von 10 Sprachen einen anderen Zusammenhang. Seiner Einschätzung nach sind die kurzen Worte aus einem anderen Grund entstanden. Sie vermitteln weniger Informationen. Denn um eine bestimmte Informationsmenge zu übermitteln, sei es besser, die Begriffe, die am wenigsten aussagen, kurz zu halten. Es wäre falsch, dies bei den häufigsten Begriffen zu tun.

Eine Formel bestimmte den Informationsgehalt eines Wortes

Natürlich ist es relativ schwer, per Algorithmus und Formel den Informationsgehalt eines Wortes zu bestimmen. Dieser ist immer auch vom Kontext im Satz abhängig. Dennoch arbeiteten die Forscher mit der Vermutung, dass ein Wort umso weniger Informationen mit sich trägt, desto vorhersehbarer es ist.
Ein gutes Beispiel gibt das Wort „stumm“ in den nachfolgenden beiden Sätzen ab.

  1. Ein Männlein steht im Walde, ganz still und stumm.
    Hier drängt es sich förmlich auf. Jedoch wird dabei keine Information transportiert, die der Rest des Satzes nicht schon enthalten hätte.
  2. Das Wort, das Du jetzt hören wirst, ist ´stumm´.
    In diesem Satz ist das Wort stumm einfach unverzichtbar. Fehlt es, so ist die Schlüsselinformation des Satzes einfach nicht vorhanden.

Die Forscher entwickelten eine Formel, die die Wahrscheinlichkeit bestimmte, mit der ein Wort mit anderen Wörtern verknüpft ist. Daraus wurde der durchschnittliche Informationsgehalt bestimmt.

Mit dieser Formel untersuchten sie daraufhin Texte aus Deutschland, Frankreich, Großbritannien, den Niederlanden, Tschechien, Italien, Rumänien, Spanien, Schweden und Portugal.

Untersuchung bestätigt bessere Korrelation des Informationsgehaltes mit der Wortlänge als die Worthäufigkeit

Und siehe da! Auf Basis des berechneten Informationsgehaltes ließ sich die Wortlänge deutlich besser prognostizieren als durch die Worthäufigkeit. Doch auch Piantadosi gibt zu, dass es sich um ein stark vereinfachtes Modell handelt. Er lässt sich dennoch zu der Mutmaßung hinreißen, dass das Verhältnis zwischen Informationsgehalt und Wortlänge nicht nur die Effizienz bei der Inhaltsvermittlung erhöht, sondern letztlich auch das Verständnis beim Leser und/oder Zuhörer verbessert.

Auch dies macht wiederum Sinn. Wenn nämlich der Informationsgehalt an die Wortlänge gekoppelt ist, so ergibt sich automatisch eine relativ gleichmäßige Informationsdichte. Das heißt, dass ein Sprecher innerhalb eines bestimmten Zeitintervalls in etwa gleich viele Informationen übermittelt. Wäre dem nicht so, so würde sich der Informationsfluss immer wieder verdichten. Bei dieser schnellen Übertragung vieler Daten wäre es schwer, den Anschluss wieder zu finden, wenn der Zuhörer den Sprecher einen Moment nicht richtig zuhört oder ihn nicht richtig versteht. Die Sprache würde an dieser Stelle sehr viel Effizienz einbüßen.

 


Quellen:

 

Aktualisiert ( Samstag, 11. Februar 2012 um 14:56 Uhr )
 

© H[AGE]: Langenwetzendorf (2008 - 2011)