1) Einleitung
Grundsätzlich ist es ein Problem, sich an die Prüfung der Qualität von Vorhersagen heranzuwagen. Man sagt eine Wahrscheinlichkeit voraus, mit der ein gewisses Ereignis eintritt. Anschließend tritt es ein oder nicht. Man hat keinen wirklichen Gradmesser, da ja gerade der Begriff der Wahrscheinlichkeit beide Fälle einräumt, zulässt, das Eintreten und das Nicht-Eintreten, ob diese Prognose „gut“ oder „schlecht“ war. Wenn wir also für ein Ereignis 70% vorhersagen und es tritt ein, dann war es dadurch nicht automatisch eine gute Prognose. Wenn man darauf wettet, mit Geldeinsatz, und dann gewinnt, dann ist es sehr schön. Und eventuell kam die Wette auch dadurch zustande, dass wir eine von anderen Menschen abweichende Wahrscheinlichkeit vorhergesagt haben. Aber dennoch ist es nicht wirklich ein Maß dafür.
Die 70%, die wir vorhergesagt haben, dürfen ja nur höchstens (sowie auch zugleich mindestens) zu 70% eintreten. Wenn wir ein Ereignis wiederholt auf 70% einstufen und es kommt wieder und wieder, dann wäre die Aussage eher: „Das hast du nicht gut vorhergesagt. Das kommt doch viel öfter als zu 70%.“ Insofern muss jedes Ereignis, was wir prognostizieren mit einem Wert kleiner als 1 (=100%) – und das betrifft eigentlich jedes in der Zukunft liegende — mal eintreten, aber mal auch nicht eintreten. Genau dies muss im richtigen, also dem prognostizierten, Verhältnis auftreten. Bei 70% müsste es also in 100 Versuchen 70 Mal eintreten und 30 Mal nicht.
Das Problem bleibt aber hauptsächlich dieses hier: In der realen Welt wird ein bestimmtes Zufallsexperiment – und ich nehme hier nur schlicht das Ereignis „ein Fußballspiel findet statt“ – nur ein einziges Mal unter den gegebenen Bedingungen durchgeführt. Selbst wenn wir Borussia Dortmund und Bayern München überreden könnten, am nächsten Tag nach ihrem Spiel noch einmal gegeneinander zu spielen, wären die Bedingungen garantiert nicht gleich. Ein Spieler hat sich verletzt. Das Ergebnis war eine Überraschung, Dortmund hat gewonnen, Bayern verdoppelt seine Anstrengungen. Die Voraussetzungen sind ganz andere. Und selbst wenn sie für zwei Mal die gleichen wären: Daraus kann man kein wirkliches Zufallsexperiment machen, bei dem man langfristig seine Ergebnisse prüft. Da müsste es 100 oder 1000 Mal durchführbar sein.
Also hat man immer nur eine Prognose und anschließend ein Ergebnis. War die Prognose gut? Wenn du wettest, zähl dein Geld. Aber das reicht nicht. Mit der hier vorgestellten Methode kann man nicht die einzelne Prognose überprüfen, sondern eigentlich untersucht man die Qualität des Propheten. Jeder einzelne Wert könnte falsch sein, schlecht eingeschätzt, total daneben. Aber langfristig kann man dennoch sehen, ob dieser Prophet mit seinen Vorhersagen Ergebnisse erzielt, die im Rahmen seiner eigenen Prognosen gut sind. Die Zahlen prüfen sich selbst, so kurios sich das anhört.
Natürlich kann man das im Anschluss auch ausweiten und zwei Propheten oder auch nur zwei Prognosen gegeneinander halten. Wenn einer 70% für so ein einmaliges Ereignis vorhersagt, der andere aber 60% und es tritt ein, dann war für diesen einen Fall der Mann mit den 70% „besser“. (Dieses Prinzip wird im folgenden Kapitel „Das perfekte Tippspiel“ genauer untersucht.)
Das Thema lautet hier also: wie kann man langfristig — außer mit der Geldzählmethode, im Falle, dass man am Wettmarkt damit antritt –überprüfen, ob gemachte Vorhersagen gut waren? Dabei bleibt eine Vorhersage immer nur die Einschätzung der verschiedenen Ausgänge eines einmaligen, nicht wiederholbaren Zufallsexperiments, ausgedrückt in Wahrscheinlichkeiten. Also es stimmt, es gibt eine Methode. Hier soll der Leser sehr behutsam an dieses Problem mitsamt Lösung herangeführt werden.
2) Die Methode der Treffererwartung
Wenn man das Geld zählen als Methode nicht ausrechend gut findet – natürlich ist das heutzutage und in unserer Gesellschaft das entscheidende Kriterium, aber es gibt auch einen wissenschaftlichen Anteil, wie nahe man an eine „Wahrheit“ herankommen kann –, dann gibt es eine zweite Methode, die noch recht einfach und anschaulich ist. Auch in der eigens angelegten Datenbank wurde diese Statistik für alle abgeschlossenen Wetten mitgeführt. Diese Statistik betrifft die Treffererwartung im Verhältnis zu den eingetretenen Treffern.
Die Methode funktioniert so, dass man durch das eigens entwickelte System (erklärt im gleichnamigen Kapitel) eine Wahrscheinlichkeit errechnet hat für jedes Ereignis, auf das man eine Wette abgeschlossen hat. Und die „erwarteten Treffer“ sind für dieses eine Spiel natürlich exakt die Größe der prognostizierten Wahrscheinlichkeit. Wenn man auf ein Ereignis wettet, für welches eine Wahrscheinlichkeit von 50% vorhergesagt wurde, dann erwartet man 0.5 oder auch einen halben Treffer. Das ist logisch. Wenn man alle Wahrscheinlichkeiten für die Ereignisse, auf die gewettet wurden, aufaddiert, bekommt man eine Gesamttreffererwartung. Das kann man pro Tag, pro Woche, pro Monat oder pro Jahr machen. Natürlich auch fürs ganze Leben. Das ist also die Treffererwartung. Die Summe aller Wahrscheinlichkeiten für die Ereignisse, auf die gewettet wurde in der Höhe der selbst ermittelten Wahrscheinlichkeit.
Dann gibt es für jede dieser abgeschlossenen Wetten ein Ergebnis. Ist das gewettete Ereignis eingetroffen oder nicht? Jedes Ereignis, dass eingetroffen ist, ergibt einen Treffer, jedes nicht eingetroffenen 0 Treffer. Die Summe aller eingetroffenen Tipps kann man also abgleichen mit der Summe der erwarteten Treffer.
Diese Methode funktioniert gut und zuverlässig. Wenn man stets beachtet, dass man die Wetten unter der Voraussetzung „die gewettete Quote ist höher als die faire Quote“ (erklärt in den Kapiteln „Wie entsteht eine Quote“ und „Mein System“), dann kann man davon ausgehen, dass man auch Geld gewinnt, wenn man seine Treffererwartung einigermaßen gut erreicht. Zusätzlich zu den zwei Zahlen gibt es auch noch die Zahl „minimal erforderliche Treffer für pari“, bei der die Kehrwerte der erzielten Quoten aufaddiert werden (auch in „Mein System“ erklärt). Wenn man diese übertroffen hat, dann müsste man gewinnen.
Jedoch spürt man auch hier schon die Einschränkungen, aus wissenschaftlicher Sicht. Denn: Man überprüft ja die Qualität der Vorhersagen nur auf die Spiele, auf die gewettet wurde. Vielleicht ist das nur ein Bruchteil der Spiele? Darüber hinaus noch ergeben sich Wetten nur bei extremen Abweichungen in den Einschätzungen. Das könnte eine Statistik, die auf Objektivität angewiesen wäre, schon ausreichend verfälschen. Dazu kommt, dass sogar nur auf zwei der drei Ausgänge die Prognose überprüft wird. Wenn man beim klassischen Wetten bleibt, dann wird gewettet auf 1, X oder 2. Es werden also drei Ausgänge eingeschätzt, aber nur zwei davon überprüft. Zwei sind es deshalb, weil man immer das eine Ereignis prognostiziert und damit auch die Gegenwahrscheinlichkeit eingeschätzt hat. Wenn man also auf besagte 70% wettet, dann wettet man zugleich gegen die verbleibenden 30%. Nur wie diese sich aufteilen auf die anderen beiden Ausgänge, wird nicht geprüft, obwohl in Wahrheit auch prognostiziert.
3) Bis hierher fühlt sich der Mathematiker noch wohl
Im ersten und einfachsten Beispiel zur Veranschaulichung nehmen wir eine bekannte Wahrscheinlichkeit und prognostizieren ihr Eintreten in der Größe der bekannten Wahrscheinlichkeit. Das ist ja nicht mal „prognostizieren“. Dennoch könnte sich bereits ein Lerneffekt einstellen. Es gibt einen Begriff, den es in dieser Form in der Wahrscheinlichkeitsrechnung noch nicht gibt. Es gibt nämlich eine „durchschnittlich erwartete Wahrscheinlichkeit“. Warum der Mathematiker diesen Begriff und Umstand bisher ignoriert hat (nun, hier die Gefahr der Verletzung wissenschaftlicher Arbeiten; jedoch konnte so etwas noch nicht entdeckt werden in der Mathematik), wird auch recht schnell klar: Bei den klassischen Beispielen handelt es sich meist um wiederholbare Experimente mit festen Eintrittswahrscheinlichkeiten. In der Realität, zumindest bei den Sportwetten, sind sie weder fest noch bekannt noch ist das Experiment jemals wiederholbar. Also auf dieser Form des Glatteises fühlt sich vor allem ein Mathematiker nicht mehr wohl. Er bleibt dann wohl lieber auf dem festen Boden.
Der Lerneffekt, der nun erzielt werden soll, ist der folgende: Es gibt diese so genannte „durchschnittlich erwartete Wahrscheinlichkeit“. Diese wird analog zu der Berechnung eines beliebigen anderen Erwartungswertes berechnet: Man nimmt dazu die Wahrscheinlichkeit und multipliziert diese mit dem Zahlwert des Ausganges. Zur Erinnerung das Beispiel Würfeln. Der Erwartungswert der gewürfelten Augenzahl berechnet sich als: 1/6 * 1 + 1/6 * 2 + 1/6 * 3 + 1/6 * 4 + 1/6 * 5 + 1/6 *6 = 3.5. Jeweils multipliziert wird die Eintrittswahrscheinlichkeit (je 1/6) mit dem Augenwert (1 bis 6). (Die durchschnittlich erwartete Wahrscheinlichkeit ist identisch mit der etwas weiter unten erläuterten „Festlegung“. Die Begriffe werden dennoch separat erklärt).
Analog wird der Erwartungswert für die durchschnittliche erwartete Wahrscheinlichkeit berechnet, im selben Beispiel als: 1/6 * 1/6 + 1/6 * 1/6 + 1/6 * 1/6 + 1/6 * 1/6 + 1/6 * 1/6. Die Eintrittswahrscheinlichkeit ist exakt gleich dem Zahlwert. Es ist quasi ein quadrieren der Wahrscheinlichkeiten. Es ergibt sich die durchschnittlich erwartete Wahrscheinlichkeit. Eine Chance von 1/6 tritt zu 1/6 ein.
Nach ausmultiplizieren und aufaddieren ergibt das Ganze 1/6. Klar. Alle Wahrscheinlichkeiten waren ja auch gleich. Dann ergibt das keinen Sinn. (Siehe auch Kapitel „Erwartungswert und equity“). Die 1 kommt mit der Wahrscheinlichkeit 1/6. Ebenso die 2. Wir nehmen einfach die Eintrittswahrscheinlichkeit mal mit dem Zahlwert, also in dem Falle ist der Zahlwert die Eintrittswahrscheinlichkeit selber, also kommt heraus 1/6 * 1/6 für die 1, genau so für die 2, alle Werte werden aufaddiert, die Summe der einzelnen Wahrscheinlichkeiten war auch 1, wie vorgeschrieben, und wir erhalten die Zahl 1/6. Das ist die „durchschnittlich erwartete Wahrscheinlichkeit“ für dieses Beispiel. Und diese Erwartung wird auch erfüllt. Denn egal, welche Zahl man dann würfelt, ihre Eintrittswahrscheinlichkeit war 1/6 und Ihre Erwartung war vorher auch 1/6. Das ergibt keinen Informationszuwachs. Stimmen tut es trotzdem. Hier sollen aber die Fälle untersucht werden, in denen verschiedene und noch dazu allesamt unbekannte Eintrittswahrscheinlichkeiten (dennoch prognostizierte, eingeschätzte in ihrer Höhe) vorliegen, das geschieht aber weiter unten.
Dennoch kann man das einfache Beispiel noch weiter untersuchen: wenn man es praktisch überprüft, passiert etwas sehr langweiliges: Man würfelt einmal, oder auch einhundert mal. Aber es kommt jedes Mal ein Ereignis, dem wir vorab die Wahrscheinlichkeit 1/6 gegeben haben. Und wir vergleichen das mit der durchschnittlich erwarteten Wahrscheinlichkeit. Und die war, wie oben berechnet, ebenfalls 1/6. Also unser Ergebnis deckt sich mit unserer Erwartung. Inwieweit wurde die Mathematik damit bereichert? Eine banale Aussage wird mit einer trivialen Rechnung und einem schlichten Versuch bestätigt. Was sollte das?
Um den Sinn dafür zu verstehen, muss man ein Beispiel untersuchen, in denen zunächst wenigstens keine Gleichverteilung vorliegt. Also schauen wir auf eine Ungleichverteilung. Dazu tun wir 10 Kugeln in einen Topf. Zwei sind weiß, acht sind rot. Man zieht eine Kugel mit verbundenen Augen. Das ist ein Zufallsexperiment mit zwei Ausgängen. Die beiden Ausgänge haben aber nicht die gleiche Wahrscheinlichkeit. Wir notieren für jeden Versuch: Weiß oder rot. Wir notieren die Wahrscheinlichkeit des eingetroffenen Ereignisses. Und wir berechnen neuerlich die „durchschnittlich erwartete Wahrscheinlichkeit“. Diese beträgt in diesem Beispiel nun 0.80.8 + 0.20.2 = 0.68. Jetzt notieren wir einfach mal, was passiert, wenn wir das Experiment 50 Mal durchführen.
Hier ist das Ergebnis des Experiments, bei der speziell das Ereignis „Wir ziehen eine rote Kugel“ betrachtet wird. Dieses hat die Wahrscheinlichkeit 80%:
(Das Experiment wurde in Excel durchgeführt; die Zufallszahlen sorgen jeweils für das Eintreten oder das Nicht-Eintreten, je nachdem, ob größer oder kleiner als 0.8)
W-keit | prognostiziert | Durchscnitts W-keit | Zufallszahl | eingetroffen | eingetr W-keit |
80.00% | 80.00% | 68.00% | 0.16782 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.64032 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.76293 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.99302 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.61906 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.01026 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.94878 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.20882 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.02607 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.21053 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.84105 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.16203 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.52687 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.59805 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.61315 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.93966 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.62721 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.02193 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.6072 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.5319 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.03673 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.94454 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.56641 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.92556 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.09101 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.04575 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.50652 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.74132 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.75028 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.72261 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.92023 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.83533 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.02895 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.49501 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.71413 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.68326 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.53992 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.73561 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.65278 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.16705 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.82467 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.25125 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.74779 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.25448 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.46819 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.29482 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.68441 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.8469 | 0 | 20.00% |
80.00% | 80.00% | 68.00% | 0.62587 | 1 | 80.00% |
80.00% | 80.00% | 68.00% | 0.91182 | 0 | 20.00% |
40 | 34.00 | 39 | 33.40 | ||
68.00% | 66.80% |
Was sagen uns nun diese Spalten incl. der Summen? Also in Spalte 1 steht die Wahrscheinlichkeit, eine rote Kugel zu ziehen. In Spalte 2 steht unsere prognostizierte Wahrscheinlichkeit. In diesem Falle ist diese auch noch recht langweilig, da wir die Wahrheit (scheinbar!! gerne sei erinnert an andere Kapitel) kennen. In Spalte 3 steht die erwartete durchschnittliche Wahrscheinlichkeit. Das ist der Erwartungswert, der wie andere Erwartungswerte auch, berechnet wurde. Man erwartet im Schnitt eine Wahrscheinlichkeit von 68%. Ja, so ist es. Denn: Manchmal kommt die 80 und manchmal kommt die 20, Die 80 kommt zu 80%, die 20 zu 20%. Also ausmultiplizieren, aufaddieren.
In Spalte 4 ist eine Zufallszahl, die bestimmt, ob das Ereignis eingetreten ist oder nicht. Diese Zufallszahl ist vom Computer für dieses Experiment erzeugt worden. Dabei wurd dessen Neutralität angenommen.
Spalte 5 zeigt nur an, ob das Ereignis „rote Kugel ziehen“ eingetroffen ist (1) oder nicht eingetroffen ist (0).
Die nächste Spalte zeigt die Wahrscheinlichkeit des eingetroffenen Ereignisses. Das ist logisch. Wenn die 80, das wahrscheinlichere Ereignisse, eingetreten ist, notieren wir dort die 80, wenn das unwahrscheinlichere Ereignis kommt, also eine weiße Kugel gezogen wurde, notieren wir in der Spalte die 20(%). Gut. Also immer, wenn die Zufallszahl in Spalte 4 unter 0.8 ist, ist das wahrscheinlichere Ereignis eingetreten, wenn die Zufallszahl größer als 0.8 ist, ist das unwahrscheinlichere Ereignis gekommen.
Jetzt überlege man noch einmal kurz, was man in dieser Spalte langfristig erwarten würde? Ja, man würde erwarten, dass dort zu 20% eine 20 steht und dass dort zu 80% eine 80 steht. Natürlich Kenntnis der Eintrittswahrscheinlichkeit vorausgesetzt (dies betont hier nur, weil es bei den späteren Ereignissen, die prognostiziert werden, also auch im Leben, wie es wirklich ist, fast nie bekannt ist). Also müsste im „Durchschnitt“ dort eine 68 stehen, exakt. 80die 80 und 20 die 20, ergibt im Schnitt eine 68. So haben wir es berechnet und so erwarten wir es auch.
In diesem Experiment ist „zufällig“ die 80 einmal zu selten gekommen, also nur 39 Mal von 50, anstatt der „erwarteten“ 40. Das ist absolut nicht ungewöhnlich.
Ich füge folgendes an: Der Ausgang bei einem Zufallsexperiment, bei der eine Eintrittswahrscheinlichkeit von 80% bekannt ist, dass man nach 50maligem Durchführen exakt die erwarteten 40 Treffer erzielt, ist der wahrscheinlichste aller Ausgänge. Die Wahrscheinlichkeit liegt aber dennoch nur bei 13.98%. Die Rechenvorschrift dafür lautet 0.8 hoch 40 * 0.2 hoch 10 * (50 über 10). Also es ist der wahrscheinlichste Ausgang, dass man exakt die erwarteten 40 Mal eine rote Kugel zieht. Dennoch ist es, umgangssprachlich gesagt, „eher unwahrscheinlich“. Der Ausgang „wir ziehen bei 50 Mal die rote Kugel exakt 39 Mal“ hatte eine Wahrscheinlichkeit von 12.71%. Analog rechnen wir 0.8 hoch 39 * 0.2 hoch 11 * (50 über 11) = 12.71%. (das ist die Rechenvorschrift für der Binomialverteilung).
Die Auswirkung dieser geringen Abweichung von 39 anstatt 40 Mal „Rote Kugel gezogen“ sieht man aber auch in der Spalte der eingetretenen Wahrscheinlichkeit. Das ist die Spalte 6. Wir nehmen ganz am Schluss Summe und Durchschnitt dieser Spalte und sehen, dass die „durchschnittlich eingetroffene Wahrscheinlichkeit“ nur bei 66.80% lag. Wir hatten erwartet, dass sie sich mit der anderen Zahl deckt. Der durchschnittlich erwarteten. Nur ist es in diesem Experiment nicht passiert. Klar, das war auch deshalb so, weil die rote Kugel einmal zu selten gezogen wurde. Wenn sie 40 Mal gezogen worden wäre, wäre auch in dieser Spalte die so schön exakte 68% herausgekommen. Man muss immer bedenken, dass man bei den noch bekannten Wahrscheinlichkeiten mit meiner neu eingeführten Größe noch nichts Entscheidendes verbessert hat. Das war nicht mein Anspruch. Ich spreche aber später über die Ereignisse, bei denen keine bekannte Wahrscheinlichkeit zugrunde liegt. Und da gibt es einen Vorteil, diese Zahl zu betrachten. Geduld also.
Der Mathematiker aber fühlt sich bis hier wirklich noch wohl. Alles stimmt und alles geht exakt auf. So liebt man es doch. Es gibt kleine statistische Abweichungen, diese tolerieren er gerne. Wir können sogar die Wahrscheinlichkeiten für die Abweichungen berechnen. Wir wissen so gut wie alles. Und wenn, wie übrigens bei meinem ersten Versuch, die rote Kugel nur 36 Mal gezogen wird, dann wundern wir uns kurz, berechnen die Standardabweichung und sagen: „Ok, kann passieren.“
Aber jetzt wird es doch schon etwas komplizierter…
4) Ein relativ guter Prophet
Im zweiten Beispiel sind wir ein bisschen gemein gegenüber einem ausgewählten Testkandidaten. Wir zeigen ihm eine durchsichtige Trommel, sagen wir mal 100 Kugeln darin enthalten, das weiß er sogar, und lassen ihn einmal schätzen, wie viele rote und weiße Kugeln er dort drinnen vermutet. Er soll das anschließend „experimentell“ überprüfen.
Wir sortieren aber extra ein paar mehr weiße Kugeln nach vorne, sichtbar für ihn. Er schätzt, da dennoch die roten in der Überzahl sind, auf 70 rote und 30 weiße Kugeln. Wir haben aber nur 20 weiße und 80 rote, wie vorher also 80:20. Er schätzt auf 70:30. Schauen wir uns nun an, was dann bei diesem Experiment passiert. Und ich verwende einfach mal die gleichen Zufallszahlen. Dann kann man den Unterschied auch ganz gut analysieren.
W-keit | prognostiziert | DurchscnittsW-keit | Zufallszahl | eingetroffen | eingetr W-keit |
80.00% | 70.00% | 58.00% | 0.16782 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.64032 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.76293 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.99302 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.61906 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.01026 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.94878 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.20882 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.02607 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.21053 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.84105 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.16203 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.52687 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.59805 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.61315 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.93966 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.62721 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.02193 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.6072 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.5319 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.03673 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.94454 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.56641 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.92556 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.09101 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.04575 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.50652 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.74132 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.75028 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.72261 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.92023 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.83533 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.02895 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.49501 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.71413 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.68326 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.53992 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.73561 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.65278 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.16705 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.82467 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.25125 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.74779 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.25448 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.46819 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.29482 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.68441 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.8469 | 0 | 30.00% |
80.00% | 70.00% | 58.00% | 0.62587 | 1 | 70.00% |
80.00% | 70.00% | 58.00% | 0.91182 | 0 | 30.00% |
35 | 29.00 | 39 | 30.60 | ||
58.00% | 61.20% |
Die Inhalte der Spalten sind ja bereits oben erklärt. Jetzt versuchen wir mal, die Unterschiede zu deuten. Unser Kandidat hat nach wie vor keine Ahnung, wie viele weiße und rote Kugeln es waren und soll nun versuchen, Rückschlüsse zu ziehen aus diesen Daten. Also er hätte 35 Treffer erwartet. Es sind aber 39 geworden. Naja, wenn man es nicht besser weiß, kann man das doch tolerieren, oder? Logisch ist auch, dass er eine Abweichung hat in der Spalte „erwartete Wahrscheinlichkeit“ und „durchschnittlich eingetretene Wahrscheinlichkeit“. Da nun in diesem Versuchsaufbau die Verteilung bei jedem Ziehen (mit Zurücklegen!) identisch ist, drängt sich ihm selbstverständlich hier der Verdacht auf, dass er die Anzahl der roten Kugeln unterschätzt haben könnte. Aber sicher sein kann er sich nicht.
Die durchschnittlich eingetroffene Wahrscheinlichkeit in Spalte 6 liegt jetzt aber höher als die von ihm erwartete. Das war im vorherigen Beispiel umgekehrt.
In diesem immer noch recht einfachen und anschaulichen Beispiel kann man natürlich einfach nur die „relative Häufigkeit“ heranziehen. Also wie oft hat er rot gezogen? Ok, wenn er es nicht besser weiß, ist es ratsam, die Wahrscheinlichkeit auf 39 (Treffer) / 50 (Versuche), also auf 78% zu schätzen. Insofern hilft hier meine Maßzahl der erwarteten und eingetroffen W-keit nicht so viel weiter. Sie liefert halt einfach nur die gleiche Aussage, diese lautet hier, am besten ausgedrückt, so: „Ich habe vermutlich die Anzahl der roten Kugeln unterschätzt.“ Beide Ergebnisse, die Trefferzahl und der Vergleich der durchschnittlichen Wahrscheinlichkeiten können nur diesen Schluss nahe legen. „Zufällig“ stimmt er auch. Aber nur deshalb, weil wir immer noch die wahre Verteilung der Kugeln kennen.
Zur noch besseren Veranschaulichung hier noch das ganze als Diagramm dargestellt:
Die lila Linie stellt die aktuell eingetroffene durchschnittliche Wahrscheinlichkeit dar. Die Zacken kommen am Anfang dadurch zustande, dass jedes Mal, wenn das wahrscheinlichere Ereignis eintritt, also eine rote Kugel gezogen wird, zackt es nach oben, wenn das unwahrscheinlichere Ereignis eintritt zackt es (noch weiter als umgekehrt) nach unten. Nach 50 Versuchen ist die Bewegung noch relativ klar zu erkennen. Wenn man noch mehr Versuche machen würde, würden die Zacken allmählich nicht mehr erkennbar sein. Der Teilnehmer hat hier die Vermutung gehabt, dass die Wahrscheinlichkeit konstant bei 70% lag, also 70% rote Kugeln enthalten waren. Dadurch ist hier die blaue Linie konstant bei 58% (0.70.7+0.30.3). Sicherlich drängt sich hier auch die Vermutung auf, dass die Anzahl der roten Kugeln unterschätzt wurde.
Nur muss man immer bedenken, dass es bei einer Versuchsanzahl von 50 auch bei korrekter Einschätzung (also tatsächlich 70% rote Kugeln) eine solche Kurve geben könnte. Also wenn man jetzt die Einschätzung korrigieren würde aufgrund dieser Beobachtung, dieser oben gezeichneten Kurve, könnte man auch einen Fehler machen.
Auch interessant ist das Diagramm aus Sicht der (hier bekannten) Realität. Da sieht das Diagramm so aus:
Die Deutung fällt bei so einem ästhetischen Diagramm leicht: Die lila Kurve, also die aktuelle durchschnittlich eingetroffene Wahrscheinlichkeit, zackt zwar genau wie die obere, aus den gleichen Gründen, aber sie nähert sich dann wunderschön der blauen, also der erwarteten durchschnittlichen Wahrscheinlichkeit an. Der höhere, hier korrekte Wert, der durchschnittlich erwarteten Wahrscheinlichkeit von 0.80.8 + 0.20.2 = 0.68 liegt also hier höher als im vorigen Diagramm, so dass die Kurven sich wirklich aneinander annähern.
Der Mathematiker hätte herkömmlich den vermutlichen Fehler an der zu hohen Anzahl der Treffer auszumachen geglaubt. Ich führe dennoch einen fürderhin wichtigen Begriff ein. Seine Verwendung und sein Verständnis könnten für den weiteren Lesestoff durchaus bedeutsam sein.
Der Begriff lautet „Die Festlegung“. Dabei lautet die Fragestellung, wie sehr kann ich mich bei einem Zufallsexperiment mit unbekannten Wahrscheinlichkeiten „festlegen“. Dabei ist das Maß für die Festlegung die Abweichung von der bei Gleichverteilung anzunehmenden durchschnittlich erwarteten Wahrscheinlichkeit. Bei angenommener Gleichverteilung wäre die Festlegung minimal, man könnte dann also auch intuitiv von „keiner Festlegung“ sprechen.
Das klingt wesentlich komplizierter, als es ist. Wir müssen in der Wirklichkeit bei einem jeden zu prognostizierenden Ereignis n, also möglicherweise viele Ausgänge, zugrunde legen. Denn die Fragestellung „Wer gewinnt dieses Jahr die Fußball EM“ oder „Wer wird Formel 1 Weltmeister“ hat jeweils n (bei der Fußball EM Endrunde weiß ich es, n=16 bei Beginn der Endrunde; bei der Formel 1 ist n = Anzahl der Teilnehmer, aber sicher größer als 2) Antworten bzw Ausgänge. Aber man kann natürlich jede Prognose auch reduzieren auf die zwei Ausgänge, wie zum Beispiel diese beiden: „Wird Deutschland Europameister“ und die Gegenaussage: „wird Deutschland nicht Europameister.“ Dennoch ist es sinnvoll, die n Ausgänge zuzulassen. Beim Fußball, bei einem Spiel, gibt es ja auch schon drei, also Sieg Mannschaft 1, Unentschieden oder Sieg Mannschaft 2. Und die Gleichverteilung würde immer heißen, dass alle n Ausgänge gleichwahrscheinlich sind.
Wenn jemand es sich ganz einfach machen will als Prophet, dann prognostiziert er für jeden möglich Ausgang einfach die Wahrscheinlichkeit 1/n. So wie beim Würfeln oder beim Roulette eben. Jede Zahl hat die Wahrscheinlichkeit 1/6 (Würfeln) bzw. 1/37 (Roulette). Punkt, aus, fertig mit der Prognose. Ein Fußballspiel wird angepfiffen? Na gut, ich sag mal voraus, 1, X oder 2, Wahrscheinlichkeiten? Klar, jeweils ein Drittel. Dieser Mensch hat sich offensichtlich nicht festgelegt. Er weiß es nicht besser oder es ist die Wahrheit. Aber eine Festlegung ergibt es nicht.
Wenn Sie nun für diesen einfachen Fall die Formel verwenden zur Berechnung der durchschnittlich erwarteten Wahrscheinlichkeit, dann passiert etwas sehr langweiliges. Jedes Ereignis wird mit 1/n belegt. Jedes 1/n wird mit sich selbst multipliziert. Am Schluss wird die Summe gebildet. Und die Summe aller 1/n1/n + 1/n1/n + … +1/n*1/n = 1/n. Es kommt also als erwartete durchschnittliche Wahrscheinlichkeit der Wert 1/n heraus. Und was ereignet sich in der Spalte des eingetretenen Ereignisses? Oh Wunder, ja, da steht auch jedes Mal 1/n, ist doch klar. Die Wahrscheinlichkeit des eingetretenen Ereignisses ist ebenfalls stets 1/n, denn genau das hat er ja der Einfachheit halber prognostiziert.
Also er erreicht exakte Deckungsgleichheit der Zahlen erwartete durchschnittliche Wahrscheinlichkeit und eingetroffene durchschnittliche Wahrscheinlichkeit. Aber ob seine Prognose auch gut und richtig war? Eines ist gewiss: Er hat sich nicht festgelegt. Vergleichen können wir ihn nur mit jemandem, der sich festlegt. Und Sie werden feststellen, dass die Zahl der durchschnittlich erwarteten Wahrscheinlichkeit ansteigt, sowie Sie einen der Ausgänge für wahrscheinlicher erachten als einen anderen. Damit komme ich nun zurück zu dem Ausgangssatz, was und wie man die Festlegung misst.
Je mehr man sich also festlegt auf ein Zufallsexperiment, egal noch, ob bei bekannten oder unbekannten Ausgängen, umso größer wird die Zahl der durchschnittlich erwarteten Wahrscheinlichkeit. Die Zahl 0.90.9 + 0.10.1 ist größer als 0.80.8 + 0.20.2 und diese wiederum größer als 0.70.7 + 0.30.3. Die kleinste Zahl, die bei dieser Form der Berechnung herauskommen kann ist 0.50.5 + 0.50.5, denn das ist nur 0.5. (Die Berechnung erfolgt immer gleich: Zwei Zahlen, die in der Summe 1 ergeben, werden quadriert und anschließend aufaddiert).
Zur Veranschaulichung ein kleines Diagramm:
Die blaue Linie stellt die Wahrscheinlichkeit dar. Die gelbe Linie ist die „Festlegung“, die Summe der Quadrate der Wahrscheinlichkeit und seiner Gegenwahrscheinlichkeit, in der Summe sind die Werte 1. Der kleinste Wert der Festlegung ist bei einer Wahrscheinlichkeit von 0.5 gegeben. Offensichtlich ist die Kurve symmetrisch um diese 0.5, denn es ist egal ob Sie sich festlegen in der Form „Das Ereignis ist eher wahrscheinlich“ oder „das Ereignis ist eher unwahrscheinlich“, denn Sie haben ja zeitgleich die Gegenwahrscheinlichkeit eingeschätzt, und diese ist dann ihrerseits entweder (sehr) groß oder (sehr) klein.
Festlegung bedeutet also nicht, zu sagen, so kommt es, „Ich leg mich fest, Bayern gewinnt heute“ oder so etwas. Festlegung ist messbar. Es misst die Abweichung von der Gleichverteilung eines Zufallsexperiments mit n Ausgängen von der Minimalfestlegung. Die Minimalfestlegung (also gar keine) ist jeweils die Summe der Produkte 1/n*1/n, und diese ergibt stets 1/n. Eine große Festlegung ist es also, wenn Sie sagen „Schumi gewinnt zu 90% die Formel 1“ (ach, der fährt nicht mehr?) oder „Becker gewinnt Wimbledon zu 60%“ (das waren noch Zeiten!), Jan Ullrich die Tour de France zu 40% (Buuuh) oder eben „Deutschland wird Europameister zu 22%“ (das habe ich vor der EM errechnet und bei Gerd Delling, Dellings Woche, live im TV verkündet. Es ist ja, gemessen an der Teilnehmerzahl von 16, wo 1/16, also ca. 6% bei Gleichverteilung gegeben wären, schon ein recht hoher Wert, also eine hohe Festlegung. Es war sogar die höchste Zahl aller Teilnehmer, deshalb war Deutschland laut meinem Computer auch Favorit, obwohl nicht die beste Mannschaft. Das war Losglück.).
Festlegung ist messbar. Aber gehen wir nun über zu einem weiteren Experiment…
3) Noch simulieren wir, aber immerhin bereits das Leben
Wir erweitern unser Experiment nun noch mehr. Die Lostrommel ist jetzt riesengroß aber weiterhin durchsichtig.
Das Experiment wir durchgeführt wie zuvor. Nur nehme ich mir das Recht heraus, vor jedem Ziehen die Anzahl der roten und weißen Kugeln zu verändern.
Ich kann nun eine beliebige Wahrscheinlichkeit darstellen. Wir können ja annehmen, das selbst die Anzahl der Gesamtkugeln offen ist, unbekannt. Aber Sie können ja mal von einer sehr großen Zahl ausgehen. Vielleicht sind es 10000.
Unser Kandidat schaut sich also die Trommel an und versucht zu ermitteln, wie viele rote Kugeln enthalten sind, in Prozent. Er rät oder schätzt eine Zahl. Er hat auch gewisse Voraussetzungen, diese Zahl von der Größenordnung her ein wenig zu kennen. Ich aber kenne die Zahl exakt. Schauen wir nun einmal, was dann passieren wird.
Hier nun eine Abbildung einer möglichen Sequenz:
rote Kugel% | erw ø W-keit | geschätzte W-keit | erw ø W-keit 2 | Zufallszahl | rote Kugel gezogen? | W-keit eingetr. Ereignis | wer war besser? |
30.17% | 57.86% | 41.27% | 51.52% | 0.477761 | 0 | 69.83% | 1 |
4.59% | 91.25% | 5.49% | 89.63% | 0.011082 | 1 | 4.59% | 0 |
17.70% | 70.87% | 14.41% | 75.33% | 0.214537 | 0 | 82.30% | 0 |
76.23% | 63.76% | 79.82% | 67.79% | 0.93713 | 0 | 23.77% | 1 |
81.63% | 70.01% | 74.99% | 62.49% | 0.919927 | 0 | 18.37% | 0 |
19.58% | 68.50% | 14.23% | 75.59% | 0.019243 | 1 | 19.58% | 1 |
0.21% | 99.59% | 0.12% | 99.77% | 0.587597 | 0 | 99.79% | 0 |
94.81% | 90.16% | 92.45% | 86.05% | 0.570994 | 1 | 94.81% | 1 |
34.31% | 54.92% | 40.13% | 51.95% | 0.935662 | 0 | 65.69% | 1 |
83.80% | 72.84% | 90.61% | 82.98% | 0.457553 | 1 | 83.80% | 0 |
96.66% | 93.54% | 95.87% | 92.07% | 0.308498 | 1 | 96.66% | 1 |
94.44% | 89.50% | 94.40% | 89.42% | 0.423555 | 1 | 94.44% | 1 |
3.40% | 93.42% | 1.87% | 96.32% | 0.658978 | 0 | 96.60% | 0 |
42.42% | 51.15% | 47.81% | 50.10% | 0.293678 | 1 | 42.42% | 0 |
82.33% | 70.90% | 87.43% | 78.02% | 0.962592 | 0 | 17.67% | 1 |
36.51% | 53.64% | 53.76% | 50.28% | 0.975069 | 0 | 63.49% | 1 |
55.87% | 50.69% | 58.78% | 51.54% | 0.500188 | 1 | 55.87% | 0 |
64.53% | 54.22% | 81.51% | 69.86% | 0.519543 | 1 | 64.53% | 0 |
55.13% | 50.53% | 67.16% | 55.89% | 0.626346 | 0 | 44.87% | 1 |
20.31% | 67.63% | 14.85% | 74.72% | 0.152937 | 1 | 20.31% | 1 |
42.34% | 51.17% | 59.17% | 51.68% | 0.158254 | 1 | 42.34% | 0 |
10.84% | 80.67% | 11.96% | 78.93% | 0.263914 | 0 | 89.16% | 1 |
51.78% | 50.06% | 33.96% | 55.15% | 0.510875 | 1 | 51.78% | 1 |
95.29% | 91.02% | 93.36% | 87.60% | 0.589425 | 1 | 95.29% | 1 |
89.99% | 81.98% | 92.39% | 85.94% | 0.637989 | 1 | 89.99% | 0 |
16.51% | 72.43% | 11.17% | 80.16% | 0.265752 | 0 | 83.49% | 0 |
19.18% | 68.99% | 14.89% | 74.65% | 0.396088 | 0 | 80.82% | 0 |
97.96% | 96.00% | 98.80% | 97.62% | 0.652048 | 1 | 97.96% | 0 |
16.44% | 72.53% | 12.19% | 78.59% | 0.443942 | 0 | 83.56% | 0 |
89.26% | 80.82% | 85.87% | 75.74% | 0.154025 | 1 | 89.26% | 1 |
29.72% | 58.22% | 15.53% | 73.77% | 0.917431 | 0 | 70.28% | 0 |
6.03% | 88.67% | 3.48% | 93.28% | 0.193549 | 0 | 93.97% | 0 |
65.89% | 55.05% | 79.74% | 67.68% | 0.405707 | 1 | 65.89% | 0 |
15.19% | 74.24% | 15.20% | 74.22% | 0.776901 | 0 | 84.81% | 1 |
48.64% | 50.04% | 61.59% | 52.68% | 0.628579 | 0 | 51.36% | 1 |
71.10% | 58.90% | 80.07% | 68.08% | 0.567407 | 1 | 71.10% | 0 |
32.58% | 56.07% | 29.05% | 58.78% | 0.364129 | 0 | 67.42% | 0 |
91.93% | 85.16% | 89.11% | 80.59% | 0.729529 | 1 | 91.93% | 1 |
20.97% | 66.86% | 21.75% | 65.97% | 0.861317 | 0 | 79.03% | 1 |
53.98% | 50.32% | 52.39% | 50.11% | 0.09035 | 1 | 53.98% | 1 |
78.09% | 65.78% | 70.47% | 58.38% | 0.654777 | 1 | 78.09% | 1 |
39.48% | 52.22% | 28.16% | 59.54% | 0.80401 | 0 | 60.52% | 0 |
39.95% | 52.02% | 55.87% | 50.69% | 0.710945 | 0 | 60.05% | 1 |
54.64% | 50.43% | 44.12% | 50.69% | 0.108068 | 1 | 54.64% | 1 |
87.39% | 77.96% | 81.42% | 69.75% | 0.357465 | 1 | 87.39% | 1 |
12.44% | 78.21% | 6.31% | 88.18% | 0.567245 | 0 | 87.56% | 0 |
28.41% | 59.32% | 25.54% | 61.97% | 0.623671 | 0 | 71.59% | 0 |
65.54% | 54.83% | 68.80% | 57.07% | 0.519646 | 1 | 65.54% | 0 |
15.70% | 73.53% | 19.12% | 69.07% | 0.783723 | 0 | 84.30% | 1 |
72.99% | 60.57% | 70.14% | 58.11% | 0.762399 | 0 | 27.01% | 0 |
2.89% | 94.39% | 4.21% | 91.93% | 0.565402 | 0 | 97.11% | 1 |
8.50% | 84.45% | 10.59% | 81.07% | 0.534047 | 0 | 91.50% | 1 |
25.73% | 61.78% | 27.92% | 59.75% | 0.071077 | 1 | 25.73% | 0 |
18.69% | 69.61% | 21.00% | 66.82% | 0.102126 | 1 | 18.69% | 0 |
25.62% | 61.89% | 13.65% | 76.43% | 0.360457 | 0 | 74.38% | 0 |
13.16% | 77.15% | 6.97% | 87.03% | 0.025549 | 1 | 13.16% | 1 |
6.23% | 88.32% | 3.46% | 93.32% | 0.048758 | 1 | 6.23% | 1 |
10.72% | 80.86% | 9.42% | 82.93% | 0.918226 | 0 | 89.28% | 0 |
11.85% | 79.11% | 14.43% | 75.30% | 0.992863 | 0 | 88.15% | 1 |
24.72% | 62.79% | 17.07% | 71.68% | 0.0445 | 1 | 24.72% | 1 |
65.05% | 54.53% | 69.31% | 57.46% | 0.935795 | 0 | 34.95% | 1 |
96.20% | 92.70% | 94.62% | 89.82% | 0.283347 | 1 | 96.20% | 1 |
28.58% | 59.17% | 24.31% | 63.20% | 0.32472 | 0 | 71.42% | 0 |
47.13% | 50.17% | 59.76% | 51.90% | 0.303152 | 1 | 47.13% | 0 |
95.18% | 90.83% | 93.68% | 88.16% | 0.443309 | 1 | 95.18% | 1 |
62.23% | 52.99% | 74.92% | 62.42% | 0.677875 | 0 | 37.77% | 1 |
74.17% | 61.69% | 82.00% | 70.48% | 0.300736 | 1 | 74.17% | 0 |
80.97% | 69.18% | 75.40% | 62.90% | 0.232217 | 1 | 80.97% | 1 |
14.97% | 74.54% | 14.42% | 75.32% | 0.751547 | 0 | 85.03% | 0 |
54.26% | 50.36% | 45.85% | 50.34% | 0.198384 | 1 | 54.26% | 1 |
98.61% | 97.26% | 98.94% | 97.91% | 0.922185 | 1 | 98.61% | 0 |
68.67% | 56.97% | 53.54% | 50.25% | 0.090263 | 1 | 68.67% | 1 |
56.46% | 50.84% | 38.18% | 52.79% | 0.242374 | 1 | 56.46% | 1 |
32.98% | 55.79% | 26.03% | 61.49% | 0.206305 | 1 | 32.98% | 1 |
7.27% | 86.52% | 5.65% | 89.34% | 0.927183 | 0 | 92.73% | 0 |
94.61% | 89.81% | 94.16% | 89.00% | 0.575067 | 1 | 94.61% | 1 |
98.17% | 96.40% | 98.07% | 96.21% | 0.000282 | 1 | 98.17% | 1 |
92.06% | 85.37% | 88.73% | 80.00% | 0.317657 | 1 | 92.06% | 1 |
48.33% | 50.06% | 40.04% | 51.98% | 0.998806 | 0 | 51.67% | 0 |
2.61% | 94.91% | 3.33% | 93.56% | 0.20719 | 0 | 97.39% | 1 |
7.40% | 86.29% | 5.02% | 90.46% | 0.920666 | 0 | 92.60% | 0 |
7.21% | 86.61% | 8.68% | 84.14% | 0.200576 | 0 | 92.79% | 1 |
28.17% | 59.53% | 36.93% | 53.42% | 0.608499 | 0 | 71.83% | 1 |
98.21% | 96.47% | 98.50% | 97.04% | 0.977474 | 1 | 98.21% | 0 |
24.14% | 63.37% | 23.01% | 64.57% | 0.790147 | 0 | 75.86% | 0 |
86.71% | 76.95% | 87.87% | 78.69% | 0.652953 | 1 | 86.71% | 0 |
82.35% | 70.93% | 78.34% | 66.06% | 0.113696 | 1 | 82.35% | 1 |
93.90% | 88.55% | 94.62% | 89.81% | 0.689922 | 1 | 93.90% | 0 |
97.68% | 95.47% | 96.79% | 93.78% | 0.97503 | 1 | 97.68% | 1 |
10.70% | 80.89% | 15.69% | 73.55% | 0.322258 | 0 | 89.30% | 1 |
14.83% | 74.74% | 17.05% | 71.72% | 0.826386 | 0 | 85.17% | 1 |
30.24% | 57.81% | 24.86% | 62.64% | 0.242143 | 1 | 30.24% | 1 |
99.47% | 98.95% | 99.46% | 98.93% | 0.485774 | 1 | 99.47% | 1 |
46.53% | 50.24% | 54.24% | 50.36% | 0.192165 | 1 | 46.53% | 0 |
12.94% | 77.47% | 10.14% | 81.77% | 0.259741 | 0 | 87.06% | 0 |
98.53% | 97.10% | 98.70% | 97.43% | 0.959757 | 1 | 98.53% | 0 |
59.74% | 51.90% | 61.11% | 52.47% | 0.008287 | 1 | 59.74% | 0 |
56.84% | 50.94% | 68.11% | 56.56% | 0.711267 | 0 | 43.16% | 1 |
59.46% | 51.79% | 41.59% | 51.41% | 0.471885 | 1 | 59.46% | 1 |
9.20% | 83.30% | 6.82% | 87.29% | 0.209335 | 0 | 90.80% | 0 |
46.91 | 71.09 | 48.26 | 72.49 | 53 | 69.40 | 54 | |
71.09% | 72.49% | 69.40% |
Nun versuchen wir hier, die Ergebnisse zu deuten. Wir schauen uns wieder die einzelnen Spalten an. In Spalte 1 ist notiert, wie viele rote Kugeln (in Prozent) sich tatsächlich in der Trommel befanden. Noch sind wir also nicht bei der Wirklichkeit, denn da wissen wir es (fast immer) nicht.
In Spalte 2 steht weiterhin die aufgrund dieser Prognose (welche allerdings exakt ist) erwartete durchschnittliche Wahrscheinlichkeit. In Spalte 3 ist die vom Testkandidaten angenommene, also prognostizierte, geschätzte, geratene Wahrscheinlichkeit. Diese Spalte weicht stets von Spalte 1 ab. Er rät aber ziemlich gut, wie man bei Prüfung einzelner Zahlen ersehen kann. Aber dennoch: Es gibt eine Abweichung von der (hier noch bekannten) Realität.
In Spalte 4 ist die erwartete durchschnittliche Wahrscheinlichkeit aus Sicht des Kandidaten. Wenn die Anzahl der roten/weißen Kugeln nicht bekannt wäre, wäre es seine einzige Möglichkeit, die Qualität seiner Zahlen zu überprüfen. Aber immerhin hätte er sie.
In Spalte 5 steht nun nach wie vor die Zufallszahl. Wenn sie kleiner als die korrekte Wahrscheinlichkeit ist, taucht in Spalte 5 eine 1 auf, ist sie größer, ergibt sich eine 0 für Spalte 5. Die 1 steht für „Rote Kugel gezogen“, die 0 steht für „weiße Kugel gezogen“. Spalte 6 gibt letztendlich die Wahrscheinlichkeit des eingetretenen Ereignisses an, wieder aber die der wirklichen Wahrscheinlichkeit und nicht der Annahme des Kandidaten..
Und in Spalte 7 habe ich noch angefügt, wer im einzelnen Versuch „besser“ prognostiziert hat. Selbstverständlich hat der erste Spieler, ich selber also, den Vorteil die Wahrscheinlichkeit „zu kennen“. Von daher müsste der erste Spieler also einen Vorteil bei jedem abgegebenen Tipp haben. Dennoch ist es möglich, dass er von der Wirklichkeit, dem tatsächlichen Geschehen eingeholt wird und das Zufallsexperiment zu seinen Ungunsten ausgeht. Es bleibt ja beim Zufall. Einer sagt eine höhere Wahrscheinlichkeit vor, und das zu Recht, aber das Ereignis tritt nicht ein. Das ist alltäglich.
In diesem Durchlauf hat sich allerdings der Favorit durchgesetzt. Er war 54 Mal besser, der Gegner nur 46 Mal.
Trotz Kenntnis der Wahrheit gibt es eine Abweichung der Werte erwartete/eingetroffene durchschnittliche Wahrscheinlichkeit. Dennoch hat Spieler 1, also die Wirklichkeit, sich gegen Spieler 2 durchgesetzt. Spieler 1 hat 71.09% erwartet, Spieler 2 hingegen 72.49%. Eingetroffen sind aber nur 69.40%. Es ist also in diesem Beispiel das Außenseiterereignis zu häufig eingetreten.
Um es dennoch auch hier noch anschaulicher zu machen, habe ich noch zwei Diagramme erstellt. Schauen Sie:
Die lila Kurve stellt die durchschnittlich erwartete Wahrscheinlichkeit dar. Diese kann (offensichtlich) nie unter 50% sein. Sie entwickelt sich auch einigermaßen stetig. Die Zacken am Anfang entstehen durch die Zufälligkeit, um sehr extreme (eine der beiden Seiten ist nahe 100%) oder eher ausgeglichene Wahrscheinlichkeiten vorlagen. Die Schwankungen lassen später merklich nach.
Die blaue Kurve zeigt die durchschnittlich eingetroffene Wahrscheinlichkeit. Diese bewegt sich anfangs sehr weit nach unten. Ursache dafür ist ebenso offensichtlich: Es ist mehrmals das Außenseiterereignis eingetroffen. Und obwohl sich die Kurven in der Mitte schon einmal fast berühren, bleibt die blaue stets (aufgrund der anfänglichen Außenseitererfolge) stets unterhalb. Aber 100 Versuche sind ja auch nicht übertrieben viel. Das würde sich schon irgendwann anpassen, darf man annehmen.
Etwas anders die beiden Kurven aus Sicht Spieler 2:
Die Differenz ist durchgehend größer. Und das bleibt auch bis zum Schluss so. Die Zacken ähneln sich aber, da ja das gleiche Zufallsexperiment zugrunde liegt. Dennoch wirkt es sich aus, dass der Spieler 2 die Wahrscheinlichkeiten nur rät. Wenn Sie feststellen sollten, dass die blauen Kurven auch nicht identisch sind (das ist übrigens auch der Grund, warum ich zwei Diagramme gemacht habe), muss ich den Umstand noch erklären: Für Spieler 2 müsste man auch in den Zahlenkolonnen eigentlich noch die Spalte „Wahrscheinlichkeit eingetretenes Ereignis aus Sicht Spieler 2“. Da er die Wahrheit ja nicht kennt, müsste er immer seinen eigenen geschätzten Wert (oder dessen Gegenwert, bei Nichteintreten) in dieser Spalte eintragen. Für das Diagramm habe ich diese Zahlenkolonne aber verwendet.
Ich kann nicht anders, ich muss noch einen zweiten Durchlauf machen, um zu sehen, ob es auch anders aussehen kann, und wenn, wie. Sind Sie auch gespannt? Ich erspare Ihnen auch die Zahlenkette und zeige nur die letzten beiden Diagramme. Zunächst aus Perspektive der Wahrheit, Spieler 1:
Wusste ich doch, dass es auch anders geht. Zunächst ist auch das Außenseiterereignis zu häufig eingetreten. Daher die blaue Linie weit im Keller. Dann jedoch kommen die Favoritenereignisse zu häufig und überholen die erwarteten. Aber, nicht vergessen, 100 Versuche sind noch relativ wenig.
Hier die Perspektive von Spieler 2:
Parallelen sind zu erkennen, aber, oh Schreck, Spieler 2 liegt am Ende vorne. Sein Ergebnis ist eindeutig besser. Ich habe auch geprüft, tatsächlich hat Spieler 2 auch häufiger „Recht“ gehabt, die bessere Einschätzung. Insgesamt 52 Mal. Kein Wunder, dass er dann auch insgesamt vorne liegt.
Jetzt habe ich Not gedrungen die Anzahl der Versuche auf 1000 erhöht. Man schaue sich diese Ergebnisse an:
Hier ergibt sich langfristig fast exakte Deckungsgleichheit der beiden Linien. Allerdings gestehe ich, dass ich bei einigen weiteren Durchläufen auch wieder Abweichungen hatte. Es ist also, zumindest auf die Distanz von 1000 Versuchen, noch lange nicht garantiert, dass sich die Linien so schön bewegen. Abgesehen davon, wie man sieht, gab es zwischen dem 200. und dem 300.Versuch auch noch eine ziemlich große Abweichung.
Selbstverständlich handelt es sich bei dieser Kurve um die Realität. Die exakte und bekannte Wahrscheinlichkeit wurde zugrunde gelegt.
Hier nun das Bild von Spieler 2.
Ich kann also durchatmen. Die Differenz ist so offensichtlich. Er macht einen permanenten Fehler und der wirkt sich aus. Das ist beruhigend.
Sollte es Ihnen aber Spaß machen, über die kleinen Wunder der Mathematik nachzudenken, dann werde ich gerne folgendes erörtern:
Möglicherweise ist Ihnen aufgefallen, dass es auf den ersten Blick nicht logisch erscheint, warum die blaue Kurve sich so offensichtlich unterhalb der lila Kurve bewegen sollte. Warum es einem auffallen könnte, ist an sich leicht erklärt: Da der Kandidat immer nur eine kleine Abweichung von der Realität hat. Er schätzt die Anzahl der Kugeln. Er irrt sich immer, das ist folgerichtig. Er irrt sich mal in die eine und mal in die andere Richtung. Also mal unterschätzt er die Anzahl, mal überschätzt er sie. Also müsste der Fehler mal nach oben und mal nach unten schwanken. Die Abweichung der beiden Linien könnte sowohl positiv als auch negativ sein. Möglicherweise müsste man also erwarten, dass die Linien sich ab und an schneiden und die blaue auch mal zu hoch sein könnte.
Nun die Erklärung, warum das Ergebnis dennoch einer mathematischen Logik folgt. Also, wenn man sehr hohe oder sehr kleine Anzahlen von roten Kugeln, also große oder kleine Wahrscheinlichkeiten bzw. eine hohe Festlegung annehmen, dann wäre das auch absolut richtig. Das Problem entsteht immer dann, wenn die Wahrscheinlichkeiten recht ausgeglichen sind. Also nehmen wir mal den Fall an, es sind ca. 45% rote Kugeln. Der Kandidat, der ja einen durchaus guten Job macht, irrt sich aber in dem Sinne, dass er die Anzahl auf 55% schätzt. Dann tritt folgender Effekt ein: Die Festlegung ist exakt getroffen (nehmen Sie die Summe der Quadrate der Wahrscheinlichkeiten). Also er trifft den erwarteten Wert (zufällig) exakt. Aber die Wahrscheinlichkeit, die er dem eintreten des Ereignisses „rote Kugel ziehen“ zuordnet, ist viel zu hoch bewertet. Dann wird, immer wenn das Ereignis dann nicht eintritt (was ja sogar das Favoritenereignis ist, also das Ereignis, dessen Wahrscheinlichkeit unterschätzt wurde), die eingetretene hinter der erwarteten zurückfallen. Dieser Effekt wirkt sich langfristig so, wie im Diagramm gesehen, aus.
5) im Wirklichen Leben
Der Unterschied im Leben ist klar: Dort gibt es niemanden, der die wahren Wahrscheinlichkeiten kennt. Wenn wir also einen Bundesligaspieltag prognostizieren, Einschätzungen für 1-X-2 niederschreiben, jeweils in der Summe 100% ergebend, dann ist das reine Phantasie. Eine mehr oder weniger gute Einschätzung kann es sein. Aber zur Überprüfung der Qualität kann man entweder drauf wetten, hinterher abrechnen und Geld zählen, oder sie einfach nur betrachten und sich daran ergötzen oder auch (Ver-)zweifeln. Dann kann man noch nach Ablauf der Spiele daneben schreiben, welches Ereignis jeweils eingetreten ist. Aber was hilft uns das?
Nun gut, mithilfe dieser Methode können wir tatsächlich jetzt unsere eigenen Einschätzungen überprüfen. Nicht eine einzelne, aber nach einer Vielzahl von Prognosen und eingetretenen Ereignissen bekommt man schon allmählich einen Eindruck, ob man gut oder schlecht getippt hat.
Ich kann hier mal einfach meine Zahlen der letzten Bundesligasaison hinschreiben, wir versuchen mal, sie zu deuten:
Zunächst die Prognosen für 1-X-2
1 | X | 2 | |
erwartet | 140.16 | 75.65 | 90.18 |
eingetroffen | 143 | 78 | 85 |
(Berechnet sind diese Zahlen als Summe der Wahrscheinlichkeiten auf jeweils 1-X-2. Wie Sie sehen ist die Summe jeweils 306. Das entspricht der Anzahl der Spiele in einer Saison).
Ich habe also in der Saison 2007/2008 in der BL den Heimvorteil etwas „unterschätzt“. Es gab etwas mehr Heimsiege als erwartet, etwas mehr Unentschieden, dafür aber zu wenig Auswärtssiege. Mein Computer reagiert aber selbständig und automatisch auf solche Entwicklungen. Es ist aber fraglich, ob sich die Tendenz des steigenden Heimvorteils bestätigt. Der Computer reagiert also eher langsam, aber langfristig hat sich das als richtig herausgestellt, nur langsam die Parameter anzupassen.
Die gleiche Tendenz natürlich bei den erzielten Toren:
erwartet 480.70 361.70
eingetroffen 511 349
Zu viele Tore für die Heimmannschaften, zu wenig für die Auswärtsmannschaften. Der Unterschied ist hier tatsächlich eher schon beängstigend groß. Aber wenn man die Zahlen der Vorjahre ansieht, stellt man fest, dass die letzte Saison eher nur ein „Ausreißer“ war.
Die anderen beiden Zahlen aber, die erwartete und die eingetroffenen Wahrscheinlichkeit, sehen wieder viel besser aus:
erwartet 39.72%
eingetroffen 39.70%
Jetzt versuchen wir mal, kapitelgerecht, diese beiden Zahlen zu deuten: Zunächst einmal ist es erfreulich, wenn die Zahlen nahe beieinander liegen. Damit kann man schon mal ziemlich zuverlässig grobe Fehleinschätzungen ausschließen. Da die erwartete Wahrscheinlichkeit sogar über der eingetroffenen liegt, deutet es eher darauf hin, dass die Favoriten sogar etwas zu selten gewonnen haben. Also anders als bei der Statistik über die Heim- und Auswärtssiege hätte man eher die Favoriten überschätzt, wenn auch sehr gering (meist ist in der Praxis die Heimmannschaft Favorit). Das heißt also, dass die etwas zu große Zahl der Heimsiege eher durch Überraschungen zustande kam. So dass man hier wieder zu der Erkenntnis kommen müsste, dass die Zahlen insgesamt eher doch stimmen. Die Abweichungen Heim- Auswärts sind eher als zufällig anzusehen.
Da es etwas langweilig ist, nur die Ergebnisse einer einzigen Saison zu sehen, führe ich hier auch noch die Zahlen der Saison 2006/2007 an:
Prognosen für 1-X-2
1 | X | 2 | |
erwartet | 139.29 | 81.65 | 85.05 |
eingetroffen | 134 | 79 | 93 |
Die Tendenz hier umgekehrt: Zu wenig Heimsiege im Verhältnis zu den erwarteten. Etwas zu wenig Unentschieden, dafür zu viele Auswärtssiege.
Die Vorhersagen für die Tore Heim-Auswärts
erwartet | 481.60 | 354.00 |
eingetroffen | 448 | 389 |
Hier ist das Verhältnis auch noch ungünstiger für die Heimmannschaften. Allerdings sieht man auch, dass sich die Prognosen für die Summe der beiden Jahre ganz gut ergänzen. Es ist also eher nur eine (normale, erwartete oder zugestandene) statistische Abweichung. Allerdings jetzt noch zu den erwarteten/eingetroffenen W-keiten:
erwartet | 38.99% |
eingetroffen | 38.29% |
Hier bestätigt sich allerdings der eindeutige Trend, keine Wiedergutmachung: Die Favoriten wurden überschätzt. Es gab zu wenige Favoritensiege und zu wenig Heimsiege. Und meist ist die Heimmannschaft Favorit.
Dennoch sind die Zahlen und die Abweichungen insgesamt nicht unbedingt Besorgnis erregend.
6) Wettervorhersage
Jetzt kann ich Ihnen noch ein Beispiel geben aus dem wirklichen Leben. An diesem können Sie sogar selber ausprobieren, wie meine Methode funktioniert bzw. wie gut die Wettervorhersagen sind. Oder Sie treten an gegen die Wetterdienste. Betrachten wir also das einfache Beispiel der Regenvorhersage. Und ich schätze mal, dass die Tatsache, dass die Regenvorhersage in Form von Wahrscheinlichkeiten getroffen wird ursächlich darauf zurückzuführen ist, dass Menschen sich beklagt haben darüber, dass Ihnen Regen versprochen wurde, aber keiner eintrat. Oder waren die Beschwerden eher umgekehrt?
Jedenfalls ist es klar erkennbar auch wirklich ein Problem, Regen vorherzusagen. Vor allem, wenn man die Vorhersage Flächen deckend abgeben soll. Da kann dann schon mal in der einen Region tatsächlich der Fall eintreten und in der anderen nicht. Ebenso ist auch noch die Frage des Zeitpunkts ungeklärt. Und darüber hinaus die Menge, die ausreicht, um die Prognose als „eingetreten“ einzustufen (haben Sie auch schon mal einen Tropfen abbekommen, und dann gerätselt, ob es jetzt regnet?).
Für unser vereinfachtes Beispiel tun wir jetzt mal kurzzeitig so, als ob wir die Regenwahrscheinlichkeit an einem bestimmten Ort zu einem bestimmten Zeitpunkt prognostizieren wollen und das dann zu dem Zeitpunkt als eingetreten oder nicht eingetreten bewerten können. Ich rätsle nach wie vor, ob die Meteorologen tatsächlich zumindest mitschreiben, ob ihre prognostizierten Werte überprüft werden, indem zumindest bewertet wird, ob die Prognose eingetreten ist. Das stelle ich mir so vor: Die prognostizierte Regenwahrscheinlichkeit betrug 70%. Am nächsten Tag wird eine Notiz gemacht: Ja, es hat geregnet bzw. nein, es hat nicht geregnet. Wenn das so ist, dann könnte die Qualität auch dieser Vorhersage mit meiner Methode natürlich genau so überprüft werden.
Und für mein kleines Beispiel habe ich noch eine zusätzliche Komponente eingeführt: Ein weiterer Mitspieler, der im Prinzip die Gesamtchance für Regen zum Beispiel über einen Monat ganz gut kennt, damit im Mittel auch richtig liegt, aber letztendlich für die einzelne Prognose keine wirkliche Einschätzung hat. Schauen wir uns zunächst das Beispiel kurz an und versuchen dann, es zu deuten.
Regenwahr scheinlich keit | Zufalls zahl | eing etrof fen | Durchschn erwartete W-keit | W-keit Eingetr. Ereignis | Durchsch nittsein schätzung | Durchschn erwartete W-keit | W-keit Eingetr. Ereignis |
61.61% | 0.4225 | 1 | 52.69% | 61.61% | 61.00% | 52.42% | 61.00% |
47.37% | 0.4814 | 0 | 50.14% | 52.63% | 61.00% | 52.42% | 39.00% |
96.23% | 0.4506 | 1 | 92.75% | 96.23% | 61.00% | 52.42% | 61.00% |
74.69% | 0.0825 | 1 | 62.19% | 74.69% | 61.00% | 52.42% | 61.00% |
32.06% | 0.7403 | 0 | 56.44% | 67.94% | 61.00% | 52.42% | 39.00% |
24.55% | 0.4835 | 0 | 62.95% | 75.45% | 61.00% | 52.42% | 39.00% |
88.07% | 0.8733 | 1 | 78.99% | 88.07% | 61.00% | 52.42% | 61.00% |
35.40% | 0.4609 | 0 | 54.26% | 64.60% | 61.00% | 52.42% | 39.00% |
61.16% | 0.6288 | 0 | 52.49% | 38.84% | 61.00% | 52.42% | 39.00% |
79.24% | 0.1345 | 1 | 67.10% | 79.24% | 61.00% | 52.42% | 61.00% |
71.69% | 0.8093 | 0 | 59.41% | 28.31% | 61.00% | 52.42% | 39.00% |
40.00% | 0.2556 | 1 | 52.00% | 40.00% | 61.00% | 52.42% | 61.00% |
34.42% | 0.7802 | 0 | 54.85% | 65.58% | 61.00% | 52.42% | 39.00% |
92.88% | 0.4454 | 1 | 86.78% | 92.88% | 61.00% | 52.42% | 61.00% |
76.31% | 0.2174 | 1 | 63.85% | 76.31% | 61.00% | 52.42% | 61.00% |
74.06% | 0.8646 | 0 | 61.58% | 25.94% | 61.00% | 52.42% | 39.00% |
43.01% | 0.2125 | 1 | 50.98% | 43.01% | 61.00% | 52.42% | 61.00% |
8.19% | 0.9596 | 0 | 84.95% | 91.81% | 61.00% | 52.42% | 39.00% |
90.64% | 0.8333 | 1 | 83.03% | 90.64% | 61.00% | 52.42% | 61.00% |
72.40% | 0.7134 | 1 | 60.03% | 72.40% | 61.00% | 52.42% | 61.00% |
7.93% | 0.2212 | 0 | 85.39% | 92.07% | 61.00% | 52.42% | 39.00% |
98.88% | 0.9018 | 1 | 97.78% | 98.88% | 61.00% | 52.42% | 61.00% |
19.43% | 0.4307 | 0 | 68.69% | 80.57% | 61.00% | 52.42% | 39.00% |
95.24% | 0.6526 | 1 | 90.93% | 95.24% | 61.00% | 52.42% | 61.00% |
96.01% | 0.0995 | 1 | 92.33% | 96.01% | 61.00% | 52.42% | 61.00% |
28.12% | 0.4153 | 0 | 59.57% | 71.88% | 61.00% | 52.42% | 39.00% |
30.96% | 0.5733 | 0 | 57.25% | 69.04% | 61.00% | 52.42% | 39.00% |
98.99% | 0.1201 | 1 | 98.00% | 98.99% | 61.00% | 52.42% | 61.00% |
89.00% | 0.4139 | 1 | 80.42% | 89.00% | 61.00% | 52.42% | 61.00% |
95.00% | 0.2394 | 1 | 90.50% | 95.00% | 61.00% | 52.42% | 61.00% |
22.93% | 0.3870 | 0 | 64.66% | 77.07% | 61.00% | 52.42% | 39.00% |
71.39% | 0.2779 | 1 | 59.15% | 71.39% | 61.00% | 52.42% | 61.00% |
47.82% | 0.6372 | 0 | 50.09% | 52.18% | 61.00% | 52.42% | 39.00% |
97.53% | 0.6990 | 1 | 95.17% | 97.53% | 61.00% | 52.42% | 61.00% |
96.69% | 0.7685 | 1 | 93.59% | 96.69% | 61.00% | 52.42% | 61.00% |
71.25% | 0.4227 | 1 | 59.03% | 71.25% | 61.00% | 52.42% | 61.00% |
98.34% | 0.5906 | 1 | 96.74% | 98.34% | 61.00% | 52.42% | 61.00% |
93.88% | 0.9146 | 1 | 88.51% | 93.88% | 61.00% | 52.42% | 61.00% |
28.96% | 0.1201 | 1 | 58.85% | 28.96% | 61.00% | 52.42% | 61.00% |
19.39% | 0.2618 | 0 | 68.74% | 80.61% | 61.00% | 52.42% | 39.00% |
73.79% | 0.1036 | 1 | 61.32% | 73.79% | 61.00% | 52.42% | 61.00% |
37.55% | 0.7657 | 0 | 53.10% | 62.45% | 61.00% | 52.42% | 39.00% |
56.40% | 0.0462 | 1 | 50.82% | 56.40% | 61.00% | 52.42% | 61.00% |
65.04% | 0.2482 | 1 | 54.52% | 65.04% | 61.00% | 52.42% | 61.00% |
43.23% | 0.2569 | 1 | 50.92% | 43.23% | 61.00% | 52.42% | 61.00% |
44.63% | 0.9454 | 0 | 50.58% | 55.37% | 61.00% | 52.42% | 39.00% |
57.53% | 0.2263 | 1 | 51.14% | 57.53% | 61.00% | 52.42% | 61.00% |
2.50% | 0.9410 | 0 | 95.13% | 97.50% | 61.00% | 52.42% | 39.00% |
59.05% | 0.5297 | 1 | 51.64% | 59.05% | 61.00% | 52.42% | 61.00% |
94.93% | 0.3135 | 1 | 90.38% | 94.93% | 61.00% | 52.42% | 61.00% |
30.46 | 31 | 3452.42% | 3646.04% | 30.50 | 2621.00% | 2632.00% | |
60.93% | 69.05% | 72.92% | 52.42% | 52.64% |
Deuten wir also dieses Ergebnis: Der erste Teilnehmer kennt in diesem Falle die Wahrheit. Das ist wie im Beispiel vorher derjenige, der die Anzahl der Kugeln vorgibt. Das ist unrealistisch und unfair, aber fürs Beispiel ausreichend gut, zur Veranschaulichung der Effekte. Er hat die korrekte Einschätzung für die durchschnittlich erwartete W-keit und die korrekte Treffererwartung (im Beispiel sind es von 50 Tagen erwartete 30.46 Regentage; umgerechnet 61%; also eine wahre Regenzeit). Die Zufallszahl entscheidet dann, ob es regnet oder nicht. Spalte 5 gibt wie üblich die W-keit des eingetretenen Ereignisses an.
Wir deuten zunächst das Ergebnis von Spieler 1, der in diesem Falle punktgenau die Wahrheit kannte. Erwartet hat er 30.46 Treffer, eingetreten sind 31. Das ist ziemlich genau richtig, aber dennoch reiner Zufall. Die größere Abweichung in den Spalten „durchschnittlich erwartet“ und „durchschnittlich eingetreten“ liefert uns eine neue Erkenntnis: Diese Abweichung ist eher beunruhigend groß. Wie kommt sie zustande? Nun, bei genauerem Hinsehen stellt man fest, dass zwar die Trefferzahl richtig sein kann, aber die „falschen“ Ereignisse gekommen sind. Die Verteilung der Treffer auf die Wahrscheinlichkeiten steht in einem ungünstigen Verhältnis: Es ist zu häufig das wahrscheinlichere Ereignis eingetreten. Dazu können Sie die Spalten 4 und 5 direkt miteinander, Fall für Fall, vergleichen. Sie werden feststellen, dass häufig eine Abweichung zugunsten der größer eingeschätzten Wahrscheinlichkeit auftritt. Und dabei ist es gleichgültig, ob das Favoritenereignis nun war „es regnet“ oder „es regnet nicht“.
Wenn wir also die Wahrheit nicht kennen würden (dies hier ist eine Excel Simulation, welche auf Kenntnis der tatsächlichen Wahrscheinlichkeit beruhte; diese „Wahrheit“ ist aber in der Realität normalerweise nicht bekannt; ich wiederhole das von Zeit zu Zeit, zwecks Verinnerlichung; zugleich sorgen die verwendeten so genannten Pseudo-Zufallszahlen sowieso langfristig für Ausgleich, was bei jedem durchgeführten praktischen Zufallsexperiment nicht gewährleistet ist), würde das Ergebnis in dem Sinne Anlass zur Sorge bereiten, dass wir das Favoritenereignis also unterschätzt haben und dass das untersuchte Beispiel eine höhere Festlegung erlaubt hätte (also ein anderer Spieler vielleicht, der die Wahrheit „besser“ eingeschätzt hätte, hätte eine höhere Festlegung vermutet haben können und uns damit besiegen können). So, wie das Ergebnis hier zustande gekommen ist, ist es eine rein statistische, zufällig auftretende Abweichung, die wir, wie so vieles andere, einfach tolerieren müssen.
Nun aber zur Einschätzung des Gegenspielers: Dieser hatte eine gute Ahnung, wie oft es in etwa an den vorgegebenen 50 Tagen regnen würde (sich womöglich auf eine Statistik aus den Vorjahren berufen). Diese Einschätzung würde möglicherweise einen alt hergebrachten Mathematiker zufrieden stellen: Er vergleicht Treffererwartung und erzielte Treffer und beglückwünscht den Propheten: „Gut gemacht. Mehr kann man nicht erwarten.“
Wir aber, mit unseren gewonnenen Erkenntnissen, können ihn der Scharlatanerie entlarven. Er hat die Summe der Treffer zwar erraten, lag aber in fast jedem Einzelfall daneben. Das hat folgende Konsequenz: Seine erwarteten/eingetroffenen Werte liegen zwar nahe beieinander, aber sie sind mit großem Abstand nicht hoch genug. Denn selbst wir hatten ja eine sehr hohe Festlegung vermutet (69.05%) aber, wie schon erwähnt, war die sogar für diese Versuchsdistanz nicht mal hoch genug.
Ich zeige das hier auch noch im Diagramm, zunächst die Perspektive von Spieler 2:
Diese Kurven sehen phantastisch aus und würden, wenn es keinen Gegenspieler geben würde, durchaus Zufriedenheit auslösen. Man hat eine bestimmte Festlegung vorgegeben, diese ist zwar gering, aber offensichtlich doch korrekt. Die Kurven laufen aufeinander zu und treffen sich gegen Ende fast exakt.
Das liegt natürlich daran, dass Spieler 2 die Trefferzahl ziemlich gut getroffen hat. Sprich also: es gab keine Abweichung durch seine Prognose von denen der Vorjahre oder wie er auch immer seine Werte hergeleitet haben mag. Die langjährige Statistik wurde bestätigt.
Hier aber nun das Diagramm aus Sicht von Spieler 1, also aus Sicht der Realität, der korrekten Einschätzungen:
Obwohl die Werte hier doch erkennbar voneinander abweichen (man berücksichtige bitte die kurze Distanz von 50 Versuchen, 50 Tagen), liegen sie aber dennoch so wesentlich höher, dass man einfach einsehen muss, dass diese Prognose besser war. Das Experiment selber hat eine höhere Festlegung erlaubt. Der Spieler hat dies erkannt und auch so eingeschätzt. Eine Abweichung tritt dennoch ein, ein statistischer Zufall.
Wir können in diesem Falle sogar die vier Kurven gemeinsam anschauen:
Das deutlich höhere Niveau von Spieler 1 übertrifft allemal die geringfügig höhere Abweichung. Man bedenke dennoch die beiden Punkte: Das Set der prognostizierten Ereignisse war absolut identisch. Punkt zwei: Derjenige, der immer 50-50 vorhergesagt hätte, hätte an keiner einzigen Stelle eine Abweichung. Das dient nur der Begründung, warum es derjenige auf dem niedrigeren Level der Prognose es wesentlich leichter hat, seine Erwartung zu erreichen.
Wir müssen noch etwas genauer untersuchen, warum er scheinbar so gute Werte hat und nicht an seinen Ergebnissen zweifeln würde, wenn es keinen Vergleich gäbe: Er hat nach einem Durchschnittswert prognostiziert. Das kann zu guten Ergebnissen führen, wenn der Durchschnitt insgesamt erzielt wird. Also keine Abweichung auftritt zu der Grundlage für die Prognose. Unser Ergebnis, das von Spieler 1, kommt aber dadurch zustande, dass wir jeden Tag individuell, also ohne irgendwelche langfristigen Erwartungen oder Erkenntnissen abgegeben haben. Sondern sozusagen durch die Analyse der, sagen wir Hoch- und Tiefdruckgebiete, Windbewegungen, Satellitenbilder, Luftdruck etc. Dadurch kam eine Prognose für die Gesamttreffer auch heraus. Diese war aber lediglich die Summe der Einzelwahrscheinlichkeiten.
Sollte also in einem vergleichbaren Zeitraum einmal der Durchschnitt nicht eintreffen sondern eine ganz andere Zahl, so wäre unsere Prognose nach wie vor so gut, wie sie ist: Jeden Tag eine Prognose, jeden Tag vielleicht eine kleine Abweichung von der Realität, aber im Großen ganzen gut. Der andere, der nach dem Durchschnittswert prognostiziert, hätte hier einen klar erkennbaren (auch systematischen) Fehler gemacht. Er hat den Durchschnitt angenommen. Aber dieser kann sich durch äußere Umstände einfach verändern. Da bekommt er die Strafe.
Jedenfalls ist das „korrekte“ Prognostizieren wesentlich besser daran zu erkennen, dass man eine höhere Festlegung erwartet und diese auch (annähernd) gut erreicht. Wesentlich einfacher ist es, eine geringe Festlegung zu prognostizieren und diese dann auch zu erreichen (wie zum Beispiel der, der sich gar nicht festlegt).
Also das Ergebnis des Spielers 1 wäre auch praktisch gesehen trotz der höheren Abweichung als eindeutig besser zu bewerten. Er hat eine hohe Festelegung gewagt und diese auch (annähernd) erreicht. Das Experiment gab eine höhere Festlegung her. Der Mann hat das erkannt.
Sie sollten dabei nie vergessen, dass es in der Realität immer wieder die Zweifel gibt. Hier hat es unser Spieler 1 leicht gehabt. In der Realität hätte er aber auch die „korrekten“ Einschätzungen nicht gekannt. Dennoch wäre das Ergebnis selbst bei Unkenntnis der Wahrheit als besser einzustufen.
7) Zusammenfassung
Ich versuche, noch mal zusammen zu fassen, was wir hier eigentlich untersuchen:
Zur Prüfung der Qualität von unseren Vorhersagen müssen wir eine möglichst gute Deckungsgleichheit erzielen zwischen durchschnittlich erwarteter und durchschnittlich eingetretener Wahrscheinlichkeit. Wenn es uns gelingt, diese Zahlen nahe beieinander zu halten, haben wir in unserem Sinne gut vorhergesagt. Allerdings muss es das Ziel sein, die Zahlen möglichst hoch zu bekommen.
Denn, wie wir gesehen haben, erzielt derjenige, der nur jeweils 1/n, also bei Fußballspielen 1/3, für jeden Ausgang prognostiziert seine Vorgaben spielend gute Ergebnisse im Sinne der Abweichung; diese wird gering sein. Wenn das Experiment es nicht anders hergibt, müssen wir das 1/n allerdings als Einschätzung beibehalten oder ernsthaft erwägen (Beispiele: Roulette, Würfeln). Wenn das Experiment aber eine „Festlegung“ ermöglicht, müssen wir eben die beiden Zahlen so hoch wie möglich, aber nahe beieinander bekommen. Realistisch, so sehr festlegen also, wie es der Versuchsaufbau erlaubt, und zwar für jeden einzelnen Fall. Wir müssen so zu sagen die dem Experiment innewohnende Festlegung erkennen, um gute Propheten zu werden.
Die anderen Zahlen leisten natürlich zur Überprüfung auch ihren Beitrag (Treffererwartung; die kann man und sollte man immer mitführen; in grauer Vorzeit war es auch sozusagen das einzige Kriterium), Torerwartung (speziell beim Fußball). Aber dennoch bleibt das Kriterium der durchschnittlich erwarteten/eingetroffenen Wahrscheinlichkeiten ein sehr Wesentliches.
Es ist ja, wenn Sie es noch mal bedenken wollen, auch nicht ganz einfach, bei einer Serie von völlig unabhängigen, nicht wiederholbaren Ereignissen mit unbekannten Eintrittswahrscheinlichkeiten eine Aussage zu bekommen. Immerhin habe ich Ihnen jetzt noch ein zusätzliches Kriterium geliefert. Und: in der Mathematik existierte es bisher noch nicht.
Ein weiterer erwähnenswerter Punkt ist der, dass die von mir für die Bundesligaspielzeiten 2006/2007 und 2007/2008 ermittelten durchschnittlich erwarteten Wahrscheinlichkeiten von ca. 38.4% auf beide Jahre zusammen, auch noch einen weiteren Anhaltspunkt bieten: Die Basis für eine derartige „Festlegung“ sind in etwa Zahlen wie 51.17% für den Favoriten, 25% für das Remis und 23.3% für den Außenseiter, wie Sie durch aufaddieren der Quadrate der einzelnen Werte, der Rechenvorschrift, ersehen können (0.5170.517 + 0.250.25 + 0.233*0.233 = 0.384).
Also die von mir angenommene Verteilung für den Favoriten ist bereits bei über 50%. Also gefühlsmäßig gesagt habe ich mich schon einigermaßen doll festgelegt. Denn es gibt in der Bundesliga ziemlich viele sehr ausgeglichene Spiele. Dennoch ist der Favorit im Schnitt bei über 50% (besser: das Favoritenereignis; in den seltensten Fällen ist das allerdings das Remis, gelegentlich aber schon die Auswärtsmannschaft; am meisten bleibt es die Heimmannschaft).
Also wir haben eine Überprüfungsmethode für unsere eigenen Vorhersagen gefunden. Dennoch wäre es natürlich interessant, zu sehen, wie die Ergebnisse im Vergleich aussehen könnten. Also wenn wir zwei Propheten gegeneinander halten.
Mir ist schon klar, dass diese Aussagen hier alle ein wenig verwirrend klingen können. Dennoch möchte ich es wenigstens erwähnt haben: Selbst wenn ich mit meinen Ergebnissen eine (scheinbar) gute Näherung an die Realität erreicht habe, so kann ich doch nicht gänzlich ausschließen, dass ein weiterer Prophet eine noch höhere erwartete Wahrscheinlichkeit prognostiziert und diese auch erreicht. Wir bewegen uns Experiment bedingt auf dünnem Eis. Es kann sein, dass das Experiment selber (nicht wiederholbare Ereignisse, unabhängig, unbekannte Wahrscheinlichkeiten) eine höhere Festlegung ermöglicht. Also ein zweiter Mitspieler könnte möglicherweise 41% erwartet haben und auch 41% erreichen. Er müsste dazu einfach nur jeweils auf das am Ende eingetretene Ereignis eine höhere Wahrscheinlichkeit als ich prognostiziert haben. Dann würde das schon klappen. Nicht bei jedem, sondern nur bei ausreichend vielen. Man würde dann auch sagen können: Hier „wusste er was“, was ich nicht wusste. Er schreibt auf ein Ereignis wie zum Beispiel Sieg Wolfsburg gegen Stuttgart plötzlich 70% hin und Wolfsburg gewinnt dann. Ich hatte ganz normal 40% angenommen, da ich eben „nichts wusste“. Wenn er das falsch eingeschätzt hätte, dann könnte er in dem einen Falle noch ungeschoren davon kommen. Nur wenn er öfter solche Risiken eingeht und überhöhte, unrealistische Chancen notiert, dann würde die Mathematik unerbittlich zuschlagen und ihn bestrafen in Form von hohen Abweichungen. Wenn er es aber so gut weiß, dann darf er es, nein, muss er es so vorhersagen.
Allerdings ist es durch die Verfügbarkeit und damit Überprüfbarkeit meiner anderen Zahlen (erwartete 1-X-2 und Torerwartungen, wobei ich dafür erst mal seine Zahlen sehen müsste) doch eher unwahrscheinlich, dass es eine bessere Prognose gibt.
Wenn wir nun aber die Qualität von mehreren Propheten oder Tippern, Spielern tatsächlich langfristig und anders als durch Wetten und Geld zählen ermitteln wollen, bietet es sich an, das von mir erfundene System des „perfekten Wettens“ zu betrachten. Es ist, ohne finanziellen Einsatz als Tippspiel geeignet, müsste also „perfektes Tippspiel“ heißen, mit Geldeinsatz ergibt es eben die perfekte Methode, zwei oder mehr Einschätzungen gegeneinander abzurechnen, lediglich anhand der vergebenen Wahrscheinlichkeiten.
Untersuchungen diesbezüglich befinden sich in den Kapiteln „Tippspiele“ und „Das perfekte Tippspiel“.