- Kleiner Einblick in das Seelenleben eines Spielers
- Heranführen an das Problem „Vergleichbarkeit von Vorhersagen“
Also alles, was ich bisher über dieses Problem gelesen oder gesehen habe, war leider nur sehr oberflächlich und nicht hilfreich. Also Sie haben alle vorherigen Kapitel eifrig studiert und absolut nichts Neues erfahren. Macht nichts, dann sind Sie ja, so oder so, befähigt, das Grundprofil eines Profilspielers, äh, ich meinte Profispielers zu erfüllen. Sie wissen also bei allen Spielen, zumindest was zu tun wäre, um mit Vorteil zu spielen. Das Verhältnis von Eintrittswahrscheinlichkeit zu Auszahlungsquote ist Ihnen geläufig. Jetzt müssen wir versuchen, tatsächlich Eintrittswahrscheinlichkeiten zu bestimmen. Aber jetzt mal angenommen, wir tasten uns so vorsichtig an das Problem heran. Wir versuchen, die Wahrscheinlichkeiten zu notieren. Wir wollen aber noch nicht unbedingt wetten, erst mal prüfen, ob unsere Einschätzungen gut sind. Wissen Sie, wie ich damit angefangen habe? Ich habe mein Computerprogramm entwickelt, welches mir die Vorhersagen erstellt hat. Wobei eben der Begriff Vorhersage keine Vorhersage im klassischen Sinne ist. Meine Vorhersagen sind lediglich Abschätzungen der Eintrittswahrscheinlichkeiten. Die „wahre Wahrscheinlichkeit“ ist gar nicht bekannt. Kennt Gott sie?
Wie wir bereits festgestellt haben, können wir aber mit diesen Einschätzungen gar nicht so viel anfangen. Da stehen irgendwelche Werte, dann wird das prognostizierte Ereignis genau nur ein Mal unter den gegebenen Bedingungen durchgeführt, und es kommt irgendein Ergebnis heraus. Wenn wir darauf wetten, dann haben wir natürlich ein Maß. Haben wir mehr Geld oder weniger Geld als vorher? Aber ist das auch repräsentativ? Sicher, wenn man langfristig und regelmäßig wettet, kann man über das finanzielle Ergebnis etwas ablesen.
Dennoch: Vielleicht haben wir ja viele Ereignisse prognostiziert, aber nur eines gewettet. Und dabei auch noch Pech gehabt, das ist klar. Also: gibt es eine Methode, mit der wir die Qualität von Vorhersagen langfristig überprüfen können? So hoch kann ich die Spannung nicht schrauben, es gibt eine, richtig geraten. Und das erstaunlichste ist, dass es sie noch nicht gibt in der Mathematik. Aber der Grund ist auch einsichtig und bereits ausreichend erwähnt: Die Mathematiker machen um dieses ganze Thema selbst einen großen Bogen. Man findet keinen Halt. Nichts Beweisbares. Und selbst mit meiner Methode bleibt es dabei, das muss ich einräumen. Aber wir haben ja auch weiter oben schon gesehen, dass auch der Statistiker es nicht schaffen kann, eine 100%ige Aussage zu treffen. So ist es hier auch.
Zur Veranschaulichung habe ich mal ein etwas einfacheres Beispiel gewählt. Wir versuchen, einmal die Regenwahrscheinlichkeit an einem bestimmten Tag an einem bestimmten Ort vorherzusagen. Und Sie können mir sicher bestätigen, dass auch dieses Experiment immer nur ein einziges Mal unter den gegebenen Voraussetzungen durchgeführt wird.
- Die Qualität von Vorhersagen
In der Datei „Vorhersageprüfung“ wird von einer Anzahl von Teilnehmern, die verschiedene Qualitäten oder Eigenheiten haben, eine Anzahl unabhängiger Ereignisse auf ihr Eintreten bzw. ihre Eintrittswahrscheinlichkeit vorhergesagt. Da die Ereignisse unabhängig voneinander und mit unterschiedlichen Wahrscheinlichkeiten behaftet sind, ist eine Prüfung der Qualität der einzelnen Vorhersage nicht ganz einfach. Quasi kann man die Qualität der Vorhersage eines Teilnehmers für ein einzelnes Ereignis gar nicht prüfen. Man kann nur die Qualität des Vorhersagers selber auf einen längeren Zeitraum prüfen, nicht aber der einzelnen Vorhersage.
Gehen wir zu dem praktischen Beispiel über, welches die Sache anschaulicher macht: Man versucht, zu einem bestimmten Zeitpunkt an einem bestimmten Ort die Wahrscheinlichkeit vorherzusagen, dass es regnet. Nun werden Sie mir sicher Recht geben, dass diese Wahrscheinlichkeit, anders als bei den sonst so gern verwendeten LaPlace Experimenten (wie weiter oben angedeutet existieren diese in der Praxis nicht) nicht exakt bestimmbar ist.
Für unser Experiment nehmen wir trotzdem den Idealfall an, dass wir im Einzelfall tatsächlich diese Wahrscheinlichkeit kennen (sagen wir, sie ist gottgegeben). Immer noch bewegen wir uns dann auf dünnem Eis, denn selbst wenn man sie im Einzelfall kennt, könnte man noch schwerlich prüfen, wie gut die einzelne Vorhersage war.
Das möchte ich am Beispiel erläutern:
Sicher fällt einem als Prüfungsmöglichkeit die Summe der Treffer auf einen bestimmten Zeitraum ein. Also, nehmen wir an, dass es im Durchschnitt in einem bestimmten Monat an 10 Tagen regnet (also demnach zu 33%). Dann könnte es sich jemand einfach machen, und für jeden Tag die Wahrscheinlichkeit 33% hinschreiben und wahrscheinlich würde er sogar eine gute Trefferausbeute erzielen (sollte es in diesem Fall tatsächlich an 10 Tagen eintreten, wäre die Vorhersage in diesem Sinne sogar perfekt). Tatsächlich aber wäre die Vorhersage für jeden einzelnen Tag eher sogar schlecht bis sehr schlecht. Warum? Ganz einfach: Die durchschnittliche Regenwahrscheinlichkeit hat auf die 30 Tage verteilt eine völlig andere Verteilung als 33-33-33-33 etc, nämlich zB diese: 90-20-10-45-22-16-88-12-5-22 etc. Dieses sind also die nach wie vor unbekannten, aber eben für dieses Beispiel als fest angenommenen Wahrscheinlichkeiten. Aufaddieren tun sie sich für die 30 Tage also zu 1000%, also zu 10 Regentagen. Man würde mit einer Durchschnittsschätzung einen permanenten Fahler begehen, der sich aber in der Summe nicht auswirkt. Wie kann ich also diesen Fehler nachweisen? Abgesehen davon muss ja in diesem Monat nicht der aus den vorherigen Jahren abgeleitete Schnitt eintreten. Wenn man es also gar nicht weiß und sich nur an dieser Statistik orientiert, hat man ja zwangsläufig gegenüber dem, der tatsächlich das Wetter vorhersagt, also schaut, ob Wolken und Tiefdruckgebiete heranziehen und daraus Schlüsse zieht, eine Riesennachteil. Wenn also derjenige, der es auf die zuletzt beschriebene Art auf das Ergebnis kommt, es ist ein regenarmer Monat und es werden in seiner Summer der Prognosen nur 7 Tage, was auch berechtigt ist, hat er natürlich noch mehr Vorteil. Aber selbst wenn die 10 Tage stimmen sollten, muss der Durchschnittsspieler, der also nur den Durchschnittswert prognostiziert, einen nachweisbaren Fehler machen.
Dazu habe ich folgende, auch anschauliche, Begriffe eingeführt: Die durchschnittlich erwartete Wahrscheinlichkeit (= die Festlegung) und die Wahrscheinlichkeit des eingetretenen Ereignisses. Dabei ist die durchschnittlich erwartete Wahrscheinlichkeit ein einfach zu berechnender, aber eventuell etwas schwieriger zu verstehender Begriff.
Hier eine Erläuterung: Wir sind in der Anfangsphase des Prognostizierens. Wir beginnen die Aufzeichnungen. Wir führen für unsere Aufzeichnungen, zum Beispiel in Excel, vier einfache Spalten ein: Vorhersage in Prozent, dass es regnet, Vorhersage in Prozent, es regnet nicht (das ist die Gegenwahrscheinlichkeit, also 1-es regnet), in der dritten Spalte notieren wir, ob es geregnet hat. Und in der vierten die Wahrscheinlichkeit des eingetretenen Ereignisses (konkret: 1.Tag, 20% es regnet, 80% es regnet nicht. Es regnet tatsächlich an diesem Tag, 20% ist die Wahrscheinlichkeit des eingetretenen Ereignisses in Spalte 4. 2. Tag: 60% es regnet, 40% es regnet nicht, es regnet wieder, 60% in Spalte 4, 3.Tag 30% es regnet, 70% es regnet nicht, es regnet nicht, 70% in Spalte 4). Nun darf man eben nicht vergessen dabei, dass wir lediglich einen Wert haben, mit dem wir selber die Qualität unserer Vorhersage prüfen wollen, dass ist die von uns selbst zu Grunde gelegte Wahrscheinlichkeit für das Eintreten eines Ereignisses. Wir kennen die Wahrheit (sprich: die tatsächlich Eintrittswahrscheinlichkeit) nicht. Trotzdem oder auch gerade deshalb werfe ich die Frage auf, welchen Durchschnittswert erwarten wir nun in der 4. Spalte? Was müsste dort bei korrekter Einschätzung für ein Wert auftauchen? Langfristig gesehen natürlich.
Nun, eigentlich ist es ganz einfach: Am ersten Tag sagten wir, 20-80, also erwarten wir, dass zu 20% eine 20 in Spalte 4 auftaucht, und zu 80% eine 80. Das entspricht den Grundlagen zur Berechnung eines Erwartungswertes: 0.2*0.2 + 0.8*0.8 = 0.04+0.64 = 0.68.
Zur Prüfung der Richtigkeit dieser Zahl bediene ich mich doch einmal eines anschaulichen LaPlace Experiments: Wir würfeln 600 mal und es geschieht durch einen Zufall, dass tatsächlich die 6 zu 100 mal gewürfelt wird (was ja trotzdem theoretisch der wahrscheinlichste Ausgang einer Vielzahl von Möglichkeiten ist). Nun haben wir der Einfachheit halber und realitätsentfremdet (in Wirklichkeit kennen wir auch diese Wahrscheinlichkeit nicht aber wir haben wohl eher eine gute Näherung) auch tatsächlich jedes Mal 16.66% und 83.33% für Eintreten und Nichteintreten aufgeschrieben.
In Spalte 4 ist unser Ergebnis einfach zu berechnen: 100*0.1666 + 500*0.8333 = 433.33. Das ist die Summe. Geteilt durch die Anzahl der Versuche, um den Durchschnitt zu berechnen: 4333.33/600 = 0.7222. Aber was haben wir erwartet? Nun, nach der obigen Formel pro Zeile 0.1666*0.1666 + 0.8333*0.8333 = 1/6*1/6 + 5/6*5/6 = 26/36 = 0.7222. Die Werte sind also identisch. 0.7222 ist also die durchschnittlich erwartete Wahrscheinlichkeit und sollte, bei Kenntnis der Wahrheit, sich diese Kenntnis auch durchsetzen (was nach gewissen mathematischen Gesetzen ja langfristig der Fall sein soll, sprich: die relative Häufigkeit nähert sich beliebig nahe an die Eintrittswahrscheinlichkeit an), dann erzielen wir blendende Ergebnisse (die durchschnittlich erwartete Wahrscheinlichkeit ist beliebig nahe an der durchschnittlich eingetretenen Wahrscheinlichkeit),
Bei Unkenntnis der tatsächlichen Wahrscheinlichkeit erzielen wir nun also irgendwelche Ergebnisse, die noch zu interpretieren sind. Als Grundlage haben wir hier nur unsere Einschätzung der Wahrscheinlichkeiten, wir kennen aber nicht die wirkliche. Sagen wir also 20-80 vorher, tatsächlich ist es aber umgekehrt 80-20, so erreichen wir folgendes: Wir nehmen an, dass die durchschnittlich erwartete Wahrscheinlichkeit 0.68 ist, was sogar in diesem Falle stimmt. Tatsächlich wird aber zu 80% eine 20 in Spalte 4 stehen, zu 20% eine 80. Wir würden also fälschlicherweise .68 erwarten, aber der Kenner der W-keit wüsste, dass der erwartete Wert = 0.8*0.2 + 0.2*0.8 = 0.32 ist, was sich eben bei einem einzelnen Ereignis nicht auswirkt. Bei konsekutiven Fehlern würden wir also langfristig erheblich von unserem Erwartungswert abweichen. Dies genau bringt die Anlagedatei „Vorhersageprüfung“ zum Ausdruck.
Ich möchte nur noch kurz den Begriff „Festlegung“ erklären: Sollte also jemand sagen (was auch einer der Teilnehmer im Experiment tut, dessen Ergebnis ist aber höchstlangweilig), ich weiss nicht ob es regnet oder nicht regnet, dieser Mensch „legt sich nicht fest“, er sagt quasi 50% ja, 50% nein. Dessen Erwartungswert ist auch einfach zu berechnen: 0.5*0.5 + 0.5*0.5 = 0.5. Und tatsächlich erreicht er diesen Wert auch. Umgangssprachlich auch sofort einleuchtend: er sagt: es regnet oder es regnet nicht und tatsächlich: es regnet oder es regnet nicht (erinnert mich an meinen Hund Waldi, der gehorcht mir aufs Wort. Wenn ich sage „Komm her oder nicht“, dann kommt er her oder nicht).
Sollte das Zufallsexperiment eine Festlegung zulassen (was zB beim Münzwurf ja nicht der Fall sein soll) sprich: die durchschnittlich erwartete Wahrscheinlichkeit ist wirklich grösser als 50%, dann kann man mit der minimalen Festlegung (also gar keiner) zwar ein scheinbar gutes Ergebnis erreichen (50 erwartet, 50 eingetreten), derjenige der aber die mögliche Festlegung trifft (sagen wir sie liegt bei 58%, das entspricht zB 30-70, also 0.3*0.3 + 0.7*0.7 = 0.58) und er erreicht 58%, dann ist er offensichtlich besser als der 50-50 Mann. Aber selbst wenn er nur 57% oder 59% erreicht, würde ich das Ergebnis noch als „besser“ interpretieren, weil er sich der offensichtlich möglichen Festlegung gut angenähert hat. Das Ziel bei dem Spiel ist es, eine der Realität möglichst nahe kommende Festlegung vorherzusagen (besser: sich darauf einzulassen), und zugleich diesem Wert möglichst nahe zu kommen.
In dem vorliegenden Experiment haben sich ein paar Vorhersager an den Start begeben:
Der erste ist leider gleich der Beste, denn er kennt die Wahrscheinlichkeiten (das ist übrigens völlig realitätsfern, nur zur Anschauung gedacht). Dieser Mensch trifft aber erstaunlicherweise auch nicht exakt sondern hat regelmäßig eine Abweichung in der Summe eingetretene – erwartete Wahrscheinlichkeit. Was eben daran liegt, dass es trotz Kenntnis der Wahrscheinlichkeiten ein Zufallsexperiment bleibt.
Der zweite Teilnehmer ist der ahnungslose Langweiler, der kein Risiko eingeht und einfach 50-50 sagt. Der dritte versucht, ein gutes Ergebnis zu erzielen, indem er immer auf das Ereignis, was Favorit ist, 99% vorhersagt. Da dies nicht der Realität entspricht, hat er natürlich eine große Abweichung erwartete-eingetroffene durchschnittliche W-keit, aber seine durchschnittlich erwartete liegt dennoch weit oberhalb der aller anderen. Die Größe der Abweichung spricht aber Bände – er hat sich zu sehr festgelegt.
Der vierte ist der größte Konkurrent für den perfekten. Er hat zwar regelmäßig eine kleine Abweichung von der Realität, trifft diese aber relativ gut (die Zusatzspalten für diesen dienen lediglich der Bestimmung der Abweichung, welche mathematisch korrekt in einem vorgegebenen Rahmen gehalten werden musste).
Der letzte nun legt sich zwar im angemessenen Rahmen fest, da er aber lediglich „rät“ erreicht er mit der durchschnittlich eingetroffenen W-keit auch nur 50%,, wie der Langweiler. Er ist aber der Aufschneider, der etwas zu wissen vorgibt und trotzdem keine Ahnung hat. Dessen Ergebnis wird sogar noch schlechter als das des ahnungslosen Langweilers, da Letzterer wenigstens zugibt, nichts zu wissen (schlechter, da er im Gegensatz zu dem Langweiler eine Abweichung erwartet-eingetroffen erzielt).