Die Mathematik des Fußballs
1) Noch ein paar allgemeine Erwägungen
Die Aufgabe, vor der man steht, wenn man den Fußball mathematisch „in den Griff“ bekommen möchte, ist eine nicht ganz leichte. Zunächst mal benötigt man natürlich die erforderliche Weltanschauung, um überhaupt einen mathematischen Ansatz finden zu können, besser ausgedrückt, sich auf die Suche zu begeben. Die grundsätzliche Weltanschauung ist die, dass es sich bei einem Fußballspiel um ein Zufallsexperiment mit unbestimmtem Ausgang handelt. Es ist nicht tatsächlich vorhersagbar, wie ein Spiel enden wird. Es mag Favoriten und Außenseiter geben, aber auch dann bleibt es dabei: Es gibt lediglich mehr oder weniger große Wahrscheinlichkeiten für den Eintritt eines jeden möglichen Ausgangs dieses Zufallsexperiments.
Im speziellen ist ein Fußballspiel, in Anlehnung an das Kapitel „Wie entsteht eine Quote“,ein Sport betrieben von Individuen, der ein perfektes Beispiel liefert für die These, dass ein jedes in der Praxis durchgeführtes Zufallsexperiment eine Mischung aus vollkommener Berechenbarkeit und absolutem Chaos darstellt.
Ich liefere gerne noch eine Erörterung, auch an dieser Stelle hier: Das „absolute Chaos“ hört sich ja ziemlich unerfreulich an. Es drückt aber, in mathematischem Sinne, nur die Nichtvorhersagbarkeit aus. Wenn wir also ein Fußballspiel hernehmen, bei dem, wie uns die Medien immer so schön auftischen, „letztendlich nur die Tore zählen“, also die Tore beider Mannschaften nach 90 Minuten aufaddieren, dann stellen wir fest, dass es drei mögliche Ausgänge dieses Zufallsexperiments gibt: Mannschaft 1 hat mehr Tore erzielt, ist damit Sieger (dieses Spiels), Mannschaft 2 hat mehr Tore erzielt und ist Sieger oder beide Mannschaften haben gleich viel Tore erzielt, das Spiel wird Unentschieden gewertet (der Sonderfall eines Pokalspiels, bei dem womöglich doch noch per Verlängerung und Elfmeterschiessen ein Sieger ermittelt werden muss, soll uns hier zunächst nicht interessieren; man betrachtet einfach immer den regulären Schlusspfiff nach 90 Minuten).
Das absolute Chaos würde also bedeuten, dass wir keine Ahnung haben, ob Mannschaft 1 gewinnt, das Spiel Unentschieden ausgeht oder Mannschaft 2 gewinnt. Wenn wir also ohne jede Vorkenntnis herangehen, müssten wir erstmal sagen, auch vom Würfelbeispiel entlehnt: „Da ich es nicht besser weiß, nehme ich an, alle Ausgänge sind gleichwahrscheinlich.“
Der Gegensatz dazu wäre aber „die vollkommene Berechenbarkeit“. Ein Ergebnis dessen könnte so aussehen: „Ich weiß, wie das Spiel nachher ausgeht. Deutschland gewinnt.“ (Und das stimmt natürlich. Aber nur, weil es Deutschland ist.)
Die Wahrheit darüber liegt fast selbstverständlich in der Mitte. Ein Teil ist Chaos, hier sollten wir es besser nennen, Zufällen untergeordnet. Ein anderer Teil ist ganz sicher berechenbar. Dabei ist der berechenbare Teil nur insoweit als berechenbar zu verstehen, dass man die Wahrscheinlichkeitsverteilung ein wenig verschieben kann, und zwar so, wie es best möglich die Realität abbildet.
Als reines Zufallsexperiment mit drei Ausgängen würde es eine Wahrscheinlichkeitsverteilung von 1/3 für Sieg Mannschaft 1, 1/3 für Sieg Mannschaft 2 und 1/3 für das Unentschieden (oder Remis), verlangen, erzwingen. Das wäre die Nichtvorhersagbarkeit also; das Chaos; das reine Zufallsexperiment; das LaPlace Experiment. Die Verschiebung der Chancenverteilung wäre in eine Richtung wie 50% Sieg Mannschaft 1, 30% Remis und 20% Mannschaft 2 oder irgendeine andere, von der Gleichverteilung abweichende Prognose.
Es ist durch individuelle und auch mannschaftliche Befähigungen (ich erinnere: Ein Team ist mehr als die Summe der Einzelspieler) offensichtlich, dass eine derartige Verschiebung vorliegt. Es gibt Vereine mit größeren finanziellen Mitteln, die sich sowohl in der Vereinsstruktur, den Trainingsmöglichkeiten, den Trainern und letztendlich auch den Spielern selber bemerkbar macht (machen kann).
Die Vereine arbeiten sozusagen daran, die Chancen zu ihren Gunsten zu verschieben. Es ist gar die Absicht, keine Gleichverteilung zu erzielen. Es muss immer die Favoriten geben (und deren Stürze). Die Überraschungen bringen die Würze. Das Spiel selber birgt auch genügend Zufälligkeiten, die den Spielausgang beeinflussen können. Kleinere Vereine sind oft bestrebt (in der jeweiligen Spielklasse) nur „konkurrenzfähig“ zu sein. Andere sind zum Erfolg verurteilt. Dieser Druck kann gelegentlich auch lähmen. Überflieger zu werden ist manchmal ganz einfach, da der Druck nicht besteht. Das aufrecht zu erhalten kann die wesentlich größere Aufgabe sein, weil durch Erfolge ein Erwartungsdruck entsteht.
Inwieweit das zur Vorhersagbarkeit ausreicht beziehungsweise wie sehr sich diese Verschiebung der Chancenverteilung berechnen lässt, ist der Auftrag, dem ich mich mit meinem Programm gewidmet habe.
Was die Messung der letztendlichen Qualität der Prognosen angeht, gibt es einerseits ein langjähriges finanzielles Ergebnis aber andererseits auch eine statistische Methode, die sich zur Prüfung eignet. Das ist nachzulesen im Kapitel „Prüfung der Prognosequalität“.
—— Noch zu überarbeiten (oder löschen) ab hier
Wenn man meine Vorgeschichte mit einbezieht, dann war es durch die Erfindung des Computers quasi vorgezeichnet, dass ich eines Tages mit dessen Hilfe meine Kinderspielkarriere im Erwachsenenalter fortsetze und den Computer zu diesem Zwecke verwende.
Eine gewisse Begabung für Zahlen und Computerlogik darf ich mir ganz unbescheiden einfach mal unterstellen. Diese tat ein Übriges, so dass ich mich fast zwangsläufig eines Tages mit dem Problem beschäftigt habe, wie man den Fußball mathematisch in den Griff bekommen kann.
Welche Steuerungsparameter dazu erforderlich waren, zeichnete sich bereits ab früher Kindheit ab, zumindest dass mir ihr Vorhandensein bekannt war. Die wesentlichen dabei sind ganz offensichtlich der Toreschnitt und der Heimvorteil. Dazu gibt es dann noch die Spielstärke, die ich bereits als Kind versucht habe, anhand der Tabellenpositionen mit zu berücksichtigen. Das reicht zwar nicht aus, ist aber immerhin ein Anfang.
2) Die ultimative Idee
Die Grundidee besteht darin, alle möglichen Ausgänge eines Fußballspiels in ihrer Eintrittswahrscheinlichkeit zu bestimmen. Dabei sind die möglichen Ausgänge ganz konkret die Ergebnisse. 2:1, 3:3, 0:0, 4:2, das sind Fußballergebnisse. Wenn man diese alle hätte, hätte man auch die Wahrscheinlichkeiten, dass die eine oder die andere Mannschaft gewinnt oder das Spiel Unentschieden endet.
Beim Fußball sind die wesentlichen Merkmale die Tore, die beide Mannschaften im Spiel gegeneinander erzielen. Diese Toranzahl, die die beiden Mannschaften erzielen werden habe ich aber, im Gegensatz zum Wahrsager, versucht, als Torerwartungen auszudrücken. Der Wahrsager versucht, aus seiner Glaskugel den Ausgang abzulesen, ich hingegen versuche mithilfe der Torerwartungen möglichst gut zu liegen und daraus die veränderte Chancenverteilung abzulesen.
Wenn einem das gelingen sollte und man möglichst realistische Torerwartungen für ein Spiel hat, dann steht man immer noch vor dem nächsten Problem. Dieses Problem besteht darin, aus den Torerwartungen die Wahrscheinlichkeiten für Sieg-Unentschieden-Niederlage abzulesen. Wie man das machen kann, stelle ich nachfolgend dar. Nur will ich zunächst auf die Konsequenzen aufmerksam machen, die es hat, wenn es einem gelingen sollte.
Denn: Wenn man dann die Ausgangswahrscheinlichkeiten für ein einzelnes Spiel kennt, kann man daraus auch die Ausgangswahrscheinlichkeiten für ein ganzes Turnier bestimmen. Sei es eine Welt- oder Europameisterschaft oder auch eine ganze Spielzeit. Selbstverständlich nicht nur die Bundesliga sondern weltweit für alle Ligen, die erfasst werden. Geeignet sind dabei die, wo man ausreichend Informationen bekommt, um sich an eine Einschätzung für die teilnehmenden Mannschaften heranzuwagen.
3) Die Umsetzung
Wir haben also zwei Aufgaben: Zunächst müssen die Torerwartungen für ein bestimmtes Spiel anhand der Parameter, die zur Verfügung gestellt sind, möglichst realistisch aber mathematisch logisch berechnet werden.
Wenn man diese dann hat, muss man diese Torerwartungen noch umrechnen in 1-X-2 Wahrscheinlichkeiten, die „Tendenzen.
Jetzt muss ich mal wieder einen Begriff definieren oder in seiner Verwendung eindeutig machen: Das Ergebnis eines Spieles ist beispielsweise 2:1, 4:0, 2:2, 0:3 oder 1:1. Das sind die exakten Ergebnisse. Diese ergeben bei Vergleich eine „Tendenz“. Diese Tendenz nenne ich dann entweder Tendenz oder 1-X-2, Sieg – Unentschieden – Niederlage.
Aber wie soll man die Wahrscheinlichkeiten für die Ergebnisse herausbekommen? Das Zauberwort hierfür lautet „Simulation“.
Mithilfe dieser Simulation könnte man Wahrscheinlichkeiten herausbekommen. Denn: eine Simulation reflektiert nach Möglichkeit die Realität. Der Ausgang ist nach wie vor Zufälligkeiten unterworfen. Auch ein hoher Favorit kann straucheln, die Frage ist immer, wie wahrscheinlich das geschieht. Die Simulation wird also nicht nur einmal sondern 1000, 5000 Mal durchgeführt (Computer können so was, und Sie würden es nicht gleichzeitig schaffen, einmal mit den Fingern zu schnippen). Nach einer hohen Anzahl sieht man dann, wie häufig dieses oder jenes Ergebnis eingetreten ist. Wie oft hat der Favorit tatsächlich gewonnen, wie oft nur Unentschieden gespielt und wie oft gar der Außenseiter gewonnen.
Ich gehe weiter aber Schritt für Schritt vor und wir schauen zunächst auf…
—— Noch zu überarbeiten (oder löschen) bis hier
4) Die Parameter und Rechenvorschrift
Wenn man sich an ein solches Problem mathematisch heranwagt, dann stellt sich immer die Frage nach der Parametrisierbarkeit. Ist der Fußball parametrisierbar? Die Antwort darauf lautet natürlich: Ja. Die Frage ist nur, welche Parameter man für erheblich erklärt. Es gibt auch hierbei verschiedene Ansätze, ich selber hatte ja früher auch bereits zumindest einen anderen Weg gewählt (dieser war nicht ausreichend gut, wie ich bald feststellte) und habe gar nach der Umsetzung meines derzeit noch verwendeten Systems zwei weitere Ansätze gefunden, die beide auch ihre Stärken und Schwächen haben.
Ich erläutere hier aber zunächst nur den derzeit von mir verwendeten, kann aber gerne auch dessen Schwächen noch abschließend erwähnen.
Also dass es Parameter gibt, die für die Chancenverteilung in einem Fußballspiel Ausschlag gebend sind, ist für mich offensichtlich. Die Frage ist, welche es sind. Dann gibt es immer eine weitere Frage, die da lautet: Was sind die allgemeinen Parameter und welches sind die spezifischen Parameter.
Die allgemeinen Parameter, die für mich ganz offensichtlich vorliegen, sind der Toreschnitt und der Heimvorteil. Es gibt einen langjährigen Toreschnitt und es gibt einen langjährigen Heimvorteil, der sich einfach herausstellt, der offensichtlich ist: Die Heimmannschaften gewinnen deutlich mehr Spiele.
Die spezifischen Parameter sind die Spielstärken der Mannschaften.
Nun, wie drückt man am besten die Spielstärke einer Mannschaft aus in einem Spiel, wo es darum geht, möglichst viele Tore zu erzielen und gleichzeitig möglichst wenig zu kassieren? In dieser Frage steckt die Antwort:
Indem man jeder Mannschaft eine Offensivstärke und eine Defensivstärke gibt. Diese Offensivstärke misst man am besten in einer durchschnittlich erzielten Anzahl von Toren pro Spiel. Also Tore, die sie im Durchschnitt erzielen werden. Die Defensivstärke wird in einer Zahl ausgedrückt, wie viele Tore sie im Schnitt kassieren wird. Beide Zahlen zusammen machen ihre Spielstärke aus.
Jetzt muss zunächst noch der Begriff „im Schnitt“ erläutert werden. Am besten funktioniert mein System für den Ligabetrieb, der aber auch den Großteil der Sportveranstaltungen ausmacht. Man spricht in dem Zusammenhang auch gerne vom „Alltag“ für den Fußballprofi. Also im Schnitt bedeutet in dem Fall, dass die Torerwartungen einer Mannschaft die Erwartungen gegen alle Mannschaften einer Liga widerspiegeln, die sie im Verlaufe der Saison in den Hin- und Rückspielen erzielen müssten und die sie kassieren müssten. Am besten erklärt man das, wie üblich, am Beispiel: Bayern München hatte in der letzten Saison (2007/2008) ein Torverhältnis von 68:21. Das ganze erzielt in 34 Spielen macht bei Division 2 : 0.62. Also in etwa müsste ihre Spielstärke diesen beiden Werten entsprechen. Die Offensivstärke ist in etwa 2.0 (die erzielten Tore pro Spiel), ihre Defensivstärke ist 0.62 (die kassierten Tore pro Spiel).
Um das ganze etwas weniger trocken zu gestalten, habe ich gleich mal aus Neugier meine Datenbank befragt, wie sich Realität und Prognostik in Falle Bayern München für die Saison 2007/2008 zueinander verhielten. Und meine Datenbank sagte folgendes: Die Summe aller Erwartungen der Spiele von Bayern in der letzten Saison war 63.31 : 25.53. Also in der Offensive habe ich Bayern relativ gut (bis sehr gut) eingeschätzt, in der Defensive hat es gehapert: Ich habe ihnen zu wenig zugetraut, also sie haben 4.5 Tore weniger kassiert als von meinem Computer erwartet (das muss einfach am „Titan Kahn“ liegen, oder?). Aber dennoch. Als Mathematiker sage ich „tolerabel“. Es müsste jemand alternative Prognosen gemacht haben und mir zeigen, dass diese besser waren.
So verhält es sich bei jeder Mannschaft. Ihre Spielstärke wird ausgedrückt als Tore, die sie im Schnitt gegen alle Mannschaften erzielen (müsste). Das gleiche gilt für die Gegentore. Diese spezifischen Parameter sind also Maß für die Spielstärke. Wie viele Tore erwarte ich, die sie erzielen, wie viele erwarte ich, dass sie kassieren.
Wenn jetzt ein konkretes Spiel stattfindet, dann haben wir also in der Theorie zumindest erst mal zwei Spielstärken. Der Heimvorteil gilt im Prinzip Ligaweit. Nur habe ich von Anfang an festgelegt (und davor festgestellt), dass der Heimvorteil ebenfalls individuell gepflegt werden muss. Es gibt also Mannschaften, die eher heimstark und solche die eher heimschwach oder auch auswärtsstark sind. Allerdings kann sich so etwas Saison übergreifend auch ändern.
Jetzt ist es aber gleich so weit: Wir haben zwei Spielstärken, die spezifischen Parameter, und zwei Heimvorteile, ebenfalls spezifisch. Und wir haben einen Toreschnitt und einen durchschnittlichen Heimvorteil. Das sind die allgemeinen Parameter. Nun müssen diese Werte zur Prognose der Torerwartungen für ein spezielles Spiel miteinander verrechnet werden.
Anmerkung: Die Parameter sind allesamt nicht starr. Die Spielstärkeparameter drücken die Spielstärke immer nur zu dem aktuellen Zeitpunkt. Ebenso der spezifische Heimvorteil. Sie müssen ständig gepflegt (also „updated“ werden, siehe Abschnitt „Spielstärkeupdate“).
Ebenso werden übrigens die allgemeinen Parameter durch die Anpassung der spezifischen Parameter mit gepflegt und verändert, updated.
Beim Suchen nach einer Formel muss man immer bestimmte Grundbedingungen beachten: Die Formel muss für die einfachsten Fälle gültig sein. Also ein einfacher hypothetischer Fall ist der: Bayern spielt, zunächst auf neutralem Platz gegen eine genau durchschnittliche Mannschaft. Dann müssen selbstverständlich als Torerwartung für dieses Spiel ihre eigenen Torerwartungen herauskommen. Also, die Saison 2007/2008 war eine recht erfolgreiche für Bayern. Sie lagen, auch in Qualität des Torverhältnisses, oberhalb ihres langjährigen Durchschnitts. Der langjährige Durchschnitt ist so in etwa 2:1. Sie erzielen 2 Tore pro Spiel und kassieren 1 Tor. Also nehmen wir ihre Spielstärke mal als 2:1 an. Wenn ich nun im besagten Spiel die Torerwartung für das Spiel berechne, muss 2:1 herauskommen.
Der Mathematiker hat im Allgemeinen eine bestimmte Krankheit. Das ist das Ausdrücken von Variablen und Parametern in Abkürzungen. Nur ist es teilweise auch nützlich und erforderlich, um eine Formel überhaupt niederschreiben zu können. Die intuitive Begründung bemühe ich mich, wie gewohnt, aber mitzuliefern. Also die Parameter sind die folgenden: Tew1, Gtew1, Tew2, Gtew2, DT. Diese bezeichnen im Einzelnen: Tew1 = Torerwartung Mannschaft 1. Gtew1 = Gegentorerwartung Mannschaft 1. Das Gleiche für Mannschaft 2. DT sind die Durchschnittstore, ein allgemeiner Parameter, die eine Mannschaft durchschnittlich erzielen müsste. Da zwei Mannschaften an einem Spiel beteiligt sind ist es also die Hälfte des Toreschnitts. DT ist also = Toreschnitt/2.
Wie verrechnen wir nun diese Parameter miteinander? Das ist, wie üblich, am besten anschaulich zu erklären und am Beispiel deutlich zu machen:
Anschaulich betrachtet errechnen wir zunächst, wie viele Tore Mannschaft 1 mehr/weniger als der Durchschnitt erzielt. Ausgedrückt wird das durch den Quotienten von Tew1/DT. Wenn sie also in der Offensive besser ist als der Schnitt, haben wir einen Faktor größer als 1, ist sie schwächer als der Schnitt wird der Faktor kleiner als 1. Es ist ihr Verhältnis zur Durchschnittmannschaft in der Offensive. Als zweites errechnen wir, wie viele Tore Mannschaft 2 mehr/weniger als der Durchschnitt kassiert. Warum wir das berechnen ist eigentlich klar: Die beiden Werte „wie viele Tore mehr/weniger als der Schnitt erzielt Mannschaft 1“ und „wie viele Tore mehr/weniger als der Schnitt kassiert Mannschaft 2“ gehören zusammen. Wir wollen ja die konkrete Torerwartung für das Spiel herausbekommen und dazu zunächst errechnen, wie viele Tore Mannschaft 1 in diesem konkreten Spiel erzielt (natürlich nur als Erwartungswert).
Als zweites berechnen wir den Quotienten für Mannschaft 2. Für Mannschaft 2 müssen wir aber ihre Abwehrstärke berücksichtigen. Diese Abwehrstärke wird analog zu den Toren, die Mannschaft 1 mehr/weniger als der Schnitt erzielt, berechnet. Also ist es der Quotient von Gtew2/DT. Das drückt exakt aus, was wir wissen wollen. Genauso bekommen wir hier einen Wert von größer als 1, wenn die Mannschaft schlechter ist als der Schnitt (sie kassiert also mehr Tore als der Schnitt) und kleiner als 1, wenn sie defensivstark ist.
Diese beiden errechneten Werte wirken in die gleiche Richtung. Wenn Mannschaft 1 mehr Tore als der Schnitt erzielt, ist der erste Wert größer als 1, wenn Mannschaft 2 mehr Tore als der Schnitt kassiert, dann ist der Wert auch größer 1. Und die erzielten Tore von Mannschaft 1 sind ja in diesem Spiel die kassierten von Mannschaft 2. Insofern ist die Rechenoperation, die man dann verwenden muss, auch klar: Man muss die Werte miteinander multiplizieren. Zwei Faktoren größer 1: Das Produkt wird noch größer. Also eine offensivstarke gegen eine defensivschwache Mannschaft ergibt logischerweise ein „Torfestival“, allerdings nur in der Erwartung. Beide Faktoren kleiner als 1 bedeutet: Der Wert wird durch Multiplikation weiter reduziert. Aber auch korrekt: Eine Offensivschwache Mannschaft trifft auf eine defensivstarke Mannschaft. Wie soll sie da Tore erzielen? Der Wert wird klein. Entsprechend verhält es sich natürlich ebenso korrekt, wenn eine offensivstarke auf eine defensivstarke trifft: Ein Wert geht über 1, einer unter 1, ergibt in der Multiplikation wieder einen Wert in der Nähe von 1, was aber auch korrekt ist. Die Reporter reden dann gerne davon, dass sich die Mannschaften „neutralisieren“. Und haben nicht mal ganz Unrecht.
Also gut, nach der Multiplikation der beiden Werte haben wir einen neuerlichen Faktor. Je nach Offensivstärke von Mannschaft 1 und Defensivstärke von Mannschaft 2 ist dieser Wert dann groß oder klein, größer als 1 oder kleiner als 1. Dieser Wert drückt aus, wie viele Tore mehr/weniger als der Schnitt Mannschaft 1 in diesem konkreten Spiel gegen Mannschaft 2 erzielen müsste. Der errechnete Wert muss also abschließend noch mit DT multipliziert werden. In diesem konkreten Spiel erwarte ich für Mannschaft 1 die Tore mehr/weniger als der Schnitt, den eine Mannschaft im Spiel erzielen müsste.
Abschließend fasse ich noch mal alle Rechenschritte zusammen und setze extra (überflüssige) Klammern, um die Werte auseinander zu halten: Wir berechnen (Tew1/DT). Anschließend berechnen wir (Gtew2/DT). Dann multiplizieren wir diese Werte miteinander und erhalten (Tew1/DT)(Gtew2/DT). Und ganz am Schluss müssen wir das noch mit DT multiplizieren. Ergibt (Tew1/DT)(Gtew2/DT) * DT.
Bedauerlicherweise setzt sich beim Mathematiker dann immer sein Vereinfachungsdrang durch. Der führt zu der ebenso bedauerlichen Erkenntnis, dass man den abschließenden Ausdruck „kürzen“ kann. Man kann das abschließende DT, was als Faktor auftaucht, gegen einen der im Quotienten stehenden DT, „kürzen“, also beide damit komplett eliminieren. Um Anschaulichkeit machen sich Mathematiker keinerlei Gedanken. Ich will es auch nur erwähnt haben: Die letztendliche Formel lautet also: Tew1*Gtew2/DT. So einfach wie möglich. Drei Parameter, zwei gehören in den Zähler, einer in den Nenner. Das wars. Formeln finden ist ein bisschen wie Brezeln backen. Und das kann ich nun wirklich überhaupt nicht.
5) Ein paar Beispiele
Wenn wir die Werte einsetzen für den einfachsten Fall kommt natürlich das Richtige heraus:
Die Rechnung geht so: Der langjährige (letzten 10 Jahre) Toreschnitt in der Bundesliga ist bei 2.84 Toren. Also hat die Durchschnittsmannschaft eine Torerwartung von 1.42:1.42. Der Wert DT ist also 1.42. Bayern hat die Werte 2 und 1 für Tew1 und Gtew1, die Durchschnittsmannschaft hat langweiligerweise die Werte 1.42:1.42. Also ergibt die Multiplikation 21.42/1.42 = 2 und 11.42/1.42 = 1 für die erwarteten Tore (und Gegentore) für dieses Spiel. Also exakt die 2:1, die Bayern eben als Spielstärke hat.
Für ein anderes Spiel berechne ich noch einmal beispielhaft konkret, allerdings weiterhin auf neutralem Platz, das heißt ohne den Parameter Heimvorteil.
Ich drucke vorab gar noch eine aktuelle Tabelle, dann kann man die Werte auch ein wenig prüfen und vielleicht dadurch besser einschätzen:
Wir nehmen mal das Spiel Werder Bremen – 1.FC Köln vom 15.11.2008. Der aktuelle Toreschnitt in der Liga beträgt zur Zeit 2.94, es sind in letzter Zeit also mehr Tore gefallen als im langjährigen Schnitt. Die Spielstärke von Werder Bremen ist 2.02:1.43. Sie haben also sehr viele Tore erzielt, dafür aber auch viele kassiert (denn die Summe der Werte ist ja 3.45, also höher als der Toreschnitt). 1.FC Köln hat bisher eine sehr gute Saison. Sie sind aber als Aufsteiger natürlich noch nicht so hoch einzuschätzen wie ihr aktueller Tabellenplatz. Ihre aktuelle Spielstärke beträgt 1.31:1.43.
Daraus ergibt sich für das Spiel als Erwartung für von Werder Bremen erzielte Tore zunächst der Wert 2.02/1.47. 1.47 ist DT, denn Toreschnitt = 2.94, geteilt durch 2 = 1.47. Das ist der Faktor, der misst, wie viele Tore Werder mehr als der Schnitt erzielt. Der Wert 2.02/1.47 ist 1.374. Köln kassiert 1.43, also sogar etwas weniger als der Schnitt (man beachte auch ihr aktuelles Torverhältnis: 13-14, 14 sind weniger als der Schnitt). Als Faktor ist das 1.43/1.47 = 0.973. Multiplikation der Faktoren ergibt 1.374*0.973 = 1.337. Werder erzielt deutlich mehr als der Schnitt, Faktor 1.374, Köln kassiert weniger als der Schnitt, Faktor 0.973. Er gibt für dieses Spiel den Faktor 1.337. Der Wert ist kleiner als der Wert für Werder allein, da Kölns Wert entgegenwirkt. Ausmultipliziert mit DT ergibt 1.337 * 1.47 = 1.965. Das ist Werders Torerwartung für dieses Spiel (auf neutralem Platz!).
Entsprechend für Kölns erwartete erzielte Tore in diesem Spiel: Ihr Faktor ist 1.31/1.47 = 0.891. Sie erzielen also deutlich weniger Tore als der Schnitt. Werder kassiert 1.43, obwohl viel (für eine Spitzenmannschaft) aber immer noch weniger als der Durchschnitt. Als Faktor ausgedrückt: 1.43/1.47 = 0.973 (kurioserweise der gleiche Wert wie bei Kölns Gegentoren; reiner Zufall). Ausmultipliziert 0.891 * 0.973 = 0.867. Also Köln erzielt in diesem Spiel einen um diesen Faktor geringeren Wert als der Schnitt. Multiplikation ergibt 0.867 * DT, also 0.867 * 1.47 = 1.274. Wir haben die beiden Werte für dieses Spiel heraus: Werder Bremen – 1.FC Köln (auf neutralem Platz) ergibt eine Torerwartung von 1.965 : 1.274.
Werder bleibt, trotz der schlechteren Tabellenposition, Favorit. Das würde garantiert auch jeder Buchmacher so machen.
Die Verwendung des Parameters Heimvorteil geschieht analog. Er wird überall nur dazu multipliziert. Individuell, da er für die Mannschaften selber unterschiedlich sein kann. Auch da wird der Durchschnittswert mit einbezogen. Also da lautet die analoge Fragestellung: Wie viel Tore erzielt Mannschaft 1 mehr(oder weniger; der Faktor bewegt sich immer um die 1; bei 1 ist es der Schnitt, kleiner 1 wird es weniger, größer 1 mehr als Schnitt) als die durchschnittliche Heimmannschaft und wie viele kassiert Mannschaft 2 mehr (oder weniger) als die durchschnittliche Auswärtsmannschaft. Ich spare mir hier aber die Formel. Sie wird nur etwas komplizierter. Für die Behandlung des Problems grundsätzlich bringt das keine weitere Erhellung, wie ich finde.
6) Simulation
Nachdem man also die Torerwartungen für ein konkretes Spiel auf diese Art und Weise korrekt berechnet hat ist die Frage, wie man nun Einschätzungen für die Wahrscheinlichkeiten daraus ableiten soll. Ich habe meine Kindheitserinnerungen genutzt und hatte die Idee: Simulieren. Das, was ich auch damals schon immer getan habe. Die Voraussetzungen waren nur jetzt wesentlich besser: Der maximale Realismus. Ich habe dazu meine Fußballkenntnisse aber auch noch benötigt. Und zwar auf zwei Arten: Erstmal habe ich die Torerwartungen auf die 90 Minuten aufgeteilt. Jede Minute hatte praktisch jede Mannschaft eine Chance für einen Angriff. Und ihre Wahrscheinlichkeit, ein Tor zu erzielen, lag bei der Division von der berechneten Anzahl Toren pro Mannschaft geteilt durch 90.
Leider stellt man fest, dass die Wirklichkeit sich einfach nicht so verhalten möchte, wie es sich ein kleines Mathematikerhirn am liebsten zurechtlegen würde. Die Unentschiedenhäufigkeit die bei dieser Art der Simulation herauskommt, war deutlich zu gering. Man begibt sich auf Ursachenforschung. Und hier konnte ich ein zweites Mal meinen Fußballverstand einsetzen, den ich mir durch Beobachtung zugelegt habe:
Die erste, einfachste und sofort einleuchtende Begründung ist die, dass, wenn ein Spiel Unentschieden steht, die Neigung, Risiken einzugehen, rein intuitiv gesprochen, nachlässt. Man hat ja etwas zu verlieren. Und wenn es nur der eine Punkt ist. Damals galt übrigens noch überall die Zwei-Punkte-Regel. Also es gab nur einen Punkt mehr für einen Sieg gegenüber dem Unentschieden.
Sollte ein Spiel also, sagen wir mal, 20 Minuten vor Schluss noch Unentschieden stehen finden sich beide Mannschaften allmählich mit dem einen Punkt ab. Das fördert die Tendenz zum Unentschieden. Meine Simulation war ja zunächst so aufgebaut, dass die Mannschaften unabhängig voneinander ihre Offensivstärke und Defensivstärke einsetzen. Also man müsste sich es so vorstellen, als ob beide Mannschaften hinter verschlossenen Türen Bemühungen anstellen, ein Tor zu erzielen oder besser noch so viele wie möglich. Am Ende werden die Türen geöffnet und man fragt gegenseitig: „Und, wie viele Tore habt ihr geschafft?“ und hat dadurch das Ergebnis.
In der Realität sieht es so aus, dass das Verhalten der beiden Mannschaften voneinander abhängig ist. Also jede Mannschaft hat die Möglichkeit, auf die Anzahl der erzielten Tore der gegnerischen zu reagieren und sich darauf einzustellen. Das führt einem zu dem zweiten, vielleicht nicht ganz so und auch nicht sofort, einleuchtenden Grund für die Tendenz zum Unentschieden: Wenn eine Mannschaft zurückliegt, ist es ein ganz klein wenig verwandt mit dem Gefühl, in Panik zu geraten.
Panik verleiht einem ja wirklich für den Moment zumindest übermenschliche Kräfte. Und wenn man zurückliegt, also zu verlieren droht, kann man ein wenig von diesen Kräften nutzen. „Hilfe, ich liege zurück, ich drohe, zu verlieren, jetzt muss ich mich aber doppelt anstrengen.“ Oder in der Art.
Außerdem ist übrigens für die führende Mannschaft nicht mehr rauszuholen, als sie schon erreicht hat. Sie führen und wollen nichts als den Schlusspfiff. Taktisch kann jede Veränderung nur für die zurückliegende Mannschaft von Vorteil sein. Verloren hat sie ja schon. Also kann auch im Notfall der Torwart mit angreifen.
In der Simulation musste das realistischerweise so umgesetzt werden, dass ich eine Dämpfung der Torwahrscheinlichkeiten eingeführt habe, wenn das Spiel Unentschieden steht und eine Erhöhung der Torerwartungen, wenn das Spiel unausgeglichen steht. Das ist eben die Wirklichkeit. Oftmals hört man auch Kommentare wie: „Das Spiel braucht dringend ein (das erste) Tor, um in Schwung zu kommen.“ So ist es. Dann passiert etwas. Wenn allerdings dann der Ausgleich fällt, dann werden die Bemühungen oft wieder reduziert. Sicherlich gibt es dabei individuelle Unterschiede. Dennoch: Durch diesen Eingriff habe ich die Unentschieden auf realistische Werte gebracht.
Die Eintrittswahrscheinlichkeiten können nun durch wiederholte Durchführung der Simulation für jedes Spiel bestimmt werden. Ich habe früher meist mit 5000 Durchläufen gearbeitet. Durch die Möglichkeit, einzelne Spiele zu simulieren kann man nun natürlich auch ganze Spielzeiten durchsimulieren. Also Wahrscheinlichkeiten für Langzeitwetten bestimmen, wie zum Beispiel „Wer wird Deutscher Meister“ oder „Wer steigt ab“ oder eben „Wer wird Europameister“ und so weiter. Dabei wird hier jedes Spiel nur einmal simuliert, eine ganze Saison oder EM durch, dann hat man eine Antwort für einen Durchlauf, wer Deutscher Meister wurde. Dann wird dieser Vorgang wiederholt, ebenfalls 1000 oder gar 10000 Mal. Dann hat man auch eine ganz gute Abschätzung dafür, wie wahrscheinlich es ist, dass Bayern Deutscher Meister wird (oder auch HSV).
7) Quotenformel
Wie im Kapitel „Wie entsteht eine Quote“ auch nachzulesen ist natürlich eine angebotene Quote auf ein Sportereignis aus Sicht des Buchmachers immer mit einem Gewinnvorteil berechnet. Von irgendetwas muss sich auch der Wettanbieter ernähren (zu Zweifeln diesbezüglich bitte das Buch „Beruf : Spieler“ von Dirk Paulsen besorgen). Aber wie muss man diesen Gewinnvorteil korrekt berechnen?
Um die Lösung für dieses Problem auszuführen, muss ich zunächst mal erläutern, dass es damit überhaupt ein Problem gibt. Wenn man eine Eintrittswahrscheinlichkeit hat nimmt man einfach den Kehrwert und hat die (korrekte, faire) Auszahlungsquote. Gut und schön. Und wenn man mit Gewinn kalkuliert, zieht man eben von der korrekten Auszahlungsquote etwas ab, einen bestimmten Prozentsatz zum Beispiel.
Aller einfachstes Beispiel: Ein Buchmacher bietet Quoten auf Münzwurf an. Nun, wenn man es, wie Mike gegen Jons zu nächtlicher Stunde im Schachcafé macht, gibt es über die Auszahlungsquote keine Diskussion. 2.0. Gleiches Geld, fertig. Der Wettanbieter muss von etwas leben. Also sagt er, er zahlt auf jede Seite 1.95. Der Vorteil für den Wetter: Er bekommt zwar etwas weniger als „fair“ wäre, dafür kann er sich eine Einsatzhöhe ausdenken, die ihm beliebt. Und er hat hoffentlich keinen Anlass, zu zweifeln, dass er das Geld im Gewinnfalle auch ausbezahlt bekommt.
1.95 zu zahlen auf ein Ereignis, bei dem man die Eintrittswahrscheinlichkeit einigermaßen exakt kennt erscheint vielleicht auch intuitiv weder über- nach untertrieben. Es ist realistisch. Am asiatischen Wettmarkt werden derzeit übrigens regelmäßig Wetten auf „wer hat Anstoß“ angeboten. Allerdings ist es da schon wieder kein reiner Münzwurf. Es gibt handelnde Personen, die aus Höflichkeit oder anderen Gründen die Chancen beeinflussen. Die Auszahlungsquoten sind da ähnlich aber man bekommt gelegentlich über 2.0. Woran es liegt? Keine Ahnung.
Aber bei Fußballspielen sonst, selbst wenn man die Wahrscheinlichkeit auf 50% einschätzt, würde man als Buchmacher zumindest nicht 1.95 auszahlen. Denn da gibt es noch die Unwägbarkeit der Korrektheit der Einschätzung. Also würde man bei einer Einschätzung von 50% eher 1.85 auszahlen. Das sind 15% weniger als korrekt, als die faire Quote.
Wenn man dieses Verfahren auf andere Wahrscheinlichkeiten anwendet, also grundsätzlich von seiner Einschätzung 15% der fairen Quote abzieht, stößt man sehr bald auf das Problem: Bei einer Einschätzung von sehr kleinen Wahrscheinlichkeiten, zum Beispiel 1% Eintrittswahrscheinlichkeit, wäre die faire Quote 100. 100 – 15% = 85. Man müsste bei dem Ereignis, was auf 1% geschätzt wurde eine Quote von 85 bezahlen. Ich weiß nicht, wie es Ihnen geht, aber als ich bei dieser Überlegung angelangte, wurde mir klar, dass man es nie und nimmer bezahlen würde.
Der Grund wird einem dann allmählich klar, zumindest warum man da zurückschreckt: Es ist eine sehr hohe Quote, das ist ohnehin unattraktiv. Man kann nur viel verlieren und nichts gewinnen. Aber darüber hinaus: was ist mit einem auch nur winzigen Fehler bei der Berechnung der Einschätzung? Vielleicht hat man sich um ein schäbiges Prozent vertan, die Wahrheit liegt bei 2%. Korrekt, fair wäre es also, 50 zu zahlen, den Kehrwert von 2/100, also 100/2. Und man zahlt 85? Das wäre dann ein Riesenfehler.
Also sehr kleine Wahrscheinlichkeiten unterliegen wesentlich mehr der Gefahr von Fehleinschätzungen. Wenn man umgekehrt 80% einschätzt, macht sich ein kleiner Einschätzungsfehler kaum bemerkbar. Ob nun 81 oder 79? Kaum ein Unterschied. Also zahlt man bei hohen Wahrscheinlichkeiten, bei den stabilen Werten, eher sogar etwas mehr als die faire Quote minus 15% und bei kleinen Wahrscheinlichkeiten wesentlich weniger.
Also machte ich mich auf die Suche nach einer korrekten und zuverlässigen Formel um das Problem zu lösen. Und ich wurde fündig. Und die Formel, die ich damals fand ist bis heute im Einsatz. Sie ist mathematisch absolut einwandfrei, noch dazu so parametrisiert, dass sie immer noch individuellen Wünschen anpassbar ist.
Ich notiere sie hier. Ich weiß dass ihre Bedeutung für die Menschheitsgeschichte nur gering ist, dennoch fühlte ich mich für die Zeit der Forschung und beim Entdecken ein wenig wie Einstein sich mal gefühlt haben muss. Ich hatte ein paar Voraussetzungen, was die Formel leisten musste, hatte eine gewisse, rudimentäre, Vorbildung mathematischer Art und begab mich ans Werk. Also hier jetzt die Formel:
ln((1/Wurzel(0.5 – Abs(0.5 – p) * qf)+1) / ln((1/Wurzel(0.5 – Abs(0.5 – p) * qf) * p + 1)
Ich gebe zu, dass sie nicht all zu handlich ist. Dennoch kann ich sie ganz kurz noch erklären: p ist die Wahrscheinlichkeit für das Ereignis, für welches die Quote erstellt werden soll. Der Parameter qf bezeichnet den Quotenfaktor, den man noch individuell festlegen kann. Also ein Buchmacher, der mit mehr Gewinn arbeiten will, muss diesen Wert klein halten, jemand der weniger Prozent Gewinn kalkulieren will, kann den Wert höher wählen. Realistische Werte für qf liegen zwischen 3 und 40.
Der Term 0.5 – Abs(0.5 – p) misst den Abstand des Wertes p von der Mitte, also den Abstand zu 50%. Dabei ist nur wichtig, dass ein Ereignis mit 80% gleich behandelt wird wie eines mit 20%. Durch Einsetzen erkennt man es und der Abstand zu 50% ist auch bei beiden gleich, nämlich 30%.
Eine Wurzel angewendet auf Werte zwischen 0 und 1 (und dort liegen Wahrscheinlichkeiten) bläht diese etwas auf. Also die Wurzel aus 0.6 ist zB 0.7745. Der ln, also der Logarithmus naturalis, darf einfach nicht fehlen. Die beiden Terme im Zähler und Nenner unterscheiden sich auch nur dadurch, dass der Nenner noch mit p multipliziert wird, bevor der ln darauf angewendet wird. Die Multiplikation mit p bewirkt, dass der Wert kleiner wird im Nenner. Die Addition von 1 sorgt dafür, dass der Wert vor Anwendung des ln sicher größer als 1 ist, denn alle vorherigen Werte sind positiv und zwischen 0 und 1. Und der ln auf eine Zahl größer als 1 angewendet ergibt immer eine positive Zahl. Also im Zähler und im Nenner stehen positive Zahlen. Der Zähler ist größer als der Nenner. Das hat zur Folge, dass das Ergebnis aus dieser Formel immer selber größer als 1 ist. Und derart ist es schon mal als Quote geeignet.
Eine Quote kleiner als 1 würde ja bedeuten, dass der Wetter sicher verliert. Ich präsentere gerne noch ein paar Ergebnisse, um die Formel auch so anschaulich zu machen.
Das Diagramm habe ich erstellt für Wahrscheinlichkeiten zwischen 12% und 88%. Der Grund ist der, dass die Übersichtlichkeit verloren geht, wenn man bis 0 und 100% geht. Man kann nichts mehr erkennen.
Die lila Linie repräsentiert die faire Quote, also den Kehrwert der Wahrscheinlichkeit. Die blaue Linie ist die „Bezahlquote“, die sich mithilfe meiner Formel aus der Wahrscheinlichkeit (also der fairen Quote) errechnet. Wie man sieht wird der Abstand zwischen diesen Linien immer kleiner. Bei zuverlässigen, großen Wahrscheinlichkeiten wird man etwas „mutiger“ und kalkuliert mit kleineren Gewinnerträgen. Eben wegen der zuverlässigeren Einschätzung. Dieses Diagramm wurde erstellt mit dem Quotenfaktor 6.
Um mal Werte herauszulesen und zu deuten: Wenn die faire Quote 5 ist dann wäre man bei Quotenfaktor 6 bereit, eine Quote von 3.9 zu bezahlen. Das ist durchaus realistisch. Aber doch ein relativ großer kalkulierter Gewinn. Der kalkulierte Gewinn läge bei 22.6%. Bei einer fairen Quote von 2.5 würde der Buchmacher noch eine 2.15 bezahlen. Der Vorteil wäre also, auch in Prozent kalkuliert, wesentlich kleiner, nämlich nur noch 13.2%. Die Bedingung ist erfüllt, bei kleinen Wahrscheinlichkeiten einen hohen Gewinn zu kalkulieren, aufgrund der größeren Fehleranfälligkeit, und bei hohen Wahrscheinlichkeiten einen kleinen Gewinnvorteil, wegen der größeren Zuverlässigkeit der Einschätzung.
Hier im Diagramm die Entwicklung des Gewinnvorteils:
Die Zacken geraten dort übrigens hinein, da ich bereits mit Rundung arbeite. Der Computer würde immer Quoten errechnen von 2.184 oder 3.8726. Das könnte man als Buchmacher nicht hinschreiben. Also sind die Quoten gerundet, die oberen beiden zB auf 2.15 oder 2.20 bzw. 3.9 oder 3.8. Ansonsten ist der Verlauf aber schön zu erkennen, wie ich finde. Kleine Wahrscheinlichkeit – großer kalkulierter Gewinn, große Wahrscheinlichkeit — kleiner Vorteil.
Hier ein weiteres mit dem Quotenfaktor 30:
Der Verlauf der Kurve verändert sich nicht. Nur ist dieser Anbieter sozusagen insgesamt mutiger. Verwenden kann man den Quotenfaktor individuell. Wenn also ein Anbieter sich mit einer Liga sehr gut auskennt, kann er einen hohen Wert verwenden, bei einer anderen einen kleineren.
Jetzt auch hier noch die Entwicklung des kalkulierten Gewinns:
Man sieht, dass die kalkulierten Gewinne allesamt auf einem niedrigeren Niveau sind. Die Zacken bleiben oder, man könnte hier auch ganz gut sagen: Einen Zacken schärfer. Und, um das Wortspiel auf die selbige zu treiben: Je schlechter der Rund desto spitzer der Zack. Und ich lasse Sie auch noch teilhaben an meiner allgegenwärtigen, inneren Zerrissenheit: Ich musste gleich zwei innere Kämpfe austragen für diesen Ausbund an Humorlosigkeit, und in diesem Begriff steckt quasi schon die Lösung für eines der beiden Probleme: Der erste war, ob es komischer wäre, zu schreiben, je schlechter gerundt umso spitzer der Zack. Und der zweite, ob man durch tief schürfende Analyse von Witzen die davon ausgelöste Heiterkeit entscheidend erhöhen kann?!
8) Spielstärkeupdate
Jetzt ist also das System so weit komplett. Über die Torerwartungen können die Wahrscheinlichkeiten für die Spielausgänge bestimmt werden mithilfe der Simulation. Auch langfristige Prognosen können erstellt werden. Durch die Quotenformel können wir uns sogar als Wettanbieter, als Buchmacher, versuchen. Dennoch bleibt eine Frage bei dem System offen: Wie reagiert man auf die tatsächlichen Ergebnisse?
Offensichtlich erscheint es, dass eine Spielstärkeeinschätzung mit den Ergebnissen im Zusammenhang steht. Gute Ergebnisse ergeben auch eine gute Einschätzung, schlechte eine schlechte. Aber es gibt durchaus auch Entwicklungen. Wenn ich eine Mannschaft für stark halte, sie aber immer wieder verliert, besteht ja irgendwie Handlungsbedarf. Ich habe sie vielleicht überschätzt?
Es gibt auch dabei einen ziemlich offensichtlichen Aspekt: Gute Ergebnisse haben eine positive Auswirkung auf das Selbstbewusstsein. Man verliert die Angst vor Fehlern. Selbst die Moral der ganzen Mannschaft wird verbessert. Plötzlich ist man Freund mit den Kameraden. Umgekehrt bei schlechten Ergebnissen leidet das alles. Anstatt Freunde sucht man Schuldige. Und so weiter. Also kurzum: es muss auf die Ergebnisse reagiert werden.
Wie bestimmt man aber, wie man überhaupt reagiert und wie stark man reagiert? Der erste Teil der Frage kann folgendermaßen beantwortet werden: Man reagiert, indem man die Torerwartungen der Mannschaften anpasst. Jeweils natürlich offensiv und defensiv. Und wie passt man sie an? Naja, es gibt ja für jedes Spiel eine Torerwartung und dann ein Ergebnis. Dadurch gibt es also eine Abweichung des Ergebnisses von der Prognose. Dieses ist für die eine Mannschaft günstig und für die andere Mannschaft ungünstig. Beides im Sinne dieser Torerwartung. Also wenn man zum Beispiel für ein Heimspiel Bayern gegen Bochum Torerwartungen von 2.34:0.75 errechnet hat, dann ist ein 2:1 im Sinne der Torerwartungen kein günstiges Ergebnis für Bayern, obwohl die Mannschaft (wieder mal) gewonnen hat. Ihre Spielstärke würde darunter leiden. Sie haben 0.34 Tore weniger als erwartet erzielt und 0.25 mehr kassiert als erwartet. Man würde diese beiden Werte also in die Richtung korrigieren (müssen).
Einzige offene Frage bleibt nun, wie stark man reagieren sollte. Das Kriterium ist und bleibt die bestmögliche Prognose für das folgende Spiel zu erzielen. Also anders als beim Schach (siehe Kapitel „Elo-System“), wo das prognostizieren nicht im Vordergrund (sollte es aber, nur so nebenbei), bin ich hier darauf angewiesen, die bestmögliche Anpassung zu finden.
Dazu habe ich alte Daten hergenommen. Bekannte Ergebnisse, chronologisch geordnet. Ich habe mit einer Ausgangseinschätzung angefangen und damit die Spiele des kommenden (ersten) Spieltages einer Saison prognostiziert. Dann habe ich Anpassungen vorgenommen mit einer gewissen Stärke. In der Praxis sieht das so aus, dass man die Abweichung durch einen vorgegebenen Wert dividiert. Also im obigen Beispiel dividiert man die 0.34 und die 0.25 durch einen bestimmten Wert, sagen wir mal 20, und passt für beide Mannschaften die Torerwartungen in die richtige Richtung an mit den erhaltenen Werten. Also 0.34/20 = 0.017 wird bei Bayern von der Offensiv Torerwartung abgezogen, bei Bochum wird der gleiche Wert von der Defensive abgezogen. Denn sie haben ja diese Zahl auch weniger erhalten und weniger Gegentore wirken sich positiv aus.
Dann prognostiziert man mit den neu erhaltenen Werten den nächsten Spieltag. Man erhält mit den neu berechneten Erwartungen wieder eine Abweichung zwischen den prognostizierten Werten und den eingetroffenen Werten. Diese Fehler, also die gesamten Abweichungen, werden für alle Spiele aufaddiert. Dann erhält man ein Ergebnis, den man nennen könnte „Gesamttorabweichung“.
Anschließend wiederholt man das ganze Verfahren allerdings für den Wert 21. Da reagiert man also etwas langsamer, etwas weniger stark auf ein Ergebnis. Die Fehler werden wieder für alle Spiele aufaddiert. Und dann wird dieser Gesamttorabweichung verglichen mit dem vorherigen Ergebnis. Und entweder ist 20 besser oder 21. Allmählich findet man also auf diese Art den bestmöglichen Wert, nämlich den, wo die Gesamttorabweichung am geringsten ist.
Es ist dennoch nicht ganz einfach, den optimalen Wert zu finden. Das Hauptproblem besteht in der Grundeinschätzung der Spielstärken der Mannschaften in der Vergangenheit. Wenn man diese variiert, einfach deshalb, weil man sie nicht genau kennt, dann ergeben sich unterschiedliche optimale Reaktionszeiten. Ich habe aber etliche Durchläufe zum Finden des besten Wertes gemacht und es hat sich herausgestellt, dass dieser bei 30 liegt. Also man könnte es auf zwei Arten ausdrücken: 1/30 ist der Einfluss des letzten Ergebnisses auf die Spielstärke. Oder eben so: Die letzten 30 Ergebnisse bestimmen die Spielstärke. Das hört sich auch gut an.
9) Simulationsersatzformel
Nur um das komplett zu machen: Die Simulation liefert ganz gute Ergebnisse. Der gesamte Ansatz liefert ein Gesamtgebilde, was zuverlässig zusammenarbeitet. Nur sucht man immer nach Verbesserungen. Das Problem bei einer Simulation: Die Ergebnisse sind nicht immer die gleichen. Wenn ich also bei zwei Spielen die identischen Torerwartungen habe, würde der Computer einmal eine Wahrscheinlichkeit von sagen wir 53.48% auf Sieg berechnen, ein anderes Mal 52.09%. Das kann im Rahmen einer Simulation schon mal vorkommen.
Also sucht man eine Formel, die möglichst exakt die Zahlen, die bei einer Simulation herauskommen müssten, abbildet. Eben die Simulation durch eine Formel zu ersetzen. Problem dabei: An der Simulation habe ich ja, wie oben beschrieben, schon teilweise gefeilt. Man versucht damit, die Wirklichkeit so gut wie möglich abzubilden. Und kann, falls man eine neue Beobachtung macht, vielleicht gar neue Taktiken gefunden werden, diese in der Simulation abzubilden. Sowie man die Formel hat, fällt diese Möglichkeit weg. Beziehungsweise müsste man dann die Simulation reaktivieren, die Ergebnisse zu deuten versuchen und eine neue Abbildung dieser Ergebnisse mithilfe einer Formel zu finden. Und das tut man dann eher nicht.
Jedenfalls habe ich eines Tages eine Formel gefunden. Diese beruht im Wesentlichen auf der Poissonverteilung. Dabei ist die Poissonverteilung im Prinzip die Gaußsche Normalverteilung für diskrete Werte. Diskret bedeutet hier: Nur ganze Zahlen. Im Unterschied zur Normalverteilung, die alle Werte zulässt, also auch beliebige Zwischenwerte. Man könnte als Beispiel die Körpergröße aller erwachsenen Männer in Deutschland nehmen. Das ist eine so genannte stetige Verteilung. Man kann theoretisch 1.83m aber 1.83275m groß sein. In der Theorie folgen solche Verteilungen immer der Normalverteilung. Es gibt viele durchschnittlich große Menschen, wenige sehr große und wenige sehr kleine. Es häuft sich um den Mittelwert und die Anzahl der Menschen mit einer bestimmten Abweichung vom Mittelwert wird geringer, je größer die Abweichung ist.
Eine diskrete Verteilung ergibt sich zum Beispiel eben im Fußball bei der Toranzahl. Man kann nur 0 Tore, 1 Tor oder 2 Tore erzielen (kurios hierbei, dass man bei der 0 den Plural verwenden muss. Aber wenn wir bei Deutschen Begriffen bleiben, dann wird schnell klar, dass die Einzahl eben für die Zahl Eins reserviert ist. Alles andere ist Mehrzahl, selbst wenn es die „Unzahl“ ist), nicht aber 1.5 oder 2.73. Obwohl diese Zahlen als Erwartungswerte möglich sind. Die Poissonverteilung liefert einem also Wahrscheinlichkeiten für die konkreten Toranzahlen für jede einzelne Mannschaft.
Im Beispiel ist es hoffentlich wieder mal besser zu erklären. Also folgende Zahlenkolonnen:
TorewM1 | TorewM2 | |||
1.73 | 0.85 | |||
Wkeit1 | Wkeit2 | akku1 | akku2 | |
0 | 17.73% | 42.74% | 17.73% | 42.74% |
1 | 30.67% | 36.33% | 48.40% | 79.07% |
2 | 26.53% | 15.44% | 74.93% | 94.51% |
3 | 15.30% | 4.37% | 90.23% | 98.89% |
4 | 6.62% | 0.93% | 96.84% | 99.82% |
5 | 2.29% | 0.16% | 99.13% | 99.97% |
6 | 0.66% | 0.02% | 99.79% | 100.00% |
7 | 0.16% | 0.00% | 99.96% | 100.00% |
8 | 0.04% | 0.00% | 99.99% | 100.00% |
9 | 0.01% | 0.00% | 100.00% | 100.00% |
10 | 0.00% | 0.00% | 100.00% | 100.00% |
Das sind die konkreten Zahlen für zwei absolut realistische Torerwartungen zweier Mannschaften im Spiel gegeneinander. Mannschaft 1 hat , nach Verrechnung ihrer Spielstärke und ihres Heimvorteils mit der Gegnerstärke (und Auswärtsstärke)also für dieses Spiel eine Torerwartung von 1.73. Der Gegner, Mannschaft 2, nach der gleichen Berechnung, 0.85. Darunter sind die Wahrscheinlichkeiten aufgelistet, für jede Mannschaft eine bestimmte Anzahl von Toren zu erzielen. Die Spalten akku1 und akku2 geben die akkumulierten Werte bis zu der Toranzahl an. Also bei 6 Toren bei Mannschaft 2 bzw. bei 8 Toren für Mannschaft 1 sind bereits die 100% vergeben. Zumindest bei der Rundung meines Computers. Möglich sind 8 Tore, natürlich sogar für Mannschaft 2. Die Wahrscheinlichkeit, dass Mannschaft 2 8 Tore erzielt ist allerdings nur 2.9 * e^(-6), ausgeschrieben 0.0000029. Ca. 3 Millionstel.
Hier das ganze noch als Diagramm:
Man sieht, dass die Wahrscheinlichkeiten für bis zu 10 Tore irgendwann so klein werden, dass sie realistischerweise eigentlich kaum eintreten können. Und wer erinnert sich an das letzte 10:3 in der Bundesliga? Ach, gabs noch gar nicht. 10 Tore für eine Mannschaft schon, sogar maximal 12.
Jetzt haben wir also zwei Verteilungen, wie oft die eine und wie oft die andere Mannschaft eine bestimmte Anzahl von Toren erzielt. Um jetzt zu berechnen, wie wahrscheinlich ein bestimmtes Ergebnis ist, könnte man die Wahrscheinlichkeiten ja einfach multiplizieren. Also ein 0:0 tritt ein, wenn Mannschaft1 0 Tore erzielt, Wahrscheinlichkeit dafür 17.73%. Dass Mannschaft2 = Tore erzielt sind 42.74%. Multiplikation der beiden Werte, die bei Unabhängigkeit gestattet ist und auch die richtige Rechenoperation, ergibt einen Wert von 17.73% * 42.74% = 7.58%. Die Wahrscheinlichkeit für das 0:0 wäre also 7.58%. Auf die gleiche Art können wir die Wahrscheinlichkeiten für die anderen Ergebnisse berechnen.
Wenn man dann daraus errechnen will, wie oft Mannschaft 1 gewonnen hat, addiert man alle Werte auf, bei denen Mannschaft1 mehr Tore erzielt hat. Ebenso für das Unentschieden, indem man alle Einträge, wo die Anzahl der Tore gleich ist ausmultipliziert und aufaddiert. Genauso für Siege Mannschaft2.
Wieder mal konkreter: Die Wahrscheinlichkeit für ein 0:0 ergibt sich als Multiplikation der Werte 17.73% * 42.74%. Das sind 7.58%. Auf die gleiche Art kann man alle Ergebnisse ausmultiplizieren und erhält dadurch folgende Matrix (die Matrix ist nur bis 5:5; man sieht aber an den Summenspalten, dass bis dahin bereits 99.11% aller Ergebnisse liegen).
Ergebnismatrix | |||||||
0 | 1 | 2 | 3 | 4 | 5 | ||
0 | 7.58% | 6.44% | 2.74% | 0.78% | 0.16% | 0.03% | 17.72% |
1 | 13.11% | 11.14% | 4.74% | 1.34% | 0.29% | 0.05% | 30.66% |
2 | 11.34% | 9.64% | 4.10% | 1.16% | 0.25% | 0.04% | 26.52% |
3 | 6.54% | 5.56% | 2.36% | 0.67% | 0.14% | 0.02% | 15.29% |
4 | 2.83% | 2.40% | 1.02% | 0.29% | 0.06% | 0.01% | 6.62% |
5 | 0.98% | 0.83% | 0.35% | 0.10% | 0.02% | 0.00% | 2.29% |
42.37% | 36.02% | 15.31% | 4.34% | 0.92% | 0.16% | 99.11% |
Durch Addition der oberen Hälfte der Matrix erhält man die Siegwahrscheinlichkeit für Mannschaft 2, durch Addition der unteren Hälfte die Siegwahrscheinlichkeit für Mannschaft 1 und durch Addition der Hauptdiagonalen die Wahrscheinlichkeit für das Unentschieden.
Wir erhalten dadurch also folgende Werte:
1 X 2 Summe
57.37% 23.55% 18.18% 99.11%
Die restlichen 0.89% sind die Ergebnisse, wo eine Mannschaft (auch die, wo es beide tun) mehr als 5 Tore erzielt.
Nun, mögen Sie fragen, wo liegt das Problem? Warum hat er nicht gleich eine so simple Methode angewendet? Die Antwort ist die gleiche wie bei der Simulation: Das Problem sind die Unentschieden. Sie treten auch bei Verwendung der Poissonverteilung aus den gleichen Gründen zu selten auf.
Aber, Pauli erzeugt sich ein Problem, Pauli löst das Problem. Ich habe eine Umverteilung auf der Hauptdiagonalen vorgenommen. Eine systematische und mathematisch korrekte Methode. Und je nach gewünschter Unentschiedenhäufigkeit werden die Unentschieden entsprechend angepasst. Verantwortlich dafür ist der so genannte Unentschiedenfaktor. Dieser muss, wie man in der Praxis leicht feststellt, von Liga zu Liga unterschiedlich sein.
Auch hier enden die erforderlichen sinnvollen Überlegungen allerdings noch nicht. Es ist ja relativ offensichtlich, dass eine Liga mit einem geringeren Toreschnitt auch mehr Unentschieden produziert. Insofern ist es also nicht verwunderlich, dass in Frankreich mehr Unentschieden auftreten als in Deutschland.
Tatsache ist aber auch, dass die in der Praxis auftretenden Zahlen nicht alleine am Toreschnitt liegen können. Dazu hier die Vergleichszahlen für die Saison 2008:
Deutschland: Toreschnitt eingetroffen: 2.81
Erwartet: 2.75
Unentschieden eingetroffen: 25.49%
Erwartet: 24.72%
Frankreich: Toreschnitt eingetroffen: 2.284
Erwartet: 2.198
Unentschieden eingetroffen: 30.52%
Erwartet: 29.84%
Diese Zahlen sehen nicht all zu spektakulär aus. In Frankreich fällt praktisch im Schnitt pro Spiel über ein halbes Tor weniger. Logisch, dass dadurch auch mehr Unentschieden auftreten. Aber: In Frankreich rechne ich mit einem Unentschiedenfaktor von 0.89, in Deutschland von 0.93. Also es gibt sozusagen noch, außer der geringeren Neigung, überhaupt ein Tor zu erzielen noch darüber hinaus eine größere Neigung, Unentschieden zu spielen. Ist also möglicherweise die Risikobereitschaft in Frankreich im Allgemeinen auch noch geringer?
Es sind nur Beispiele hier. Die Parameter passen sich auch noch dazu durch Ergebniseingabe an. Also sowohl der Unentschiedenfaktor als auch Toreschnitt und Heimvorteil werden von der Datenbank, und zwar sowohl individuell als auch allgemein, gewartet und gepflegt.