Gibt es etwas Besseres als das Elo-System?
1) Einleitung
Obwohl, wie an anderer Stelle näher erläutert, das Elo-System das beste in der Praxis verwendete System zur Messung von Spielstärken ist — derart also gut geeignet zur Erstellung von Aussage kräftigen Ranglisten – gibt es dennoch ein paar Schwächen dieses Systems. Einige davon sind allgemein bekannt, andere wurden bisher vielleicht eher selten erörtert.
Relevant wird all dies erst dann, wenn man Vorschläge hätte, wie man die Schwachstellen beheben kann beziehungsweise dann, wenn man gar ein besseres System vorstellen könnte, bei dem diese Schwächen per se eliminiert sind. Um den Leser das ganze schmackhaft zu machen soll hier folgendermaßen vorgegangen werden:
Das Elo-System wird vorgestellt. Für denjenigen, der sich damit firm fühlt, kann das gerne überlesen werden. Im Anschluss werden die einzelnen Schwächen des gängigen Systems untersucht. Hier nur kurz erwähnt, damit das Weiterlesen nicht so schwer fällt: Die Willkür der Zahlen, die Elo-Inflation, die Schwarz-Weiß Problematik, die Remisproblematik (ja, gibt es!), die Anpassung der Zahlen aufgrund von erzielten Ergebnissen. Wobei Letzteres ein Problem ist, welches in jedem System existiert. Hier wird allerdings eine Methode vorgestellt, mit der man eine möglichst realistische Anpassung finden kann. Letztendlich dient es einer selbst gemachten Vorgabe, nach welcher das System zur Prognose von Partieausgängen geeignet sein müsste, um wirklich gut zu sein.
Nachdem alle Probleme dann aufgezeigt und erörtert sind, soll ein alternatives System vorgestellt werden, welches mit diesen Problemen (besser) fertig wird.
2) Das Elo-System vorgestellt
Professor Elo nahm an, dass die Spielstärken der Spieler normal verteilt waren (und bis heute geblieben sind). Die Normalverteilung, also die so genannte Gaußsche Glockenkurve, behauptet einfach, es gibt wenige sehr gute Spieler, wenige sehr schwache Spieler und dazwischen viele mehr oder weniger Durchschnittsspieler.
Das ergibt bei Vergleich zweier Zahlen eine Punkterwartung. Diese ist bitte nicht zu verwechseln mit einer Siegwahrscheinlichkeit. Die Punkte setzen sich zusammen aus Remisen und Siegen.
Ich habe einfach mal die Erklärung des Systems aus dem Internet heraus kopiert. Ich kann es anhand dessen erläutern.
Anmerkung: Gäbe es kein Remis, so wäre die erwartete Punktezahl gerade die Wahrscheinlichkeit, dass A gewinnt. Da eine Schachpartie auch unentschieden enden kann, ist die erwartete Punktausbeute gleich der Wahrscheinlichkeit zu gewinnen plus einhalb mal der Wahrscheinlichkeit zu remisieren. Die Wahrscheinlichkeiten für Sieg, Remis und Niederlage werden im Elo-System nicht verwendet, sondern nur die Erwartungswerte.
Hier nun der kopierte Abschnitt:
EA = 1 / (1 + 10^(RB - RA) / 400)
EA: Erwarteter Punktestand für Spieler A. Bei einer Serie von 5 Spielen kann man auch EA mit 5 multiplizieren.
RA: bisherige Elo-Zahl von Spieler A
RB: bisherige Elo-Zahl von Spieler B
Der Erwartungswert für A beträgt nun EA · 100 %. Die neue Elo-Zahl von Spieler A ist
RAneu = RA + k *(SA - EA)
k: ist üblicherweise 15, bei Top-Spielern (Elo > 2400) 10, bei weniger als 30 gewerteten Partien 25
SA: tatsächlich gespielter Punktestand (1 für jeden Sieg, 0,5 für jedes Unentschieden, 0 für jede Niederlage)
Anmerkung 1: Die in der Formel enthaltene Zahl 400 sowie der ursprüngliche k-Faktor wurden von Arpad Elo so gewählt, dass die Elo-Zahlen mit den Wertungszahlen des früher verwendeten Rating-Systems von Kenneth Harkness möglichst gut kompatibel sind. Tatsächlich kann man das Harkness-Modell als eine stückweise lineare Approximation an das Elo-Modell auffassen.
Anmerkung 2: Es lässt sich auf mathematischem Wege leicht zeigen, dass gilt: EA + EB = 1
Da sieht man mal, was einem so alles passieren kann, wenn man sich im Internet weiterbilden möchte.
Entscheidend sind hier die beiden Formeln mitsamt Erklärungen. Die Gestalt der ersten Formel garantiert, dass eine Zahl zwischen 0 und 1 herauskommt, was nicht nur wünschenswert sondern gar erforderlich ist. Erforderlich, da es sich um Punkterwartungen handelt, die beim Schach logischerweise zwischen 0 und 1 liegen müssen wegen der Wertung 0 für Niederlage, 1/2 für Remis und 1 für Sieg, aber auch bei anderen Sportarten als Wahrscheinlichkeiten aufgefasst werden können. Sichergestellt ist dies dadurch: 1 geteilt durch eine Zahl von 1 + (eine positive Zahl) garantiert das. Denn 10 hoch etwas, geschrieben 10^ x, ist immer positiv, selbst wenn x negativ ist.
RA – RB misst den Spielstärkeunterschied. Dieser kann positiv oder negativ sein. Der Spielstärkeunterschied dividiert durch 400 ergibt im Prinzip nur eine etwaige Skalierung. Wie oben erklärt wurde das nur wegen der Vorgängerzahlen des Kenneth Harkness getan. Zwar eine gute Idee, nur kann man dem weiter unten erläuterten Problem der Willkür hier bereits etwas vorgreifen.
Damit man sich ein Bild davon machen kann, was so in etwa bei der Elo-Formel herauskommt, habe ich das ganze mal im Diagramm dargestellt. Die Kurve stellt die Punkterwartung eines Spielers gegen Gegner dar, die ihrerseits bis zu 600 Elo-Punkte weniger oder bis zu 720 Elo-Punkte mehr haben. Hier das Diagramm:
Die Kurve sieht natürlich wunderschön aus. Im Prinzip auch realistisch. Gegen sehr schwache Gegner nähert sich die Erwartung den 100% (oder der 1) an. Das ist absolut realistisch. Gegen eine gewisse Klasse von Gegnern ist man irgendwann so überlegen, dass man fast sicher gewinnt, gegen die weit besseren ist man irgendwann chancenlos. Ob es diese Spieler allerdings gibt, ist natürlich vom eigenen Rating abhängig. Also die Weltrangliste selber enthält Spieler zwischen 2000 und ca. 2800 (Die Nummer 1; im Moment, am 27.10.2008, Anand). Schwächere Spieler erhalten keine Elo-Zahlen. In der von der FIDE geführten Liste gibt es diese Spielstärkeunterschiede nicht, zumindest nicht für einen Einzelnen in beide Richtungen. Ein Durchschnittsspieler mit 2300 Elo käme maximal auf eine positive Elo-Differenz von 300 und eine negative von 500. Er hätte, auf eine Partie bezogen, immer eine Erwartung zwischen 85% (oder 0.85 Punkten) bzw. ca. 8% (oder 0.08 Punkten).
Den Hyperbelverlauf kann man auch gut nachvollziehen. Die Wahrscheinlichkeiten nähern sich immer mehr an 0 und 1 an, je größer der Spielstärkeunterschied wird. Aber erreicht werden sie nie. Das ist auch intuitiv einleuchtend. Man muss ja annehmen, dass ein jeder Teilnehmer an dem Spiel zumindest die Regeln beherrscht, das heißt, alle möglichen Züge in einer Stellung erkennen und demnach auch ausführen kann/könnte. Also könnte er auch den jeweiligen Zug ausführen, den Kasparow gemacht hätte (mehr zu dem Thema im Kapitel „Ein paar Zahlenspiele“).
Jetzt kommt aber die zweite Formel. Mit dieser werden die neuen Elo-Zahlen berechnet. Das ist die „Spielstärkeupdate Funktion“. Man muss reagieren, das steht fest. Die Spieler erzielen gute oder schlechte Ergebnisse. Spieler verbessern oder verschlechtern sich auch tatsächlich. Auch sonst ist es Sinn des Systems, Entwicklungen, Veränderungen darzustellen. Es spornt an, man möchte nicht nur die Partie(n), das Spiel, das Match gewinnen sondern in der Rangliste nach oben klettern.
Hier wird gerechnet mit Faktoren von 25, 15 und 10. Verwendet man die 25, dann bewirkt das ein schnelleres Reagieren. Dass man eine schnellere Entwicklung annehmen muss, so lange ein Spieler erst wenige (also weniger als 30) Partien gespielt hat, ist einsichtig. Ebenso scheint es einen Sinn zu ergeben, bei hohen Zahlen (>2400) etwas langsamer zu reagieren. Es kommt dabei zum Ausdruck, dass ein sehr guter Spieler eher weniger großen Schwankungen allgemein unterliegt. Auch so weit richtig. Man könnte es auch so ausdrücken, dass bei schwächeren Spielern viele Zufälligkeiten den Ausgang bestimmen. Aufgrund dessen reagiert man da noch etwas schneller.
Immerhin wird hier das von mir bestimmte Kriterium wenigstens erwähnt: Es wird von einer Punkterwartung gesprochen. Eine Erwartung ist eine Prognose auf ein zukünftiges Ereignis. Und das deutet zumindest den Versuch an, mit diesem System auch prognostizieren zu wollen. Oder ist es gar ein Prognosesystem? Das kann ein wenig erhellt werden im Folgenden:
a) Schwächen des Systems
Die Formeln funktionieren allesamt ganz gut. Das Elo-System ist nach meiner Einschätzung das beste existierende und in der Praxis verwendete Bewertungssystem, nur zur Erinnerung.
Die meisten der Schwächen, die hier aufgezählt werden, sind wohl bereits bekannt. Ich führe sie dennoch hier gebündelt an, im Einzelnen erläutert. Das später vorgestellte System wird mit einigen Schwächen besser fertig.
i) Willkür der Elo-Zahlen
Das ist ein untergeordnetes Problem. Aber es ist tatsächlich vollkommen willkürlich festgelegt. Wenn man einem Nicht-Schachspieler sagt, man hätte eine Elo Zahl von 2300, dann kann derjenige nur etwas damit anfangen, wenn er andere Vergleichszahlen kennt.
Dennoch finde ich intuitiv einleuchtend, dass man gerne eine Maßzahl hätte, mit der man eventuell allein durch Nennung der Zahl etwas anfangen kann, womöglich gar Sportart übergreifend. Interessant wird das, wie gesagt, erst dann richtig, wenn man einen besseren Vorschlag hätte.
ii) Die Anpassungsgeschwindigkeit
Es wird mit Faktoren von 25, 15 und 10 gerechnet. Das bewirkt schnellere oder weniger schnelle Reaktion auf die Ergebnisse. Dass es in irgendeiner Hinsicht sinnvoll ist, das zu differenzieren, ist weiter oben bereits ausgeführt. Aber wie unterschiedlich stark reagiert werden muss, wurde wohl noch nicht untersucht geschweige denn das existierende System verifiziert.
An anderer Stelle (siehe Kapitel „Vergleichbarkeit von Vorhersagen“) ist erwähnt, dass es Möglichkeiten gibt, ein System in sich selbst zu überprüfen. Das wäre hier auch möglich, nur fehlt die Notwendigkeit. Das System läuft, man lässt es laufen, alle akzeltieren. Wozu verbessern? Noch dazu hat jeder die Regeln gelernt und wohl akzeptiert. „Ich habe in der letzten Periode 14 Elo-Punkte gewonnen, und du?“ „Ich habe 18 Punkte verloren, ich habe ein ganz schlechtes Turnier gehabt.“ So ist es eben. Schlecht gespielt Punkte verloren, gut gespielt Punkte gewonnen. So wird es gerechnet, so macht es die FIDE, fertig. Die nicht erwähnte Fragestellung könnte aber lauten: „Wie realistisch war es, dass ich genau 18 Punkte verloren habe?“ Das „realistisch“ bezieht sich immer darauf, wie die tatsächliche Punkterwartung in der nächsten Partie gegen jenen Gegner wäre.
Ob die Veränderung der Zahl also geeignet ist, um für die nachfolgende Partie eine möglichst gute Vorhersage zu treffen, ist bisher als nicht wirklich relevant erachtet worden..
Zunächst hier noch mal die Aussage, was die Schwäche ist: Die Anpassungsgeschwindigkeit ist nicht verifiziert. Sie erscheint zwar wohl überlegt, aber dennoch intuitiv festgelegt. Gibt es eine Methode, mit der man die Anpassungsgeschwindigkeit untersuchen und gegebenenfalls verbessern könnte? Ja! Geduld….
iii) Elo Inflation
Das Problem der Willkür macht sich hier ein wenig bemerkbar. Dass eine Inflation eintreten kann, ist offensichtlich. Einfach begründet: Es gibt keine Normierung oder so etwas. Die Zahlen liegen irgendwo zwischen 2000 und 2800, in der aktuellen Elo-Liste. Die FIDE berücksichtig erst Spieler ab einer Spielstärke von 2000. Wenn man jetzt, heute, alle Zahlen aufaddiert und durch die Anzahl der Spieler dividiert erhält man einen Durchschnittswert. Dieser liegt, sagen wir mal, bei 2285.
Dann wäre das sozusagen aktuell der Durchschnittsspieler. Es ist aber nicht auf diese Zahl normiert, sie ist rein „zufällig“ 2285. In der nächsten Periode (die sind immer halbjährlich) gibt es etliche „Neueinsteiger“, einige fallen heraus aus der Liste. Die Neueinsteiger entwickeln sich schneller, mit Faktor 25. Also sind Punktgewinne und Punktverluste nicht deckungsgleich. Wenn die Neueinsteiger noch dazu gut sind, dann gewinnen sie mehr Punkte (sie gewinnen sowieso, man überlege kurz; die nicht gewinnen kommen ja gar nicht rein in die Liste) als woanders verloren werden. Das muss bewirken, dass in der nächsten Periode der Schnitt ansteigt. Das ist ein typischer Inflationseffekt. Er steigt vielleicht nur auf 2286, aber er steigt.
Es ist auch nur ein kleines Problem. Aber es existiert. Wenn man heute einen Spieler mit der Elo-Zahl 2420 trifft, dann könnte es vielleicht bedeuten: Vor 20 Jahren war es noch etwas wert, heute ist er einer von vielen.
Anmerkung: Man könnte behaupten, dass es korrekt ist, dass eine Inflation eintritt. Das wäre dann der Fall, wenn ein Spieler von 2420 von vor 20 Jahren, der damals noch „ein Riese war“, eine Ausnahme darstellte, tatsächlich exakte Chancengleichheit gegen den, der heute 2420 hat. Das ist eine philosophische Frage. Die Wahrheit ist aber jedenfalls, dass sich das Spiel selber auch weiterentwickelt. Auf gut Deutsch: „Alle werden besser.“ Stillstand ist Rückschritt. Das, was Vorgängergenerationen mühsam erarbeitet haben, ist heute „common sense“, das kann jeder. Und diese Entwicklung ist in keiner Weise „schachtypisch“. Das gilt quasi in allen Sportarten.
Professor Elo hat das aber sicher weder beabsichtigt noch vorhergesehen. Abgesehen davon wäre es ein Wunder, wenn die allgemeine Weiterentwicklung des Schachspiels selber zufällig durch den (unbeabsichtigten) Inflationseffekt abgebildet würde.
iv) Die Schwarz-Weiß Problematik
Dieses Problem ist bereits wesentlich ernster. Laut Datenbank, die wurde habe, werden ca. 70% aller Gewinnpartien mit den weißen Steinen erzielt. Weiß hat einen Vorteil, der sich auch Anzugsvorteil nennt, wobei dieser nicht auf eine Kleiderordnung zurückgeführt werden kann. Der Vorteil existiert, objektiv und unbestritten. Bei den verwendeten Formeln findet er keine Berücksichtigung.
Früher war es so, dass nur ganze Turniere ausgewertet wurden. Da war das Problem etwas untergeordnet. Heutzutage werden einzelne Partien ausgewertet. Sicher, man hat mal Weiß und mal Schwarz, da neutralisiert sich das Problem trotzdem im Laufe der Zeit. Aber wenn man eine einzelne Partie spielt und diese ausgewertet wird dann kann man Opfer — aber auch Profitierender — dieser Ungerechtigkeit sein.
Abgesehen davon wird die Vorgabe der Prognose spätestens an dieser Stelle verletzt. Wenn man aus der Elo-Formel die Chancen für eine Partie errechnet, dann wird nicht gefragt, wer Weiß hat. Einer von den beiden ist es, dessen Chancen sind garantiert besser als von der Formel angenommen.
v) Die Remisproblematik
Noch einmal wiederholt: Das ganze System ist gut und funktioniert.
Die Remisproblematik besteht nur darin, dass das Ergebnis, was man erhält, keinerlei Antwort auf die Frage liefert „Wie wahrscheinlich ist ein Remis?“: In dem Abschnitt oben über das Elo-System steht ganz lapidar „
Die Wahrscheinlichkeiten für Sieg, Remis und Niederlage werden im Elo-System gar nicht benötigt, sondern nur die Erwartungswerte.
Das ist zwar auf eine Art richtig. Aber: könnte es nicht dennoch interessant sein, wie wahrscheinlich es ist? Einfach so, als Fragestellung. Außerdem, weiter gedacht: Wenn es irgendwann mal Wetten auf Schachpartien geben sollte, bräuchte man es jedenfalls, zumindest der Anbieter (man munkelt, es wurde schon gewettet?!).
vi) Die Normalverteilung
Die Grundannahme von Professor Elo, die dadurch also auch Grundlage für die bis heute verwendete Funktion ist, ist, dass die Spielstärken normal verteilt sind. Und dieses „normal verteilt“ ist bereits ein hochmathematischer Begriff. Die Gaußsche Normalverteilung, die berühmte Glockenkurve. Es ist auch nicht direkt ein Fehler in dieser Annahme zu entdecken. Man sehe:
Der Mittelwert ist hier bei 2200 Elo. Da trifft man also theoretisch die meisten Spieler. Sehr wenige Spieler habe eine sehr kleine Zahl, sehr wenige eine sehr hohe, die Anzahl der anzutreffenden Spieler steigt zum Mittelwert hin an, wird dort maximal und fällt dann wider ab. Ca. zwei Drittel (eher 69%) der Werte liegen innerhalb der einfachen Standardabweichung. Das ist der Bereich zwischen den beiden Wendestellen. Wendestellen sind dort, wo man beim Nachzeichnen der Kurve von einer Linksschwingung auf eine Rechtsschwingung wechseln müsste und dort, wo man wieder zurück wechseln müsste. Das als kleiner mathematischer Exkurs.
Die beiden Annahmen, dass sich die Spielstärken normal verteilen und dass man daraus ableiten kann, dass man bei bestimmten Differenzen der Zahlen bestimmte Erwartungen haben müsste, werden von der Praxis nicht ganz bestätigt. Dafür gibt es Anhaltspunkte, und sicher ein paar gute Begründungen.
Ein Beweis dafür, dass es bei großen Elo-Differenzen nicht ganz der Realität entspricht: Spieler mit hohen Elo-Zahlen spielen sehr ungern Open Turniere mit. Die Begründung ist recht einfach: „Ich mach mir doch nicht meine Zahl kaputt.“ So die Aussage. Und sie haben Recht damit! Wenn sie nicht die nach der Elo-Formel errechnete Punktausbeute erreichen, liegt es nicht an eigener Formschwäche, sondern an der Formelschwäche.
Ein Freund und Großmeister des Schachs, Robert Rabiega, ist seit vielen Jahren Schachprofi. Er hat eine Sonderbegabung, was Schnell- und Blitzschach angeht, so dass er sich recht gut davon ernähren kann. Er hat Frau und zwei Kinder. Allerdings muss er auch häufig zu Open Turnieren fahren, welche Elo gewertet werden (im Gegensatz zu Schnell- und Blitz-). Ein Großmeister bekommt heutzutage nicht so viele Einladungen. Er sagt, die Teilnahme an einem Open kostet ihn im Schnitt zwei Elo Punkte. Eine sehr gute Rechnung. Und ein weiterer Beleg: Das Elo System ist gut. Aber es hat Schwächen. Und es ist nur so lange gut genug, bis ein besseres System gefunden wird.
b) Eignung als Prognosesystem
Das System ist aus den oben genannten Gründen nicht als Prognosesystem geeignet, vor allem, da nicht dafür ausgelegt. Man reagiert intuitiv auf die Ergebnisse. Man legt Faktoren von 10, 15 und 25 fest. Man erreicht damit Bewegungen in den Ranglisten. Intuitiv leuchtet auch ein, dass man, sagen wir, wenn man in 9 Partien eine „Performance“ von 2260 erspielt (die Performance ist die Zahl, die der erbrachten Elo-Leistung in einem Turnier entspricht; sie ist nicht direkt aus dem obigen Formelwerk abzulesen, aber Schachspieler rechnen mit ihr), vorher eine Zahl von 2340 hatte, dass die neue Zahl dann irgendwo zwischen 2260 und 2340 liegen müsste, aber wohl näher an 2340, da diese Zahl über einen längeren Zeitraum erspielt wurde, das aktuelle Ergebnis eine Momentaufnahme, die aber dadurch eine Wirkung erzielen sollte, da sie eben aktuell ist. Nach der Elo-Formel mit k-Faktor 15 gerechnet ergäbe sich ein Verlust von (witzigerweise, da willkürlich gewählt) 15 Elo-Punkten. Man hat das Gefühl dass das adäquat ist, sicher. Vorher hatte man 2340, schlecht gespielt, nun hat man noch 2325. Nicht 2260, nicht 2340, näher an 2340, also 2325. Überprüft, ob das für die Zukunft eine gute Prognose ergibt, wurde es nie.
Außerdem wird das Remis gar nicht vorhergesagt und die Schwarz-Weiß Überlegungen beweisen ohnehin, dass die Erwartungen auf eine einzelne Partie bezogen nicht dem Kriterium der Vorhersage, der Prognose, genügen.
Falls man darauf bei der FIDE wetten dürfte – falls diese ihr System vertreten würden als Prognosesystem — dann müssten die Wetten so formuliert werden, dass die FIDE ihre Punkterwartung berechnet und man auf oder gegen diese Erwartungen im Sinne vor spreads wetten kann. (Siehe auch im Kapitel „Der Wettmarkt“, Unterpunkt „spread betting“). Eine Wette würde in etwa so aussehen: Der spread liegt bei einer Partie Anand – Topalow bei >0.53 oder < 0.50. Man könnte auf Anand wetten, dass er mehr als 0.53 Punkte schafft, oder gegen ihn wetten, dass er weniger als 0.5 Punkte erzielt. Wenn man auf ihn wettet, hätte man bei Remis einen geringen Verlust. Aufgrund der Elo-Erwartung wäre er als Elo-stärkerer (Annahme hier: er hat die bessere Zahl) Favorit. Diese Art zu wetten würde allerdings auch nicht auf der prognostizierten Remiswahrscheinlichkeit basieren. Da Schwarz-Weiß aber nicht berücksichtigt sind, hätte man als Wetter dennoch einen Vorteil.
c) Die Unhandlichkeit
Die Formeln sind recht unhandlich. Wenn man sich in der Schachszene umhört, dann stellt man immer wieder fest, dass die meisten die Formeln nicht aus dem Ärmel schütteln können, eher im Gegenteil. Es ist nicht bekannt, wie man die eigene Leistung errechnen kann und auch nicht, wie die neue Zahl sein wird. Es gibt neuerdings im Internet – da es dort alles gibt – eine Möglichkeit, die Zahl direkt errechnen zu lassen. Man gibt die eigene Zahl ein, die Gegner Zahl(en), das Ergebnis und sieht alles, was interessiert. Andererseits könnte es wünschenswert sein, dass man den Formelkomplex nachvollziehbar hält. Man glaubt die Ergebnisse, man kann sie aber nicht selbst errechnen.
Sicher ist auch dieses Problem nur so lange nicht spürbar, wie es keinen besseren Vorschlag gibt. Nur soll ja gerade dies hier geschehen und, man staune …
1) Das bessere System
Wie lange angekündigt gibt es ein System, welches besser mit diesen Schwächen fertig wird. Die meisten der vorgeschlagenen Verbesserungen wären aber durchaus auch auf das Elo-System anwendbar. Es gibt aber einige Punkte, die das hier vorgestellte System tatsächlich überlegen machen. Doch der Reihe nach, hier zunächst…
a. Die Formel zur Berechnung
Die Spielstärken werden grundsätzlich in Prozentzahlen ausgedrückt. Jeder Teilnehmer erhält also eine Spielstärke zwischen 0 und 1, oder auch 0% und 100%. (Wie man sie erhält und wie sie gepflegt werden, wird später behandelt.) Wenn nun zwei Spielstärken, zwei Spieler, zwei Teilnehmer, aufeinander treffen, müssen ihre Spielstärken miteinander verrechnet werden. Die Rechenvorschrift wird zunächst intuitiv hergeleitet.
Es ist sofort einsichtig, dass ein jeder Teilnehmer gegen den 50% Teilnehmer seine eigene Erwartung als Erwartung gegen diesen Gegner hat. Also wenn man selber 64% hat und der Gegner 50%, dann hat man in diesem Duell 64%. Es ist sozusagen die Definition der Spielstärke. Die Angabe der Spielstärke bezeichnet die Erwartung gegen den Durchschnittsteilnehmer.
Zweite, sofort einsichtige, Voraussetzung ist die, dass man gegen einen Teilnehmer der eigenen Spielstärke exakt 50% Erwartung hat. Also 64% man selbst, 64% der Gegner 50% für das Match.
Jetzt wird noch intuitiv und am Beispiel erklärt, wie man auf die einfache Berechnungsformel kommt. Meine eigene Intuition hat mir dabei auf die Sprünge geholfen und manchmal sind es tatsächlich einfache Sätze, die man nur aussprechen muss, um sich ein Problem handlich zu machen. Ich sage mir also den folgenden Satz: Wenn ich doppelt so oft gewinne als dass ich verliere, mein Gegner allerdings nur halb so oft gewinnt als dass er verliert, finde ich es sofort einsichtig, dass ich gegen ihn vier Mal so oft gewinnen müsste als dass ich verliere. Ist das überzeugend?
Damit weiß man dann zwar noch nicht, wie viel Prozent man gewinnt, aber immerhin. Vielleicht bekommt man das dann auch noch heraus?
Anmerkung: Diese Überlegung stammt vom Tennis. Da gibt es immer nur einen Sieger und einen Verlierer. So ist das Spiel gemacht. Auf, zum Beispiel Schach, übertragen müsste man es so ausdrücken, dass es schon wieder die Anschaulichkeit verliert, aber dennoch, bitte sehr: „Wenn ich doppelt so viele Punkte erziele als Punkte, die ich abgebe und mein Gegner nur halb so viele erzielt als er abgibt, dann erziele ich gegen ihn vier mal so viele als dass ich sie abgebe.“
Das erleichtert das Finden der Formel erheblich. Man berechnet das einfach mal an diesem und einem anderen Beispiel:, der Einfachheit halber in einer Sportart, in der es nur Sieger und Verlierer, kein Unentschieden gibt, wegen der Anschaulichkeit:
Wenn man doppelt so viele Spiele gewinnt als dass man verliert, dann entspricht das einer Spielstärke von 66.66%. Man gewinnt 66.66% seiner Spiele und verliert die restlichen 33.33%. 66.66% geteilt durch 33.33% ergibt den Faktor 2, also das Doppelte, im Verhältnis Siege zu Niederlagen.
Mein Gegner hat die Spielstärke 33.33%. Er gewinnt 33.33% und verliert 66.66%, er gewinnt nur halb so oft als dass er verliert. Siege zu Niederlagenverhältnis: 1/2. Jetzt dividiert man die derart ermittelte Spielstärke (sozusagen das Sieg/Niederlagenverhältnis) von 2 durch seines von 1/2, oder 0.5. Und 2/0.5 = 4. Also man gewinnt gegen ihn, so errechnet, vier mal so häufig als dass man verliert.
Jetzt fehlt nur noch die Antwort auf die Frage: Was bedeutet das in Prozent? Es ist eigentlich eine Dreisatzaufgabe, die noch bleibt. Gesucht sind zwei Zahlen, zwei Prozentzahlen, die ausdrücken, wie oft einer in einem konkreten Match/Spiel gewinnt und wie oft er verliert. Also muss die Summe zweier Zahlen 1 betragen, der Quotient der beiden Zahlen muss 4 sein. p1 + p2 = 1 und p1/p2 = 4.
Ran ans Werk: Man ersetzt p2 durch p1 in dem zweiten Ausdruck, Man erinnert sich? Man erhält aus Ausdruck eins, dass p2 = 1 – p1 ist. Eingesetzt in Ausdruck zwei ergibt das, dass p1/(1-p1) = 4 ist. Dann den blöden Bruch auf die andere Seite, durch Multiplikation. Also ist dann p1 = 4 * (1-p1). Das wieder ausmultiplizieren ergibt p1 = 4 – 4 * p1. Dann p1 auf die andere Seite zurück, Vorzeichen aber ändern! Ergibt p1 + 4 * p1 = 4. Dann aufaddieren, 5 * p1 = 4. Wir brauchen und wollen aber p1. Also teilt man beide Seiten durch 5 und erhält p1 = 4/5 oder p1 = 0.8.
Jetzt bleibt nur noch eine Frage: Warum heißen diese saudoofen Variablen immer gerne p? Und auch darauf gibt es eine Antwort: Der Mathematiker hält sich für wissenschaftlicher, wenn er alles auf Englisch ausdrückt. Deshalb gibt’s ja auch Pi und Epsilon. Aber, für diesen Moment Scherz beiseite, das p steht für „probability“ und das heißt so viel wie „Wahrscheinlichkeit“.
Das war natürlich nicht die relevante Frage. Wir haben nun 0.8 beziehungsweise 80% als Siegwahrscheinlichkeit berechnet (auf Schach übertragen: als Punkterwartung). Der Gegner hat also die verbleibenden 20%. 80% ist viermal so viel wie 20%. Also auch die Bedingung ist erfüllt. Hexerei?
Die Gültigkeit der Formel überprüft man auch noch kurz an den beiden Standardbeispielen: Gegen einen 50% Spieler hat jeder seine Erwartung. Denn der 50% Spieler hat selber einen Quotienten von 1, was das Verhältnis Siege zu Niederlagen angeht (50%/50% = 1). Dann ergibt sich als Erwartung für diese Partie/das Match die eigene Spielstärke, da die Erwartung durch einen Faktor von 1 nicht verändert wird.
Gegen einen Spieler gleicher Spielstärke teilt man stets einen Quotienten durch den gleichen Quotienten. Dabei erhält man eine 1. Man müsste also gegen den Gegner 1 Mal so viele Spiele gewinnen wie man verliert. Und 1 Mal so viel ist immer noch 1. Also gewinnen beide gleich häufig, jeder gewinnt 50%, das ist also auch korrekt.
Wenn ein Teilnehmer mit 82% auf einen anderen Teilnehmer mit 64% trifft, dann ist nicht sofort einsichtig, wie man die Erwartung der beiden gegeneinander berechnet. Dennoch sei hier erläutert: Man macht die beiden Spielstärken miteinander vergleichbar, indem man sie als Quotienten darstellt. Der Quotient drückt folgende Fragestellung aus: wie viel mal öfter gewinnt der Teilnehmer als dass er verliert?
Der erste Teilnehmer gewinnt sozusagen 82% seiner Spiele, das ist was die Spielstärke zum Ausdruck zu bringen versucht. Er gewinnt 82% und verliert 18%. Der andere mit 64% hat eine Verhältnis Siege/Niederlagen von 64/36, da er 36% seiner Spiele verliert. Wir haben die beiden Spielstärken vergleichbar gemacht, indem wir sie als Verhältnis ausgedrückt haben. Spieler 1 hat den Quotienten 82/18, Spieler 2 den Quotienten 64/36. Wenn man diese beiden Zahlen im Verhältnis hat, dividiert man diese durch einander, um das Verhältnis für dieses konkrete Match herauszubekommen. Dann nimmt man den Dreisatz und hat die Chancen für Spieler 1 (und damit auch für Spieler 2) ermittelt.
b. Die Überlegenheit dieses Systems
Das System ist insofern überlegen, als dass es universell einsetzbar ist. Es ist gleichgültig, ob es sich um einen Teamsport oder Einzelsport handelt und gleichgültig, wie die Sieger ermittelt werden. Es kann um Punkte oder Tore gehen, aber auch Zeiten oder Weiten. Auch die Unentschieden, wie bei Schach, Fußball, Handball, werden mitbehandelt. Es ist für jede Sportart und jedes Spiel geeignet, wo es zwei Parteien gibt.
Nun wird am besten Punkt für Punkt aufgezeigt, welche Verbesserungen vorzuschlagen wären. Dabei wird auch Punkt für Punkt klar, welche der Vorschläge auch auf das Elo System angewendet werden könnten.
i. Die Willkür der Zahlen
Die Elo Zahlen entspringen reiner Willkür. Man kann allmählich ein Gefühl dafür entwickeln, was eine gute Zahl und was eine schlechte ist. Aber selbst da würde die Inflation im Wege stehen.
Durch das alternative System, welches Sportart- beziehungsweise Spiele übergreifend immer vergleichbare Zahlen liefert, die absolut keiner Willkür entspringen, wäre dieses Problem behoben.
Man kann sogar noch weiter gehen: Die Höhe der Zahlen, die überhaupt erreichbar wären und erreicht würden, würde die Spiele sogar untereinander vergleichbar machen. Dieses soll anhand einiger Spiele versucht werden, deutlich zu machen:
Das erste Spiel wäre das Mensch-Ärger-Dich-Nicht. In wie weit ist es eigentlich erforscht? Man kann aber bestimmte Strategien verfolgen. Zum Beispiel diese: Entweder einen Stein so schnell wie möglich herumbringen. Oder mehrere Steine gemeinsam laufen zu lassen. Aber: Soll man Gegner überholen bei Verfolgen der ersten Strategie? Da gibt es die Gefahr, rausgeworfen zu werden. Nun gut, es gibt Strategien. Und diese werden nicht alle identisch gut sein. Anzunehmen ist aber, dass die größten Experten, allein durch das Spiel bedingt, nie eine wesentlich höhere Spielstärke als 55% erreichen können. Der Glücksfaktor bleibt zu hoch.
Beim Schach sieht es ein wenig anders aus: Es gibt vielleicht, bisher aber auch nur in der Theorie, einen besten Zug in jeder Stellung. Derjenige, der diesen Zug findet, und zwar immer und in jeder Stellung, muss Weltmeister werden. Es könnte nur sein, dass er auf einen trifft, der ebenfalls immer den besten Zug findet. Dann würde die Partie, so die derzeit allgemein gültige Ansicht, auf Remis hinauslaufen. Schach ist ein Remisspiel. Der Vorteil des Anziehenden reicht nicht aus, um ihm einen zum Gewinn ausreichenden Vorteil zu geben. Das Spiel unterscheidet sich also auf zwei Arten vom Mensch-Ärger-Dich-Nicht: Es gibt keine (offensichtlichen) Glücksfaktoren und es gibt ein Unentschieden.
Gemeinsam ergeben diese beiden Faktoren, dass man durchaus sehr hohe Spielstärken erreichen kann. Aber jedenfalls gewisslich nicht 100%. Vielleicht wäre die Nummer 1 der Welt irgendwann bei 90% Spielstärke. Aber niemals höher. Das ist ausgeschlossen. Er macht die besten Züge, der Gegner vielleicht manchmal nur den zweitbesten. Dennoch reicht auch dann der Vorteil nicht immer zum Gewinn aus. So ist das Spiel.
Beim Tennis könnte es schon wieder anders aussehen. Es gibt kein Remis und nur wenig Glück. Am allerwenigsten gibt es eine abschließend zu beurteilende Perfektion. Es könnte ja, Gott bewahre, Züchtungen geben, die die reinen Tennismonster erzeugen. Der ganze Körperbau wird auf Tennis ausgerichtet. Oder sollte ich gar sagen: Computer? Wie beim Schach? Also es wäre denkbar, dass es einen quasi unschlagbaren Spieler gäbe.
Nun ist aber das vorgeschlagene System so ausgelegt, durch die permanente Anpassung, dass auch dann niemals die 100% erreicht würden. Man verbessert sich immer um einen Anteil des Erreichten zum Prognostizierten. Wenn man also 99.99% Erwartung in einem Spiel hat, weil man so überlegen ist und tatsächlich gewinnt, dann verbessert sich die ursprüngliche Spielstärke auch nur um einen Anteil des Wertes zwischen sich selbst und den 100%. Also die Art der Spielstärkeveränderung würde garantieren, dass niemals 100% erreicht werden können. Man könnte aber sehr nahe kommen. Ws wäre dann auch realistisch, korrekt. Hatte nicht gerade Federer vor kurzem eine Siegesserie von 46 Spielen?
Auch beim Backgammon wäre es gut vorstellbar, das System zum Einsatz zu bringen. Die besten Spieler die es gibt sind sich so ziemlich einig, dass man kaum mehr als 65% seiner Spiele gegen beliebige Gegnerschaft (darunter also auch gute) gewinnen kann. Es ist ein Strategiespiel. Aber es gibt den Glücksfaktor der Würfel.
Man kann das Spiel einfach nicht so überlgen spielen, selbst wenn man immer den besten Zug machen würde. Sicher kommt es hier noch auf die Matchlänge an. Bei längeren Matches ist es klar, dass der bessere Spieler eine größere Chance hat, es für sich zu entscheiden, bei kürzeren steigt der Glücksfaktor an, ebenso selbstverständlich. Aber dennoch: Man könnte das System ohne weiteres verwenden beim Backgammon. Die Spielstärkezahlen würden auch ein klein wenig den Charakter des Spieles repräsentieren. Hier wären Spielstärken von über 60% schon mit Sicherheit sehr gut.
Kurz und gut wäre das System auf alle diese Spiele und Sportarten anwendbar. Die Höhe der maximal möglichen oder auch erreichten Zahlen würde einem sowohl einen Eindruck vom Charakter des Spieles als auch von der Qualität des Spielers geben. Die Willkür existiert jedenfalls nicht mehr, eher das genaue Gegenteil.
ii. Die Anpassungsgeschwindigkeit
Hier sollen ein paar Bemerkungen vorausgeschickt werden, die jedenfalls relevant sind für dieses Unterkapitel:
E ists oben nur kurz erwähnt: Das Hauptqualitätsmerkmal eines verwendeten System ist seine Eignung als Prognosesystem. Das ist stets der übergeordnete Gedanke. Es gibt aber ein – an anderer Stelle untersuchtes — System zur Überprüfung der Qualität von Vorhersagen (nachzulesen im gleichnamigen Kapitel). Damit können zwei unterschiedliche Prognosen auf die gleichen Ereignisse langfristig miteinander vergleichbar gemacht werden, aber auch ein einzelnes System auf Plausibilität geprüft werden. Insofern wäre es nahe liegend, das hier vorgeschlagene System eine Weile lang mal gegen Elo zu halten, die Ergebnisse zu vergleichen.
Ein wesentliches, noch fast übergeordnetes, Kriterium scheint tatsächlich die Nachvollziehbarkeit zu sein. Es soll für alle Teilnehmer die gleichen, einfachen, Regeln gelten. Das ist verständlich. Dieser Punkt würde bei der Auslegung auf Prognosen entfallen. Das müsste man dann praktisch lösen.
Ein weiteres, ebenfalls übergeordnetes, könnte sein, dass man (viel) Bewegung in der Rangliste haben möchte. Das könnte eine Art von Spannung erzeugen. Dabei steht dann die Überlegung, es solle „möglichst realistisch“ sein, hinten an.
Man möge nur bei allen hier vorgeschlagenen Verbesserungen stets das verfolgte Ziel im Auge behalten. Wenn jemand eines der anderen Kriterien für wertvoller hält, bitte, gerne. Zugrunde gelegt wird hier die Ausrichtung auf Prognostik. Die praktischen Probleme kann man im Anschluss noch behandeln.
So viel vorweg. Jetzt konkret zur Sache:
Gesucht ist die perfekte Anpassungsgeschwindigkeit. Wie muss man möglichst genau auf ein Ergebnis reagieren, um für die nächste Partie der beiden Teilnehmer (gegen sich oder auch gegen andere) eine möglichst gute Prognose zu erstellen? Die Antwort steckt auch hier bereits in der (gut formulierten) Frage. Erstens sieht man, dass es individuell unterschiedlich sein kann und zweites sieht man, wie man das ermitteln kann.
Dass es individuell unterschiedlich sein darf und sogar sein muss hat ja auch Elo bereits erkannt. Es wird gerechnet mit den Faktoren 25 (schnelle Anpassung), 15 (langsamer) und 10 (am langsamsten). Es können sogar zwei Kontrahenten mit unterschiedlichen Faktoren aufeinander treffen. Dann würde sogar der eine mehr gewinnen als der andere verliert (siehe Inflation). Auch im hier vorgeschlagenen System muss man individuell reagieren.
Wie man die (unterschiedlichen) Anpassungsfaktoren ermitteln kann, sieht man im Prinzip auch an der Fragestellung: Um die Qualität der Prognose für die folgende Partie festzustellen, kann man einfach wieder vergangene Ergebnisse heranziehen.
Jetzt kann man mal wieder etwas über die Funktionsweise meines Gehirns und im Weiteren der daraus resultierenden Umsetzung für die Erstellung eines Textes erfahren : Das ganze Kapitel hier habe ich mehrfach überarbeitet (merkt man nicht, sagen Sie?). Geschrieben und geschrieben habe ich. Und dann wieder gelesen und gelesen. Dann wieder gelöscht und gelöscht. Dann umgestellt und umgestellt. Und dann wieder geschrieben und geschrieben. Merken Sie was? Ja? Ich auch: Warum habe ich eigentlich nie nachgedacht? Aha, Mangel an Befähigung; ich kann aber immerhin Gedanken lesen. Jedenfalls habe ich die folgende Textpassage aus einem alten, längst vergessenen oder (leider nicht endgültig) gelöschten Text gefunden. Und obwohl sie nicht ganz hierher passt, wollte ich sie erhalten.
ANFANG DER EINGEFÜGTEN TEXTPASSAGE
Beim Pauli-System habe ich natürlich Lösungen für alle diese Probleme, versteht sich (irgendwie schwanke ich immer so zwischen Größenwahn und Irrsinn, Bescheidenheit, die auch falsch sein kann, und absoluter Ahnungslosigkeit, wenn ich nur das Substantiv von „devot“ noch kännte, das Passiv Konjunktiv Perfekt von „kennen“ kenn ich jedenfalls nicht, falls es so etwas überhaupt gibt. Aber dann müsste es halt erfunden werden, warum also nicht ich?). Der gute alte Pauli hat sich also mal wieder (ein paar) Gedanken (zu viel) gemacht.
Na gut, eigentlich habe ich nur alte Ideen übertragen. Aber immerhin. Also man hat eine Erwartung für eine Partie. Die ist, wie im obigen Beispiel, 71.93% der möglichen Punkte für Spieler 1. Anschließend hat man in der Partie ein Ergebnis. Sei es Remis. Dann hat man eine Abweichung Prognose-Ergebnis. Diese wäre hier 0.2193 Punkte. Diese hat Spieler 1, der Favorit zu wenig erzielt. Spieler 2 hat seine Erwartung um diese Punktzahl übertroffen. Man sollte also jetzt die Spielstärken beider in die richtige Richtung (und was kann an einer RICHTung überhaupt falsch sein? Ach ja, die Richtung!) korrigieren. Dazu verwendet man am besten einen Faktor, den man dann in den Nenner stellt und ihn somit zum Quotienten macht. — Ich rätsle nur gelegentlich, ob ich für die miesen (das habe ich gesagt!) Kalauer im Text immer eine andere Schriftart verwenden sollte. Ihre Ansicht? — Also beispielsweise beim Fußball rechne ich mit einem Spielstärkeupdatefaktor von 30. Das ist der über Jahre ermittelte „beste“ Wert.
Beim Schach könnte man natürlich ähnlich eine Optimierfunktion erstellen, die einem den bestmöglichen „updatefaktor“ errechnet. Man probiert dabei, analog zum Fußball, mit einem set von bekannten Ergebnissen, die chronologisch geordnet sein müssen, alle möglichen updatefaktoren durch und nimmt den, der die geringste Abweichung Prognose-Ergebnis über alle Ergebnisse produziert hat.
Dazu muss man vielleicht erklären, dass es garantiert unterschiedliche Abweichungen geben wird. Denn: Die Prognose für eine Partie hängt ja von der aktuellen Spielstärke der beiden Spieler ab (auch wenn man rückblickend analysiert, hätte es natürlich keinen Sinn, einfach das bereits bekannte Ergebnis zu prognostizieren und sich damit in die Tasche zu lügen; so könnte man logischerweise eine Abweichung von 0 produzieren). Also: Die Spielstärken sind nach einer jeden Partie, die ausgewertet wurde, unterschiedlich für alle verschiedenen updatefaktoren. Also gibt es für die folgende Partie, wo einer der beiden Spieler teilnimmt, auch wieder eine unterschiedliche Prognose.
Allerdings wäre auch das noch nicht ganz ausreichend. Denn es gibt offensichtlich Spieler, bei denen man schneller reagieren müsste und solche, bei denen man langsamer reagieren müsste. Das ist aber kein rein individuelles Problem sondern wird allein schon durch die Anzahl der gespielten Partien mitbestimmt. Ein 40-jähriger, von dem ich schon 1000 Partien in der Datenbank habe, wird durch zwei Niederlagen in Serie weniger zurückgeworfen als ein 17-jähriger mit bisher 5 Partien. So weit einleuchtend.
Also das Alter und die Anzahl der Partien sollten (und müssten) mitberücksichtigt werden. Das wäre bereits eine kleine Herausforderung an das Optimierprogramm, da es bei Anpassung mehrerer Parameter schon eines gehörigen Maßes an künstlicher Intelligenz bedarf, um beide gleichzeitig zu optimieren. Aber dennoch müsste es gemacht werden und man würde garantiert nicht schlechter als mit dem bisher verwendeten Elo-System fahren.
Eine weitere Frage bleibt dabei aber auch noch ungeklärt: Sollte man den Parameter Spielstärkeupdatefaktor darüber hinaus noch individuell gestalten oder zulassen? Dabei stößt man auf zwei Probleme: Zunächst scheint es relativ einleuchtend, dass es unterschiedliche Charaktere von Spielern gibt. Es gibt den so genannten „soliden“ Spieler, der ohnehin das Risiko scheut und darüber hinaus auch sehr konstant spielt. So ist es einfach. Und es gibt den risikofreudigen, der noch dazu häufig genug großen Spielstärkeschwankungen ausgesetzt ist. Das kann einerseits an den Risiken selber liegen, die er eingeht, und die dann gelegentlich „backfire“n, aber auch an dem Grundcharakter selber, der ihn in einer Gewinnserie mitreißt und immer weiter gewinnen lässt, leider aber ebenso bei einer Niederlagenserie.
Man hätte aber insbesondere das Problem der Akzeptanz. Man stelle sich vor, dass zwei Spieler der gleichen Spielstärke hintereinander im Turnier den gleichen Spieler schlagen. Und der eine gewänne mehr hinzu als der andere. „Ja, das liegt daran, dass du zu konstant spielst. Du müsst größere Schwankungen in deine Ergebnisse einbauen.“ Eine etwas schwache Begründung. Allerdings zur Beruhigung: Es müsste ja aufgrund der Berücksichtigung von Alter und Partienanzahl ohnehin geschehen. Jede Spielstärkeveränderung auf ein Ergebnis wäre individuell.
Für die Berechnung der Unentschiedenwahrscheinlichkeit habe ich natürlich auch Vorschläge zu machen. Nur so viel vorweg: Diese Art der Prophezeiung wäre reine Spielerei. Für die Machbarkeit des Systems ist sie nicht Ausschlag gebend. Nur muss ich sie ja hier auch anführen um den Anspruch der „Eignung des Pauli- als Vorhersagesystem“ gerecht zu werden.
Unentschiedenhäufigkeiten hängen offensichtlich sowohl vom Charakter als auch von der Höhe der Spielstärke eines Menschen ab. Je schwächer, umso weniger Remisen treten auf, allgemein gesprochen. Je stärker die Spieler umso mehr Remisen. Aber auch hier gibt es individuelle Unterschiede. Wenn, müsste man auch diesen Parameter individuell mitführen.
Selbstverständlich müssten alle diese Parameter gepflegt und gewartet werden. Also ein Spieler, der bisher risikofreudig war und plötzlich (Alters bedingt?) solide wird, müsste eine Anwachsen seines individuellen Remisfaktors erfahren. Ebenso ein Spieler, der bisher eher konstant spielte und plötzlich größere Schwankungen auftreten lässt, würde auch da individuell mit einem größeren Faktor für die Reaktion „belohnt“ werden.
Ebenso müssen die allgemeinen Parameter gepflegt und gewartet werden. Also der durchschnittliche Remiswert kann zum Beispiel weiter ansteigen oder auch wieder abfallen.
ENDE DER EINGEFÜGTEN TEXTPASSAGE
Ein paar Anmerkungen zur Aufklärung:
Das Beispiel, auf welches ich mich in dem Abschnitt bezog, war für zwei Spieler der Spielstärken 82% und 64% berechnet. Man rechnet also für Spieler 1 das Siege/Niederlagenverhältnis als 82%/18% = 4.56. Er gewinnt also 4.56 Mal so oft als er verliert. Spieler 2 hat das Verhältnis 64%/36% = 1.78.
Das Verhältnis von Spieler 1 zu Spieler 2 ist, wie man es schon so ausspricht, ein Verhältnis. Verhältnisse sind, mathematisch gesprochen, Quotienten (also Brüche; brechen Sie jetzt aber nicht, und insbesondere nicht deswegen, mit ihrem Partner, bitte!). Also dividieren wir 4.56/1.78 und erhalten das Siegverhältnis von Spieler 1 zu Spieler 2 als eine 2.56. Spieler 1 gewinnt gegen Spieler 2 2.56 Mal so oft wie Spieler 2 gegen Spieler 1. Das müssen wir zurückrechnen in eine Prozentzahl, also dividieren wir 2.56 durch (2.56+1), also 2.56/3.56 und erhalten die erwartete Punktausbeute für Spieler 1 in dieser Partie. Das sind 71.93%. Ich sage hier auch nur „Punktausbeute“, weil beim Schach genau 1 Punkt pro Partie vergeben wird. Also 1 insgesamt, so wie auch Wahrscheinlichkeiten für ein Ereignis in der Summe 1 ergeben müssen. Und die Punktausbeute setzt sich zusammen aus einem gewissen Anteil an Remisen und einem weiteren aus Siegen. Wie groß diese jeweils sind, ist eine bisher noch offenen Frage.
Zur Probe: 71.93% / 28.07% = 2.56. Das stimmt also auch. Und 71.93% + 28.07% = 1. Spieler 1 gewinnt gegen Spieler 2 2.56 Mal so oft als dass er verliert.
Ein paar aufgeworfene Probleme aus der Textpassage stellten sich bereits gar nicht mehr. So zum Beispiel war es bereits geklärt, dass sowohl im Pauli-System als auch im Elo-System individuell reagiert werden muss und bei Elo sogar wird.
Beim Fußball habe ich das System, welches die optimale Anpassung für Ergebnisse findet nicht individuell gestaltet. Es ist ein Teamsport. Da gelten etwas andere Gesetze. Aber dennoch spricht man bei der Frankfurter Eintracht häufig von der „launischen Diva“. Gibt es das also auch dort?
iii. Die Inflation der Zahlen
Die Inflation der Zahlen gibt es nicht mehr. Vielmehr bietet mein System sogar die Möglichkeit, die Spiele und Sportarten miteinander vergleichbar zu machen. Beim Backgammon gäbe es zum Beispiel für den Topspieler der Welt eine Spielstärke von 65%. Er schafft nicht mehr, Backgammon ist und bleibt ein Glücksspiel (mit einem gehörigen Anteil an Geschicklichkeit gepaart). Man sieht es an den Zahlen, welchen Charakter das Spiel hat.
Beim Tennis gäbe es vielleicht einen, der auf 92% kommt, vielleicht später noch höher oder die Weltspitze rückt wieder zusammen (in meiner Tennisdatenbank war glaub ich Sampras mal bei 92% Spielstärke; später nur noch Federer in etwa). Aber die Höchstzahlen drücken etwas aus. Nicht nur ein Sieg/Niederlagenverhältnis (was auch schon eine Menge wäre; anders als Elo) sondern auch noch einen Spielcharakter.
Beim Schach könnte man, Spielregel bedingt (Schach ist ein Remisspiel!), gar nicht viel höher als 85% oder so kommen. Selbst die jetzt die Weltspitze erobernden Computer kämen nicht höher. Es gäbe zu viele Remis. Wieder: Die Höhe der Spielstärke spiegelt den Charakter des Spiels wieder.
Eines ist sicher: Keine Inflation mehr. Wünschenswert?
iv. Schwarz-Weiß Problematik
Das meiste zu diesem Thema ist schon in der eingefügten Textpassage enthalten. Noch mal zusammengefasst: Es gibt einen Weißvorteil, der muss zwecks guter Prognosen ohnehin ermittelt werden. Es gibt einen allgemeinen und einen individuellen Weißvorteil. Ein guter Weißspieler hätte irgendwann einen höheren Faktor als der durchschnittliche, der erfolgreiche Schwarzspieler einen niedrigeren (damit also einen höheren Schwarzwert, welcher der Gegenwert vom Weißvorteil wäre).
Die individuelle Pflege und Wartung der Parameter wäre ein gewisser Verwaltungsaufwand. Außerdem litte die Nachvollziehbarkeit etwas darunter. Man hätte ja für jeden Teilnehmer nicht mehr einen Wert sondern drei oder vier Werte (Spielstärke, Weißvorteil, Anpassungsfaktor, Remisfaktor) zu pflegen. Zur Berechnung, was alle Spieler/Teilnehmer immer gerne auch für sich ausrechnen wollen, müssten sie alle diese Werte zur Hand haben, wenn auch nur schätzungsweise.
Ich gebe gerne zu, dass ich in den Erklärungen hier ein wenig schwanke zwischen der Anwendung des Pauli-Systems auf Schach bezogen und auf alle Spiele/Sportarten bezogen, aber fast alle erwähnten Punkte sind 1:1 auf ein anderes Spiel/Sportart zu übertragen. So ist die Schwarz-Weiß Problematik identisch mit dem Heimvorteil im Fußball. Und sollte es bei einem Spiel/Sportart dieses nicht geben, dann wären alle Parameter in dieser Kategorie 1 und würden nichts verändern.
v. Remisproblematik
Die Remisproblematik ist bereits oben in der eingefügten Textpassage erläutert. Der Remisfaktor ist sowohl allgemein von der Spielstärke abhängig als auch individuell vom Charakter des Spielers. Für die Höhe der Bewertung sämtlicher Teilnehmer ist die Möglichkeit der Prognose einer Remiswahrscheinlichkeit allerdings irrelevant.
Auch dieses Problem gibt es in gewisser Verwandtschaft in anderen Sportarten/Spielen. Beim Fußball zum Beispiel.
i) Die Normalverteilung
Die Normalverteilung ist hiermit abgeschafft. Zumindest bei Einführung des Pauli-Systems. Ich habe hier mal die Kurve dargestellt für einen Spieler der Qualität 65% gegen alle anderen:
Hübsch und ästhetisch, nicht wahr? Die blaue Linie gibt dabei die Punkterwartung an. Die lila Linie ist die Verlustpunkterwartung. Die beiden aufaddiert ergeben 1. Die Gegnerstärke variiert entlang der x-Achse von 1% – 99%.
Der Unterschied zum Elo-Diagramm: Beim Pauli-System gibt es eine natürliche Begrenzung für die Zahlen. Das ist die Spielstärke 1. Mehr als alle Partien gewinnen geht nicht. Dann gibt es eine spielinterne Begrenzung für die Zahlen. Beim Schach wäre das die zu erwartende Ausbeute, wenn man immer den besten Zug macht und dann damit auf Gegner trifft. Also auch der perfekte Computer würde gegen den derzeit besten Spieler der Welt niemals alle Partien gewinnen. Er würde zwar garantiert auch keine verlieren, aber eben beileibe nicht alle gewinnen. Das ist spielintern. Schach ist ein Remisspiel, das ist so weit anerkannt.
Das spiegelt das Diagramm nicht wieder, bringt aber den Unterschied zum Elo-System zum Ausdruck. Bei Elo gibt es keine solche und keine solche Begrenzung. Die Normalverteilung lässt das nicht zu. Es gibt in der Theorie also beliebig starke und beliebig schwache (ja, die Normalverteilung ist auch nach unten nicht begrenzt) Spieler. Welche der beiden Annahmen, Elo oder Pauli, realistischer ist, überlasse ich Ihnen.
ii. noch mal die Anpassungsgeschwindigkeit
Irgendwie hatte ich den Eindruck, dass noch Aufklärungsbedarf besteht, was die Anpassung und die Anpassungsgeschwindigkeit angeht, deshalb noch mal zurück zu diesem Punkt:
Es muss reagiert werden auf Ergebnisse. Das war sofort einsichtig. Bewegungen innerhalb der Rangliste muss es geben. Also bleibt die Frage, wie stark man reagieren muss. Ich habe versucht, dass in Worten zum Ausdruck zu bringen. Das ist mir wohl, wie viele andere Male vorher, nicht gelungen. Aber deshalb gibt es ja zum Glück die praktischen Beispiele. Nicht nur, dass ich hoffen kann, es Ihnen damit noch näher zu bringen, hat es mir selber ein paar Klarheiten gebracht.
Hier also das praktische Beispiel: Ich habe zunächst zwei Spieler gegeneinander spielen lassen. Diese beiden haben ihre Spielstärken vor der ersten Partie. Die Spielstärke wird aufgrund des Ergebnisses in der ersten Partie mit einem bestimmten Faktor angepasst. Dann wird die zweite Partie gespielt. Die Prognose für die zweite Partie beruht auf der durch das Ergebnis von Partie 1 veränderten Spielstärke. Nun kommt das Ergebnis von Partie 2. Das Verfahren wird fortgesetzt. Insgesamt werden 10 Partien gespielt. Bei jeder Partie gibt es eine Abweichung Prognose – Ergebnis. Diese Abweichung wird absolut (also die Beträge; negative Zahlen werden positiv) aufaddiert und ergibt den Gesamtfehler. Der Gesamtfehler misst die Qualität der Vorhersage. So lange man keinen Vergleich hat, hat man nur eine Fehlersumme. Jetzt wird der Vergleich geschaffen. Es wird ein alternativer Faktor zur Anpassung verwendet. Auch dabei gibt es einen Gesamtfehler, der nicht identisch zu dem ersten Gesamtfehler ist. Einer der beiden Werte war besser. Nun sucht man einfach den Besten, indem man weitere Faktoren durchprobiert. Gesucht ist also der Minimalfehler der Prognose, die mithilfe eines bestimmten Faktors ermittelt wurde. Hier also jetzt die Ergebnisse:
1 2 3 4 5 6 7 8 9 10
S1vor 0.7 0.634 0.582 0.541 0.509 0.532 0.551 0.567 0.629 0.678
S2vor 0.55 0.616 0.668 0.709 0.741 0.718 0.699 0.683 0.621 0.572
PunktEw S1 0.656 0.52 0.41 0.327 0.265 0.309 0.346 0.377 0.508 0.612
Ergebnis 0 0 0 0 0.5 0.5 0.5 1 1 1
Abweichung aus Sicht S1 -0.66 -0.52 -0.41 -0.33 0.235 0.191 0.154 0.623 0.492 0.388
bisherige Gesamterwartung S1 0.656 1.176 1.586 1.913 2.178 2.487 2.834 3.211 3.719 4.331
bisher erreicht S1 0 0 0 0 0.5 1 1.5 2.5 3.5 4.5
aktuelle Gesamtabw S1 -0.66 -1.18 -1.59 -1.91 -1.68 -1.49 -1.33 -0.71 -0.22 0.169
Updatedfaktor 10 10 10 10 10 10 10 10 10 10
S1nach 0.634 0.582 0.541 0.509 0.532 0.551 0.567 0.629 0.678 0.717
S2nach 0.616 0.668 0.709 0.741 0.718 0.699 0.683 0.621 0.572 0.533
Gesamtabweichung 0.656 1.176 1.586 1.913 2.147 2.338 2.492 3.115 3.606 3.995
S1 Gewinn/Verlust aktuell -0.07 -0.05 -0.04 -0.03 0.023 0.019 0.015 0.062 0.049 0.039
S2 Gewinn/Verlust aktuell 0.066 0.052 0.041 0.033 -0.02 -0.02 -0.02 -0.06 -0.05 -0.04
So komplex scheint es gleich zu werden, wenn man ein sehr einfaches Beispiel zur Veranschaulichung verwendet. Aber ich erkläre gerne: S1vor und S2vor sind die Spielstärken der beiden Spieler vor der folgenden Partie. Sie repräsentieren die veränderten Werte aufgrund des Ergebnisses in der Partie, welches in der Zeile „Ergebnis“ zu finden ist. Der Updatefaktor, hier 10, reguliert dabei, wie stark auf das Ergebnis reagiert wird. Die hier verwendete 10 bewirkt eine schnelle Reaktion. Die Abweichung aus Sicht von S1 reflektiert die Abweichung von der Punkterwartung und dem Ergebnis in der Partie. Diese Abweichung wird durch den updatefaktor dividiert und von der Spielstärke abgezogen. Der Eintrag S1nach gibt die neue Spielstärke nach der Veränderung wieder. Diese wird übertragen in die Zeile S1vor, allerdings dort in Spalte 2. Die veränderte Spielstärke ist also Grundlage für die Prognose der folgenden Partie. Die Zeile „bisher erreicht“ addiert lediglich die Punkte aus der Zeile „Ergebnis“ auf. Die Zeile „Gesamtabweichung“ addiert die Fehler jeder einzelnen Prognose als Betrag auf. Die aktuelle Gesamtabweichung zeigt an, wie weit Spieler 1 hinter seiner Erwartung zurück ist (im günstigeren Falle auch, wie weit er sie übertroffen hat).
Nun hat Spieler 1, der als der stärkere begann, die ersten 4 Partien verloren. Das hat sich äußerst negativ auf seine Spielstärke ausgewirkt. Dann aber, ab der 5.Partie, begann er zu punkten. Zunächst mit 3 Remisen, dann abschließend mit 3 Siegen. Das ist natürlich ein etwas ungewöhnlicher Verlauf. Aber praktisch jedenfalls möglich. Nun, dort oben waren die Ergebnisse für den updatefaktor 10. Die Gesamtabweichung Prognose-Ergebnis betrug hier 3.995.
Jetzt habe ich mal die für den updatefaktor 25 abgebildet. Man sehe und staune, wenn möglich:
1 2 3 4 5 6 7 8 9 10
S1vor 0.7 0.678 0.658 0.639 0.621 0.621 0.622 0.622 0.639 0.654
S2vor 0.55 0.572 0.592 0.611 0.629 0.629 0.628 0.628 0.611 0.596
PunktEw S1 0.656 0.612 0.569 0.529 0.492 0.492 0.493 0.493 0.529 0.563
Ergebnis 0 0 0 0 0.5 0.5 0.5 1 1 1
Abweichung aus Sicht S1 -0.66 -0.61 -0.57 -0.53 0.008 0.008 0.007 0.507 0.471 0.437
bisherige Gesamterwartung S1 0.656 1.268 1.838 2.367 2.859 3.351 3.844 4.337 4.866 5.429
bisher erreicht S1 0 0 0 0 0.5 1 1.5 2.5 3.5 4.5
aktuelle Gesamtabw S1 -0.66 -1.27 -1.84 -2.37 -2.36 -2.35 -2.34 -1.84 -1.37 -0.93
Updatedfaktor 30 30 30 30 30 30 30 30 30 30
S1nach 0.678 0.658 0.639 0.621 0.621 0.622 0.622 0.639 0.654 0.669
S2nach 0.572 0.592 0.611 0.629 0.629 0.628 0.628 0.611 0.596 0.581
Gesamtabweichung 0.656 1.268 1.838 2.367 2.375 2.383 2.39 2.897 3.368 3.805
S1 Gewinn/Verlust aktuell -0.02 -0.02 -0.02 -0.02 3E-04 3E-04 2E-04 0.017 0.016 0.015
S2 Gewinn/Verlust aktuell 0.022 0.02 0.019 0.018 -0 -0 -0 -0.02 -0.02 -0.01
1 2 3 4 5 6 7 8 9 10
S1vor 0.7 0.674 0.65 0.628 0.607 0.609 0.61 0.611 0.633 0.652
S2vor 0.55 0.576 0.6 0.622 0.643 0.641 0.64 0.639 0.617 0.598
PunktEw S1 0.656 0.603 0.552 0.505 0.462 0.466 0.468 0.471 0.516 0.557
Ergebnis 0 0 0 0 0.5 0.5 0.5 1 1 1
Abweichung aus Sicht S1 -0.66 -0.6 -0.55 -0.51 0.038 0.034 0.032 0.529 0.484 0.443
bisherige Gesamterwartung S1 0.656 1.259 1.812 2.317 2.779 3.245 3.713 4.185 4.701 5.258
bisher erreicht S1 0 0 0 0 0.5 1 1.5 2.5 3.5 4.5
aktuelle Gesamtabw S1 -0.66 -1.26 -1.81 -2.32 -2.28 -2.24 -2.21 -1.68 -1.2 -0.76
Updatedfaktor 25 25 25 25 25 25 25 25 25 25
S1nach 0.674 0.65 0.628 0.607 0.609 0.61 0.611 0.633 0.652 0.67
S2nach 0.576 0.6 0.622 0.643 0.641 0.64 0.639 0.617 0.598 0.58
Gesamtabweichung 0.656 1.259 1.812 2.317 2.355 2.389 2.421 2.95 3.433 3.876
S1 Gewinn/Verlust aktuell -0.03 -0.02 -0.02 -0.02 0.002 0.001 0.001 0.021 0.019 0.018
S2 Gewinn/Verlust aktuell 0.026 0.024 0.022 0.02 -0 -0 -0 -0.02 -0.02 -0.02
Die Sequenz der Ergebnisse ist die gleiche. Ich suche nur auf die Antwort nach der Frage, wie ich am besten reagieren sollte auf die Ergebnisse. Die Berechnungen in der zweiten Liste sind exakt gleich durchgeführt. Aber diese Anpassungsgeschwindigkeit von 1/30 hat eine geringere Gesamtabweichung produziert. Die Gesamtabweichung betrug hier nur 3.805, das ist weniger als 3.995.
Im folgenden Diagramm habe ich mal die Abweichungen für die verschiedenen updatefaktoren dargestellt. Dabei habe ich zunächst in 5er Schritten variiert, von 10 bis 55. Das genügte zur Veranschaulichung:
Hier gibt es eine etwas kuriose Bewegung in dem Sinne, dass der Fehler zunächst gar größer wird, wenn man von 10 auf 15 geht. Eine Erklärung habe ich nicht direkt für so etwas. Aber jedenfalls gibt es ein klar erkennbares Minimum. Das liegt (wie zufällig auch beim Fußball) bei 30. Das ist aber nur der zufällige Wert für dieses kleine Beispiel. Man muss sich nun nur noch vorstellen, dass man das Verfahren auf eine Datenbank anwendet, in der tausende von Ergebnissen chronologisch vorliegen. Man reagiert mit einem vorgegebenen Wert auf die Ergebnisse und addiert die Gesamtabweichung Prognose-Ergebnis pro Partie auf. Die geringste Gesamtabweichung ergibt den besten Wert.