Die Entwicklung der KI in der Welt der Videospiele und ihre Übertragung auf die reale Welt
Die Anwendung von KI in Spielen ist nichts Neues und hat sich seit den Anfängen der Videospiele stark weiterentwickelt.
Bei den ersten Spielen führten die Gegner einfach nur eine mehr oder weniger einfache Reihe von Regeln aus. Heute sind das extrem komplexe Systeme, die in der Lage sind, Millionen von Rechenoperationen pro Sekunde durchzuführen, um die beste Strategie bestimmen und den menschlichen Gegenspieler besiegen zu können.
Ein Meilenstein in dieser Entwicklung wurde 2017 erreicht, als das Programm AlphaZero von DeepMind Schlagzeilen machte, nachdem es mithilfe von Deep Reinforcement Learning (Deep RL) gelernt hatte, siegreich Shogi (ein japanisches Schachspiel) und Go zu spielen.
Bei AlphaZero sticht als neuester Aspekt die Nutzung des so genannten Reinforcement Learning hervor. Dabei geht es um eine Technik, bei der wir kein „Output-Label“ haben (wobei das Konzept „Label“ als eine Klassifizierung des erzielten Ergebnisses verstanden wird). Es handelt sich also nicht um eine überwachte Technik, bei der ein Mensch das Lernen steuert, aber obwohl diese Algorithmen von selbst lernen, gehören sie auch nicht zur unüberwachten Technik, bei der versucht wird, Gruppen unter Berücksichtigung eines gewissen Abstands zwischen den Proben zu klassifizieren. Stattdessen haben wir in der realen Welt mehrere und oft miteinander verflochtene Variablen, die von anderen Betriebsfällen abhängen und zu größeren Szenarien führen, in denen wir Entscheidungen treffen müssen.
Andererseits geht bei überwachten (oder unüberwachten) Lernmodellen wie neuronalen Netzen, Bäumen, knn usw. darum, „die Kostenfunktion zu minimieren“, um Fehler zu reduzieren. Beim RL hingegen ist das Ziel die „Maximierung der Belohnung“. Dabei werden Fehler und suboptimale Ergebnisse in Kauf genommen. Auf diese Weise schlägt RL einen neuen Ansatz vor, um unsere Maschine lernen zu lassen, und postuliert dazu zwei Komponenten:
- Der Agent: Unser Modell, das wir trainieren und das lernen soll, Entscheidungen zu treffen.
- Die Umgebung: Das Umfeld, in dem der Agent interagiert und sich „bewegt“. Die Umgebung enthält die Beschränkungen und Regeln für die zu einem bestimmten Zeitpunkt bestehenden Möglichkeiten.
Zwischen beiden besteht eine Rückkopplungsbeziehung mit folgenden Verbindungen:
- Aktion: Die Handlungen, die der Agent zu einem bestimmten Zeitpunkt ausführen kann.
- Zustand (der Umgebung): Die Indikatoren des Umfelds, die zeigen, wie die diese Umgebung ausmachenden Elemente zum jeweiligen Zeitpunkt zusammengesetzt sind.
- Belohnungen (oder Bestrafungen!): Als Ergebnis jeder Aktion erhält der Agent eine Belohnung oder eine Strafe, die ihm zeigt, ob er gut oder schlecht agiert.
Diese Anwendungen sind sehr vielfältig und interessant für die reale Welt, z.B. bei mechanischen Armen, wo wir ein Tier „blind“ versuchen lassen, eine Bewegung zu erlernen und es dafür belohnen, statt ihm die Bewegung durch eine Kette von Anweisungen einzuflößen. RF kann auch in Umgebungen eingesetzt werden, die mit der realen Welt interagieren, wie z.B. in anderen Arten von Maschinen und für die vorausschauende Wartung, aber auch in der Finanzwelt, um z.B. Entscheidungen zur Führung eines Anlageportfolios ohne menschliches Zutun zu treffen.
In diesem Bereich hat Sony in einem gewissen Zusammenhang mit autonomen Fahrsystemen und deren Simulationen neue Updates für seinen KI-Agenten für Gran Turismo (GT Sophy) veröffentlicht, der in der Lage ist, die besten Gamer der Welt zu besiegen. Solche Agenten stellen ein extremes und hochmodernes Beispiel für KI-Systeme dar, da die Fahrer dabei komplexe taktische Manöver ausführen müssen, um Gegner zu überholen oder zu blockieren, während sie ihre Fahrzeuge an der Grenze ihrer Leistungsfähigkeit betreiben.
GT Sophy wurde mit den oben beschriebenen RL-Techniken auf der Basis hochmoderner Lernalgorithmen und Trainingsszenarien trainiert, die von Sony AI entwickelt wurden. Dabei wurde der Echtfahrsimulator Gran Turismo Sport verwendet und die Cloud-Gaming-Infrastruktur von SIE für groß angelegte Trainings genutzt.
Diese Arten von KI-Systemen mit Training in simulierten Umgebungen tragen dazu bei, die Simulation als Trainingssystem für hochkomplexe Anwendungen wie autonomes Fahren zu etablieren, bei denen KI eine vorherrschende Rolle in den Steuerungssystemen spielt, und die zweifellos auf andere Umgebungen wie Industrie, Finanzen und Medizin extrapoliert werden können.
Autor: Ángel Cristóbal Lázaro