Ewolucja Sztucznej Inteligencji w świecie gier wideo i jej przeniesienie do realnego świata
Zastosowanie sztucznej inteligencji w grach nie jest niczym nowym i znacznie ewoluowało od momentu powstania pierwszych gier wideo.
Początkowo grający przeciwnicy po prostu stosowali zestaw mniej lub bardziej ogólnych zasad, zaś obecnie mamy do czynienia z niezwykle złożonymi systemami, które są w stanie wykonać miliony obliczeń w ciągu sekundy, aby określić najlepszą strategię do pokonania gracza-człowieka.
Za szczytowe osiągnięcie tej ewolucji można uznać rok 2017, kiedy to program AlphaZero opracowany przez firmę DeepMind trafił na pierwsze strony gazet, gdy nauczył się grać i wygrywać rozgrywane partie shogi (japońskich szachów) oraz Go, z wykorzystaniem techniki głębokiego uczenia przez wzmacnianie (głębokiego RL).
W przypadku AlphaZero najbardziej nowatorskim elementem, na jaki należy zwrócić uwagę, jest właśnie stosowanie techniki uczenia przez wzmacnianie. Jest to technika, w której nie mamy „etykiety wyjściowej” (pojęcie etykiety rozumiem jako klasyfikację uzyskanego wyniku), a zatem nie jest ona techniką typu nadzorowanego, gdzie procesem uczenia kieruje człowiek. Jednocześnie, mimo że algorytmy te uczą się same, nie należą również do typu nienadzorowanego, w którym usiłuje się dokonać klasyfikacji grup z uwzględnieniem pewnej odległości między próbkami. W świecie rzeczywistym mamy natomiast do czynienia z wieloma zmiennymi, które często są ze sobą wzajemnie powiązane i zależą od innych przypadków biznesowych oraz dają początek bardziej rozbudowanym scenariuszom dla podejmowania decyzji.
Podczas gdy w nadzorowanych (lub nienadzorowanych) modelach uczenia, takich jak sieci neuronowe, drzewa decyzyjne, KNN itp., usiłuje się „minimalizować funkcję kosztu”, zredukować błąd, w RL staramy się „zmaksymalizować nagrodę”. I możemy to osiągnąć – pomimo popełniania błędów lub braku optymalności. W ten sposób RL proponuje nowe podejście w zakresie procesu uczenia się naszej maszyny. W tym celu wprowadza 2 następujące komponenty:
- Agent: będzie nim nasz model, który chcemy szkolić i który będzie uczyć się podejmowania decyzji.
- Środowisko: będzie nim otoczenie, w którym agent wchodzi w interakcje i „porusza się”. Środowisko zawiera ewentualne ograniczenia i reguły występujące w danym momencie.
Pomiędzy nimi istnieje relacja, która działa na zasadzie wzajemnego sprzężenia zwrotnego i ma następujące aspekty:
- Działanie: możliwe działania, które Agent może podjąć w danym momencie.
- Stan (środowiska): są to wskaźniki środowiska, dotyczące stanu poszczególnych tworzących je elementów w danym momencie.
- Nagrody (lub kary!): w wyniku każdego działania podjętego przez Agenta możemy otrzymać nagrodę lub karę, które będą wskazywać Agentowi, czy działa dobrze czy źle.
Zastosowania tego modelu w realnym świecie są bardzo różnorodne i interesujące, na przykład w przypadku ramion mechanicznych: zamiast udzielać ramionom instruktażu, podając szczegółowe instrukcje dotyczące procesu ich poruszania się, możemy pozwolić im na przeprowadzanie „ślepych” prób i nagradzać je wówczas, gdy będą dobrze sobie radzić. Model ten może być również stosowany w środowiskach, które wchodzą w interakcję ze światem rzeczywistym, takich jak inne typy maszyn przemysłowych, oraz do przeprowadzania konserwacji predykcyjnej. Można go również wykorzystywać w środowisku finansowym, na przykład do decydowania o tym, jak zbudować portfel inwestycyjny bez ingerencji człowieka.
W tym kontekście, powiązanym w pewien sposób z systemami autonomicznej jazdy i symulacji, firma Sony opublikowała nowe aktualizacje w obrębie swojego agenta sztucznej inteligencji dla serii wyścigowych gier symulacyjnych Gran Turismo (GT Sophy), który jest w stanie pokonać najlepszych graczy na świecie. Tego typu agenci stanowią skrajny i najnowocześniejszy przykład systemów sztucznej inteligencji, gdyż kierowcy muszą wykonywać złożone manewry taktyczne, aby wyprzedzać lub blokować przeciwników, prowadząc swoje pojazdy w ramach odpowiadających im limitów operacyjnych.
Agent GT Sophy został przeszkolony przy użyciu opisanych powyżej technik RL. Obejmuje on najnowocześniejsze algorytmy uczenia się, a także scenariusze szkoleniowe opracowane przez Sony AI z wykorzystaniem Gran Turismo Sport – symulatora rzeczywistej jazdy – oraz infrastruktury gier w chmurze SIE do szkolenia na dużą skalę.
Ten rodzaj systemów sztucznej inteligencji ze szkoleniem w symulowanych środowiskach przyczynia się do ustanowienia symulacji jako systemu szkoleniowego dla wysoce złożonych zastosowań, takich jak jazda autonomiczna, gdzie sztuczna inteligencja odgrywa dominującą rolę w systemach sterowania. Zastosowania te bez wątpienia można ekstrapolować na inne środowiska: przemysłowe, finansowe czy medyczne.
Autor(ka): Ángel Cristóbal Lázaro