Czy sztuczna inteligencja może wygrać konkurs na kartki świąteczne?
Wiele firm i organizacji organizuje konkursy na kartki świąteczne dla dzieci swoich pracowników, a GMV nie jest tu wyjątkiem.
Jednak w tym roku dział sztucznej inteligencji i danych typu Big Data (BDA) GMV przeprowadził mały eksperyment: udział w konkursie wzięła kartka zaprojektowana przez system sztucznej inteligencji, oczywiście bez wiedzy jury. Czy będziemy w stanie oszukać jurorów, prezentując ją jako kartkę stworzoną przez dziecko? Czy wygra ona konkurs? Jakie wnioski możemy z tego wyciągnąć?
Tworzenie i szkolenie GrinchGAN
GrinchGAN to system opracowany przez GMV w celu sprostania powyższemu wyzwaniu. Jest on oparty na generatywnych sieciach przeciwstawnych (ang. Generative Adversarial Networks, GAN), podstawową ideą jest stworzenie dwóch sieci neuronowych, które będą ze sobą konkurować. Z jednej strony sieć G, zwana generatorem, wytwarza obrazy z szumów, które transmituje do innej sieci D, zwanej dyskryminatorem, która próbuje rozróżnić, czy otrzymany obraz jest rzeczywisty, czy też wygenerowany przez sieć G.
Powtarzając ten proces, obie sieci uczą się od siebie nawzajem, powstaje w ten sposób generator zdolny do tworzenia zupełnie nowych wyglądających próbek o realistycznym wyglądzie, bez kopiowania lub dodawania oryginalnych obrazów szkoleniowych. Z drugiej strony, dyskryminator uczy się coraz lepiej odróżniać obrazy rzeczywiste od tych generowanych, co wpływa na poprawę jego wyników. Pomysł ten przedstawiono schematycznie na rysunku 1
W celu opracowania eksperymentu uzyskano obrazy szkoleniowe z Google Images. Wystarczyła próbka około 800 (kilka przykładów można zobaczyć w lewej górnej części rysunku 3). Po przeszkoleniu GAN udało nam się uzyskać obrazy o wystarczającej rozdzielczości, które rzeczywiście wyglądały jak choinki. Dokonaliśmy ręcznego wyboru tych, które wydawały się najbardziej obiecujące (w prawej górnej części rysunku 3), a z nich wybraliśmy ten, który naszym zdaniem mógł przynieść najlepsze rezultaty. Jednym z wymogów było umieszczenie na kartce logo GMV, zdecydowaliśmy się na ręczne wykonanie go za pomocą programu Paint.
Ostatnim krokiem, któremu zawdzięczamy tak wysoką jakość i estetykę rysunku, było zastosowanie neuronowego transferu stylu (ang. Neural Style Transfer). Metoda ta ma na celu wyodrębnienie stylu i kontekstu dwóch obrazów, źródłowego i docelowego, w celu przeniesienia stylu z obrazu źródłowego na docelowy, zachowując kontekst tego ostatniego. Rysunek 2 przedstawia schemat działania tej metody. W naszym przypadku jako źródło wybraliśmy obraz z poprzedniej edycji konkursu (dolna środkowa część rys. 3) oraz naszą choinkę jako obraz docelowy. W ten sposób oddzielamy styl źródła (kolory, tekstury) od kontekstu (ręce) i zastępujemy styl obrazu docelowego, zachowując kontekst (drzewko, logo). W rezultacie otrzymaliśmy kartkę świąteczną pokazaną w lewej środkowej części rys. 3)
A zwycięzcą jest …
Wynik eksperymentu był niezwykle interesujący, gdyż żaden z jurorów nie podejrzewał, że obraz jest fikcyjny. Można więc powiedzieć, że wygenerowany przez nas obraz może konkurować na równych zasadach z rysunkami wykonanymi przez dzieci, a co więcej, że jest nie do odróżnienia.
Nadal istnieją jednak pewne kwestie, które należy rozwiązać.
- Z jednej strony, rozdzielczość, choć nie jest zła, jest niewystarczająca do zastosowania na arkuszu A4 bez utraty jakości.
- Z drugiej strony, jedną z uwag jurorów było to, że chcieliby zobaczyć oryginalny rysunek. Niesie to za sobą dodatkowe problemy, ponieważ nie ma możliwości wydrukowania obrazu z fakturą obrazu namalowanego np. akwarelą, co ogranicza jego wiarygodność.
Dobra wiadomość jest taka, że choć jurorom spodobał się rysunek, to jednak dostrzegli w nim coś „innego”, czego nawet oni sami nie potrafili wyjaśnić. Albo nie byliśmy wystarczająco precyzyjni, albo rysunek dziecka może ciągle wywołać więcej emocji niż ten stworzony przez sztuczną inteligencję. Jednak pomimo powyższych ograniczeń, obrazek ten zajął drugie miejsce w swojej kategorii, co wyraźnie pokazuje, że Grinch mógłby wkrótce wykraść świąteczny konkurs dzieciom pracowników GMV, wystarczy komputer i cierpliwość.
Chociaż chcieliśmy wygrać konkurs, etyka osobista i zawodowa nałożyła na nas pewne ograniczenia, których nie chcieliśmy przekraczać. Chociaż prawdą jest, że jury nie wiedziało, jak powstała nasza kartka świąteczna, to jednak poinformowaliśmy o tym osobę odpowiedzialną za konkurs. Osoba ta nie zakazania nam tego eksperymentu, wręcz przeciwnie: zachęciła nas do niego i nam pogratulowała. Ale przez cały czas czuwała na wypadek, jeśli trzeba by zdyskwalifikować kartkę (w przypadku, gdy zwyciężyła w swojej kategorii).
To, co początkowo wydaje się niewinnym eksperymentem, powinno skłonić nas do refleksji nad krótko- i średnioterminową przyszłością sztucznej inteligencji, która jest w stanie tworzyć coraz bardziej realistyczne obrazy Deep Fakes, wpływać na elektorat w kampaniach politycznych, a nawet publikować fałszywe wiadomości generowane za jej pomocą. Czy potrzebne są przepisy regulujące sztuczną inteligencję? Czy można opublikować dowolny model w sferze publicznej? Bardzo ciekawą dyskusję na ten temat w aspekcie modeli językowych (GPT-2) można prześledzić tutaj.
Nadal wprowadzamy innowacje.
Autor: Antón Makarov
[1] https://medium.com/analytics-vidhya/intuitive-explanation-of-gan-93de2dbcce85
[2] https://becominghuman.ai/creating-intricate-art-with-neural-style-transfer-e5fee5f89481