Kann künstliche Intelligenz einen Weihnachtskarten-Wettbewerb gewinnen?
Viele Unternehmen und Organisationen veranstalten Weihnachtskartenwettbewerbe für die Kinder ihrer Mitarbeiter. GMV ist da keine Ausnahme.
Dieses Jahr jedoch hat die Abteilung Künstliche Intelligenz und Big Data (BDA) von GMV ein kleines Experiment durchgeführt: die Teilnahme am Wettbewerb mit einer Grußkarte, die von einem System künstlicher Intelligenz generiert wurde, natürlich ohne das Wissen der Jury. Würden wir es schaffen, die Jury zu täuschen, indem wir die unsere als eine von einem Kind geschaffene Karte ausgaben? Würde sie den Wettbewerb gewinnen? Welche Lehren könnten wir daraus ziehen?
GrinchGAN schaffen und trainieren
GrinchGAN ist das von GMV entwickelte System, um die oben genannte Herausforderung zu meistern. Es basiert auf den GAN (Generative Adversarial Networks), deren Grundidee darin besteht, zwei neuronale Netze in Konkurrenz zueinander zu setzen. Einerseits erzeugt ein G-Netz, Generator genannt, Bilder aus Rauschen, die es an ein anderes, das Diskriminator genannte D-Netz überträgt, das zu unterscheiden versucht, ob das empfangene Bild real oder von G generiert ist.
Durch Wiederholung dieses Prozesses lernen die beiden Netzwerke voneinander und trainieren so einen Generator, der in der Lage ist, völlig neue Objekte mit realistischem Aussehen zu erzeugen, ohne die ursprünglichen Trainingsbilder zu kopieren oder zu vermischen. Zum anderen lernt der Diskriminator, die realen Bilder immer besser von den erzeugten zu unterscheiden, was den Generator veranlasst, seine Ergebnisse weiter zu verbessern. Diese Idee sehen Sie in Abbildung 1 schematisch dargestellt.
Zur Entwicklung des Experiments wurden Trainingsbilder aus Google Images, herangezogen, wobei etwa 800 Baumbilder ausreichend waren (einige Beispiele sind oben links in Abbildung 3 zu sehen). Nach dem Trainieren des GAN erzielten wir Bilder mit angemessener Auflösung und ausreichender Ähnlichkeit mit Bäumen. Aus den so generierten Bildern trafen wir eine manuelle Auswahl der vielversprechendsten (oben rechts in Abbildung 3), und wählten daraus dasjenige aus, von dem wir dachten, dass es die besten Ergebnisse erzielen könnte. Da eine der Anforderungen war, dass die Grußkarte das GMV-Logo enthalten sollte, fügten wir das Logo von Hand mit Paint in dieses Bild ein.
Der letzte Schritt, dem wir das Ergebnis mit so hoher Qualität und mit dem Aussehen einer echten Zeichnung verdanken, ist der Einsatz von Neural Style Transfer. Diese Technik zielt darauf ab, den Stil und den Kontext aus zwei Bildern, Quelle und Ziel, zu extrahieren, um den Stil vom Quellbild auf das Zielbild zu übertragen, wobei der Kontext des letzteren erhalten bleibt. Abbildung 2 zeigt ein Diagramm der Funktionsweise dieser Technik. In unserem Fall haben wir ein Bild aus einer früheren Ausgabe des Wettbewerbs als Quelle (unten in der Mitte in Abbildung 3) und unseren Baum als Ziel gewählt. So trennten wir den Stil des Quellbilds (Farben, Texturen) vom Kontext (Hände) und ersetzten den Stil im Zielbild unter Beibehaltung des Kontexts (Baum und Logo). Auf diese Weise erhielten wir die Grußkarte im linken Mittelbereich von Abbildung 3)
Und der Gewinner ist …
Das Ergebnis des Versuchs war äußerst interessant. Kein Mitglied der Jury bekam den Verdacht, dass es sich um ein fiktives Bild handelte, so dass wir sagen können, dass unser generiertes Bild gleichberechtigt mit Zeichnungen von Kindern konkurrieren kann und darüber hinaus für Menschen nicht zu unterscheiden ist.
Allerdings sind noch einige Fragen zu klären.
- Einerseits ist die Auflösung zwar nicht schlecht, reicht aber nicht aus, um ein A4-Blatt mit guter Qualität zu füllen.
- Andererseits kommentierte die Jury unter anderem, dass sie gerne die Originalzeichnung sehen würde. Das bringt uns zu dem Problem, dass wir keine Möglichkeit haben, das Bild mit den Texturen eines z. B. mit Aquarellfarben gezeichneten Bildes zu drucken, was die Glaubwürdigkeit einschränkt.
Die gute Nachricht ist, dass die Jury die Zeichnung zwar mochte, ihr aber etwas an ihr auffiel, sich aber nicht erklären konnte, was das war. Also haben wir noch nicht gut genug gearbeitet, oder die Zeichnung eines Kindes kann immer noch mehr Emotion erzeugen als die einer künstlichen Intelligenz. Doch trotz der beschriebenen Einschränkungen belegte das Bild den zweiten Platz in seiner Kategorie und macht damit deutlich, dass Grinch den GMV-Kindern den Weihnachtswettbewerb schon bald nur mit einem Computer und etwas Geduld stehlen könnte.
Obwohl wir den Wettbewerb natürlich gerne gewonnen hätten, setzte uns die persönliche und berufliche Ethik gewisse Grenzen, die wir nicht überschreiten wollten. Auch wenn die Herkunft unserer Glückwunschkarte der Jury nicht bekannt war, hatten wir doch den Verantwortlichen für den Wettbewerb informiert. Weit davon entfernt, uns das Experiment zu verbieten, ermutigte und beglückwünschte er uns dafür. Doch war er darauf vorbereitet, die Karte zu disqualifizieren (falls sie als Gewinner in ihrer Kategorie gewählt worden wäre).
Dieses auf den ersten Blick unschuldig aussehende Experiment sollte uns zum Nachdenken über die kurz- und mittelfristige Zukunft der künstlichen Intelligenz veranlassen. Sie ist in der Lage, immer realistischere Deep Fakes zu generieren, die Wählerschaft in politischen Kampagnen zu beeinflussen und sogar mit KI generierte Falschmeldungen zu veröffentlichen. Müssen wir die künstliche Intelligenz regulieren? Kann jedes Modell der breiten Öffentlichkeit zugänglich gemacht werden? Eine sehr interessante Diskussion zu diesem Thema im Bereich der Sprachmodelle (GPT-2) finden Sie hier.
Wir innovieren weiter.
Autor: Antón Makarov
[1] https://medium.com/analytics-vidhya/intuitive-explanation-of-gan-93de2dbcce85
[2] https://becominghuman.ai/creating-intricate-art-with-neural-style-transfer-e5fee5f89481