Ein neuronales Netz – der Generator – lernt ein Bild zu erstellen, so dass das zweite neuronale Netz – der Diskriminator – nicht zwischen einem echten Bild und dem vom ersten Netz erzeugten Bild unterscheiden kann. Die naheliegendste Anwendung von GANs wäre jede Nische, die sich stark auf die Computer-Vision-Technologie (CV) stützt:
Was hinter GAN steckt, erklärt Rolan Akhmedov, Technical Lead of Computer Vision bei CHI Software.
Rolan Akhmedov: Im Allgemeinen sahen sie schlechter aus. Die Idee, Bilder mit Hilfe von KI zu erzeugen, ist nicht neu, daher kennen wir ältere Ansätze, die auf Autocodierern basieren: Deep Belief Networks (DBNs) und Noise Contrastive Estimation (NCE). Diese Ansätze beruhen auf Methoden, die die Verteilung der Daten für die Bilderzeugung nicht genau wiedergeben können. Das heißt, das neuronale Netz versteht nicht vollständig, wie ein bestimmtes Objekt aussehen sollte. Diese Einschränkung sieht visuell wie eine Unschärfe auf dem Bild aus. GANs helfen dem neuronalen Netz, die visuelle Semantik besser zu verstehen, also die Bedeutung hinter einem Objekt, zum Beispiel eine Nase, ein Mund, ein Auge. Ein verbessertes Verständnis ermöglicht schließlich eine bessere Bildqualität.
Ein Convolutional Neural Network (CNN) ist ein Deep Learning-Algorithmus, der Daten durchläuft. Es behält den Datenkontext bei, das heißt was genau auf dem Bild abgebildet ist, verliert aber die Information, wo der Bildinhalt zu finden ist. Ein deconvolutional neuronales Netz ist ein Algorithmus, der den Kontext in Form eines mathematischen Vektors wahrnimmt und versucht, ihn darzustellen, indem er die Informationen über den Inhalt schrittweise reduziert und sich stattdessen auf seine Position konzentriert. Typische Dekonvolutionsfehler treten bei der Darstellung von Augen, Zähnen und Ohrringen auf.
Genau wie CNNs arbeiten GANs mit visuellen Daten, weshalb sie häufig CNNs als Generatoren und Diskriminatoren verwenden. In dieser Hinsicht sind die beiden Technologien eng miteinander verbunden. Aber gleichzeitig sind GANs ein komplexeres Konzept als CNNs, so dass CNNs eine Komponente von GANs sein können, aber nicht umgekehrt.
GANs können eine unbegrenzte Anzahl von Bildern erzeugen. Der Hauptvorteil dieser Technologie besteht darin, dass sie den Zeitaufwand aller an der Entwicklung Beteiligten erheblich optimiert. Werfen Sie einen Blick auf das neuronale Netz DALL-E, das auf der Grundlage einer Textbeschreibung ein Bild einer Person erstellt. Sie werden sich wahrscheinlich fragen, wie genau das möglich ist.
Die Geschwindigkeit, mit der das GAN ein Bild erzeugt, entspricht der Geschwindigkeit der Inferenz des Netzes mit Deconvolution. Sie beträgt nur den Bruchteil einer Sekunde. Andernfalls würden die Designer Stunden mit der gleichen Aufgabe verbringen. Die Zeitersparnis führt zu einer nahezu unbegrenzten Bilderzeugung.
Das hängt von der jeweiligen Aufgabe ab. GANs sind gut geeignete Instrumente, um Karten für Spiele, Landschaften und Städte zu erstellen. Gleichzeitig können GANs aber auch Probleme haben, wenn sie ein großes, detailliertes Bild erzeugen. Zum Beispiel kann ein bestimmtes Detail an der falschen Stelle erscheinen. Oder eine zusätzliche Detaillierung kann das Verständnis des Bildkontextes untergraben. Um diese Probleme zu vermeiden, müssen die Ingenieure mehrere GANs für jede Bildkomponente implementieren, was bedeutet, dass eine Detaillierung möglich, aber schwieriger ist.
Der effizienteste Anwendungsfall für GAN ist die Erstellung von Prototypen. Das bekannte Computerspiel „The Witcher“ zum Beispiel ist das erste Spiel mit einer GAN-generierten Karte. Sie zeigt die Hauptlinien, entlang derer sich der Spieler bewegt, aber es zeigt auch Kilometer auf der Karte, die automatisch vom neuronalen Netz generiert werden.
GANs sind gut darin, große Landschaften zu rendern und einen Wow-Effekt zu erzeugen. Mit Summer to winter GAN zum Beispiel können Nutzer mithilfe künstlicher Intelligenz Sommerbilder in Winterbilder umwandeln.
Generative Daten werden verwendet, um neuronale Netze zu trainieren, und ich habe vor nicht allzu langer Zeit an einer solchen Funktion gearbeitet. Der Kern des Projekts war eine intelligente Kaffeemaschine in einem Büro, die Getränke zubereitet, nachdem sie das Gesicht der Person erkannt hat. Eine solche Maschine hat keine Tasten, sondern nur eine Datenbank mit den Fotos und Kaffeevorlieben der Mitarbeiter. Die Herausforderung des Projekts bestand darin, der Kaffeemaschine zu helfen, Brillenträger zu erkennen. Ich habe ein GAN verwendet, um den Fotos der Mitarbeiter Brillen zuzuordnen, und es hat funktioniert.
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.
Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…
Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…
Beim Online-Gaming kommt es nicht nur auf das eigene Können an. Auch die technischen Voraussetzungen…
Fast jedes zweite Unternehmen bietet keinerlei Schulungen an. In den übrigen Betrieben profitieren oft nur…
Huawei stellt auf der Connect Europe 2024 in Paris mit Xinghe Intelligent Network eine erweiterte…