Categories: KI

Background: Kreative Algorithmen mit GAN-Technologie

Ein neuronales Netz – der Generator – lernt ein Bild zu erstellen, so dass das zweite neuronale Netz – der Diskriminator – nicht zwischen einem echten Bild und dem vom ersten Netz erzeugten Bild unterscheiden kann. Die naheliegendste Anwendung von GANs wäre jede Nische, die sich stark auf die Computer-Vision-Technologie (CV) stützt:

  • Generierung von Daten zum Trainieren von KI-Modellen, wenn nicht genügend reale Daten verfügbar sind
  • Generierung verschiedener Arten von visuellen Inhalten: menschliche Gesichter (was oft ein Problem für KI-Tools ist), Fotos, 2D- und 3D-Objekte usw.
  • Erkennung von Tumoren im Körper durch Vergleich der Patientendaten mit den Bildern gesunder Organe
  • Bild-zu-Bild-, Text-zu-Bild- und Bild-zu-Foto-Medienübersetzung
  • Identifizierung von Straftätern, die plastische Operationen vorgenommen haben könnten
  • Umwandlung von Fotos menschlicher Gesichter in Emojis oder Anwendung von Gesichtsfiltern

Was hinter GAN steckt, erklärt Rolan Akhmedov, Technical Lead of Computer Vision bei CHI Software.

Wie sahen KI-generierte Bilder vor GAN aus?

Rolan Akhmedov: Im Allgemeinen sahen sie schlechter aus. Die Idee, Bilder mit Hilfe von KI zu erzeugen, ist nicht neu, daher kennen wir ältere Ansätze, die auf Autocodierern basieren: Deep Belief Networks (DBNs) und Noise Contrastive Estimation (NCE). Diese Ansätze beruhen auf Methoden, die die Verteilung der Daten für die Bilderzeugung nicht genau wiedergeben können. Das heißt, das neuronale Netz versteht nicht vollständig, wie ein bestimmtes Objekt aussehen sollte. Diese Einschränkung sieht visuell wie eine Unschärfe auf dem Bild aus. GANs helfen dem neuronalen Netz, die visuelle Semantik besser zu verstehen, also die Bedeutung hinter einem Objekt, zum Beispiel eine Nase, ein Mund, ein Auge. Ein verbessertes Verständnis ermöglicht schließlich eine bessere Bildqualität.

Um was geht es bei „Convolutional“ und „Deconvolutional“ neuronalen Netzen und welche dieser Netze wird für GANs verwendet?

Ein Convolutional Neural Network (CNN) ist ein Deep Learning-Algorithmus, der Daten durchläuft. Es behält den Datenkontext bei, das heißt was genau auf dem Bild abgebildet ist, verliert aber die Information, wo der Bildinhalt zu finden ist. Ein deconvolutional neuronales Netz ist ein Algorithmus, der den Kontext in Form eines mathematischen Vektors wahrnimmt und versucht, ihn darzustellen, indem er die Informationen über den Inhalt schrittweise reduziert und sich stattdessen auf seine Position konzentriert. Typische Dekonvolutionsfehler treten bei der Darstellung von Augen, Zähnen und Ohrringen auf.

Was ist der Unterschied zwischen CNNs und GANs?

Genau wie CNNs arbeiten GANs mit visuellen Daten, weshalb sie häufig CNNs als Generatoren und Diskriminatoren verwenden. In dieser Hinsicht sind die beiden Technologien eng miteinander verbunden. Aber gleichzeitig sind GANs ein komplexeres Konzept als CNNs, so dass CNNs eine Komponente von GANs sein können, aber nicht umgekehrt.

Wie viele Bildmuster können von GANs erzeugt werden?

GANs können eine unbegrenzte Anzahl von Bildern erzeugen. Der Hauptvorteil dieser Technologie besteht darin, dass sie den Zeitaufwand aller an der Entwicklung Beteiligten erheblich optimiert. Werfen Sie einen Blick auf das neuronale Netz DALL-E, das auf der Grundlage einer Textbeschreibung ein Bild einer Person erstellt. Sie werden sich wahrscheinlich fragen, wie genau das möglich ist.

Die Geschwindigkeit, mit der das GAN ein Bild erzeugt, entspricht der Geschwindigkeit der Inferenz des Netzes mit Deconvolution. Sie beträgt nur den Bruchteil einer Sekunde. Andernfalls würden die Designer Stunden mit der gleichen Aufgabe verbringen. Die Zeitersparnis führt zu einer nahezu unbegrenzten Bilderzeugung.

Erzeugen GANs auch große Bilder?

Das hängt von der jeweiligen Aufgabe ab. GANs sind gut geeignete Instrumente, um Karten für Spiele, Landschaften und Städte zu erstellen. Gleichzeitig können GANs aber auch Probleme haben, wenn sie ein großes, detailliertes Bild erzeugen. Zum Beispiel kann ein bestimmtes Detail an der falschen Stelle erscheinen. Oder eine zusätzliche Detaillierung kann das Verständnis des Bildkontextes untergraben. Um diese Probleme zu vermeiden, müssen die Ingenieure mehrere GANs für jede Bildkomponente implementieren, was bedeutet, dass eine Detaillierung möglich, aber schwieriger ist.

Der effizienteste Anwendungsfall für GAN ist die Erstellung von Prototypen. Das bekannte Computerspiel „The Witcher“ zum Beispiel ist das erste Spiel mit einer GAN-generierten Karte. Sie zeigt die Hauptlinien, entlang derer sich der Spieler bewegt, aber es zeigt auch Kilometer auf der Karte, die automatisch vom neuronalen Netz generiert werden.

Könnte ein GAN verwendet werden, um realistische virtuelle Umgebungen zu erzeugen?

GANs sind gut darin, große Landschaften zu rendern und einen Wow-Effekt zu erzeugen. Mit Summer to winter GAN zum Beispiel können Nutzer mithilfe künstlicher Intelligenz Sommerbilder in Winterbilder umwandeln.

Können die vom GAN generierten Daten zum Training des Netzes verwendet werden?

Generative Daten werden verwendet, um neuronale Netze zu trainieren, und ich habe vor nicht allzu langer Zeit an einer solchen Funktion gearbeitet. Der Kern des Projekts war eine intelligente Kaffeemaschine in einem Büro, die Getränke zubereitet, nachdem sie das Gesicht der Person erkannt hat. Eine solche Maschine hat keine Tasten, sondern nur eine Datenbank mit den Fotos und Kaffeevorlieben der Mitarbeiter. Die Herausforderung des Projekts bestand darin, der Kaffeemaschine zu helfen, Brillenträger zu erkennen. Ich habe ein GAN verwendet, um den Fotos der Mitarbeiter Brillen zuzuordnen, und es hat funktioniert.

Roger Homrich

Recent Posts

Microsoft nennt weitere Details zu kostenpflichtigen Patches für Windows 10

Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…

15 Stunden ago

Microsoft verschiebt erneut Copilot Recall

Die Entwickler arbeiten noch an weiteren „Verfeinerungen“. Windows Insider erhalten nun wohl eine erste Vorschau…

1 Tag ago

GenKI im Job: Mitarbeitende schaffen Tatsachen

Laut Bitkom-Umfrage werden in jedem dritten Unternehmen in Deutschland private KI-Zugänge genutzt. Tendenz steigend.

1 Tag ago

97 Prozent der Großunternehmen melden Cyber-Vorfälle

2023 erlitten neun von zehn Unternehmen in der DACH-Region Umsatzverluste und Kurseinbrüche in Folge von…

1 Tag ago

„Pacific Rim“-Report: riesiges, gegnerisches Angriffs-Ökosystem

Der Report „Pacific Rim“ von Sophos beschreibt Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit staatlich unterstützten…

2 Tagen ago

DeepL setzt erstmals auf NVIDIA DGX SuperPOD mit DGX GB200-Systemen

NVIDIA DGX SuperPOD soll voraussichtlich Mitte 2025 in Betrieb genommen und für Forschungsberechnungen genutzt werden.

2 Tagen ago