Categories: KI

Background: Kreative Algorithmen mit GAN-Technologie

Ein neuronales Netz – der Generator – lernt ein Bild zu erstellen, so dass das zweite neuronale Netz – der Diskriminator – nicht zwischen einem echten Bild und dem vom ersten Netz erzeugten Bild unterscheiden kann. Die naheliegendste Anwendung von GANs wäre jede Nische, die sich stark auf die Computer-Vision-Technologie (CV) stützt:

  • Generierung von Daten zum Trainieren von KI-Modellen, wenn nicht genügend reale Daten verfügbar sind
  • Generierung verschiedener Arten von visuellen Inhalten: menschliche Gesichter (was oft ein Problem für KI-Tools ist), Fotos, 2D- und 3D-Objekte usw.
  • Erkennung von Tumoren im Körper durch Vergleich der Patientendaten mit den Bildern gesunder Organe
  • Bild-zu-Bild-, Text-zu-Bild- und Bild-zu-Foto-Medienübersetzung
  • Identifizierung von Straftätern, die plastische Operationen vorgenommen haben könnten
  • Umwandlung von Fotos menschlicher Gesichter in Emojis oder Anwendung von Gesichtsfiltern

Was hinter GAN steckt, erklärt Rolan Akhmedov, Technical Lead of Computer Vision bei CHI Software.

Wie sahen KI-generierte Bilder vor GAN aus?

Rolan Akhmedov: Im Allgemeinen sahen sie schlechter aus. Die Idee, Bilder mit Hilfe von KI zu erzeugen, ist nicht neu, daher kennen wir ältere Ansätze, die auf Autocodierern basieren: Deep Belief Networks (DBNs) und Noise Contrastive Estimation (NCE). Diese Ansätze beruhen auf Methoden, die die Verteilung der Daten für die Bilderzeugung nicht genau wiedergeben können. Das heißt, das neuronale Netz versteht nicht vollständig, wie ein bestimmtes Objekt aussehen sollte. Diese Einschränkung sieht visuell wie eine Unschärfe auf dem Bild aus. GANs helfen dem neuronalen Netz, die visuelle Semantik besser zu verstehen, also die Bedeutung hinter einem Objekt, zum Beispiel eine Nase, ein Mund, ein Auge. Ein verbessertes Verständnis ermöglicht schließlich eine bessere Bildqualität.

Um was geht es bei „Convolutional“ und „Deconvolutional“ neuronalen Netzen und welche dieser Netze wird für GANs verwendet?

Ein Convolutional Neural Network (CNN) ist ein Deep Learning-Algorithmus, der Daten durchläuft. Es behält den Datenkontext bei, das heißt was genau auf dem Bild abgebildet ist, verliert aber die Information, wo der Bildinhalt zu finden ist. Ein deconvolutional neuronales Netz ist ein Algorithmus, der den Kontext in Form eines mathematischen Vektors wahrnimmt und versucht, ihn darzustellen, indem er die Informationen über den Inhalt schrittweise reduziert und sich stattdessen auf seine Position konzentriert. Typische Dekonvolutionsfehler treten bei der Darstellung von Augen, Zähnen und Ohrringen auf.

Was ist der Unterschied zwischen CNNs und GANs?

Genau wie CNNs arbeiten GANs mit visuellen Daten, weshalb sie häufig CNNs als Generatoren und Diskriminatoren verwenden. In dieser Hinsicht sind die beiden Technologien eng miteinander verbunden. Aber gleichzeitig sind GANs ein komplexeres Konzept als CNNs, so dass CNNs eine Komponente von GANs sein können, aber nicht umgekehrt.

Wie viele Bildmuster können von GANs erzeugt werden?

GANs können eine unbegrenzte Anzahl von Bildern erzeugen. Der Hauptvorteil dieser Technologie besteht darin, dass sie den Zeitaufwand aller an der Entwicklung Beteiligten erheblich optimiert. Werfen Sie einen Blick auf das neuronale Netz DALL-E, das auf der Grundlage einer Textbeschreibung ein Bild einer Person erstellt. Sie werden sich wahrscheinlich fragen, wie genau das möglich ist.

Die Geschwindigkeit, mit der das GAN ein Bild erzeugt, entspricht der Geschwindigkeit der Inferenz des Netzes mit Deconvolution. Sie beträgt nur den Bruchteil einer Sekunde. Andernfalls würden die Designer Stunden mit der gleichen Aufgabe verbringen. Die Zeitersparnis führt zu einer nahezu unbegrenzten Bilderzeugung.

Erzeugen GANs auch große Bilder?

Das hängt von der jeweiligen Aufgabe ab. GANs sind gut geeignete Instrumente, um Karten für Spiele, Landschaften und Städte zu erstellen. Gleichzeitig können GANs aber auch Probleme haben, wenn sie ein großes, detailliertes Bild erzeugen. Zum Beispiel kann ein bestimmtes Detail an der falschen Stelle erscheinen. Oder eine zusätzliche Detaillierung kann das Verständnis des Bildkontextes untergraben. Um diese Probleme zu vermeiden, müssen die Ingenieure mehrere GANs für jede Bildkomponente implementieren, was bedeutet, dass eine Detaillierung möglich, aber schwieriger ist.

Der effizienteste Anwendungsfall für GAN ist die Erstellung von Prototypen. Das bekannte Computerspiel „The Witcher“ zum Beispiel ist das erste Spiel mit einer GAN-generierten Karte. Sie zeigt die Hauptlinien, entlang derer sich der Spieler bewegt, aber es zeigt auch Kilometer auf der Karte, die automatisch vom neuronalen Netz generiert werden.

Könnte ein GAN verwendet werden, um realistische virtuelle Umgebungen zu erzeugen?

GANs sind gut darin, große Landschaften zu rendern und einen Wow-Effekt zu erzeugen. Mit Summer to winter GAN zum Beispiel können Nutzer mithilfe künstlicher Intelligenz Sommerbilder in Winterbilder umwandeln.

Können die vom GAN generierten Daten zum Training des Netzes verwendet werden?

Generative Daten werden verwendet, um neuronale Netze zu trainieren, und ich habe vor nicht allzu langer Zeit an einer solchen Funktion gearbeitet. Der Kern des Projekts war eine intelligente Kaffeemaschine in einem Büro, die Getränke zubereitet, nachdem sie das Gesicht der Person erkannt hat. Eine solche Maschine hat keine Tasten, sondern nur eine Datenbank mit den Fotos und Kaffeevorlieben der Mitarbeiter. Die Herausforderung des Projekts bestand darin, der Kaffeemaschine zu helfen, Brillenträger zu erkennen. Ich habe ein GAN verwendet, um den Fotos der Mitarbeiter Brillen zuzuordnen, und es hat funktioniert.

Roger Homrich

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

2 Tagen ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

3 Tagen ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

3 Tagen ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

3 Tagen ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

4 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

5 Tagen ago