Oracle stellt Heatwave vor

HeatWave ML ist ein In-Memory-Beschleuniger für analytische Abfragen, der mit der InnoDB-Engine über die MySQL-Datenbank hinweg verbunden ist. Damit können analytische (OLAP) und transaktionale (OLTP) Verarbeitungen aus einer einzigen Datenbank heraus durchgeführt werden können. Mit der neuen Version geht es nun darum, Machine Learning nativ direkt in der Datenbank zu unterstützen.

„Das Problem beim maschinellen Lernen ist, dass die Kunden ihre Daten aus MySQL extrahieren müssen, bevor sie sie verarbeiten können“, erklärt Nipun Argawal, Senior Vice President, MySQL DB und HeatWave bei Oracle. „Die Kunden hatten in der Vergangenheit mit denselben Nachteilen bei der Analyse zu kämpfen. Sobald die Daten die Datenbank verlassen haben, sind sie nicht mehr sicher, das bringt eine Form von Komplexität in die Anwendung und man muss die Daten anderswo speichern und diese Machine-Learning-Modelle von anderen Diensten aus ausführen, was mehr kostet“.

HeatWave ML soll das Trainieren, Inferieren und Erklären von Machine-Learning-Modellen ermöglichen. Oracle verweist auf mehrere Patente zur Bereinigung und Standardisierung der Features, die für das Training eines Modells, die automatische Auswahl eines Algorithmus, die Auswahl der richtigen Stichprobe aus dem Datensatz, die Identifizierung der optimalen Hyperparameter und dann die Generierung von Erklärungen und das Training der Modelle erforderlich sind. HeatWave ML erledigt all dies in einem einzigen Durchgang, betont Nipun Argawal.

„Erklärbarkeit ist ein sehr wichtiger Begriff für die Kunden. Eine Bank möchte das in der Produktion eingesetzte Modell verstehen und gleichzeitig ihren Kunden erklären können, warum ein Kredit vergeben oder eine Transaktion abgelehnt wird“, so Argawal.

Zusätzlich zu HeatWave ML hat Oracle auch die Fähigkeit zur Selbstskalierung implementiert. Sein neues Datenkomprimierungssystem würde die Kosten für die Datenspeicherung um fast 50 Prozent senken oder die doppelte Menge an Daten pro Knoten speichern. Außerdem können HeatWave-Umgebungen mit der „Pause-and-resume“-Funktion zur Kostensenkung pausiert und dann zum gewünschten Zeitpunkt wieder gestartet werden. In der Praxis speichert der Dienst die Daten in einem Objektspeicher, die Rechenressourcen werden beim Start vorbereitet und die Daten beim Neustart wiederhergestellt.

HeatWave ML bietet im Vergleich zu anderen Cloud-Datenbankdiensten die folgenden Möglichkeiten:

Vollständig automatisierte Modellbildung: Alle Phasen der Modellerstellung mit HeatWave ML sind vollständig automatisiert und erfordern kein Eingreifen der Entwickler. Das Ergebnis ist ein abgestimmtes Modell, das genauer ist, keine manuelle Arbeit erfordert und der Trainingsprozess ist immer abgeschlossen. Andere Cloud-Datenbankdienste wie Amazon Redshift bieten eine Integration mit maschinellen Lernfunktionen in externen Diensten, die umfangreiche manuelle Eingaben von Entwicklern während des ML-Trainingsprozesses erfordern.

Modell- und Inferenzerklärungen: Die Erklärbarkeit von Modellen hilft Entwicklern, das Verhalten eines maschinellen Lernmodells zu verstehen. Wenn beispielsweise eine Bank einem Kunden einen Kredit verweigert, muss die Bank in der Lage sein festzustellen, welche Parameter des Modells berücksichtigt wurden oder ob das Modell eine Verzerrung enthält. Die Erklärbarkeit von Vorhersagen ist eine Reihe von Techniken, die helfen, die Frage zu beantworten, warum ein maschinelles Lernmodell eine bestimmte Vorhersage getroffen hat. Erklärungen zu Vorhersagen werden heutzutage immer wichtiger, da Unternehmen in der Lage sein müssen, die von ihren maschinellen Lernmodellen getroffenen Entscheidungen zu erklären. HeatWave ML integriert sowohl die Erklärung des Modells als auch die Erklärung der Vorhersage als Teil des Modelltrainings. Infolgedessen können alle von HeatWave ML erstellten Modelle sowohl Modell- als auch Inferenzerklärungen anbieten, ohne dass zum Zeitpunkt der Inferenzerklärung Trainingsdaten benötigt werden. Oracle hat die bestehenden Erklärungstechniken erweitert, um die Leistung, Interpretierbarkeit und Qualität zu verbessern. Andere Cloud-Datenbankdienste bieten nicht für alle ihre maschinellen Lernmodelle eine so umfangreiche Erklärungsmöglichkeit.

Hyper-Parameter-Abstimmung: HeatWave ML implementiert einen neuen, auf Gradientensuche basierenden Reduktionsalgorithmus für Hyper-Parameter-Tuning. Dadurch kann die Hyperparametersuche parallel ausgeführt werden, ohne die Modellgenauigkeit zu beeinträchtigen. Die Abstimmung der Hyperparameter ist die zeitaufwändigste Phase des ML-Modelltrainings, und diese einzigartige Fähigkeit verschafft HeatWave ML einen signifikanten Leistungsvorteil gegenüber anderen Cloud-Services zur Erstellung von Machine-Learning-Modellen.

Algorithmus-Auswahl: HeatWave ML nutzt das Konzept der Proxy-Modelle – einfache Modelle, die die Eigenschaften eines vollständigen komplexen Modells aufweisen – um den besten ML-Algorithmus für das Training zu bestimmen. Durch die Verwendung eines einfachen Proxy-Modells wird die Algorithmusauswahl sehr effizient und ohne Genauigkeitsverlust durchgeführt. Kein anderer Datenbankdienst für die Erstellung von Modellen für maschinelles Lernen verfügt über diese Fähigkeit der Proxy-Modellierung.

Intelligentes Daten-Sampling: Während des Modelltrainings nimmt HeatWave ML einen kleinen Prozentsatz der Daten auf, um die Leistung zu verbessern. Dieses Sampling wird so durchgeführt, dass alle repräsentativen Datenpunkte im Sample-Datensatz erfasst werden. Andere Cloud-Dienste für die Erstellung von Machine-Learning-Modellen verfolgen einen weniger effizienten Ansatz – die Verwendung von Zufallsdaten-Sampling -, bei dem ein kleiner Prozentsatz der Daten ohne Berücksichtigung der Datenverteilungsmerkmale gesampelt wird.

Auswahl von Merkmalen: Die Merkmalsauswahl hilft bei der Bestimmung der Attribute der Trainingsdaten, die das Verhalten des maschinellen Lernmodells bei der Erstellung von Vorhersagen beeinflussen. Die Techniken in HeatWave ML für die Merkmalsauswahl wurden über eine große Bandbreite von Datensätzen in verschiedenen Bereichen und Anwendungen trainiert. Anhand der gesammelten Statistiken und Metainformationen ist HeatWave ML in der Lage, die relevanten Merkmale in einem neuen Datensatz effizient zu identifizieren.

ZDNet.de Redaktion

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

1 Tag ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

2 Tagen ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

2 Tagen ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

2 Tagen ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

3 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

4 Tagen ago