Dynamic Data Movement mit Datenreplikation

Viele Unternehmen sammeln große Mengen an Daten, um nach deren Auswertung bessere Entscheidungen treffen zu können. Daher ist es notwendig, diese Daten dort bereitzustellen, wo sie mit Hilfe der Analyse den größtmöglichen Nutzen liefern. Und das ist keineswegs immer dort der Fall, wo die Daten erzeugt werden, schließlich stammen sie aus unterschiedlichsten Aktivitäten der Organisation, wie Produktion, ERP oder CRM und werden von Trends auf dem Markt mal stärker, mal weniger stark beeinflusst.

Daraus wird deutlich: Daten sind dynamisch – und dennoch sollen sie permanent zur Auswertung zur Verfügung stehen. Unternehmen müssen folglich Wege finden, um sicherzustellen, dass Daten in Echtzeit zwischen Systemen ausgetauscht werden können, damit sie den größtmöglichen Nutzen aus ihnen ziehen können. Dies geschieht in der Regel via Datenreplikation.

Die Datenreplikation von einem RDBMS (Relationales Datenbank Management System) in ein anderes des gleichen Anbieters (und vielleicht gleicher Konfiguration) stellt normalerweise für Experten keine allzu große Herausforderung dar. Doch hat in vielen Unternehmen mittlerweile auch im Datenbank-Bereich die Heterogenität Einzug gehalten, beispielsweise durch Übernahmen, Fusionen und andere Entwicklungen, sodass hier die Herausforderungen deutlich zugenommen haben. Damit ist es mit einer bloßen Datenreplikation nicht mehr getan, es muss eine dynamische Verschiebung erfolgen – das so genannte Dynamic Data Movement.

Was bedeutet Data Movement?

Dazu zunächst eine allgemeine Anmerkung. Der Markt für Dynamic Data Movement (DDM) lässt sich in zwei Segmente teilen:

Datenbankreplikation für hohe Verfügbarkeit, Disaster Recovery und Skalierung.
Die (meist) Bewegung von Daten zwischen heterogenen Systemen. Sie umfasst die Replikation von Daten aus einem herkömmlichen RDBMS wie Oracle in Datenbanken wie MySQL, Azure SQL Database, Kafka und PostgreSQL.

Ziel des dynamischen Verschiebens der Daten ist klar: Es geht darum, den Wert der Daten zu erhöhen, indem sie schneller in die richtigen Systeme verschoben werden, also dorthin, wo sie den meisten Nutzen liefern.

Dies war auch bisher in homogenen Umgebungen der Fall, in denen die traditionelle Datenreplikation genutzt wurde, um die Daten in die entsprechenden Zielsysteme zu verschieben. Dabei werden Kopien der Daten an mehreren Orten gleichzeitig aktualisiert. Ein Ziel der Replikation ist es, die Daten an die Benutzer weiterzuleiten, die sie für ihre Entscheidungen benötigen, und an die Kunden, die sie zur Durchführung von Transaktionen benötigen. Weitere Ziele sind eine hohe Verfügbarkeit, die Wiederherstellung im Katastrophenfall und die Skalierung über die ursprünglichen Grenzen der Datenbank hinaus.

Wenn Unternehmen jedoch Open-Source- und NoSQL-Datenbanken einführen, bedeutet dies auch eine deutliche Veränderung im Vergleich zur bisherigen „einfachen“ Datenreplikation.

Was ist das Neue an „Dynamic Data Movement“?

Der Begriff „dynamische Datenverschiebung“ bezieht sich in der Regel auf einen heterogenen Kontext und verwendet die Änderungsdatenerfassung (Change Data Capture), um Daten aus Datenbanken in andere Systeme zu verschieben. Dies spielt dann eine wichtige Rolle, wenn ein Unternehmen von Standarddatenbanken wie Oracle auf neue Anbieter wie MySQL, PostgreSQL und Kafka umsteigt. Notwendig wird dies beispielsweise, um Anwendungen zu integrieren, Data Lakes oder Data Warehouses zu nutzen oder dafür Daten bereitzustellen und moderne analytische Anwendungen auszuführen.

Beim Data Warehousing kommen dabei in der Regel traditionelle ETL-Produkte (Extrahieren, Transformieren, Laden) zum Einsatz. Das Problem dabei ist, dass sich die Anforderungen an die Datenintegration in den meisten Unternehmen über ETL hinaus entwickelt haben. Und dafür gibt es eine ganze Reihe von Gründen.

Erstens wächst unentwegt das Datenvolumen, das die Unternehmen erzeugen und verarbeiten müssen. Zweitens ist das Geschäft vieler Unternehmen mittlerweile derart global, dass der Geschäftsbetrieb jeden Tag 24 Stunden ohne Unterbrechung läuft. Somit werden die Zeitfenster, die beispielsweise für das Laden neuer Daten zur Verfügung stehen, extrem kurz, was zu einer ereignisgesteuerten Datenintegration nahezu in Echtzeit zwingt. Und drittens führt der Trend zu mehreren, unterschiedlichen Datenbankplattformen dazu, dass Funktion und Struktur der Quell- und Zielsysteme sich deutlich unterscheiden.

Daher wächst der Markt für Data Movement im Allgemeinen und verschmilzt mit ETL. Das Analystenunternehmen IDC unterteilt den breiteren Markt für Datenprodukte in drei Gruppen:

Datenintelligenz – die Pflege und Aufbereitung der Daten für eine verbesserte Datenqualität
Datenzugriff – Konnektoren, Datenaufbereitung und Lebenszyklusmanagement
Datenintegration – Beschleunigung der Datenbereitstellung für die Entscheidungsfindung (einschließlich Dynamic Data Movement)

Wie bereits festgestellt, bedarf es in heterogenen Umgebungen anderer Werkzeuge, um den veränderten Anforderungen Rechnung zu tragen. Dabei geht es unter anderem um:

Verfügbarkeit bei der Datenreplikation
Skalierbarkeit – für verteilte Verarbeitung, Kaskadierung und verbesserte Leistung
Reporting und Integration – für Analysen, Datenbankkonsolidierung und Audits mit geringem Aufwand

Die Tools für Dynamic Data Movement sind in der Lage, sowohl homogene als auch heterogene Umgebungen zu unterstützen. Typische Szenarien sind unter anderem die Integration einer operativen Oracle-Datenbank mit Open-Source-Datenbanken, das Replizieren ausgewählter Daten aus einer Oracle-Datenbank in Open-Source-Datenbanken für Data Warehousing oder Reporting sowie das Replizieren von Geschäftsdaten aus einer Oracle-Datenbank zur Analyse mit Cloud-Tools wie Azure Synapse und Azure AI.

Wichtig ist dabei, dass diese Werkzeuge, nicht nur eine Zielplattform unterstützen, sondern eine Reihe unterschiedlicher Ziele. Dazu sollten unter anderem SQL Server, Azure SQL Database, Kafka, Azure Event Hubs, MySQL, PostgreSQL und JMS-Queues zählen, da sie einen wesentlichen Teil des Marktes und damit der möglichen Zielplattformen der Unternehmen abdecken.

Da die IT-Infrastrukturen immer heterogener werden, Unternehmen eine wachsende Zahl von Aufgaben in die Cloud verlagern, Analysen von Produktionsdatenbanken auch nicht unbedingt in eigenen IT-Umgebungen durchführen und nicht zuletzt das Thema Disaster Recovery immer wichtiger wird, spielen Werkzeuge zum Dynamic Data Movement eine immer größere Rolle. Moderne Tools ermöglichen es den Unternehmen, über die herkömmliche, homogene Datenreplikation hinaus zu einer dynamischen Datenbewegung überzugehen, ohne Auswirkungen auf Kunden und Benutzer zu riskieren.

ZDNet.de Redaktion