Eine der gegenwärtig größten Herausforderungen für Informationsverantwortliche in Unternehmen und Institutionen ist der Umgang mit den rasant wachsenden Datenmengen, die aus den unterschiedlichsten Informationsquellen anfallen. Ein gängiges Schlagwort macht daher im Bereich des Informationsmanagements immer öfter die Runde: „Big Data“. Mit dem Begriff sind sehr große Mengen anfallender Daten aus Unternehmensprozessen oder der Datensammlung von Institutionen gemeint, die mit herkömmlichen Systemen für das Datenmanagement nur schwer oder nicht zu handhaben sind.
Immer mehr Unternehmen müssen schon heute sehr große Mengen von Daten, wie zum Beispiel Logfiles, Transaktionsdaten oder Produktionsdaten im Multi-Terabyte-Bereich verarbeiten, speichern, schützen und effizient für verschiedene Analysen und strategische Szenarien zur Verfügung stellen. Dazu kommen noch Vorgaben durch die Gesetzgebung zur Langzeitarchivierung geschäftsrelevanter Informationen in digitaler Form. Aber auch in der Forschung steigt das Datenvolumen signifikant. Daher setzen globale Forschungseinrichtungen auf gemeinsame Datenpools, mit vielen Milliarden einzelner Informationen, um dem steigenden Informationsbedarf zu entsprechen. Insgesamt verdoppelt sich die weltweite Datenmenge laut einer Studie von IDC Deutschland aus dem Juli 2011 alle zwei Jahre.
Die zielgerichtete Nutzung von Informationen ist längst ein Erfolgsfaktor unserer täglichen Arbeit. Sie dient Unternehmen im Wettbewerb um Kunden und bessere Leistungen, aber auch der Verbesserung unserer Lebensqualität, zum Beispiel durch Auswertungen von globalen Klimadaten, der Genetik oder der Betrugserkennung im Internet und an den Börsen. Die zunehmenden Datenvolumen stellen aber auch immer höhere Anforderungen an die Verarbeitung der Daten, um die benötigten Informationen daraus bereitzustellen oder um mit Analysen relevante Zusammenhänge abzuleiten.
Der Problematik von Big Data einseitig durch stetige Aufrüstung von Hardware und Ressourcen zu begegnen, bedeutet für Unternehmen nicht nur exponentiell wachsende Kosten, sondern gegebenfalls auch den Verlust von strategisch wichtigen Informationen, weil Daten wegen steigender Kosten vorzeitig gelöscht oder verschoben werden und nicht mehr zur Verfügung stehen. Um Big Data künftig zielführend nutzen zu können, gilt es, schnell neue Strategien für das Informationsmanagement zu finden. Denn traditionelle, relationale Datenbanken bewältigen die Herausforderungen nur unzureichend.
Relationale Datenbanken und der Umgang mit Big Data
In Unternehmen sind heute noch relationale Datenbanksysteme (RDBM, Relational Database Management System) die Regel. Eine relationale Datenbank ist, in einfachen Worten gesprochen, eine Sammlung von Tabellen, in denen einzelne Informationen in Datensätzen beziehungsweise Zeilen gespeichert sind.
Um nicht bei jedem Suchvorgang alle Zeilen einer Tabelle durchsuchen zu müssen und um passable Antwortzeiten zu erhalten, werden ausgewählte Werte der Zeilen mit einem Index angereichert. Diese Indizes benötigen zusätzlichen Speicherplatz und verursachen Aufwand für Verarbeitung und Pflege. Daher indexiert man gewöhnlich nur Teile der Werte in einer RDBMS. Fehlende Indexierung verursacht aber geringere Performance.
Relationale Datenbanken sind ihrem Ursprung und Architektur nach dann effizient einsetzbar, wenn sie für häufige Transaktionen auf Datensatzebene oder für Szenarien mit kleinen bis mittleren Datenvolumen vorgesehen sind. Zur Verarbeitung und Analyse von Datenmengen im Multi-Terabyte-Bereich sind relationale Datenbanksysteme jedoch unzureichend.
Bei der Verarbeitung und Analyse von Big Data ist somit ein Umdenken in Bezug auf die Datenmanagementsysteme notwendig. Eine herkömmliche, relationale Datenbank wird bei steigenden Datenvolumina schnell an ihre Grenzen stoßen und zunehmend hohe Kosten verursachen.
Vorteile spaltenorientierte Datenbanken bei Big Data
Zeilen und Spalten einer Tabelle ergeben zusammen einen Dimensionsraum, der für Zugriffe auf eine Datenbank bereitgestellt und gegebenenfalls durchsucht werden muss. Dies gilt zunächst für alle Datenbanken. Zeilenorientierte Systeme speichern Daten Zeile für Zeile wie ein Buch. Unter Umständen muss daher viel Text gelesen werden, bis die richtige Information bereitgestellt wird.
Die Bezeichnung „spaltenorientierte Datenbank“ bezieht sich zunächst auf das Vorgehen, mit dem die Daten gespeichert werden. Spaltenorientierte Datenbanken müssen für das Auffinden von Informationen keine unnötigen Informationen aus Zeilen lesen, sondern durchsuchen lediglich die Werte, die für die Datenabfrage in den Spalten in Frage kommen.
Dieser Aufbau entspricht auch dem Aufbau der verwendeten SQL-Sprache, die in den Bedingungen „select“ und „where“ bereits explizit Spalten anspricht. Architekturen spaltenorientierter Datenbanken sind daher eher wie eine Ansammlung von Indexen zu sehen, die auf unnötige Zeilenspeicherung und Zeilenzugriffe verzichtet und damit den Speicherbedarf beim Schreiben und Lesen signifikant reduzieren. Allein dadurch erreichen spaltenorientierte Datenbanken höhere Abfragegeschwindigkeiten als zeilenbasierte Datenbanken. Performanceunterschiede um den Faktor 50 oder mehr sind möglich.
Zusätzlich Indexierungen sind daher bei aktuellen, spaltenorientierten Datenbanken überflüssig beziehungsweise werden meist auch gar nicht angeboten. Dadurch wird viel Speicherplatz und Administrationsaufwand für die Indexierung eingespart.
Das allein reicht aber nicht aus, um den Herausforderungen von Big-Data-Szenarien adäquat zu begegnen. Zusätzliche Technologien für die Datenbewirtschaftung und Skalierung sind unabdingbar. Technologien wie Map Reduce, Parallel-Processing, automatische Kompression und Partitionierung, machen moderne spaltenorientierte Datenbanken ideal für den Einsatz in Big-Data-Umgebungen.
Die Map-Reduce-Funktion
Spaltenorientierte Datenbanksysteme der neueren Generationen verfügen über eine integrierte Funktion Map Reduction. Dies ist eine Art von mehrstufigen internem Index, der es bei Abfragen ermöglicht, nur relevante Teilbereiche der Spalten zu verarbeiten. Gerade bei großen Datenvolumen kann so eine hohe Performance und Skalierbarkeit durchgängig gewährleistet werden.
Horizontale Skalierbarkeit und Parallel Processing
Eine moderne, spaltenbasierte Datenbank kann, im Sinne einer horizontalen Skalierung, mehrere Standard-Server verwenden bezeihungsweise Funktionen und Lasten auf zusätzliche Server verteilen, um einen linearen Anstieg der Gesamtleistung zu erzielen. Eine optimale Nutzung der bereitgestellten Systemressourcen, auch bei einzelnen Abfragen und Ladeprozessen, ist nötig, um im Umfeld von Big Data gute Ergebnisse zu erreichen.
Das Hinzufügen preiswerter Hardware zu einer bestehenden Konfiguration ermöglicht der Datenbank so, die Verarbeitungsleistung linear zu erhöhen, womit die Anschaffung von immer leistungsfähigeren und teureren High-End Servern überflüssig ist. Dies erleichtert die flexible Anpassung an Datenmengen und Anforderungen und ermöglicht es, die Performance deutlich zu erhöhen.
Kompression
Ein weiterer Vorteil der spaltenorientierten Datenbanken entsteht durch die Kompression. Da in den Spalten ohnehin bereits ähnliche oder identische Werte logisch und physisch zusammengeführt werden, kommt eine spaltenorientierte Datenbank regelmäßig mit vergleichsweise wenig Speicherbedarf aus. Die meisten verfügen zusätzlich über weitere Kompressionsfunktionen der Werte in den Spalten. Damit können spaltenorientierte Datenbanken zum Teil deutlich mehr weniger als 50 Prozent des Speicherplatzes der Rohdaten benötigen, aus denen sie entstanden. Gerade mit Blick auf die Big-Data-Herausforderung kann dies ein entscheidender Vorteil sein.
Szenarien für den Einsatz spaltenorientierter Datenbanktechnik
Telekommunikations- und Internetprovider verarbeiten jeden Tag Milliarden Detailinformationen, die zum Beispiel aus Gesprächsverbindungen (CDR) oder Protokollen der E-Mailnutzung ihrer Kunden entstehen, zu Abrechnungszwecken oder Verhinderung von Missbrauch oder Betrug. Diese Daten werden für einen definierten Zeitraum vorgehalten und anschließend gelöscht. Eine spaltenorientierte Datenbank ist hier nicht nur für Analysen in Real-Time prädestiniert, sondern auch dafür, Daten nach Ablauf einer definierten Frist sofort wieder zu entfernen, ohne den Bewirtschaftungsprozess negativ zu beeinflussen.
Forscher aus aller Welt greifen parallel auf viele Milliarden Informationen zu, die über Klimaveränderungen in der Luft, im Boden oder im Meer gemessen wurden, um neue Erkenntnisse über die Entwicklung und Verbesserung unserer Umwelt zu gewinnen. Die Anforderungen an die Analysen auf der zentralen, spaltenorientierten Datenbank sind komplex und abweichend. Eine spaltenorientierte Datenbank kann alle Analysen in Echtzeit unterstützen und sich flexibel auf die ständig wachsenden Forschungsdaten und Verwendungsszenarien einstellen, den Pflegeaufwand minimal und dabei die Kosten gering und planbar halten.
Das volle Potenzial einer spaltenorientierten Datenbank nutzen
Mit den aktuell immer komplexer werdenden analytischen Anforderungen, wachsenden Datenmengen und der kontinuierlich steigenden Anzahl von Anwendungsszenarien, die Zugriff auf die Informationen beanspruchen, werden benötigen Firmen und Organisationen skalierbare, flexible und effiziente Datenmanagementlösungen.
Eine moderne spaltenorientierte Datenbank kann anspruchsvollsten Aufgaben im Bereich Business Intelligence, Data Warehousing und analytischen Umgebungen gerecht werden weil die spaltenorientierte Architektur derzeit die geeignetste Technologie ist, um mit dem Datenwachstum Schritt zu halten ohne auf die Flexibilität in der Informationsgewinnung zu verzichten. Gleichzeitig hilft sie, die Kosten gering zu halten. Einige spaltenorientierte Datenbanken werden auch als Community Versionen angeboten und ermöglichen Anwendern mit geringeren Datenvolumen oder Anforderungen einen kostenlosen Einstieg oder den kostengünstigen Mischbetrieb mit Enterprise- und RDBMS- Systemen.
... ist CEO der Uniique AG. Er hat bereits bei vielen Unternehmen effektive Lösungen für das Informationsmanagement eingeführt.
Bösartige QR-Codes, die per E-Mail versendet werden, eignen sich sehr gut, um Spam-Filter zu umgehen.
Unsichere Websites und Phishing-Mails in Verbindung mit Black Friday können kauffreudigen Konsumenten zum Verhängnis werden.
Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.
Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…
Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…