Categories: Big DataData & StorageUnternehmen

Datenbanken: Kampf zwischen Zeilen und Spalten

Business Analytics und Big Data gehören momentan zu den Trendthemen im IT-Bereich. Und das nicht ohne Grund: Die Datenmengen in den Unternehmen werden größer. Gleichzeitig müssen die Firmen flexibler und schneller reagieren, um sich im Wettbewerb zu behaupten. Sie brauchen also Datawarehouse- und Business-Intelligence-Anwendungen, um auf deren Basis die richtigen Entscheidungen zu treffen. Je mehr Informationen jedoch verarbeitet werden müssen, umso länger dauert ihre Auswertung. Unternehmen benötigen daher auch Lösungen, die der Datenanalyse das notwendige Tempo verleihen.

Dies ist ein Grund, weshalb die Anbieter von spaltenorientierten Datenbanken derzeit Morgenluft wittern. Denn solche Datenmanagementsysteme ermöglichen deutlich schnellere Abfragen. Sie speichern die Informationen in Spalten und nicht in Zeilen. Bei Abfragen müssen somit nicht alle Zeilen, sondern nur die Spalten durchsucht werden, die für die Auswertung notwendig sind. Im analytischen Bereich ist in der Regel ohnehin nur eine begrenzte Anzahl von Spalten für die jeweilige Untersuchung relevant. Somit eignen sich spaltenorientierte Datenbanken besonders für Datawarehouse- oder Business-Intelligence-Anwendungen.
Fünf bis 20 mal schneller könnten Abfragen auf Basis von spaltenorientierten Lösungen durchgeführt werden im Vergleich zu zeilenbasierenden Systemen – so die Einschätzung der Analysten von Forrester. Ihre Kollegen von Gartner gehen davon aus, dass das spaltenorientierte Modell künftig im Markt an Bedeutung gewinnen wird.

Die Anbieter der entsprechenden Systeme verlassen sich aber nicht nur auf die grundlegenden Vorteile ihres Konzepts. Sie rüsten ihre Produkte mit zusätzlichen Funktionen aus, um deren Leistungsfähigkeit zu erhöhen. So arbeitet zum Beispiel Sybase IQ in der aktuellen Version 15.3 mit Parallel Processing – also der gleichzeitigen Nutzung von mehreren Servern. Auch andere spaltenorientierte Systeme, etwa das seit einigen Monaten zu HP gehörende Vertica, haben diese Technologie integriert. Eine weitere Funktion, die mittlerweile von vielen Anbietern unterstützt wird, ist die Möglichkeit, Daten zu komprimieren und somit den Speicherbedarf zu reduzieren.

Für die Anwender von relationalen Datenbanken, die auf Zeilenbasis arbeiten, bietet sich somit eine interessante Alternative – zumindest wenn es um analytische Anwendungen geht. Forrester-Analyst Boris Evelson berichtet von einem Unternehmen aus dem Gesundheitswesen, das für die Erstellung von Reports eine zeilenorientierte Datenbank durch Sybase IQ ersetzte. Das Ergebnis: Die Abfrage benötigte nicht mehr Tage sondern nur noch Sekunden. Zudem wuchs die Zahl der Nutzer des Systems von 200 auf 2000.

Die etablierten Anbieter wie Oracle, IBM oder Microsoft werden die Entwicklung bei den spaltenbasierenden Systemen aufmerksam beobachten. Schließlich könnte ihnen eine ernstzunehmende Konkurrenz erwachsen. Zumal diese drei Hersteller den Funktionsumfang ihrer Datenbanken laut Forrester in Richtung Business Intelligence zwar erweitert haben, aber wenn es um hunderte von Terabytes in einem Datawarehouse gehe, könnten sie mit den spaltenorientierten Systemen nicht mithalten.

Die Konkurrenz könnte noch bedrohlicher werden. Denn die Hersteller von spaltenorientierten Lösungen entdecken zunehmend die Vorteile, die sich ergeben, wenn sie dieses Datenbankkonzept mit In-Memory-Technik kombinieren. Eine solche Kombination ist laut IDC-Analyst Rüdiger Spies besonders effizient und macht die Datenauswertung noch einmal deutlich schneller. Die Lösung Exasolution von Exasol unterstützt zum Beispiel diesen Ansatz.

Erst vor kurzem hat SAP hat in diesem Zusammenhang viel Aufmerksamkeit auf sich gelenkt. Neben der Datenbank des Tochterunternehmens Sybase haben die Walldorfer auch eine Appliance mit dem Namen HANA im Angebot. Mit ihr hat SAP ebenfalls In-Memory-Technik und einen spaltenorientierten Ansatz für das Datenmanagement zusammengeführt. Auf der vergangenen Anwenderkonferenz verkündete der Software-Anbieter, dass die hauseigenen Datawarehouse-Lösungen ab sofort HANA nutzen können. In Bezug auf die Leistungsfähigkeit der Lösung nannte SAPs CTO Vishal Sikka beeindruckende Zahlen: Es gebe Anwender, die ihre Datenabfragen mithilfe von HANA um den Faktor 1000 bis 10.000 beschleunigen konnten.

Der IT-Dienstleister Avanade hat untersucht, woher all die Daten kommen, die jetzt als „Big Data“ bezeichnet werden (Grafik: Avanade).

Die Hersteller von spaltenbasierenden Systemen können aber nicht nur mit schnellen Datenprozessen locken, sondern in dem einen oder anderen Fall auch mit Kostenvorteilen. So müssen etwa Oracle-Anwender laut Gartner häufig viel Geld für bestimmte Konfigurationen sowie für die Wartung ausgeben. Die Datenbank von Vertica zum Beispiel ist dagegen nach Darstellung der Analysten eine kostengünstige Lösung. Ihr Preismodell orientiert sich an den extrahierten Daten und nicht an der Zahl der Nutzer oder der Server.

Das finanzielle Argument nehmen auch die Anbieter von quelloffenen Systemen für sich in Anspruch. So bietet etwa Calpont die Opensource-Datenbank InfiniDB sowohl als kommerzielle Enterprise-Version als auch als kostenlose Community-Edition. Letztere ist zwar im Funktionsumfang limitiert. Sie bietet aber trotzdem eine gute Möglichkeit, in die Arbeit mit spaltenorientierten Datenbanken einzusteigen.
Neben InfiniDB gibt noch weitere Datenmanagement-Systeme im Open-Source-Bereich, die ihre Informationen auf Basis von Spalten speichern. Dazu zählt etwa auch Ingres. „Die quelloffenen Lösungen sind zum großen Teil sehr leistungsfähige und hochskalierbare Systeme“, erklärt IDC-Mann Spies.

IT-Dienstleister Uniique hat beispielsweise einen Benchmark veröffentlicht, der InfiniDB einer zeilenorientierten Datenbank gegenüberstellt. Für den Vergleich wurde ein Datawarehouse verwendet, das ursprünglich für eine große Einzelhandelskette konzipiert worden war. Als Ergebnis stellte Uniique unter anderem fest, dass die spaltenorientierte Lösung 97 Prozent weniger Platz benötigte, um die Anforderungen abzudecken. Zudem sei die durchschnittliche Performance bei Abfragen um den Faktor 7 höher gewesen.

Spies sieht für die Open-Source-Produkte jedoch ein grundlegendes Problem: „Die Anbieter sind zu klein, um sich auf breiter Front durchzusetzen“. Somit stellen diese Lösungen seiner Meinung nach kaum eine ernsthafte Konkurrenz zu den klassischen relationalen Datenbanken dar. „Jedenfalls so lange nicht, bis diese kleinen Anbieter unter die Fittiche von finanzstarken anderen IT-Herstellern schlüpfen“, so Spies weiter.

Generell glaubt Spies, dass sich auch die anderen Anbieter von spaltenorientierten Datenbanken nur schwer gegen die Hersteller der klassischen Datenbanken und somit der Marktmacht von Oracle, IBM und Microsoft behaupten können. Seiner Meinung nach werden die spaltenorientierten Systeme vorwiegend Nischenprodukte bleiben, die auf bestimmte Aufgaben spezialisiert sind.

Zumal auch die etablierten Anbieter den Wert des spaltenorientierten Ansatzes erkannt haben und in ihre Produkte integrieren. Oracle etwa hat eine spaltenbasierende Komprimierung in seine zeilenorientierte Datenbank eingebunden. Die Gartner-Experten weisen zwar darauf hin, dass dies noch nicht zu vergleichen sei mit der kompletten Integration des spaltenorientierten Modells wie bei Sybase oder Vertica. Doch sie erwarten, dass die klassischen Datenbankanbieter verstärkt darauf hinarbeiten werden, beide Konzepte miteinander zu vereinen. Und dies werde die Hersteller von rein spaltenbasierenden Systemen zunehmend unter Druck setzen.

Doch auch auf der anderen Seite stehen mittlerweile IT-Schwergewichte. So gehört Vertica inzwischen zu HP. Und mit Sybase IQ sowie HANA ist SAP ohnehin bestens aufgestellt. „SAP hat das Potenzial, das spaltenorientierte Modell im Markt voranzutreiben“, meint Spies. Die Walldorfer seien bemüht, sich von den großen Datenbank-Anbietern unabhängig zu machen. Er geht davon aus, dass alle SAP-Systeme innerhalb des kommenden Jahres HANA unterstützen werden und HANA in spätestens vier bis fünf Jahren signifikante Marktanteile als Datenbank für SAP-Systeme erreichen kann.

Dafür müssen allerdings auch die Anwender mitspielen. Denn die setzen laut Spies auch für ihre analytischen Anwendungen eher auf bewährte Technik. Und das sind die klassischen relationalen Systeme. „Relationale Datenbanken sind eine etablierte und weit verbreitete Technologie“, so der Analyst. Zudem seien sie im transaktionalen Bereich im Vorteil, da das Einfügen von Daten beim spaltenorientierten Ansatz aufwändiger ist.

ZDNet.de Redaktion