Categories: Unternehmen

Datenintegration: Stolperstein für verlässliche Analysen

Gestern trafen sich sechs Anbieter von Business Intelligence (BI) in München mit Analysten, um ihre Konzepte und Produkte vorzustellen: Informatica, Hyperion, Seebeyond, Evoke, I2 und das Projekthaus Softlab. Mit von der Partie war BARC-Vertreter Bange, dessen Institut unter anderem Marktübersichten über Softwareprodukte herausgibt, die für den deutschen Markt Relevanz besitzen. Er wies auf die Lücken im Markt für BI-Intelligence-Angebote hin.

Noch immer scheitern Projekte in Sachen BI an der Datenintegration. Unter anderem fehle ein automatisiertes Qualitäts-Management, behauptet Carsten Bange, geschäftsführender Gesellschafter des Business Research Centers (BARC). Außerdem gibt es bisher nur Ansätze, einen Standard für BI-Produkte zu etablieren.

Keine Frage, die Technik für Business Intelligence (BI) hat sich weiterentwickelt, seit der Erfindung des Data Warehouse. Vor schon fast zehn Jahren etablierte sich der Begriff für die Datensammlungen, die ausschließlich für ein Reporting und weitergehende Analysen zur Verfügung stehen. Bis dahin war Datenhaltung an operative Systeme gekoppelt, die etwa Produktionen, Buchhaltungen und den Handel unterstützten. Vor allem was die Verarbeitung von Datenmengen und die Erreichbarkeit über Online-Abfragen angeht, hat sich seither einiges getan.

Bange unterscheidet heute fünf Ebenen für BI-Komponenten. Zunächst gibt es die Vorsysteme mit ihrer Datenhaltung, die zumeist der Transaktionsabwicklung dient, sowie externe Quellen. Sodann existiert in den meisten größeren Betrieben ein Data-Warehouse oder auch kleinere, abteilungsspezifische Data-Marts. Auch hier benötigt das Unternehmen Systeme zur Datenhaltung, zumeist relationale Datenbanksysteme, und Tools für die Administration.

Nicht alle Abteilungen eines Unternehmens brauchen alle Daten in der gleichen Form. Der Vertrieb muss wissen, welcher Artikel sich wo gut verkauft. Der Einkauf sollte ebenfalls wissen, welcher Artikel sich gut verkauft; denn er muss unter Umständen Material nachordern. Der Einkauf hat jedoch kaum Interesse daran, in welcher Region der Absatz besonders gut ist.

Diese verschiedenen Sichten auf die Daten bilden so genannte multidimensionale Würfel ab. Diese können virtuell auf relationalen Datenbanken eingerichtet werden, aber auch in eigens dafür geschaffenen Datenbanksystemen. Mit Hilfe dieser Würfel für das Online Analytical Processing (Olap) lassen sich die Daten nach unterschiedlichen Kriterien etwa Zeit und Raum ordnen und auswerten in diverser Granularität. Um die Würfel zu erstellen, sind Tools für die multidimensionale Aufbereitung und Informationsmodellierung erforderlich.

Standardberichte, Management-Informationssysteme und Analysen schließlich ist das, womit ein Anwender zu tun hat. Es gibt dementsprechend Tools fürs Planen, für die Suche nach Mustern (Data Mining), für die Erstellung von Reports und von Detailauswertungen.

Die jüngste eigenständige Werkzeugkategorie ist jedoch auf der Ebene Datenintegration angesiedelt: ETL-Tools. Das Akronym ETL steht für Extraction, Transformation und Loading. Solche Tools übernehmen die Datenextraktion aus den operativen Systemen, wandeln sie in Formate um, die das jeweilige Data Warehouse benötigt, und lädt die Daten in diesen Datenpool. Noch basteln viele Unternehmen die Programme zur Datenaufbereitung selbst, so dass sich die Werkzeuge noch weithin durchsetzen müssen.

Doch selbst wenn solche Tools zum Einsatz gelangen, können sie nur für einen formalen Abgleich sorgen. Sie harmonisieren einzig die Formate. Es fehlt eine inhaltliche Datenbereinigung. So fällt in den Stammdaten häufig nicht einmal auf, dass E. Hoffmann mit Erwin Hoffmann identisch ist, selbst wenn die Namen mit derselben Adresse verknüpft sind. Andererseits können Name und Anschrift vollständig korrekt und unverwechselbar hinterlegt sein, Erwin Hoffmann aber längst verzogen.

Softwareanbieter Evoke Software, hierzulande in Hallbergmoos vertreten, bietet zwar ein System an, mit dem sich Inkonsistenzen entdecken lassen. Doch versteht der Hersteller darunter ein „Profiling“. Dieses ist eine nahezu einmalige Angelegenheit. Profiling findet statt, wenn eine neue Datenquelle für ein Data Warehouse erschlossen werden soll. Es handelt sich um eine Bestandsaufnahme.

„Was aber im Qualitäts-Management fehlt“, sagt BARC-Geschäftsführer Bange, „ist eine fortlaufende automatisierte Überprüfung der Daten“. Nur so könne auffallen, wenn es einen Kunden unter der geführten Adresse nicht mehr gebe. Ein Profiling dürfe nur die Basis für eine ständige Qualitätsverbesserung sein.

Anbieter von BI-Werkzeugen scheinen zumindest diesen Bedarf registriert zu haben. So ist Ascential nun im Besitzt des Profiling-Software-Herstellers Vality Technology Inc. SAS Institute hat den Hersteller Dataflux gekauft. „Doch zumeist“, so Bange „konzentrieren sich die wenigen Anbieter von Qualitätssicherungs-Tools auf die Bereinigung von Adressinformationen“: Dubletten werden beseitigt und die Daten konsolidiert. Doch für alle anderen Daten fehlen solche Programme“. Weitere Hersteller, die Bange in den Qualitäts-Management-Sektor einreiht sind Trillium und First Logic.

SAS Institute stellte in einem BI-Projekt bei der Deutschen Bahn fest, dass dort 16 verschiedene Definitionen von „Zug“ existieren. Diese mögen ihre Berechtigung haben immerhin ist ein Zug für einen Fahrplangestalter etwas anderes als für einen Techniker und ein Disponent mag darunter noch einmal andere Kriterien fassen. Nur wenn diese Definitionen und ihre Ausgestaltung in Feldern und Attributen in ein und demselben Datenpool auftauchen, gibt es Probleme bei der Auswertung.

Das führt Experten wie Walter Brenner, Direktor des Instituts für Wirtschaftsinformatik der Universität St. Gallen, dazu, „intelligentere Anwendungen“ zu fordern. Niemals werde es eine heile Welt geben, in der sämtliche Geschäftsbegriffe einheitlich definiert sind. Auch Standardisierungsprojekte wie ebXML oder Rosettanet dürften dran nichts ändern. So bleibt auch das Schnittstellenproblem ein immer aktuelles immer wenn eine neue Datenquelle in die Auswertungen mit einbezogen werden soll.

Eine Möglichkeit, dem Formatchaos zu entgehen, bietet die Object Management Group (OMG) an. Das Standardisierungsgremium, das etwa die Common Object Request Broker Architecture (Corba) ausgearbeitet hat, wirbt nun für das Comon Warehouse Metamodell. Hiernach lassen sich Informationen über die in einem Data-Warehouse-Applikationen verwendeten Formate in einem Repository ablegen. Das soll dabei helfen, verschiedene Datenquellen zu benutzen ohne die jeweiligen Formate auflösen und harmonisieren zu müssen.

Doch BARC-Experte Bange ist skeptisch. „Vermutlich werden sich am Ende doch De-facto-Standards herausbilden, so dass es einheitliche, für alle gültige Regeln nicht geben wird.“

ZDNet.de Redaktion