Die Datenflut überschwemmt uns. Das ist kein neues Thema. Das Szenario wurde – wie andere Fluten – schon einige Male prophezeit. Bislang blieb jedoch die Katatsrophe aus. Einerseits lernten die Menschen, mit der Informationsflut anders umzugehen, andererseits entwickelten sich die zur Verfügung stehenden technischen Systeme ebenfalls weiter. Allmählich werden jedoch Grenzen erreicht, an denen die bisherigen Bewältigungsstrategien zu scheitern drohen.
Für die Herausforderung wurde inzwischen sogar ein neuer Begriff geprägt: „Big Data“. Damit bezeichnet man Datensätze, die so groß werden, dass das gewohnte Management in herkömmlichen Datenbanken (vor allem SQL) große Schwierigkeiten bereitet, wenn nicht gar unmöglich ist. Die entsprechenden Größenordnungen liegen bei mehreren Terabytes, Exabytes (entspricht 1018 Bytes) und Zettabytes (1021 Bytes) an Daten.
Nach Untersuchungen der Marktforscher von IDC wird das Datenvolumen von 2009 bis 2020 um den Faktor 44, die Anzahl der Files sogar um den Faktor 67 anwachsen. In konkreten Zahlen lag 2009 der Wert für die weltweit vorgehaltenen Daten bei 800.000 Petabytes, 2020 werden es voraussichtlich 35 Zettabyte oder anders ausgedrückt eine Milliarde Terabyte sein.
Die von Kelton Research im Auftrag des Dienstleisters Avanade durchgeführte Umfrage „Business Impact of Big Data“ erfasste im vergangenen Jahr bei rund 550 Managern, IT-Entscheidern und Abteilungsleitern aus 17 Ländern in Nordamerika, Europa und Asien die Auswirkungen aus deren Sicht. 35 Prozent aller befragten Unternehmen fühlten sich von der Menge an Daten überfordert, die im Arbeitsalltag anfällt. Als wichtigste Sorge in der IT nannten 42 Prozent die Angst vor kaum zu bewältigenden Datenmengen. Als Folge wurde Informationsmanagement von 48 Prozent von ihnen als der Aspekt genannt, auf den sie sich in den kommenden zwölf Monaten in der IT konzentrieren wollen. Damit rangiert das Thema nach Sicherheit (52 Prozent) auf Rang zwei.
Interessant ist, dass 65 Prozent der befragten Unternehmen meinen, die stetig steigende Datenmenge führe dazu, dass sich die Arbeitsweise grundlegend verändert. Und 84 Prozent der befragten Unternehmen geben sogar an, dass Mitarbeiter durch die stetig steigende und verfügbare Datenmenge bessere Arbeit leisten. Daraus lässt sich schließen, dass es den Firmen nicht in erster Linie darum geht, das Datenwachstum deutlich einzudämmen, sie aber nach Wegen suchen, um die bewusst angesammelten Daten effektiv zu nutzen. Bisher halten jedoch 39 Prozent der von Kelton Research in Deutschland befragten Unternehmen die Software, die sie nutzen um irrelevante Daten herauszufiltern, für mangelhaft. Weitere 29 Prozent der Studienteilnehmer sind mit den Tools unzufrieden, mit denen Mitarbeiter nach Daten zu suchen.
Wo die großen Datensätze herkommen
Laut IDC-Anaylst Rüdiger Spies ist ein deutlich überproportionales Wachstum bei sogenannten unstrukturierten Daten festzustellen. Doch genau genommen gibt es keine unstrukturierten Daten, erklärt der Marktforscher. Man könne vielmehr von drei Arten von Datentypen sprechen: Strukturierte Daten finden sich in traditionellen, transaktionsorientierten Datenbanken (SQL). Semi-strukturierte Daten kommen vor allem von HTML/XML-Texten und Bürodokumenten. Der Rest, die sogenenanten unstrukturierten Daten, stammen aus Bildern sowie Audio- und Videodateien.
In dieser Flut ist ein verstärktes Verschmelzen von Daten und Anwendungen zu beobachten. Die klassische strikte Trennung von Daten und Applikationen lockert sich. Wissenschaftler begegnen solchen Datenmengen regelmäßig in der Meteorologie oder der Genforschung, bei komplexen physikalischen Simulationen etwa in der Seismik, in der biologischen Forschung sowie in der Finanz-und Wirtschaftsinformatik. Darüber hinaus wächst auch die Datenmenge im Alltag stetig, weil Daten zunehmend in mobilen Geräten wie Kameras, RFID-Lesegeräten oder drahtlosen Sensornetzwerken gesammelt werden. Anwendungsbeispiele sind Electronic Mail Response (automatisierte E-Mail-Antwoten), Transcripts in Call Centern und Social-Media-Auswertungen.
IT-Anbieter wie IBM springen jedoch erst jetzt auf das Thema auf. Als besonderes Beispiel für den Umgang mit Big Data zeigt IBM häufig das Projekt Watson. Dabei konnte im US-Fernsehen ein Computer beim Wissensquiz Jeopardy seine menschlichen Kontrahenten besiegen. Das System komme, so IBM, der menschlichen Fähigkeit nahe, textbasierende Fragen schnell zu beantworten und die Verlässlichkeit der Antwort einzuschätzen. Watson war bei seinem Einsatz in der Quizshow nicht mit dem Internet verbunden, sondern arbeitete mit seiner eigenen Datenbasis mit etwa 200 Millionen Dokumentenseiten. Es gibt mittlerweile auch schon erste Ansätze für den Einsatz von solchen System in verschiedenen kommerziellen Szenarien.
Wer die großen Datensätze nutzen soll
Im Gesundheitswesen soll das System umfassende und optimierte Diagnosen unter Einbeziehung nicht nur vorhandener medizinischer Daten des Patienten, sondern aller im Kontext des Krankheitsbildes verfügbaren Informationen über ähnliche Krankheitsverläufe, Aufsätze oder Studien möglich machen. Der Computer unterstützt den Arzt sogar mit eigenen Analysen. IBM arbeitet fachlich mit den medizinischen Fakultäten der US-Universitäten Columbia (New York) und Maryland zusammen. In Deutschland gibt es bereits eine Kooperation mit dem Krebsforschungszentrum in Heidelberg. Für die Sprachtechnologie zur Ein- und Ausgabe kooperiert IBM mit Nuance. Die Firmen kennen sich gut, hat IBM doch 2003 seinen Spracherkennungsbereich Via Voice an Scansoft verkauft, dass sich daraufhin neu ausgerichtet und in Nuance umbennant hat. Beide arbeiten intensiv an einem medizinischen Wortschatz für solche Einsätze.
Ein wichtiges Einsatzgebiet wird im Rahmen von E-Government-Projekten künftig sicher die öffentliche Verwaltung sein. Dort ist die Fülle an Informationen und Regeln aus Gesetzen, Vorschriften oder Ausführungsanordnungen praktisch unüberschaubar. Ein Computersystem der nächsten Generation mit Sprachein- und ausgabe soll hier einen völlig neuen Bürgerservice bieten und Antworten auf Verwaltungs- oder Steuerfragen liefern. Dazu kommen Einsätze im Verkehrswesen. Mit der Integration von Watson-Techniken in Verkehrsleitsysteme für Straßen und Schienen will IBM Anbietern und Kunden dabei helfen, Reiseplanungen individuell zu optimieren.
Lösungen für die neuen Datenstrukturen
Big Data erfordert neue Technologien zur effizienten Bearbeitung großer Datenmengen. Dazu gehören Datenbanken mit massiv paralleler Verarbeitung (MPP), Datamining-Gitter, das Apache Hadoop Framework HPCC/ECL, verteilte Dateisysteme und Datenbanken sowie MapReduce.
Als wichtigste heute schon verfügbare Komponenten nennt IBM im Zusammenhang mit Big Data das Produkt InfoSphere BigInsights. Es ermöglicht große Mengen von relationalen und nicht-relationalen Daten zu speichern und zu analysieren. Das Werkzeug basiert auf dem bereits genannten Open Source Apache Hadoop Software Framework, IBM fügte nach eigenen Angaben weitergehende analytische Fähigkeiten aus der IBM-Forschung hinzu.
Weitere Komponenten sind die Integration mit IBM Datenbanken und Data Warehouses wie DB2, InfoSphere Warehouse, dem IBM Smart Analytics System und Netezza, die „Unstructured Information Management Architecture“ (UIMA), ein von IBM entwickeltes Open-Source-Framework zur Analyse von unstrukturiertem Inhalten wie Audiodaten, Bildern und Videos sowie eine Ergänzung durch die Anfragesprache Jaql.
Letztere ist teilweise vergleichbar mit Hive (von Facebook angestoßen) und Pig (von Yahoo ausgehend). Alle drei dienen der parallelen Datenverarbeitung und bauen auf MapReduce auf, sind jedoch eine höhere Sprache. Allerdings unterscheiden sie sich in der Zielrichtung. Während Pig den Schwerpunkt bei der Adhoc-Datenanalyse setzt und schnell ist, punktet Hive eher bei der Skalierbarkeit in großen Datawarehouses, wenn die Abfragegeschwindigkeit nicht im Vordergrund steht. Jaql hat Stärken, wenn es um Semantik und unterschiedliche Datenquellen geht.
Bei Hardware und Systemarchitektur ist IBM-Forschern im Lab San Jose/Almaden ein wichtiger Schritt beim Speichern eines extrem großen Datenbestands gelungen. Dabei konnten in einem Versuch 10 Milliarden Dateien aus verschieden abgelegten Dateien in nur 43 Minuten auf einem einzigen System erfasst werden. Damit wurde der bestehende Rekord – eine Milliarde Dateien in drei Stunden – um den Faktor 37 verbessert.
Das dazu verwendete hochskalierbare, geclusterte parallele Dateisystem mit dem Namen General Parallel File System (GPFS) gibt es schon seit 1988. Es wurde aber ständig weiterentwickelt, um den jetzigen Durchbruch zu ermöglichen. IBM sieht gerade GPFS als Speicherwerkzeug für Anwendungen, die sehr schnellen Zugang zu großen und größten Datenmengen benötigen.
Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…
Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…
Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.
Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…
Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…
Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…