Apache befördert In-Memory-Framework Spark in den ersten Rang

Die Apache Software Foundation hat ihre Entscheidung öffentlich gemacht, dem Framework Spark seinen Inkubationsstatus zu nehmen und es stattdessen als Projekt der höchsten Stufe zu führen. Spark ist ein In-Memory-Framework für verteiltes, clusterbasiertes Computing auf Basis eines anderen wichtigen Apache-Projekts: Hadoop.

Spark hilft letztlich Hadoop, über den Betrieb mit dem MapReduce-Algorithmus im Batch-Modus auf Festplattenbasis hinauszugehen. Stattdessen wird es zu einer voll interaktiven, verteilten In-Memory-Lösung. Laut Spark-Homepage laufen Programme darauf „im Speicher bis zu 100-mal schneller als Hadoop MapReduce – und auf Disk immer noch 10-mal schneller.“ Hadoop wird so zur Echtzeit-Engine.

Damit vollzieht Apache letztlich, was die Big-Data-Community längst erwartete: Spark ist ihr wichtigster Trend, und 2014 sollte das Jahr seines Durchbruchs werden. Hervorgegangen ist das Projekt aus dem AMPLab der University of California in Berkeley, inzwischen hat es durch das Start-up Databricks kommerzielle Förderung erhalten. Als Ritterschlag für Spark kann auch gelten, dass es der führende Hadoop-Distributor Cloudera in sein CDH aufgenommen hat. CDH steht für „Cloudera Distribution including Apache Hadoop“.

Ein Apache-Inkubationsprogramm war Spark übrigens erst im Juni 2013 geworden. Zu seinen Vorteilen zählt, dass es die Hadoop-2.0-Komponente YARN und das verwandte Projekt Shark nutzen kann und eine SQL-on-Hadoop-Engine implementiert, deren Syntax kompatibel zu Apache Hive ist – aber mit den gleichen Performancevorteilen wie gegenüber MapReduce.

Die Pressemeldung der Apache Software Foundation zählt noch ein paar Vorteile auf: So ermöglichen es Sparks APIs, Anwendungen schnell in Java, Python oder Scala zu schreiben. Und weiter heißt es: „Spark ist gut für Maschinelles Lernen geeignet, für interaktive Daten-Abfragen und Stream-Processing. Es kann Daten aus HDFS, HBase, Cassandra ebenso wie aus beliebigen Hadoop-Datenquellen lesen.“

[mit Material von Andrew Brust, ZDNet.com]

Tipp: Wie gut kennen Sie sich mit Open Source aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

SmokeBuster bekämpft SmokeLoader

Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.

4 Stunden ago

Taugen Kryptowährungen als Unterstützer der Energiewende?

Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.

20 Stunden ago

Supercomputer-Ranking: El Capitan überholt Frontier und Aurora

Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…

24 Stunden ago

Ionos führt neue AMD-Prozessoren ein

Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…

1 Tag ago

Lags beim Online-Gaming? DSL-Vergleich und andere Tipps schaffen Abhilfe

Beim Online-Gaming kommt es nicht nur auf das eigene Können an. Auch die technischen Voraussetzungen…

1 Tag ago

GenKI-Fortbildung immer noch Mangelware

Fast jedes zweite Unternehmen bietet keinerlei Schulungen an. In den übrigen Betrieben profitieren oft nur…

1 Tag ago