Im Kern geht es beim Data-Mining um das Erschaffen nützlicher Informationen durch die Identifizierung zuvor unbekannter Beziehungen innerhalb eines gegebenen Datensatzes. Trotz seiner Nützlichkeit sind die praktischen Einschränkungen bezüglich der Akzeptanz des Data-Mining auf seine hohen Kosten (die Implementierungskosten belaufen sich oft auf siebenstellige Beträge) und die Komplexität zurückzuführen, welche sich ergibt, wenn man Anwendungen und Datenbanken in Tools integrieren muss, die nie unter dem Gesichtspunkt der Anwenderfreundlichkeit entwickelt wurden.
Dies hat zu einer frustrierenden Realität geführt: Zwar haben viele Unternehmen erfolgreich so genannte Data-Warehouses implementiert – riesige Datenbanken, die große Mengen an historischen Daten zur Analyse und Wiederverwendung enthalten -, doch waren die meisten nicht in der Lage, diese Daten für mehr als einfache Berichte zu verwenden, wie sie auch mit Hilfe einfacher Tools erstellt werden können. Und tatsächlich: während schon seit Jahren relativ ausgereifte Tools zur Business-Analyse zur Verfügung stehen, enthüllte eine kürzlich von Teradata unter 50 australischen Führungskräften durchgeführte Umfrage, dass fast die Hälfte von ihnen das Gefühl hat, nicht über ausreichend Informationen zu verfügen, um intelligente Geschäftsentscheidungen zu treffen.
Da sie immer auf der Suche nach neuen Wegen der optimalen Ausnutzung der gesammelten Daten sind, interessieren sich Unternehmen auch weiterhin für Data-Mining, um bislang unbekannte Dinge über ihre Geschäftstätigkeit zu erfahren. Die letzte von IDC durchgeführte Untersuchung des Marktes für Business-Intelligence-Lösungen (BI) – eine Kategorie, in die auch Data-Mining, Executive Reporting und andere Werkzeuge zur Datenanalyse fallen – sagte voraus, dass der asiatisch-pazifische Markt bis zum Jahr 2006 um jährlich 23 Prozent auf 3,3 Mrd. US-Dollar anwachsen werde. In einem anderen Bericht prognostozierte die Aberdeen Group, der weltweite Markt für solche Analyse-Tools werde von 4 Mrd. US-Dollar im Jahr 2001 bis 2005 auf 11 Mrd. US-Dollar ansteigen.
Ein Großteil dieses Wachstums wird dadurch verursacht werden, dass man Data-Mining einsetzt, um die in Unternehmens-Data-Warehouses vorhandenen Daten in bessere Übersichten über das Kundenverhalten zu verwandeln – was die Geschäftsstrategien wiederum grundlegend verändern könnte.
- Data-Mining: Verborgene Schätze in Unternehmensdaten
- Unbekannte Beziehungen identifizieren
- Betriebsabläufe und Erfolgschancen
- Vorbeugen ist besser als heilen
- Echtzeit-Data-Mining
- Beträchtliche Hardware-Investitionen
- Grundlagen des Angewandten Data-Mining
- Geheimnisvoll und esoterisch
- Data-Mining für die Anwender
- Aufräumen im Warehouse
- Probleme mit der Datenkonsistenz
- Datenintelligenz stärkt OneSteel
- Datenschwemme
- Nach Gold graben und das Geröll wegwerfen
Neueste Kommentare
3 Kommentare zu Data-Mining: Verborgene Schätze in Unternehmensdaten
Kommentar hinzufügenVielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.
Open Source Data Mining mit RapidMiner und RapidAnalytics
Als kostenlose erhältliche Open-Source-Lösungen für den Unternehmenseinsatz empfehle ich:
* RapidMiner für Desktop oder Notebook: http://www.RapidMiner.com/
* RapidAnalytics als Server-Lösung: http://www.rapid-i.com/
Wahlweise kann man in RapidMiner und RapidAnalytics über Erweiterung (Extensions) die Open-Source-Systeme Weka und R einbinden. Es geht aber auch ohne, denn RapidMiner und RapidAnalytics bieten bereits von hause aus sehr viele maschinelle Lernverfahren und statistische Modellierungsverfahren.
Data-Mining mit R
Die freie Statistikprogrammiersprache R dazu verwenden.
Ausführlich – aber bitte weiteren Aspekt bedenken!
Vielen Dank für den langen Artikel. Es hat sich gelohnt!
Ich möchte aber ergänzen, dass Data Mining Modelle (Algorytmen) ein Training für die Datenbasis benötigen, um Vorhersagen treffen zu können. Daraus folgt, das sie mit der Zeit immer besser werden können, wenn man die Voraussagen mit den Ergebnissen konfrontiert.
Das Training (mit verifizierten Daten) ist wesentlich für die Qualität der Aussagen der Mining Modelle.