Big Data und Big Data Analytics

Durch Big Data Analytics wird das Phänomen immer größer und komplexer werdender Datenmengen beschrieben. Big Data zeichnet sich dadurch aus, dass die bisherigen Konzepte und Lösungen der Datengenerierung, -speicherung und -analyse nicht mehr ausreichen, um diese großen Datenmengen zu verwalten und zu effektiv nutzen. 

Big Data

heißt: Immer mehr Daten aus unterschiedlichsten Quellen in immer kürzerer Zeit. Big Data ist durch die drei Dimensionen Volume, Variety und Velocity gekennzeichnet:

  • Volume: Es wird davon ausgegangen, dass bis zum Jahr 2020 das globale Datenvolumen auf 40 Zetabytes anwachsen wird. Das bedeutet ab heute eine Verdoppelung alle zwei Jahre. Grenzen sind bisher keine erkennbar.
  • Variety: Die Daten werden in immer mehr unterschiedlichen Quellen generiert, so etwa Daten, die von Usern und Konsumenten selbst erzeugt werden, z.B. in sozialen Netzwerken, im E-Commerce und in mobilen Endgeräten. Oder aber Daten, die automatisch von Computern oder anderen Endgeräten erzeugt werden, z.B. durch Sensoren, Kameras, etc.
  • Velocity: Die Geschwindigkeit, in der Daten erzeugt, abgerufen, analysiert und genutzt werden, nimmt rasant zu. Analysen und Auswertungen sollen ad hoc zur Verfügung stehen und auf Daten in Echtzeit zugreifen können.

Big Data fängt da an, wo Unternehmen mit herkömmlichem Datenmanagement an ihre Grenzen stoßen.
Big Data kann dementsprechend auch negativ als die Grenze definiert werden, ab der ein Unternehmen seine Daten mit den vorhandenen Lösungen nicht mehr effektiv speichern, verarbeiten, analysieren und visualisieren kann.

 

Big Data Analytics

ist der Prozess, in dem aus den ungeordneten Datenmengen versteckte Muster und bisher unbekannte Korrelationen oder andere Arten von Informationen herausgelesen werden. Je größer, unstrukturierter und unbekannter die Datenpools, desto schwieriger wird es, aus den Daten die richtigen Erkenntnisse herauszuarbeiten.
Big Data stellt an die Analysemethoden besondere Anforderungen:

  • Aufgrund der Notwendigkeit, Erkenntnisse in Echtzeit zu generieren, benötigt Big Data weitgehend automatisierte, selbständige und schnelle Analyseprozesse.
  • Die Analyseergebnisse und deren Aufbereitung müssen geeignet sein, die Entscheidungsfindung im Management kurzfristig zu unterstützen. Im Idealfall geben sie bereits einen Hinweis darauf, wie die Ergebnisse für das laufende Geschäft genutzt werden können.

Big Data Analyse muss in Echtzeit und automatisiert ablaufen.

Traditionelle Data Warehouses mit relationalen Datenbankstrukturen und meist unflexiblen Vorgaben an die Datenformate stoßen bei Big Data an ihre Grenzen. Daraus hat sich eine neue Technologie-Umgebung für Big Data Analytics entwickelt: NoSQL-Databases oder Hadoop unterstützen die großen Datenmengen optimal. Statt der bekannten Verarbeitung von Daten zu analysefähigen Aggregaten steht mit z.B. dem MapReduce-Algorithmus ein neues Verfahren zur Verfügung, um schnell auf Daten zugreifen zu können. Die Integration von z.B. Hadoop in bestehende Data Warehouses ist eine der großen Herausforderungen an die IT, die kosten- und ressourcenintensiv ist.

Zwar werden für Big-Data-Analysen im Wesentlichen die gleichen statistischen Methoden verwendet wie für Predictive Analytics und Data Mining, trotzdem ergeben sich einige wesentliche Veränderungen bei der Analyse: Die Algorithmen und Methoden sind eingebettet in weitgehend selbstständig und automatisiert ablaufende Prozesse, auf deren Basis sogar Entscheidungen automatisiert getroffen werden. Die Systeme müssen selbst-lernend und selbst-optimierend sein. Data-Analysten steuern diese Prozesse nur noch auf übergeordneter Ebene und greifen nur in Ausnahmefällen ein.
Ohne Analysekompetenz geht trotz verdichteter Ergebnisse nichts.

Aufgrund ihrer Komplexität müssen Analyseergebnisse in verdichtetet Form, aber eindeutig visualisiert werde. Dazu eignen sich Darstellungsformen wie z.B. Heatmaps, Boxplots und Bubblecharts. Der Trend deutet in Richtung sogenannter Self-Service-Funktionalitäten, mit denen Anwender im Unternehmen selbst eigene Fragestellungen untersuchen können und damit unabhängiger von IT- und Analyse-Abteilungen sind. Hier stellt sich erneut die Frage nach der erforderlichen Analysekompetenz, denn trotz vereinfachter Darstellung sind die Modelle und Ergebnisse oft sehr komplex. Die abgeleiteten Schlussfolgerungen können dann nur so gut und richtig sein, wie das Verständnis für das Modell und seine Ergebnisse.