setpark Logo

Big Data Analysen

Aufgrund der riesigen teilstrukturierten und sich bewegenden Datenmenge bei Big Data ist es nun wirtschaftlich unmöglich die Zeit und Ressourcen aufzuwenden um diese Daten vollständig und perfekt zu analysieren um die gewünschten Informationen zu extrahieren. Nicht analysierte, grosse Datenmengen weisen einen tiefen Wert pro Byte auf (en. low value per byte). Die Möglichkeiten sind aber enorm wenn ein Weg zur ökonomischen Analyse gefunden wird. Dazu braucht es neue und alternative Verfahren. In diesem Zusammenhang werden dann die Kosten pro Rechenlauf (en. cost per compute) für einen spezifischen Schritt oder für ein bestimmtes Ergebnis bewertet.

Eine Big Data Plattform erlaubt die Speicherung aller Daten im ursprünglichen Format. Analysen werden mit massiver Rechenleistung durchgeführt und die Ergebnisse sind eine Ergänzung zu den strukturierten Data Warehouses (DWH) wie sie in allen grösseren Unternehmungen zu finden sind. (Zikopoulos et al., 2012, S. 11-12)

Die Analyse von Big Data erfordert dabei neue Ansätze mit Algorithmen wie beispielsweise Reduktion und Musterkennung. Man spricht dabei ganz Allgemein von Data Science als Disziplin die sich mit der Entwicklung von Verfahren, Methoden und Theoremen befasst die es erlauben die Bedeutung von Informationen aus Daten eines stochastischen Prozesses zu extrahieren. Die explorative Datenanalyse (EDA) ist dabei ein wichtiges Instrument, welche ohne Hypothesen und Modellen arbeitet. Teilweise wird die Meinung vertreten, dass Korrelationen genügend ist. Beobachtende Studien als empirische Arbeiten bei denen Ursachen und Wirkungszusammenhänge betrachtet werden. Dabei kommen scheinen kontrollierte Experimente nicht geeignet. (ONeil & Schutt, 2014, S. 19, 27, 34, 283)

In diesen Jahren erreichen die von Unternehmen analysierten Datenmengen noch kaum gigantische Ausmasse. Nur wenige Unternehmen analysieren mehr als 1 TB. Auch die Zunahme der analysierten Datenmengen ist deutlich kleiner verglichen mit der Zunahme der weltweit anfallenden und produzierten Daten.



ONeil, C. & Schutt, R. (2014). Doing Data Science. Sebastopol, CA: O'Reilly.
Zikopoulos, P. C., Eaton, C., Deroos, D., Deutsch, T. & Lapis, G. (2012). Understanding Big Data - Analytics for Enterprise Class Hadoop and Streaming Data. New York: Mc Graw Hill.

  E-Mail senden...