Big Data und Predictive Analytics – Alles nur ein Hype?

Potenzialanalyse Ihrer Daten – Fallstricke vermeiden
Erfahren Sie in diesem Beitrag, warum es nicht nur Ihnen schwerfällt, vermeintliche Schätze in vorhandenen Daten zu heben, was Ihr tatsächlicher Aktivposten bei der Umsetzung datengetriebener Lösungen ist und wie Sie mittels aktiver Datengenerierung Wirkzusammenhänge effektiv aufdecken.

Warum Datenschätze so schwer zu heben sind

In vielen Unternehmen stellt sich nach den ersten Big Data- und Predictive Analytics Projekten eine gewisse Ernüchterung ein. Häufig lassen sich die erhofften Datenschätze nicht so einfach heben wie erwartet oder die Lösung schafft es nicht in die tatsächliche Nutzung im Unternehmen.

Die Gründe hierfür sind vielfältig. Sie reichen von fehlenden Vorüberlegungen bezüglich der spezifischen Zielstellung über mangelnde Datenqualität bis hin zum Versanden der Lösung in den letzten Stufen der Innovationspipeline aufgrund fehlender Akzeptanz bei den Nutzern.

Mit Hilfe einer systematischen Potenzialanalyse lassen sich viele dieser Probleme frühzeitig aufdecken und damit die Investition in aussichtsreiche Projekte sicherstellen.

Allerdings ändert dies nichts an der Situation, dass vorhandene Daten, die zwar im gleichen Kontext, aber zu einem anderen Zweck erzeugt und gesammelt wurden, selten zu optimalen Ergebnissen bei neuen innovativen Analysen führen. Auch eine hohe Qualität der Daten hilft hier nur bedingt. Bildhaft gesprochen: Selbst der hochwertigste Laufschuh macht beim Bergwandern keine gute Figur.

Beispiele finden sich unter anderem im Bereich

Automobil, indem Sensordaten primär mit dem Ziel der optimalen Aussteuerung und nicht zur frühzeitigen Vorhersage künftiger Ausfälle erfasst wurden
Versandhandel, bei dem die reibungslose Abwicklung von Verkäufen im Vordergrund stand, nicht jedoch die Ableitung individueller Kaufempfehlungen für bestimmte Kunden.

Ihr eigentlicher Aktivposten jenseits der Daten

Tasächlich ist es keine neue Erkenntnis, dass wir uns im Vorfeld schon Gedanken über den Zweck der Datenerhebung machen sollten^[1]. Auch im Zeitalter von Data Lakes – von denen sich laut Gartner 90% als nutzlos herausstellen werden^[2] – behält sie ihre Gültigkeit. Diesbezüglich unterliegt man jedoch sehr leicht einer verzerrten Wahrnehmung, Innovationen in datengetriebenen Unternehmen, die sich ganz zufällig aus den vorliegenden Daten ergeben, sind eher spannende Anekdoten als der Normalfall. Vielmehr haben erfolgreiche datengetriebene Unternehmen wie Google Möglichkeiten gefunden, effektiv die für ihre Fragestellungen relevanten Daten zu identifizieren und ihre Datenerfassung effizient diesbezüglich auszurichten^[3].

Auch der bildhafte Ausspruch „Daten sind das neue Öl“ kann zu der falschen Überzeugung führen, dass man nur lange und tief genug in den vorhandenen Datenbergen graben muss, um innovative Erkenntnisse zu gewinnen. Im Gegensatz zum Rohöl, bei dessen Gewinnung und Speicherung man sich aber noch keine Gedanken über den genauen Einsatz nach dessen Raffination machen muss, funktioniert das beim facettenreichen Konstrukt Daten nur sehr bedingt. Wenn es um innovative Analysen geht, sind für ein Unternehmen daher im Allgemeinen die Möglichkeiten zur effizienten Gewinnung geeigneter Daten im eigenen Umfeld wertvoller als die schon gesammelten Daten.

Das unterschätzte Potential der aktiven Datengenerierung

Um aus den gesammelten Daten einen maximalen Nutzen zu ziehen, müssen wir aber nicht nur die richtigen Daten sammeln, sondern auch die Situation und den Prozess der Datenerfassung aktiv auf Grundlage bisheriger Erkenntnisse ausgestalten. Eine solche aktive Datengenerierung lässt sich besonders gut bei den erfolgreichsten datengetriebenen Unternehmen beobachten. Ist Ihnen beispielsweise aufgefallen, dass Sie bei Einkäufen in großen Onlineshops teilweise gezielt um die Bewertung eines bestimmten Produkts gebeten werden, insbesondere, wenn für dieses Produkt erst wenige Bewertungen vorliegen? Manchmal werden bestimmten Kunden Produkte sogar kostenlos bereitgestellt, um diese zu bewerten und damit zielgenau bestehende Datenlücken zu schließen.

Auch nehmen Sie als Nutzer von großen Onlineplattformen – für Sie unsichtbar – an zahlreichen Tests teil, die dazu dienen, aktiv bestimmte Daten zu generieren. Hierzu werden Nutzer gewöhnlich randomisiert in zwei oder mehr Gruppen eingeteilt. Abhängig von der Gruppe werden den Nutzern dann alternative Inhalte oder modifizierte Präsentationen derselben Inhalte bereitgestellt und Änderungen in ihrem Verhalten automatisch ausgewertet. Die durch solche Split-Run-Tests gewonnenen Erkenntnisse dienen anschließend dazu, beispielsweise die Darstellung der Inhalte oder die Auswahl der gezeigten Produkte zu optimieren.

Durch aktuelle Trends in der Softwareentwicklung wie Over the air programming (OTA), Software as a Service (SaaS), Continuous Delivery (CD) und DevOps ergeben sich aber weit über das Marketing und die Verkaufsoptimierung hinausgehende Anwendungsgebiete für die aktive Datengenerierung. So können alternative Darstellung und Benutzerführungen in Anwendungen beispielsweise mittels CD und OTA zeitnah bereitgestellt und anschießend anhand großer Stichproben einfach und effektiv evaluiert werden: Welches ist beispielsweise der optimale Zeitpunkt, den Nutzer einer Navigationslösung auf einen Abbiegevorgang hinzuweisen? Aber auch neue Funktionalitäten können vor ihrer generellen Einführung getestet oder die Auswirkungen von Codeänderungen auf die Systemstabilität und Performance unter realen Bedingungen zuverlässig beurteilt werden, noch bevor diese dauerhaft in die Codebasis übernommen werden.

Was wirklich zählt, sind Kausalitäten

Was ist nun aber der entscheidende Vorteil aktiver Datengenerierung, sozusagen ihr Unique Selling Point? In der Diskussion um Big Data und Predictive Analytics wird häufig übersehen, dass die Auswertung passiv gesammelter Daten bestenfalls das Aufdecken und Modellieren möglicher Zusammenhänge (d.h. Korrelationen) zwischen beobachteten Größen erlaubt. Was uns aber gewöhnlich interessiert, sind keine Korrelationen, sondern die Auswirkungen bestimmter Faktoren und Entscheidungen – also Kausalitäten. Wir wollen nicht wissen, ob die Anzahl der Störche mit der Geburtenrate korreliert – was teilweise der Fall ist^[4] – sondern, ob der Storch die Kinder tatsächlich zur Welt bringt (um deren Population in diesem Fall aktiv zu erhöhen).

Eine Aufdeckung von Kausalitäten erfordert aber die gezielte Einflussnahme auf die Datenerhebungssituation. Nicht umsonst bilden kontrollierte Experimente seit jeher die Grundlage des wissenschaftlichen Erkenntnisgewinns. Im Rahmen einer gezielten Steuerung der zu untersuchenden Faktoren lässt sich deren Effekt isolieren und konkret bestimmen. Früher brauchte es hierzu aufwendig geplante Studien in Laborumgebung mit zum Teil bezahlten Probanden. Heute eröffnen sich Unternehmen deutlich schnellere und effizientere Möglichkeiten im Rahmen von Entwicklungsmethoden wie beispielsweise Lean Development, welche auch die zunehmend geringere time-to-market, denen sich heutige Unternehmen oftmals ausgesetzt sehen, adressieren. Durch das Konzept der Minimal Viable Products (MVP) und extrem kurzen Release-Zyklen lassen sich in solchen Umgebungen schnell qualifizierte Daten zur Produktqualität oder neuen Funktionen erlangen. Interessante Beiträge hierzu liefern unter anderem aktuelle Forschungsprojekte wie Opti4Apps und Q-Rapids.

Fazit

Verlassen Sie sich in der Produktentwicklung künftig nicht mehr nur auf die Einschätzung Ihres Produktmanagers oder das Bauchgefühl Ihres Qualitätsverantwortlichen, sondern generieren Sie datenbasierte Evidenzen für Ihre Annahmen. In Anbetracht aktueller Entwicklungen in den Bereichen Software as a Service und Continuous Delivery waren die Vorrausetzungen noch nie so gut wie heute.

Bei der Umsetzung können Sie sich von praxiserprobten Ideen aus dem Bereich der Lean Analytics inspirieren lassen^[5]. Vielleicht identifizieren Sie aber erst einmal im Rahmen einer Potenzialanalyse die für Sie wirklich wichtigen Hypothesen. Denn die Qualität Ihrer Fragestellung bestimmt maßgeblich den Nutzen, den Sie aus Ihrer Beantwortung ziehen können.
Das Fraunhofer IESE unterstützt Sie gerne.

Referenzen

[1] V. R. Basili, H. D. Rombach: The TAME project. Towards improvement-oriented software environments. In: IEEE Transactions on Software Engineering. Band 14, Nr. 6, 1988, S. 758–773

[2] Gartner Blog Article, http://blogs.gartner.com/merv-adrian/2014/12/30/prediction-is-hard-especially-about-the-future/, last accessed 2017/07/25

[3] Tang, D., Agarwal, A., O’Brien, D., Meyer, M.: Overlapping experiment infrastructure: More, better, faster experimentation. In: Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM (2010) 17–26

[4] Matthews, R. (2000). Storks deliver babies (p= 0.008). Teaching Statistics, 22(2), 36-38.

[5] A. Croll, B. Yoskovitz: Lean Analytics, O’Reilly 2013.