Data Quality – A BIG Challenge for BIG Data

Lassen Sie sich nicht in die Irre führen!

Wenn über Big Data gesprochen wird hört man häufig vom Prinzip „Quantity over Quality“. So auch wieder bei einer Keynote im Rahmen der IWSM/Mensura, auf der ich letzte Woche unsere Arbeiten zur Datenqualität vorgestellt habe.

Das Argument ist häufig wie folgt: „Bei Big Data haben wir so viele Daten, dass es auf deren Qualität nicht unbedingt ankommt. Die Masse an Daten mittelt die Probleme schon wieder raus.“ Wenn Sie das auch denken, dann befinden Sie sich in guter Gesellschaft: Sie erliegen dem gleichen Missverständnis wie viele Entscheidungsträger, die von diesem Prinzip zum ersten Mal hören. Dies liegt daran, dass „Quantity over Quality“ eine Fehlinterpretation geradezu herausfordert und damit Big-Data-Initiativen in die Irre führen kann.

Um dieses verbreitete Missverständnis aufzuklären, skizziere ich in diesem Beitrag, warum auch bei steigenden Datenmengen die Qualität wichtig bleibt und erkläre anschließend, was mit „Quantity over Quality“ im maschinellen Lernen eigentlich gemeint ist.


Data Quality Matters!

Der Fragestellung angemessene und repräsentative Daten waren seit jeher und bleiben weiterhin die Grundlage valider Analyseergebnisse. Fehlerhafte Daten führen im besten Fall zu einem Rauschen, das die Ergebnisqualität bis hin zu einem Punkt reduziert, an dem die Ergebnisse selbst unbrauchbar werden. Sie können aber auch zu völlig fehlerhaften Schlussfolgerungen und damit auch Entscheidungen führen, was deutlich schlimmer ist.

Fehler durch höhere Datenmengen herauszurechnen funktioniert nur, wenn die Fehlerursache zu einem zufälligen Rauschen in den Daten führt, wobei die hierzu benötigte Datenmenge im Allgemeinen nicht linear, sondern quadratisch mit dem Fehler steigt. In der Praxis haben wir es häufig aber nicht mit zufälligen Störungen, sondern mit systematischen Fehlern zu tun, bei denen auch große Datenmengen nicht helfen. Solche Fehler können beispielsweise durch eine unklare Grundgesamtheit, eine nicht repräsentative Stichprobe, fehlerbehaftete Datenerfassung oder ungeeignete Skalen auftreten.

Gut illustrieren lässt sich das an einem Beispiel aus dem Buch „We are Big Data: The Future of the Information Society“, das dort dazu dient, das Prinzip „Quantity over Quality“ zu belegen. Die Autoren behaupten, dass man, um die durchschnittliche Größe der Schüler in einer Klasse genauer zu bestimmen, einfach die Anzahl der vermessenen Schüler erhöht und somit den Messfehler senkt, ohne dass man sich um das Messverfahren oder die verwendeten Messinstrumente kümmern müsste. So ganz stimmt das leider nicht: Nehmen wir an, wir haben eine fehlerhafte Messlatte, auf der ein Meter nur 95cm hat, oder wir lesen anstelle von Zentimetern die ebenfalls vorhandene Inch-Skala ab. Dann hilft es auch nicht, die Anzahl der vermessenen Schüler zu erhöhen – das Ergebnis bleibt fehlerhaft. Auch wenn wir die Schüler nicht zufällig auswählen, sondern beispielsweise systematisch Schülerinnen bevorzugen, würde selbst eine erhöhte Menge von Messungen keine besseren Ergebnisse liefern.

Hier bleibt es beim bekannten „Garbage In, Garbage Out“: Ein Haufen Abfall wird erst einmal nicht dadurch nützlicher, dass er besonders groß ist. In der neuen Datenwelt sollte man daher auch den Nutzen so genannter „Data Lakes“, in die der gesamte „Datenabfall“ gepumpt wird, kritisch hinterfragen, insbesondere dann, wenn die Befüllung eines solchen DIE Big-Data-Strategie im Unternehmen darstellt.

„Garbage In, Garbage Out“: Ein Haufen Abfall wird erst einmal nicht dadurch nützlicher, dass er besonders groß ist.
Mehr ist nicht immer besser. Dies gilt auch bei Daten…

Was bedeutet nun aber „Quantity over Quality“?

Gemeint ist in Fachkreisen gewöhnlich, dass bei hinreichender Quantität der Daten auch „einfache“ Modelle ohne komplexes Hintergrundwissen und komplizierte händische Optimierung (also mit geringerer „Qualität“) komplexe Sachverhalte erfassen und hinreichend gute Ergebnisse liefern können.

Ein Beispiel, das dieses Verständnis stützt und häufig zitiert wird (so auch auf besagter Keynote), sind die Durchbrüche bei Google durch die Nutzung von neuronalen Netzen und „Deep Learning“. Bei Übersetzungen zwischen unterschiedlichen Sprachen liefern solche statistische Verfahren bei ausreichenden Datenmengen deutlich bessere Ergebnisse als klassische Ansätze der maschinellen Übersetzung, die auf komplexen Sprachmodellen und Annotationen beruhen. Die Übersetzungen werden dabei unabhängig von Optimierungen an der Lernmethode umso besser, je mehr übersetzte Texte zur Verfügung stehen, auf denen das Modell trainiert werden kann. In solchen Fällen macht es durchaus Sinn, anstelle Aufwand in die weitere Optimierung der Lernmethode zu investieren, erst einmal möglichst viele Datenquellen mit Übersetzungen zu erschließen. Aber auch hier gilt der Grundsatz nicht uneingeschränkt. Vielmehr zeigt er seine Gültigkeit insbesondere bei Problemstellungen mit hoher Varianz und vielen möglichen Variablen, wie sie bei der Sprach- oder Bildanalyse auftreten.

So bleibt es leider bei der Wunschvorstellung, dass Big Data uns das lästige Problem der Datenqualität abnimmt. In der Realität werden wir uns mit dieser sowohl in der Praxis als auch in der Forschung rund um „Smart Data“ (z.B. im PRO-OPT-Projekt) weiter beschäftigen müssen.