Weniger ist mehr: das gilt oft auch für Daten! – Blog

Daten sind das neue Gold. Daher erscheint das Sammeln von möglichst vielen Daten als einzig sinnvolle Konsequenz. Doch nicht alles was glänzt ist Gold. In diesem Beitrag erfahren sie, welche Auswirkungen die Menge der Daten mit sich bringt.

Die benötigte Datenmenge verhält sich indirekt proportional zum vorhandenen Prozesswissen. Daraus ergeben sich verschiedene Modelltypen.

Qualität

Zunächst sagt die Menge der Daten nichts über deren Wert aus. Vielmehr geht es um die Menge an Daten in ausreichend hoher Qualität (siehe hierzu auch Gründe warum Data Science Projekte scheitern). Wie hoch ist die Aussagekraft und die Relevanz der Daten? Sind die Daten vollständig? Liegen sie strukturiert oder unstrukturiert vor? Ein Beispiel für unstrukturierte Daten sind alle Dokumente der Sachbearbeiter einer Abteilung, was oft keinen Mehrwert mit sich bringt. Hingegen können quantitativ geringere, aber strukturierte Metadaten wie die Anzahl der Dokumente, die benötigte Zeit pro Vorgang und eine qualitative Bewertung sehr wertvoll sein, um den Aufwand von neuen Fällen einzuschätzen und Verbesserungspotential zu erkennen.

Daten vs. Wissen

Viele Modelle im Bereich des maschinellen Lernens, allen voran die zur Zeit viel beschworenen Neuronalen Netze (wie Artificial Neural Nets oder Deep Learning Ansätze), benötigen enorme Datenmengen, um einfachste Zusammenhänge zuverlässig darzustellen. Diese nennt man in der Systemidentifikation “black box” Modelle, welche nur eine Relation zwischen Input und Output Daten abbilden.

Wenn Sie also keine Tausende oder Millionen Entitäten an Daten vorliegen haben oder aufgrund ihrer geringen Datenmengen von Big Data Solution Anbietern nur müde angelächelt werden, sagt dies nichts über den Wert Ihrer Daten und das Potential für Ihr Unternehmen aus. Es gibt eine Vielzahl an alternativen Ansätzen, mit denen Daten durch Prozess- und Modellwissen ersetzt, wenn nicht sogar übertroffen werden kann.
Hier kommen sogenannte “white box” und “grey box” Modelle zum Einsatz. Bei “white box” Modellen wird eine vollständige, deterministische Abbildung des Systems erstellt, so dass Daten nur zur Verifizierung benötigt werden. “Grey box” Modelle bilden den Mittelweg, bei denen durch vorgegebene Strukturen die Anzahl an freien Parametern klein genug ist, um sie mit den vorhandenen Daten zu identifizieren (sonst droht das schon erwähnte “Overfitting“).

Performance

Cloud computing services und immer schnellere Prozessoren rücken die Rechenleistung mehr und mehr in den Hintergrund. Doch ist das Thema Performance nicht ganz zu vernachlässigen, insbesondere bei stark verteilten und fortlaufend lernenden Systemen. Wer mehr Daten verarbeiten muss, braucht mehr Rechenleistung. Hier stoßen auch Big Data Anwendungen an ihre Grenzen, was häufig eine Abstraktion (verbunden mit Prozess- oder Modellwissen) notwendig macht. Methoden zur Verringerung der Datendimensionen, wie Projektionen (Dimensionality Reduction) oder Feature Selection, bringen hier erfahrungsgemäß wichtige Vorteile.

Kosten

Letzter Punkt sind die Kosten, die mit der Aufnahme von Daten verbunden sind. Auch wenn in vielen Bereichen Sensoren und Datensammlung immer günstiger wird, so sollte der Benefit vom Einbau zusätzlicher Sensoren und Aufwand für die Implementierung immer ins Verhältnis zu dessen Nutzen gesetzt werden. Dies trifft insbesondere für aufwendige Messverfahren zur Datenakquise zu.

Fazit

Die Menge der Daten spiegelt keineswegs ihren Wert wieder. Viel wichtiger ist die Bewertung der vorhandenen Daten im Kontext Ihres Unternehmens und Ihren Geschäftsprozessen. Mit dem richtigen Ansatz lässt sich selbst aus sehr wenig Daten ein hoher Effizienzvorteil erreichen.

Über Fragen, Feedback, Diskussionen und Anregungen freue ich mich immer: Schreiben Sie mir!