5 Gründe warum Data Science Projekte scheitern

Es gibt verschiedene Herangehensweisen an die Nutzung neuer Technologien im Data Science Bereich. In diesem Post erfahren Sie 5 Gründe warum Data Science Projekte scheitern können und welche Voraussetzungen nötig sind, dass Daten im Unternehmen erfolgreich genutzt werden können.

5 wichtige Schritte für Data Science Projekte [Inspiriert durch M. Rogati]

Grundproblem

Der große Hype um Data Science und Big Data verleitet viele Unternehmen dazu, unbedacht oder ohne eine konkrete Strategie zu agieren. Oftmals scheint es wichtiger, die neuen Technologien im Unternehmen zum Einsatz zu bringen, als die Relevanz für das Unternehmen zu bewerten und über einen sinnvollen Weg zum Einsatz der Daten nachzudenken. Dabei wird häufig verkannt, dass Daten nicht einfach ungesichtet, unsortiert und ungefiltert in einen beliebigen Machine Learning (ML) Algorithmus gesteckt werden können.

Auf der Suche nach einer Erklärung und Lösung für diese Situation findet man einiges an Material, das mehr oder weniger pragmatische Voraussetzungen und Herangehensweisen beschreibt. Hier sind 5 Schritte, die – wenn nicht bedacht – eine hohe Wahrscheinlichkeit des Scheiterns mit sich bringen:

Sammlung der Daten

Ein Algorithmus ist nur so gut wie die Daten, die er gefüttert bekommt. Wenn Daten nicht richtig erfasst werden, führt das zu Problemen, die kein ML Algorithmus mehr reparieren kann. Auch muss sicher gestellt werden, dass die richtigen Daten überhaupt aufgenommen und alle wichtigen Größen messbar gemacht werden.
In der Praxis hat sich daher bewährt, nicht nur die vorhandenen Daten anzuschauen, sondern auch die Prozesse und Entscheidungen zu verstehen, die mit den Daten unterstützt werden sollen. Dadurch entsteht ein viel besseres Verständnis der Voraussetzungen für die Automatisierung.

Datenfluss und -speicherung

Wenn die richtigen Daten gemessen werden, muss als nächstes der zuverlässige Zugang und die Kompatibilität der Daten gewährleistet werden. Nicht nur die Infrastruktur, sondern auch das Datenformat und die generelle Data-Warehouse-Architektur ist zu beachten. Ob von Sensoren, existierenden Datenbanken, log-Dateien oder manuellen Einträgen: Wie gelangen oder fließen die Daten zu dem Ort der Verwendung? Hier gibt es je nach Szenario verschiedene Herangehensweisen, wobei diese in nicht unerheblichem Maße den operativen Betrieb der Anwendungen beeinflussen.

Datensichtung und Erkundung

Je mehr Zeit man investiert um seine Daten kennenzulernen, je größer ist die Wahrscheinlichkeit einer erfolgreichen Implementierung –  das haben Witten und Frank schon vor knapp 20 Jahren erkannt und es gilt mit steigenden Datenmengen heute um so mehr. Sind die Daten vollständig? Gibt es (und wenn, wie häufig) fehlende Werte? Wie zuverlässig sind Messungen? Gibt es Ausreißer und wie geht man mit ihnen um?
Dieser Schritt wird erfahrungsgemäß viel zu sehr vernachlässig, obwohl hier ein ganz erhebliches Potential sowohl für Fehler als auch für die Sicherung des Erfolgs liegt.

Konsolidierung der Daten

Für viele, wenn nicht sogar für die meisten Data Science Probleme sind Neuronale Netze als One-Model-Fits-All Ansatz nicht der Königsweg. Als wichtigen Schritt für die folgende Modellbildung befürworte ich daher die Verwendung von Methoden zur Konsolidierung der Daten sowie der Verwendung von Prozesswissen in den Modellen. Die Ergebnisse der Sichtung fließen in diesen Schritt ein, der Vorverarbeitung (z.B. Filterung), Segmentierung der Daten (insbesondere bei Zeitreihen), Merkmalsextraktion und -selektion beinhalten kann. Gerade bei kleineren Datensätzen ist meiner Erfahrung nach dieser Schritt enorm wichtig, um robuste Modelle trainieren zu können. Da dieses Vorgehen nicht immer der gängigen Praxis entspricht, werde ich diesem Thema noch einen eigenen Post widmen.

Modelle lernen und optimieren

Unter dem Begriff des “Deep Learning” werden heute gerne alle vorhandenen Daten in ein Black-Box Modell gefüttert, in der Hoffnung auf zuverlässige und generalisierbare Ergebnisse. Auch wenn das in einigen Fällen (große Datenmengen, wenig Modellierbarkeit) tatsächlich funktionieren kann, so ist die Gefahr des “Overfittings” (d.h. die übermäßige Spezialisierung des Modells auf den Trainings-Datensatz) sehr groß.
Daher ist die Erprobung und Evaluierung des passenden Modells durch Tests und Experimente unter Einbeziehung von Prozesswissen ein wichtiger Schritt, bevor die endgültige Applikation in Betrieb genommen werden kann.

Folgen für die Herangehensweise

Eine genaue Analyse der vorhandenen Daten und deren nützliche Verwendung zum Beispiel in Geschäftsprozessen ist eine wichtige Voraussetzung für die Erarbeitung einer Strategie für Datennutzung. Auch ist es mir ein besonderes Anliegen, Anwendungen immer an der Interaktion Mensch-Maschine auszurichten. Das heißt, nicht vorrangig datengetrieben Aufgaben zu automatisieren, sondern (wie Peter Thiel vorschlägt) den Menschen in seinem Handeln komplementär mit Technologie zu fördern.
Meine eigene Herangehensweise in dem Feld ist stark Use Case basiert. Das bringt den Vorteil, dass alle oben aufgeführten Schritte von Anfang an mit berücksichtigt und auf die Anwendung zugeschnitten werden können. Erst wenn diese 5 Schritte beachtet werden, kann eine AI oder Machine Learning Anwendung erfolgreich sein.

Über Feedback, Fragen, Diskussionen und Anregungen freue ich mich immer: Hier gehts zum Kontaktformular.