• Martin Kammerer

Produktivitätssprung in der AI-Fabrik

Aktualisiert: Apr 10

War of Talents


Viele Unternehmen suchen derzeit intensiv nach Data Scientists, weil sie glauben, nur so den Output ihrer AI-Fabrik erhöhen zu können. Die große Nachfrage trifft jedoch auf ein eher dürftiges Angebot an gut ausgebildeten Mitarbeitern, wodurch ein regelrechter War of Talents stattfindet. Gleichzeitig ist der tatsächliche Output von AI-Systemen eher spärlich - gemessen an der Anzahl entwickelter und produktiv eingesetzter AI-Modelle. Der Sinn des Vorgehens "Mehr Data Scientists = Mehr AI-Systeme" darf zudem hinterfragt werden.

Doch wie kommt man in der AI-Fabrik zu mehr Output? Um diese Frage zu beantworten lohnt zunächst ein Blick in die Geschichte der Menschheit.


Produktivitätssprünge - eine historische Betrachtung


Gegen Ende des 18. Jahrhunderts kam es zu einer Reihe technologischer Erfindungen, welche die damalige Königsdizplin der Gewebeherstellung revolutionierte: Die "Spinning Jenny" ersetzte sofort acht Mitarbeiter bei der Garnherstellung, die später erfundene "Power Loom" - der erste durch Dampfkraft betriebene automatische Webstuhl - führte letztlich zum Maschinensturm. Betrachtet man die gesamte Wertschöpfungskette in der Gewebeherstellung zu Zeiten der Industriellen Revolution, wurde der Output verhundertfacht. Luxusgüter wurden zu Massenprodukten, Berufszweige verschwanden oder wurden revolutioniert.

Eine durch Arbeitsorganisation ausgelöste Outputvervielfachung zeigt das folgende Beispiel: Der Taylorismus und das Ford T-Modell. Henry Ford kam mit der Herstellung von Automobilen der Nachfrage nicht mehr hinterher. Daher entschied er sich, den Herstellungsprozess nach Taylorscher Methode umzustellen und hat gleichzeitig das Fließband eingeführt. Durch den erreichten Produktivitätssprung konnten die Kosten pro Fahrzeug massiv gesenkt werden. Wesentlich mehr Menschen konnten sich nun das T-Modell leisten, ein Marktanteil von teilweise 50% war die Folge. Der Grundstein zur zweiten Industriellen Revolution - der Massenproduktion - war gelegt.

Große Produktivitätssprünge erfolgen durch einen hohen Automatisierungsgrad

An dieser Stelle sei festgehalten: Große Produktivitätssprünge erfolgen durch einen hohen Automatisierungsgrad, der durch technologische Innovation in Kombination mit Prozessanpassung ermöglicht wird. Und ja, auch heute gibt es per Hand gefertigte Luxuskleidung oder -automobile (bspw. in der Formel 1). Doch für mindestens 80% der Konsumenten reicht die industrialisierte, günstige Variante vollkommen aus.


Eine Bestandsaufnahme heutiger AI-Fabriken


Ein Blick in heutige AI-Fabriken verrät: Es wird sehr viel "per Hand gearbeitet", sprich manuell programmiert. Eine Zerlegung der einzelnen Arbeitsschritte verdeutlicht den hakeligen und fehleranfälligen Gesamtprozess. Der Einfachheit halber gehe ich mal davon aus, dass der Fachbereich ganz genau weiß was er will und der Data Scientist das Verständnis des Fachbereichs ohne Transferverluste übernommen hat.

  1. Datenanalyse & -aufbereitung Gängig sind Notebooks - in denen mit diversen Skriptsprachen wie Python - Datensamples aus diversen Datentöpfen herausgezogen, "gesichtet" und dann mit manuell erstellten Code-Schnipseln individuell bereinigt, gefiltert, aggregiert, gejoined und als csv Datei abgelegt werden. Alles auf reiner Code-Ebene, es gibt kaum visuelle, intuitiv unterstützende Elemente.

  2. Feature Engineering Auch hier wird das Notebook herangezogen und mit Skriptsprachen versucht aus den Daten classification Signale zu erzeugen, zu verstärken und numerische Daten zu harmonisieren.

  3. Modell Bildung Ein erfahrener Data Scientist hat pro Problemklasse vielleicht drei "Blue Prints" im Kopf, die er auf das gegebene Problem anwenden will. Diese entwickelt er prototypisch meistens ebenso mit einem Notebook und gängigen Skriptsprachen. Häufige handwerkliche Fehler - bspw. die Parametrisierung von Hyperparametern, Cross Validation, ... - führen zudem zu unbrauchbaren Modellen.

  4. Modell Evaluierung Zum einen sollten mehrere Modelle entwickelt und miteinander verglichen werden (Accuracy, Speed, sensitive Wertebereiche), zum anderen muss ein gewähltes Modell verstanden und feinadjustiert werden (Feature Impact Analyse, ROC Kurve, ...). Bei rein manuell geschriebenem Code entstehen auch hierbei häufig handwerkliche Fehler.

  5. Produktionalisierung Die Übergabe von einem prototypisch per Notebook programmierten Modell in die Produktion ist häufig damit verbunden, dass ein Skriptsprachenwechsel stattfindet, was zu Änderungen vom Modellergebnis führen kann. Zudem dauert die Übergabe und Abnahme oft mehrere Wochen oder Monate.

  6. Laufender Betrieb & Monitoring Ein fertiggestelltes Modell wird oft in einem selbstprogrammierten Framework betrieben, das häufig fehleranfällig und instabil ist. Zudem wird beim Monitoring meist nicht laufend geprüft, ob es einen "Drift" in den Daten gibt, sodass das Modell eigentlich neuadjustiert oder trainiert werden müsste.

Dieser kurze Abriss zeigt deutlich: Es findet ein sehr hoher manueller Aufwand statt, eine starke Abhängigkeit zu einzelnen Mitarbeitern und deren Spezialwissen kommt meist noch dazu. Denn wenn der Data Scientist das Unternehmen oder die Abteilung verlässt - und die Wahrscheinlichkeit bei einem "War of Talent Markt" ist hoch -, ist oftmals die gesamte Entwicklung hinfällig, da dies keiner übernehmen kann oder will. Dies führt zu sehr langen, zähen und teuren Entwicklungen. Kaum etwas ist in Produktion und das Unternehmen kommt nicht weiter.

Zeit für eine Revolution.


Automatisierung in der AI-Fabrik


Die Revolution hat jüngst begonnen und sie fußt auch diesmal auf Automatisierung. Nur wie sieht eine Automatisierung der AI-Fabrik aus?

Dazu möchte ich Ihnen unseren Ansatz vorstellen. Dieser hat zwei Komponenten die zwar durchaus einzeln umgesetzt werden können aber gerade in Kombination den größtmöglichen Produktivitätssprung bewirken:

  1. Der gesamte Prozess muss stärker automatisiert werden. Dies gelingt durch die Kombination von modernen "Self-Service-Data Preparation" und "Automated Machine Learning" Tools. Wir empfehlen die Verwendung unserer Partner Tools: Trifacta und DataRobot, die vor allem auch gut miteinander harmonieren.

  2. Mehr Mitarbeiter zu befähigen aktiv an der AI-Fabrik mitwirken zu können. In erster Linie sollen versierte Business Analysten - die sich grundsätzlich mit Daten beschäftigen und nah an den Fachabteilungen sind - einbezogen werden. Durch die Verwendung standardisierter Tools die intuitiv und einfach zu erlernen sind, können Business Analysten sehr schnell an AI-Prototypen mitwirken und frühzeitig erkennen ob ein AI-Use Case grundsätzlich erfolgversprechend ist oder nicht.

Automated Machine Learning verzehnfacht die Produktivität

Übertragen auf die einzelnen Schritte im Gesamtprozess hat dies folgende Auswirkungen:

  1. Datenanalyse & -aufbereitung Mit Trifacta können enorm schnell "Daten-Rezepte" erstellt werden, bei denen Daten aus unterschiedlichen Quellen miteinander analysiert, kombiniert, bereinigt und aggregiert werden können. An den Rezepten kann auch kollaborativ gearbeitet werden.

  2. Feature Engineering Trifacta bietet ebenso die Möglichkeit gängige Methoden des Feature Engineering schnell und einfach anwenden zu können (bspw. One Hot Encoding, etc...). Ebenso wendet DataRobot vollautomatisiert gängige Verfahren des Feature Engineering an.

  3. Modell Bildung DataRobot hat ein Repository von ca 3.000 Blue-Prints, welche von den Welt besten Data Scientists laufend entwickelt, getestet und optimiert werden. Diese Blue-Prints bestehen aus Präprozessoren (Feature Engineering) und ML-Engines (XGBoost, H2O, TensorFlow, u.v.m.). Diese Blue-Prints werden vollautomatisiert und methodisch korrekt auf die eingespielten Daten angewandt, Modelle damit entwickelt, trainiert, evaluiert und übersichtlich priorisiert. Ebenso bietet DataRobot die Möglichkeit per nativem Notebook, Modelle selbst erstellen oder customizen zu können.

  4. Modell Evaluierung Die von DataRobot erstellten Modelle werden von DataRobot selbst auf Herz und Nieren evaluiert und transparent gemacht. Der Nutzer hat die Möglichkeit sich bspw. den Feature Impact, die ROC-Kurve und andere Evaluationsmethoden anzeigen zu lassen und kann zudem ein Feintuning der Modelle vornehmen (bspw. die Hyperparameter anpassen).

  5. Produktionalisierung Ein in DataRobot erstelltes Modell kann per Knopfdruck als API deployed, als Java oder Python-Code extrahiert oder per Web-Gui genutzt werden. Als ausgereiftes und laufend optimiertes Produkt bietet DataRobot eine Stabilität, die im AI-Bereich oft vermisst wird.

  6. Laufender Betrieb & Monitoring Für Modelle die in DataRobot deployed wurden (API, Web-Gui), bietet DataRobot auch ein Monitoring an, das zudem laufend prüft inwiefern die Daten (strukturell & inhaltlich) zu denjenigen passen, mit denen das Modell erstellt und trainiert wurde.

Durch die kollaborativen Elemente beider Tools kann im agilen Modus schnell ein Prototyp vom Business Analysten erstellt werden, der dann direkt vom Data Science-Team übernommen, qualitätsgesichert, optimiert und produktiv gesetzt werden kann. So entsteht in kürzester Zeit eine Dynamik, die zu einer Verzehnfachung der Produktivität führt und die Organisation in der Breite zu einem AI-getriebenem Unternehmen werden lässt.

Vereinbaren Sie hier eine Live-Demo und überzeugen Sie sich selbst von dem Potential.


#AutoML #Produktivität #Automation

Kontakt

DataSpark GmbH & Co. KG

Mainzer Landstraße 49

60329 Frankfurt am Main 

T     +49 69 870087240
E    kontakt@dataspark.de 

  • DataSpark auf LinkedIn
  • DataSpark auf XING
  • DataSpark auf Twitter

Nachricht schreiben

© 2020 by DataSpark GmbH & Co. KG