0 - Einleitung
"Untersuchen, testen und iterieren".
Wenn wir über Analytics und maschinelles Lernen (Machine Learning) sprechen, geht es um "das neue Ding", das die alten Systeme ersetzt, vielleicht ein Übergang weg vom traditionellen und manuellen Marketing hin zu automatisiertem und personalisiertem Marketing. Das große Ganze ist zwar wichtig, aber der Schritt von unpersonalisiert zu personalisiert kann eben nur einmal gegangen werden! Wie kann man also die eigenen Systeme verbessern, wenn der große Schritt hin zur Personalisierung bereits erfolgt ist?
In diesem Blogbeitrag möchte ich über eine Situation sprechen, die eintritt, wenn das große Umstellungsprojekt abgeschlossen ist, Sie alle neuen Tools implementiert haben und es an der Zeit ist, eines Ihrer Modelle zu verbessern. Vielleicht haben Sie ein Modell zur Vorhersage des Vertrieb Volumens, zur Identifizierung abwandernder Kunden oder für personalisierte Produktempfehlungen in Ihrem Newsletter. Eine Verbesserung der Vorhersagen oder Empfehlungen um ein einziges Prozent mag unbedeutend erscheinen. Wenn Sie jedoch Hunderttausende von Kunden haben, kann eine solche geringfügige Verbesserung einen großen Wert darstellen!
Unabhängig vom Zweck und der Technik, die unter der Haube arbeitet (z. B. kollaboratives Filtern, Random Forest, logistische Regression oder jede andere Art von Modell), können Sie Ihr Modell fast sicher verbessern. Eine einfache Möglichkeit, ein Modell zu verbessern, besteht darin, eine neue Funktion (auch Eingabespalte genannt) hinzuzufügen oder eine bestehende zu überarbeiten. Lassen Sie uns anhand einiger Schritte und Beispiele skizzieren, wie dies in der Praxis funktionieren könnte.
1 - Auf der Suche nach Ideen
Vielleicht haben Sie bereits eine Ahnung von etwas, das Ihrer Meinung nach das Modell verbessern würde. Vielleicht erhalten Sie viele Rückmeldungen von Kunden, dass sie eine Vorliebe haben, die Sie ignorieren. Zum Beispiel könnten sie sich über Vegetarier beschweren und ihnen Angebote für nicht-vegetarische Lebensmittel schicken.
Andernfalls können Sie mit einigen Kollegen ein Brainstorming veranstalten, um zu sehen, ob Sie Ihr gemeinsames Verständnis Ihres Geschäfts nutzen können, um etwas zu finden, das den Modellen einen Mehrwert verleihen könnte. Viele Dinge, die für uns Menschen selbstverständlich sind (was wir als "gesunden Menschenverstand" bezeichnen), sind für einen Computer schwer zu erfassen, es sei denn, man spezifiziert sie auf intelligente Weise. Es ist schwierig, Wege zu finden, um geschäftsrelevante Dinge in Daten zu kodieren, die vom Modell verarbeitet werden können, aber das ist der Kern der Datenwissenschaft. Lassen Sie uns ein Beispiel betrachten.
Nehmen wir an, Sie verkaufen online Sportartikel. Ein Mensch würde wahrscheinlich nicht vorschlagen, im Sommer Wollmützen oder neue Schlittschuhe zu kaufen, auch wenn der anvisierte Kunde im Winter ein begeisterter Schlittschuhläufer ist. Doch das Modell ist sich dieser saisonalen Tendenz vielleicht nicht "bewusst" und macht Vorschläge, die perfekt für einen Skifahrer sind - aber völlig falsch für die Jahreszeit.
2 - Untersuchung der Daten
Der nächste Schritt besteht darin, die Daten zu untersuchen, um herauszufinden, was Ihrer Meinung nach ein hilfreiches Merkmal sein könnte. Der Vorteil dieser investigativen Arbeit ist, dass Sie vielleicht sogar noch leistungsfähigere Verbindungen in den Daten aufdecken. Sie könnten auch frühzeitig herausfinden, ob die potenzielle neue Funktion eine Sackgasse ist. Der Sinn von Daten ist, dass man nicht raten muss! Wenn Sie etwas Interessantes in den Daten sehen, untersuchen Sie es! Sie haben vielleicht eine Intuition dafür, welche Merkmale von Bedeutung sein werden, aber wenn Sie sich die Daten nicht genauer ansehen - und Ihre Ideen nicht testen - werden Sie es nie wissen.
Versuchen Sie, Ihre Ergebnisse in einem vorzeigbaren Format zusammenzustellen, so als ob Sie jemand anderen von Ihren Überlegungen und Ihren Erkenntnissen überzeugen wollten. So können Sie leichter feststellen, ob Ihr Gedankengang stimmig ist und ob Sie Aspekte übersehen haben!
Um auf das Beispiel des Sportgeschäfts zurückzukommen, stellen wir uns vor, dass wir herausfinden wollen, wie wir saisonale Effekte messen können. Ein guter Anfang wäre die Berechnung der Vertrieb eines Produkts pro Monat oder Woche im Vergleich zum Jahresdurchschnitt - nennen wir es relativ Vertrieb -, die wir grafisch darstellen können. Die folgende Abbildung veranschaulicht, was wir sehen könnten:

Abbildung 1: Aus diesem Diagramm lassen sich offenbar wertvolle Erkenntnisse gewinnen!
3 - Umsetzung und Prüfung
Nun, da Sie (und Ihre Kollegen) von Ihrer Idee überzeugt sind, ist es an der Zeit, sie in die Tat umzusetzen. Je nach der technischen Umgebung, die Sie verwenden, kann die Implementierung der neuen Funktion unterschiedlich komplex sein.
Sobald Ihr Merkmal einsatzbereit ist, ist es Zeit für maschinelles Lernen! Das bedeutet, dass neue Datensätze erstellt werden, die das neue Merkmal (sowie die alten) enthalten, das Modell mit diesen neuen Datensätzen trainiert und die Ergebnisse ausgewertet werden.
Bei der Arbeit mit saisonalen Daten, wie in unserem obigen Beispiel, ist zu beachten, dass Ostern, im Gegensatz zu z. B. Weihnachten und Mittsommer, jedes Jahr zu einem anderen Zeitpunkt stattfindet, was zu sehr merkwürdigen Ergebnissen führen kann, wenn man nicht vorsichtig ist.
4 - Durchführung des Modells in der Praxis
Seien Sie darauf vorbereitet, dass Sie höchstwahrscheinlich etwas ändern, einige Fehler beheben und alles noch einmal von vorne beginnen müssen.
Aber nehmen wir der Kürze halber einmal an, dass alles reibungslos verlaufen ist und jede Kennzahl darauf hindeutet, dass das Modell mit Ihrer neuen Funktion besser ist als vorher. In diesem Stadium sollten Sie über den folgenden und wohl wichtigsten Schritt nachdenken, nämlich einige Praxistests durchzuführen.
Je nach Situation möchten Sie vielleicht nicht gleich bei der Hälfte der Kunden einen umfassenden AB-Test mit Ihrem neuen Modell durchführen. Unter solchen Umständen ist es vielleicht besser, nur einen kleinen Prozentsatz der Kunden zu testen, vielleicht 5 oder 10 %.
Das Testen ist ein tiefgründiges Thema, das einen eigenen Beitrag wert ist, daher werde ich diese Diskussion für später aufheben. Aber denken Sie daran: Egal, wie gut das Modell aussieht, wenn Sie es trainieren, die reale Welt ist eine ganz andere, und die einzige Möglichkeit, herauszufinden, wie ein Modell funktioniert, ist, es zu testen. Es gibt immer Raum für Verbesserungen, und wenn der Kundenstamm größer wird, können selbst kleine Verbesserungen zu bedeutenden Ergebnissen führen. Hören Sie also nicht auf, Ihre Modelle zu bewerten und zu verbessern!
Geschrieben von Axel Sarlin