5 étapes incontournables d’un projet Data Science réussi

5 étapes incontournables d’un projet Data Science réussi

A moins que vous n’ayiez passé les 10 dernières années sur une île déserte, vous ne pouvez pas être étranger aux termes d’IA, Machine Learning et Data Science. Il n’est pas rare de voir certains statisticiens et actuaires hautement qualifiés mettre à jour leur CV pour devenir data scientist afin d’accroître leur attractivité sur LinkedIn et ailleurs !

Cela dit, ce n’est un secret pour aucun initié du secteur que trop d’initiatives Data Science ne parviennent pas à dépasser le stade du Proof Of Concept : soit parce que les résultats obtenus ne sont pas perçus comme utiles, soit parce que les données avec lesquelles ils doivent travailler ne sont pas valables.

Cet article tente de partager certains facteurs clés de succès et considérations prises en compte derrière les déploiements Data Science les plus réussis.

1. Le business brief

Tout comme un brief marketing, le business brief est une conversation importante qui doit avoir lieu entre l’utilisateur final et le professionnel de la donnée, ce afin d’expliquer ce que la technologie peut et ne peut pas faire et de définir des objectifs clairs pour le projet. Lorsque les experts informatique tentent de deviner les besoins des utilisateurs métiers, l’effet « Wow » est rarement atteint car il est plus difficile de dépasser les besoins évidents. Trop souvent, on arrive à une situation où les résultats viennent simplement conforter l’existant. 

Une façon d’augmenter les chances de situer correctement le problème consiste à comprendre les dynamiques et considérer les aspects du business sur lesquels les utilisateurs peuvent agir. Par exemple, dans une entreprise marketing, on peut choisir de concentrer les efforts télémarketing sur un set de propsects plus large. Ou d’arbitrer les dépenses publicitaires en faveur du meilleur média pour une saison donnée, selon ce qui a été prédit par un modèle.

2. « Think outside the box »

Avec une plateforme-as-a-service analytique, il est très facile de collecter de nouvelles sources de données et d’ajouter de nouvelles fonctionnalités pour vérifier si cela améliore le score des modèles de test. Des données cycliques, accessibles à tous comme les indices météo ou économiques peuvent aussi contribuer à booster vos modèles. D’autres données concernant le ciblage de vos clients ou l’activité de vos compétiteurs peuvent être déduites en sourçant des signaux extraits des réseaux sociaux (évènements Facebook, reconnaissance visuelle appliquée sur Instagram, etc.).

3. Feature Engineering

Si n’importe quel Data Scientist bien formé reconnaîtra que le Feature Engineering est une étape importante (si ce n’est la plus importante) du processus, il est facile de succomber à la tentation de jeter toutes les données brutes sur le papier et d’espérer que quelque chose se passe… Par exemple, dans une série de dates, les pics de ventes de parfums ne s’expliquent que s’il est compris que le 14 février correspond à la Saint-Valentin, le 25 décembre à la fête de Noël. Si vous voulez prédire le choix de votre adversaire au shifumi (Pierre-Feuille-Ciseaux), la machine vous aidera mieux si vous l’alimentez avec la série des choix précédents, mais également avec la fonctionnalité « Qui a gagné ». 

Les plateformes comme ForePaaS donnent aux data scientists les moyens de modéliser et requêter des fonctionnalités potentiellement complexes dans un dataset. 

4. Entraîner, ré-entraîner et scorer

La possibilité d’intégrer les prédictions aux routines informatiques quotidiennes et de surveiller leurs performances constitue un élément important de leur mise en production. En effet, la plupart des départements informatiques hésitent à prendre en charge la gestion de tels processus car ils ne se sentent pas suffisamment à l’aise pour répondre aux questions des utilisateurs de l’entreprise si quelque chose ne va pas. En utilisant un environnement unique de gestion des modèles qui prend en charge leur cycle de vie, cela permet de mettre en place de bonnes pratiques d’entraînement et de scoring périodique. L’émission d’alertes est utile pour que des experts compétents soient notifiés lorsque la note de prédiction d’un modèle passe sous les seuils critiques.

5. Combiner prédiction et data visualization

S’il est facile d’implémenter une API qui sert les résultats de prédiction pour consommation par d’autres systèmes (par exemple pour du Credit Scoring), une forme de collaboration entre utilisateurs et modèles peut et doit avoir lieu. Par exemple, un graphe représentant l’ordre d’importance de la fonctionnalité doit être confirmé ou challengé par un expert business. De la même façon, des prédictions générées par des utilisateurs peuvent être utilisées comme caractéristiques d’un modèle pour les orienter vers des résultats étonnamment différents amenant à repenser le problème. Par exemple, une analyse des décisions (humaines) de réapprovisionnement pourrait permettre aux managers supply chain de se concentrer sur ce qu’ils n’avaient pas identifié auparavant et d’en tirer des leçons pertinentes pour la prochaine fois.  

 

La mise en production rapide et réussie de projets de data science est toujours un challenge pour les entreprises, alors même qu’elles sont de plus en plus nombreuses à explorer les possibilités de l’IA. C’est pourquoi des solutions offrant des fonctionnalités pour accélérer l’industrialisation existent et permettent d’optimiser l’ensemble du processus. En fournissant un environnement tout-en-un et une complexité minimisée, ForePaaS aide les entreprises qui envisagent de déployer l’IA en production en mettant en place un pipeline robuste et des bonnes pratiques cohérentes au travers de l’organisation.