Pourquoi les data scientists doivent aussi maîtriser l’amont du flux de données

Les frustrations liées à la data science proviennent rarement des limites propres aux algorithmes à disposition. Parmi les excuses les plus courantes données par les data scientists, on entend souvent : « les données ne sont pas de bonne qualité » ou « il n’y en a pas assez ». Mais aux questions « qu’est-ce que vous considérez comme une donnée de qualité? » et « de quel volume minimum de données avez-vous besoin? », il y a souvent peu de réponses. Les aspirants data scientists ne considèrent pas la qualité et la quantité de données comme faisant partie de leur travail, et tendent à se reposer sur d’autres compétences pour avoir à portée de main des données prêtes à l’analyse. 


De plus en plus de professionels seniors vous diront non seulement que dans la vraie vie, près de 80% du travail consiste à collecter et préparer la donnée, mais aussi qu’ils préfèrent travailler avec de la donnée la plus brute possible, afin de ne pas introduire de biais préalables.

S’imprégner des enjeux business

Les data scientists se considèrent comme « augmenteurs » des capacités des métiers à faire leur travail, bien plus que des remplaçants comme cela peut parfois être perçu. La data science est d’abord un levier conçu pour déplacer des roches de plus en plus massives. Collaborer avec ceux qui savent quel rocher déplacer est généralement une bonne approche. Pour parler plus concrètement, des gestionnaires de centres commerciaux ne saveut peut-être pas pourquoi les visiteurs se rendent dans telle ou telle boutique, mais ils ont généralement beaucoup d’idées sur les données à prendre en compte pour modéliser et prédire le trafic dans leurs centres. Ce type de perspective peut être ignoré si les data scientists sont exclus de la conversation, car les capacités algorithmiques, lorsqu’elles sont expliquées aux métiers, peuvent les pousser à suggérer ou se projeter dans de nouvelles pistes de travail. 

Dans d’autres cas, les métiers eux-mêmes peuvent être à l’origine de malentendus. Récemment, une avocate a décrit comment elle utilisait un service en ligne pour obtenir des informations sur des sujets ne faisant pas partie de son expertise de base. L’IA a construit son profil comme étant particulièrement engagé sur ces sujets là, ce qui ne correspondait en rien à la réalité. Une approche appropriée de profilage par intelligence artificielle aurait dû déduire un persona complètement différent. 

Élargir l’horizon

Trop de projets de data science sont initiés parce qu’il faut « faire quelque chose de nos données », mais la plupart des entreprises B2B ou B2C sont en fait dépendantes de facteurs exogènes comme la météo ou les marchés financiers. Certaines entreprises, comme les producteurs d’électricité, dépendent de manière critique des prévisions météorologiques et de l’activité économique, mais de nombreux autres business peuvent également améliorer leurs projections commerciales en intégrant des données et prévisions externes. Pour revenir à nos centres commerciaux, leur trafic s’est avéré très prévisible à partir de données météo, du jour de la semaine, des fêtes ou des vacances scolaires. Si vous ajoutez des données concernant les évènements organisés dans les magasins, annoncés sur les réseaux sociaux, vous atteindrez des capacités prédictives encore meilleures. 

ForePaaS a été conçu et est continuellement amélioré avec ces réalités toujours à l’esprit. Notre marketplace de connecteurs permet d’avoir à portée de main toutes sortes de données, tandis que les capacités de Data Engineering permettent de mixer de nombreuses temporalités depuis des captures asynchrones en temps réel jusqu’à des batchs processés de manière périodique. 

La plateforme encourage aussi le dialogue et des interactions plus fréquentes entre data scientists et utilisateurs métiers, en offrant un environnement exhaustif et point-and-click pour construire des applications web prêtes pour la production, qui promeuvent la consommation de data et le feedback de l’information produite en continu.