La Data, nouveau pétrole mais où sont les raffineries ?

Data

La Rédaction

La Data, nouveau pétrole mais où sont les raffineries ?

« Data, le nouveau pétrole » ! Un nombre incalculable de tribunes et articles de presse ont repris cette rengaine au point qu’on ait même vu apparaitre des titres accrocheurs déclarant le contraire ! En fait de différences, ces derniers ne mettent en avant que le coté inépuisable de la donnée.

Pour remettre en perspective cette nouvelle donne, il faut se rappeler comment les ERP à la fin des années 80 avaient été identifiés comme des gisements de données pour « l’aide à la décision ». Cet engouement a été suivi par une période de déception due au manque de fiabilité des données car encore majoritairement saisies à la main. A ce titre on a assisté à un découplage entre la chaine numérique et la chaine physique dans les systèmes de gestion de logistique ou de la fabrication. Saviez-vous que la majorité des configurations SAP permettaient l’enregistrement de stocks de composants négatifs pour éviter l’arrêts des usines et permettre aux opérateurs de saisir leurs vrais chiffres de stock en fin de semaine !

Un outillage inadapté

Cette période de sub-nominale a donné lieu à une grande créativité dans les outils et pratiques informatiques. De simples outils d’extraction, transformation et chargement ; les ETL ont évolués vers des suites complètes de composants avec des appellations multiples : Data Quality, Master Data Management, Data Wrangling, Data Stewardship,etc.

Aujourd’hui les dispositifs digitaux de marketing et CRM ainsi que l’industrie 4.0, donnent lieu à la création de données faciles d’accès et correctement structurées. Même si leur teneur en signal utile peut être faible, ces nouvelles sources de données offrent des possibilités d’interfaçage, d’analyse et de prédiction jamais égalées. Les nouvelles générations d’applications analytiques telles que les cockpit digitaux, CRM, Monitoring d’infrastructure IT ou analyses de processus de fabrications ne font plus appel à l’ensemble des possibilités des ETL traditionnels ; pour preuve, l’émergence de startups « pure-players » qui offrent ce genre de services dans le cloud par abonnement.

Il n’en demeure pas moins vrai qu’au sein des grands groupes, la norme dans la gestion de projet data reste le sur-mesure et la « grosse artillerie » même si les discussions s’intensifient autour de la nouvelle génération de plateformes cloud analytiques comme ForePaaS.

IA : Intelligence Artificielle ou « Inch’Allah ! »

Les outils et approches regroupées sous l’appellation d’ »Intelligence Artificielle » existent depuis longtemps et étaient initialement centrées sur des « systèmes experts » où il s’agissait de capturer des règles connues d’experts métiers et de les faire exercer par des moteurs d’inférence. L’accumulation plus récente de données et la chute des prix de stockage et de traitement ont injectés une nouvelle vie dans les disciplines mathématiques et algorithmes de modélisation prédictive et suscités de nouveaux espoirs et fantasmes.

Une forme de fétichisme s’est emparée de la communauté business : bon nombre de statisticiens ont mis à jour leur CV pour se proclamer Data Scientistes et beaucoup de startups spécialisées ont attirés des financements importants. La communauté Open source a pour sa part beaucoup fait progresser l’état de l’art et des outils et plateformes très puissants deviennent faciles d’accès.

Cependant et avec le recul, il s’avère que la préparation de données est un facteur déterminant dans le succès des efforts de modélisation notamment en Machine Learning. Par exemple, un apprentissage utilisant des données de ventes en magasin, sera plus efficace si une donnée de date et temps est traduite en jour de semaine et heure dans la journée. Ainsi les modèles ont plus de chance de distinguer les clients qui travaillent dans le voisinage de ceux qui se déplacent le week-end et permettre d’actionner des leviers marketing différents. L’usage de données historiques de la météo est susceptible d’améliorer encore plus l’efficacité de ses actions marketing.

Enfin, ces modèles doivent être intégrés dans une « chaine de production » qui permet d’en renouveler le préapprentissage, surveiller les déviations d’efficacité et en servir les prédictions sous formes d’API ou injections dans des systèmes tiers.

L’émergence de nouvelles solutions

La bonne nouvelle est que maturation du marché est en train de s’opérer et les plateformes comme ForePaaS en sont une manifestation. Il est désormais possible de démarrer des pilotes dans le cloud et escompter des résultats sous quelques jours ou semaines. L’architecture nativement micro services qui utilise des containers savamment pilotés par un outillage DevOps performant, permettent de procéder à des expérimentations et itérations successive avant de déployer en production sans rupture de la chaine de développement.

Echanger avec un expert