• Accueil
  • Blog
  • Data
  • Data Infrastructure Automation : pourquoi vous n’avez plus le choix

Data Infrastructure Automation : pourquoi vous n’avez plus le choix

Data

Paul Sinaï

Data Infrastructure Automation : pourquoi vous n’avez plus le choix

S’il est bien un domaine dans lequel les solutions foisonnent, c’est celui de la data. Et pour cause, la stack – la pile de solutions – requise pour mettre sur pied une data factory se compose d’un grand nombre de services : extraction des données, gestion de la qualité (master data management), stockage, gestion de la sécurité et de la traçabilité, machine learning, exposition via des API, restitution dans des dashboards visuels et interactifs…  Si cette liste est loin d’être exhaustive, chaque service évoqué donne déjà à choisir entre des dizaines de solutions, certaines commerciales (la densité des « quadrants magiques » du Gartner sur le sujet en témoigne), d’autres open source. À titre d’illustration, la catégorie Machine Learning de Github compte 22 592 dépôts au moment où j’écris ces lignes. Un chiffre qui aura encore grimpé au moment où vous les lirez.

Composer une stack data, un vrai défi

Et alors me direz-vous ? C’est justement pour simplifier la donne que les megaPaaS des grands acteurs du cloud existent. Oui et… non : car au fil du temps, ces megaPaaS se sont largement complexifiées et appellent des compétences de plus en plus pointues pour être maîtrisées. Et les mêmes questions s’imposent aux organisations. Tout d’abord, comment s’orienter dans la myriade de solutions disponibles ? Quelles solutions sélectionner pour composer une stack data ?

Ces choix effectués, et une fois cette stack paramétrée, intégrée et testée, il faudra s’attaquer à l’autre grand sujet : assurer la maintenance d’un tel ensemble, appliquer les mises à jour mais aussi, régulièrement, substituer une solution à une autre parce que les besoins évoluent ou encore parce qu’une solution initialement choisie est dépréciée.

Cette « todo list » – encore très sommaire ici – vous donne le tournis ? C’est compréhensible. Cette liste souligne surtout la nécessité en 2018 (et depuis quelques temps déjà…) d’automatiser l’infrastructure de vos projets data. À défaut, le scénario est connu d’avance.

Maintenir une telle stack, sans oublier la gestion de l’infrastructure technique sous-jacente, requiert a minima 5 à 6 profils pointus. Toute organisation doit donc se poser les bonnes questions : où investir mes ressources ? Dans l’administration de cette stack ? Ou au service des projets métier pour lesquels le time-to-market est tout simplement critique ?

Une automatisation aujourd’hui dynamique

Trop souvent, nous l’observons, la question n’est pas clairement tranchée dans la pratique et aboutit à une situation peu satisfaisante. Pour les experts techniques (écartelés entre des tâches et des enjeux difficiles à concilier) comme pour les métiers (contraints de subir des délais de mise en place des infrastructures trop longs). De fait, les data scientists et data analystes attachés aux métiers ont trop à faire pour se consacrer à l’infrastructure.

Bonne nouvelle, la « Data Infrastructure Automation », en tout cas telle que nous l’entendons chez ForePaaS, ne se résume pas à un script figé qui séquence des installations ou des mises à jour. Cette automatisation est aujourd’hui dynamique. En fonction de la nature même des données, elle est en mesure d’activer par exemple la base la plus adaptée. En fonction de la performance observée en temps réel, elle peut exploiter des mécanismes d’autoscaling pour s’adapter à la charge.

En résumé, cette automatisation s’adapte à la nature même des projets data. Et porte une conviction : si la data a le même potentiel que le web – et nous croyons bel et bien qu’elle l’a — elle ne peut se satisfaire d’un assemblage et d’une maintenance « artisanale ». Il nous faut passer à l’étape de l’industrialisation dont l’automatisation est la clé. Avec une ambition claire : rendre ces infrastructures data, in fine, disponibles en self-service.

Une Démo