• Accueil
  • Blog
  • Tech
  • Pourquoi la valorisation du datalake passe par… les PaaS analytiques

Pourquoi la valorisation du datalake passe par… les PaaS analytiques

Tech

La rédaction

Pourquoi la valorisation du datalake passe par… les PaaS analytiques

« Pas de transformation digitale sans une organisation ‘data driven’. Et pas d’organisation agile autour de la donnée sans un datalake ». Avouons-le, l’effervescence autour de la data a créé dans les esprits de véritables injonctions. Il faut dire que le datalake présente tous les attributs du couteau-suisse de l’ère du Big data.

Adossés à des technologies mises à l’épreuve à grande échelle (par des acteurs tels que Google ou Facebook), avec à la clé des coûts de stockage sensiblement réduits, les datalakes se démarquent par leur capacité à regrouper des données de toutes natures : structurées, semi-structurées, non-structurées… Avec un datalake, les entreprises gagnent la possibilité de stocker ces données et ce pour une durée indéterminée afin, le moment venu, d’être en mesure d’exploiter leur potentiel. Sauf que, dans l’enthousiasme ambiant, un des enjeux pratiques du datalake a été sous-estimé : la valorisation des données à travers des applications métiers. C’est un peu comme si un logisticien avait concentré ses efforts sur la conception des entrepôts sans se soucier de la livraison aux clients. Le fameux « last mile ».

Ce « last mile » est d’autant plus critique qu’à l’usage le datalake révèle l’une de ses limites principales : si son ambition affichée est bien d’embrasser toutes les données, dans la pratique, il s’avère impossible de tout stocker a priori.  Les technologies de stockage ne sont pas en cause ici et elles ont d’ailleurs évolué. Si le datalake des origines était fortement associé à Hadoop, Gartner estime que d’ici à 2020, 30% des projets s’appuieront sur des bases de données relationnelles pour un coût équivalent ou inférieur à Hadoop. Le problème n’est ni technique ni économique mais tient à la nature même des datalakes, créés sans être soumis directement aux besoins de projets métiers. Résultat, quand ces projets s’esquissent et viennent s’abreuver aux datalakes, toutes les données nécessaires sont rarement présentes. Voilà pourquoi le « hot topic » du datalake n’est plus le stockage mais bien l’exploitation de ses données pour répondre aux besoins métiers.

Sur ce sujet, les difficultés ne manquent pas. Mais, bonne nouvelle, une PaaS (Platform-as-a-Service) analytique permet de les surmonter. Pour une raison simple : une telle PaaS est conçue pour motoriser des applications analytiques métier, sur-mesure et de manière agile. Avant tout tirées par les besoins métiers, ces plateformes sont donc naturellement complémentaires des datalakes. En témoigne, leur capacité à relever les principaux défis du datalake.

Défi #1 : rendre les données pertinentes
Par défaut, toutes les données stockées dans le datalake ne sont pas priorisées ou rangées selon leur potentiel. Dans ce vaste espace de stockage, les données sont en quelque sorte égales. Identifier celles qui, dans un contexte précis, peuvent devenir pertinentes suppose de les confronter à d’autres données (issues de l’open data, de partenaires, etc.). En outre, comme évoqué, toutes les donnée requises par un projet métier sont rarement présentes dans le datalake. La capacité de puiser dans des données tierces et d’évaluer rapidement l’intérêt de ces rapprochements s’avère donc précieuse pour extraire du datalake de la pertinence. Une agilité qui est la caractéristique première d’une PaaS analytique.

Défi #2 : tirer parti des développements IA
Les organisations étoffent actuellement leurs équipes de data scientists qui travaillent sur des algorithmes maison, qu’il s’agisse d’aider à réduire le churn, d’optimiser les recommandations proposées aux clients ou encore de fluidifier un process de production. Or le carburant de l’IA, c’est la donnée. Ici encore, la capacité d’intégrer de manière agile les données du datalake avec ces travaux est clé, pour optimiser ces développements comme pour qualifier les données à fort potentiel. Une PaaS analytique telle que ForePaaS permet d’importer les modèles de data science existants.

Défi #3 : offrir une expérience utilisateur personnalisée
Une donnée utile est une donnée mise à la disposition des utilisateurs concernés. Ce qui suppose d’être en mesure de produire des applications qui, à la fois, tirent parti des données du datalake et répondent à des besoins métiers spécifiques. D’où l’intérêt d’une PaaS analytique qui automatise en coulisse la configuration des composants techniques pour accélérer la composition d’applications personnalisées, donc sur-mesure.

Défi #4 : Sécuriser l’accès aux données
Pas simple de sécuriser les données à l’échelle d’un datalake. Le couplage avec une PaaS analytique comme ForePaaS apporte une maîtrise très granulaire des habilitations. Les ACL (Access Control List) peuvent être définies au niveau des données, des API ou encore des applications. Le process d’onboarding lui-même est piloté depuis la plateforme. Un impératif, notamment pour les entreprises qui à l’heure du RGPD manipulent des données à caractère personnel.

Défi #5 : Garantir la performance dans la durée
La latence dans l’accès aux données est une faiblesse identifiée des datalakes. D’où l’intérêt de concevoir des applications analytiques dont le dimensionnement peut évoluer dans le temps selon les volumes à traiter ou encore les utilisateurs à accueillir. Une « scalabilité » à la carte qu’une PaaS analytique offre nativement.

Et une confirmation de plus qu’une PaaS analytique moderne telle que ForePaaS est la compagne naturelle d’un datalake pour garantir sa valorisation dans la durée.

Contacter un expert