Un data lake, qu'est-ce que c'est ?

Publié 16 septembre 2019•8 minutes (temps de lecture)

Un data lake est un type de référentiel de données qui permet de stocker de gros volumes de données brutes et hétérogènes dans leur format natif. Les data lakes permettent de conserver une vision brute des données. Ils sont de plus en plus utilisés comme stratégie de gestion des données par les entreprises qui souhaitent posséder un référentiel de données plus vaste et global.

Les données brutes sont des données qui n'ont pas encore été traitées dans un but précis. Celles qui se trouvent dans un data lake ne sont pas définies tant qu'elles n'ont pas fait l'objet d'une demande. Les data scientists peuvent y accéder lorsqu'ils en ont besoin, à l'aide d'outils d'analyse avancés ou d'un système de modélisation prédictive.

Dans un data lake, toutes les données sont conservées : aucune n'est supprimée ou filtrée avant le stockage. Ces données peuvent être employées à des fins d'analyse, à court ou moyen terme, ou ne jamais servir. Elles sont réutilisables à volonté et à différentes fins, contrairement aux données affinées dans un but spécifique, plus difficiles à réutiliser dans un autre contexte.

Données non filtrées et non structurées

L'expression « data lake » a été introduite par James Dixon, directeur technique de Pentaho. Le terme « lake », lac en français, convient parfaitement pour décrire ce type de référentiel de données, car celui-ci permet de stocker un ensemble de données dans leur état brut, à l'image d'un volume d'eau qui n'aurait pas été filtré ni traité. Les données qui alimentent ce lac proviennent de sources diverses et y sont stockées dans leur format d'origine.

Les données stockées dans un data lake ne sont pas transformées jusqu'à ce qu'on ait besoin de les analyser. Un schéma est alors appliqué pour qu'elles puissent être analysées. Cette opération est appelée « schéma à la lecture », car les données restent brutes jusqu'à leur utilisation.

Accès ad hoc aux données

Les data lakes permettent aux utilisateurs d'accéder aux données et de les parcourir à leur manière, sans avoir à les déplacer d'un système à un autre. Ils permettent aussi d'obtenir des tendances et des rapports au cas par cas, plutôt que d'effectuer régulièrement un rapport d'analyse à partir d'une autre plateforme ou d'un autre type de référentiel de données. Cependant, en cas de besoin, les utilisateurs peuvent appliquer un schéma ou recourir à l'automatisation pour dupliquer un rapport.

Pour assurer la disponibilité et l'accessibilité des données, tout data lake doit bénéficier d'une stratégie de gouvernance et de maintenance continue. Sans cela, les données risquent de devenir inutiles, inaccessibles, encombrantes, coûteuses et inutilisables. Ces data lakes, auxquels les utilisateurs ne peuvent plus accéder, sont qualifiés de « data swamps ».

En savoir plus sur le stockage des données

Le stockage de gros volumes de données brutes et hétérogènes dans leur format natif sous forme de data lakes présente de nombreux avantages pour une entreprise.

Ils sont évolutifs. Les data lakes gèrent de grands volumes de données à grande échelle, y compris des données structurées, semi-structurées et non structurées. Ils stockent les données sans schéma prédéfini, ce qui leur permet d'ingérer différents types de données. Les performances de calcul s'en trouvent ainsi améliorées. Les solutions de data lake modernes exploitent des frameworks de calcul distribués afin de traiter efficacement des jeux de données volumineux.
Le data lake constitue une option économique pour stocker d'importants volumes de données, car il repose généralement sur des solutions de stockage à bas coût telles que le stockage en mode objet basé dans le cloud. Puisqu'il s'agit d'un stockage centralisé, il n'est plus forcément nécessaire d'assurer la maintenance de plusieurs copies des mêmes données sur différents systèmes.
L'approche « schéma à la lecture » des data lakes offre davantage de flexibilité que les entrepôts de données classiques. En stockant les données dans leur format natif, les data lakes présentent une meilleure agilité pour intégrer et analyser des jeux de données diversifiés.
Par rapport aux entrepôts de données classiques, le référentiel central fourni par un data lake permet d'obtenir une vue complète des données de l'entreprise. Ce regroupement améliore la capacité d'accès et élimine les obstacles au partage et à la collaboration.
Le référentiel central des data lakes simplifie la gouvernance des données. Les fonctions de gouvernance telles que la gestion des métadonnées, le lignage des données et les contrôles d'accès garantissent la qualité et la cohérence des données ainsi que leur conformité avec les réglementations en vigueur.
Tous les avantages précités favorisent l'innovation. Les data lakes servent de sandbox aux data scientists, qui peuvent explorer les données et expérimenter sans affecter les systèmes de production. L'ingestion accélérée des données et l'analyse flexible au sein des data lakes permettent d'extraire des informations plus rapidement, ce qui améliore l'agilité et la capacité d'adaptation aux évolutions du marché.

Les data lakes sont couramment utilisés dans les cas suivants.

1. Analyses avancées et apprentissage automatique : grâce à leur capacité à stocker de grands volumes de données dans leur format natif, les data lakes sont essentiels pour les analyses avancées et l'apprentissage automatique. Ils peuvent collecter et intégrer des sources de données diverses, telles que les interactions client, les données de vente et l'activité sur les réseaux sociaux. Les data scientists sont ainsi en mesure de développer des modèles prédictifs et des applications d'IA sophistiquées pour générer des informations métier plus pertinentes et faciliter la prise de décisions.

2. Traitement des données en temps réel : puisque les data lakes prennent en charge l'ingestion et le traitement des données en temps réel, ils sont parfaitement adaptés aux applications qui nécessitent d'obtenir des informations immédiates, telles que le trading financier, la détection des fraudes et la surveillance de l'exploitation. Un data lake est capable de surveiller les données transactionnelles en temps réel et ainsi d'identifier et de bloquer instantanément toute activité frauduleuse. Sur les sites de fabrication, les données en temps réel issues des machines permettent de détecter les anomalies et de réaliser de la maintenance prédictive, ce qui réduit les temps d'arrêt et améliore l'efficacité.

3. Consolidation et intégration des données : les data lakes peuvent intégrer des données provenant de sources multiples en un seul et même référentiel unifié, éliminant ainsi les silos de données. Cette capacité sert notamment à obtenir une vue d'ensemble complète des clients. Par exemple, un commerce peut combiner des données issues d'historiques d'achats, d'interactions sur le site web et des réseaux sociaux afin de mieux comprendre le comportement de ses clients et proposer des campagnes marketing personnalisées.

4. Conformité réglementaire et gouvernance des données : puisque les data lakes constituent une solution sûre et évolutive pour stocker de grands volumes de données, ils garantissent la conformité avec des réglementations telles que le RGPD, la loi américaine HIPAA et la loi californienne CCPA. Cette conformité en temps réel est essentielle dans les secteurs comme la santé et la finance, qui sont tenus de respecter des exigences réglementaires strictes en matière de stockage et de sécurité des données.

5. Gestion des données des appareils d'edge computing : les appareils d'edge computing génèrent d'énormes quantités de données diverses et variées, et les data lakes ont la capacité de les stocker et de les traiter. En périphérie du réseau, il peut s'agir de données relatives aux mesures de capteurs, aux compteurs intelligents et aux journaux d'appareils connectés. Les data lakes peuvent ainsi servir à la gestion des villes intelligentes, à l'automatisation industrielle et à la maintenance prédictive.

Les data lakes offrent l'agilité et l'adaptabilité nécessaires pour gérer de nombreux cas d'utilisation en matière de stockage et de traitement des données.

Bien qu'ils soient souvent confondus, les data lakes et les entrepôts de données sont deux concepts bien distincts, destinés à des usages différents. Il s'agit dans les deux cas de référentiels de stockage de données pour le Big Data, mais la ressemblance s'arrête là. De nombreuses entreprises utilisent à la fois les entrepôts de données et les data lakes pour répondre à leurs besoins et objectifs spécifiques.

Un entrepôt de données fournit un modèle de données structuré conçu pour la création de rapports. Il s'agit là de la principale différence entre un data lake et un entrepôt de données. Un data lake permet de stocker des données brutes et non structurées, sans objectif spécifique.

Avant de pouvoir déplacer des données dans un entrepôt de données, il est nécessaire de les traiter. Il convient d'abord de sélectionner les données à stocker, une opération appelée « schéma à l'écriture ».

Le processus de traitement des données en amont de leur stockage dans un entrepôt s'avère parfois long et complexe. Cette étape prend potentiellement plusieurs mois, voire des années, ce qui empêche les utilisateurs d'accéder à ces données directement. Avec un data lake, il est possible d'accéder aux données immédiatement et de choisir ensuite leur future utilisation.

Du fait de leur structure, les entrepôts de données sont plus souvent utilisés par des analystes métier et d'autres utilisateurs métier qui savent à l'avance de quelles données ils ont besoin pour créer des rapports régulièrement. Les data lakes, quant à eux, sont privilégiés par les data scientists et les analystes de données qui font de la recherche à partir des données, et qui doivent appliquer des filtres et mener des analyses plus avancées sur les données avant de pouvoir les utiliser.

Enfin, les data lakes et les entrepôts de données reposent généralement sur du matériel différent. Les entrepôts de données peuvent devenir coûteux, tandis que les data lakes restent peu onéreux malgré leur grande taille, car ils s'appuient souvent sur du matériel standard.

Les solutions cloud offrent à la fois évolutivité et rentabilité aux entreprises qui paient en fonction de leur rythme de croissance. Les data lakes qui utilisent le stockage dans le cloud sont évolutifs à l'infini, car ils ne nécessitent pas de matériel sur site pour croître. Les solutions cloud pour data lakes sont également performantes et capables d'évoluer à la demande. Elles offrent une infrastructure flexible qui leur permet d'être plus rentables que du matériel sur site.

Les data lakes dans le cloud donnent un meilleur accès aux données que les autres solutions, car il est possible d'y accéder partout dans le monde, un avantage pour les équipes distribuées. Par ailleurs, les data lakes dans le cloud s' intègrent mieux et plus facilement aux services cloud, car ceux-ci sont conçus pour s'intégrer à d'autres services du même type.

Les plus grands fournisseurs de cloud computing proposent des services de data lakes. Les data lakes AWS s'appuient sur Amazon S3. De son côté, Microsoft Azure propose Azure Data Lake Storage. Google Cloud Storage donne accès à un stockage en mode objet évolutif et sécurisé qui sert de base aux data lakes sur Google Cloud Platform. IBM Cloud Object Storage est le service idéal pour créer des data lakes, car il est conçu pour offrir un niveau élevé de durabilité, de sécurité et de disponibilité des données, et pour s'intégrer aux analyses et aux services d'IA d'IBM afin de proposer des solutions de données complètes.

L'architecture du data lake est plate, car les données peuvent être non structurées, semi-structurées ou strucurées et provenir de différentes sources dans l'entreprise. Les entrepôts de données, quant à eux, stockent les données dans des fichiers ou des dossiers. Un data lake peut aussi bien être hébergé sur site que dans le cloud.

Grâce à leur architecture, les data lakes offrent une grande évolutivité, jusqu'à plusieurs exaoctets. Il s'agit d'un atout considérable, car lorsque vous créez un data lake, vous ne connaissez généralement pas le volume de données qui y sera stocké. Les systèmes de stockage de données traditionnels ne peuvent pas évoluer de la sorte.

Cette architecture profite aux data scientists qui peuvent miner et explorer les données de l'entreprise, les partager et les recouper afin d'obtenir de nouvelles tendances et informations, même à partir de données hétérogènes issues de différents domaines. Ils peuvent également profiter des solutions d'analyse du Big Data et de l'apprentissage automatique pour analyser les données contenues dans un data lake.

Même si les données ne disposent pas d'un schéma fixe avant leur stockage dans le data lake, une stratégie de gouvernance reste essentielle pour éviter que le data lake ne se transforme en data swamp. Et pour assurer leur accessibilité ultérieure, il faut associer des métadonnées aux données lors de leur stockage dans le data lake.

Améliorer la gestion des applications d'IA/AA

Regardez notre série de webinars pour découvrir le point de vue de spécialistes concernant la simplification du déploiement et de la gestion du cycle de vie des applications d'intelligence artificielle/apprentissage automatique (IA/AA) afin de créer et partager plus rapidement des modèles d'AA et des applications d'IA.

Accéder aux webinars en replay

Grâce aux solutions ouvertes de stockage logiciel développées par Red Hat, vous êtes en mesure de travailler davantage et d'accélérer la croissance de votre entreprise en ayant la garantie que vos données, qu'il s'agisse de documents financiers importants ou de fichiers multimédias, sont stockées en toute sécurité.

Avec une solution de stockage logiciel évolutive et économique, vous pouvez analyser de grands data lakes pour obtenir de meilleures informations métier. Les solutions de stockage logiciel de Red Hat sont Open Source et profitent des innovations de toute une communauté de développeurs, de partenaires et de clients. Vous contrôlez ainsi exactement la façon dont votre système de stockage est formaté et utilisé, en fonction des charges de travail, des environnements et des besoins spécifiques de votre entreprise.

Découvrir les solutions de stockage de Red Hat

En savoir plus

RAG et réglage fin

La génération augmentée de récupération (RAG) et le réglage fin sont deux méthodes différentes qui permettent d'améliorer les grands modèles de langage (LLM). Avec la RAG, le modèle n'est pas altéré, tandis que le réglage fin nécessite d'en ajuster les paramètres.

L'automatisation de la sécurité, qu'est-ce que c'est ?

L'automatisation de la sécurité consiste à utiliser des technologies pour réaliser des tâches avec une intervention humaine limitée, afin d'intégrer les processus, les applications et l'infrastructure en lien avec la sécurité.

Comprendre l'AIOps

L'AIOps (AI for IT Operations, ou IA pour l'exploitation informatique) est une approche qui permet d'automatiser l'exploitation informatique grâce à l'apprentissage automatique et à d'autres techniques d'intelligence artificielle avancées.

Un data lake, qu'est-ce que c'est ?

Données non filtrées et non structurées

Accès ad hoc aux données

Ressources Red Hat

Améliorer la gestion des applications d'IA/AA

Le blog officiel de Red Hat

Tous les essais de produits Red Hat

En savoir plus

RAG et réglage fin

L'automatisation de la sécurité, qu'est-ce que c'est ?

Comprendre l'AIOps

Science des données : ressources recommandées

Plateformes

Outils

Essayer, acheter et vendre

Communication

About Red Hat

Changer la langue

Red Hat legal and privacy links

Red Hat legal and privacy links