Account Se connecter
Jump to section

Un data lake, qu'est-ce que c'est ?

Copier l'URL

Un data lake est un type de référentiel de données qui permet de stocker de gros volumes de données brutes et hétérogènes dans leur format natif. Les data lakes vous permettent de conserver une vision brute de vos données. Ils sont de plus en plus utilisés comme stratégie de gestion des données par les entreprises qui souhaitent posséder un référentiel de données plus vaste et global. 

Les données brutes sont des données qui n'ont pas encore été traitées dans un but précis. Les données contenues dans un data lake ne sont pas définies tant qu'elles n'ont pas fait l'objet d'une demande. Les spécialistes des données peuvent accéder aux données brutes lorsqu'ils en ont besoin, à l'aide d'outils d'analyse avancés ou d'un système de modélisation prédictive.

Dans un data lake, toutes les données sont conservées : aucune n'est supprimée ou filtrée avant le stockage. Ces données peuvent être utilisées à des fins d'analyse, à court, moyen terme, ou même jamais.Elles peuvent également être utilisées à de nombreuses reprises à des fins variées, alors que des données transformées sont destinées à un emploi spécifique et sont donc difficilement réutilisables dans un autre contexte.

L'expression anglaise « data lake » a été introduite par James Dixon, directeur technique de Pentaho. Le terme « lake », lac en français, convient parfaitement pour décrire ce type de référentiel de données, car celui-ci permet de stocker un ensemble de données dans leur état brut, à l'image d'un volume d'eau qui n'aurait pas été filtré ni traité. Les données qui alimentent ce lac proviennent de sources diverses et y sont stockées dans leur format d'origine. 

Les données stockées dans un data lake ne sont pas transformées jusqu'à ce qu'on ait besoin de les analyser. Un schéma est alors appliqué pour qu'elles puissent être analysées. Cette opération est appelée « schema on read » (schéma à la lecture), car les données restent brutes jusqu'à leur utilisation. 

Les data lakes permettent aux utilisateurs d'accéder aux données et de les parcourir à leur manière, sans avoir à les déplacer d'un système à un autre. Ils permettent aussi d'obtenir des tendances et des rapports au cas par cas, plutôt que d'effectuer régulièrement un rapport d'analyse à partir d'une autre plateforme ou d'un autre type de référentiel de données. Cependant, en cas de besoin, les utilisateurs peuvent appliquer un schéma ou recourir à l'automatisation pour dupliquer un rapport. 

Pour assurer la disponibilité et l'accessibilité des données, tout data lake doit bénéficier d'une stratégie de gouvernance et de maintenance continue. Sans cela, vous risquez de rendre vos données inutiles, inaccessibles, encombrantes, coûteuses et inutilisables. Ces data lakes, auxquels les utilisateurs ne peuvent plus accéder, sont qualifiés de « data swamps » (marécages de données).

Bien qu'ils soient souvent confondus, les data lakes et les entrepôts de données sont deux concepts bien distincts, destinés à des usages différents. Il s'agit dans les deux cas de référentiels de stockage de données pour le Big Data, mais la ressemblance s'arrête là. De nombreuses entreprises utilisent à la fois les entrepôts de données et les data lakes pour répondre à leurs besoins et objectifs spécifiques. 

Un entrepôt de données fournit un modèle de données structurées conçu pour la création de rapports. Il s'agit là de la principale différence entre un data lake et un entrepôt de données. Un data lake permet de stocker des données brutes et non structurées, sans objectif spécifique. 

Avant de pouvoir stocker des données dans un entrepôt de données, il est nécessaire de les traiter. Il convient de sélectionner les données à inclure dans l'entrepôt de données, une opération appelée « schema on write » (schéma à l'écriture).

Le processus de traitement des données en amont de leur stockage dans un entrepôt peut se révéler long et complexe. Cette étape peut demander des mois, voire des années, ce qui vous empêche d'accéder à ces données directement. Avec un data lake, vous pouvez accéder aux données immédiatement et déterminer ensuite leur future utilisation.

Du fait de leur structure, les entrepôts de données sont plus souvent utilisés par des analystes métier et d'autres utilisateurs métier qui savent à l'avance de quelles données ils ont besoin pour créer des rapports régulièrement. Les data lakes sont privilégiés par les spécialistes et analystes de données qui font de la recherche à partir des données, et qui doivent appliquer des filtres et des analyses plus avancées sur les données avant de pouvoir les utiliser.

Enfin, les data lakes et les entrepôts de données reposent généralement sur du matériel différent. Les entrepôts de données peuvent être coûteux, tandis que les data lakes restent peu onéreux malgré leur grande taille, car ils s'appuient souvent sur du matériel standard.

L'architecture du data lake est plate, car les données peuvent être non structurées, semi-structurées ou structurées et provenir de différentes sources dans l'entreprise. Les entrepôts de données, quant à eux, stockent les données dans des fichiers ou des dossiers. Un data lake peut aussi bien être hébergé sur site que dans le cloud.

Grâce à leur architecture, les data lakes offrent une grande évolutivité, jusqu'à plusieurs exaoctets. Il s'agit d'un avantage important, car lorsque vous créez un data lake, vous ne connaissez généralement pas le volume de données qui y sera stocké. Les systèmes de stockage de données traditionnels ne peuvent pas évoluer de la sorte.

Cette architecture profite aux spécialistes des données qui peuvent miner et explorer les données de l'entreprise, les partager, les recouper, y compris à partir de données hétérogènes issues de différents domaines, afin d'obtenir de nouvelles tendances. Ils peuvent également profiter des solutions d'analyse du Big Data et de l'apprentissage automatique pour analyser les données contenues dans un data lake. 

Même si les données ne disposent pas d'un schéma fixe avant leur stockage dans le data lake, une stratégie de gouvernance reste essentielle pour éviter que votre data lake ne se transforme en data swamp. Et pour assurer leur accessibilité ultérieure, il faut associer des métadonnées aux données lors de leur stockage dans le data lake.

Améliorer la gestion des applications d'IA/AA

Dans cette série de webinars, découvrez le point de vue d'experts concernant la simplification du déploiement et de la gestion du cycle de vie des applications d'intelligence artificielle/apprentissage automatique (IA/AA) afin de créer et partager plus rapidement des modèles d'AA et des applications d'IA. 

Grâce aux solutions ouvertes de stockage logiciel développées par Red Hat, vous êtes en mesure de travailler davantage et d'accélérer la croissance de votre entreprise en ayant la garantie que vos données, qu'il s'agisse de documents financiers importants ou de fichiers de médias enrichis, sont stockées en toute sécurité.

Avec une solution de stockage logiciel évolutive et économique, vous pouvez analyser de grands data lakes pour obtenir de meilleures informations métier. Les solutions de stockage logiciel de Red Hat sont Open Source et profitent des innovations de toute une communauté de développeurs, de partenaires et de clients. Vous contrôlez ainsi exactement la façon dont votre système de stockage est formaté et utilisé, en fonction des charges de travail, des environnements et des besoins spécifiques de votre entreprise.

Keep reading

ARTICLE

Red Hat, un partenaire de choix en matière de stockage

Découvrez ce qu'est le stockage logiciel et apprenez à déployer une solution de stockage logiciel Red Hat qui vous permettra de gérer, stocker et partager des données selon vos besoins.

ARTICLE

Le stockage dans le cloud, qu'est-ce que c'est ?

Le stockage dans le cloud est l'organisation des données stockées dans un emplacement accessible depuis Internet par toute personne qui dispose d'une autorisation. Apprenez-en davantage sur son fonctionnement.

THÈME

Comprendre les services de données

Les services de données sont des ensembles de petites fonctions indépendantes et faiblement couplées qui permettent d'améliorer, d'organiser, de partager ou de calculer des informations recueillies et enregistrées dans des volumes de stockage de données.

En savoir plus sur le stockage

Produits

Red Hat OpenShift Data Foundation

Système de stockage logiciel qui héberge les données de façon permanente en parallèle de la mise en route et de l'arrêt des conteneurs et entre plusieurs environnements.

Red Hat Gluster Storage

Plateforme logicielle de stockage qui peut être déployée dans des environnements bare metal, virtuels, cloud ou de conteneurs.

Red Hat Ceph Storage

Système de stockage logiciel Open Source et hautement évolutif qui gère efficacement des pétaoctets de données.

Red Hat Hyperconverged Infrastructure

Plateforme logicielle de calcul et de stockage, mutualisée et évolutive, basée sur du matériel standard et économique.

Ressources

Livre numérique

Cloud hybride : les solutions derrière la plateforme Red Hat

Checklist

Les cinq principales raisons d'adopter une infrastructure hyperconvergée Open Source

Illustration - mail

Ce type de contenu vous intéresse ?

Inscrivez-vous à notre newsletter Red Hat Shares.

Red Hat logo LinkedInYouTubeFacebookTwitter

Produits

Outils

Essayer, acheter et vendre

Communication

À propos de Red Hat

Premier éditeur mondial de solutions Open Source pour les entreprises, nous fournissons des technologies Linux, cloud, de conteneurs et Kubernetes. Nous proposons des solutions stables qui aident les entreprises à jongler avec les divers environnements et plateformes, du cœur du datacenter à la périphérie du réseau.

Inscrivez-vous à la newsletter Red Hat Shares.

S'inscrire maintenant

Sélectionner une langue

© 2022 Red Hat, Inc.