Connexion / Inscription Account

Stockage

Qu'est-ce qu'un data lake ?

Un data lake est un type de référentiel de données qui permet de stocker de gros volumes de données brutes et hétérogènes dans leur format natif. Les data lakes vous permettent de conserver une vision brute de vos données. Ils sont de plus en plus utilisés comme stratégie de gestion des données par les entreprises qui souhaitent posséder un référentiel de données plus vaste et global. 

Les données brutes sont des données qui n'ont pas encore été traitées dans un but précis. Les données contenues dans un data lake ne sont pas définies tant qu'elles n'ont pas fait l'objet d'une demande. Les spécialistes des données peuvent accéder aux données brutes lorsqu'ils en ont besoin, à l'aide d'outils d'analyse avancés ou d'un système de modélisation prédictive.

Dans un data lake, toutes les données sont conservées : aucune n'est supprimée ou filtrée avant le stockage. Ces données peuvent être utilisées à des fins d'analyse, à court, moyen terme, ou même jamais. Elles peuvent également être utilisées à de nombreuses reprises à des fins variées, alors que des données transformées sont destinées à un emploi spécifique et sont donc difficilement réutilisables dans un autre contexte.

L'expression anglaise « data lake » a été introduite par James Dixon, directeur technique de Pentaho. Le terme « lake », lac en français, convient parfaitement pour décrire ce type de référentiel de données, car celui-ci permet de stocker un ensemble de données dans leur état brut, à l'image d'un volume d'eau qui n'aurait pas été filtré ni traité. Les données qui alimentent ce lac proviennent de sources diverses et y sont stockées dans leur format d'origine. 

Les données stockées dans un data lake ne sont pas transformées jusqu'à ce qu'on ait besoin de les analyser. Un schéma est alors appliqué pour qu'elles puissent être analysées. Cette opération est appelée « schema on read » (schéma à la lecture), car les données restent brutes jusqu'à leur utilisation. 

Les data lakes permettent aux utilisateurs d'accéder aux données et de les parcourir à leur manière, sans avoir à les déplacer d'un système à un autre. Ils permettent aussi d'obtenir des tendances et des rapports au cas par cas, plutôt que d'effectuer régulièrement un rapport d'analyse à partir d'une autre plateforme ou d'un autre type de référentiel de données. Cependant, en cas de besoin, les utilisateurs peuvent appliquer un schéma ou recourir à l'automatisation pour dupliquer un rapport. 

Pour assurer la disponibilité et l'accessibilité des données, tout data lake doit bénéficier d'une stratégie de gouvernance et de maintenance continue. Sans cela, vous risquez de rendre vos données inutiles, inaccessibles, encombrantes, coûteuses et inutilisables. Ces data lakes, auxquels les utilisateurs ne peuvent plus accéder, sont qualifiés de « data swamps » (marécages de données).


Différences entre data lakes et entrepôts de données

Bien qu'ils soient souvent confondus, les data lakes et les entrepôts de données sont deux concepts bien distincts, destinés à des usages différents. Il s'agit dans les deux cas de référentiels de stockage de données pour le Big Data, mais leurs ressemblances s'arrêtent là. De nombreuses entreprises utilisent à la fois les entrepôts de données et les data lakes pour répondre à leurs besoins et objectifs spécifiques. 

Un entrepôt de données fournit un modèle de données structurées conçu pour la création de rapports. Il s'agit là de la principale différence entre un data lake et un entrepôt de données. Un data lake permet de stocker des données brutes et non structurées, sans objectif spécifique. 

Avant de pouvoir stocker des données dans un entrepôt de données, il est nécessaire de les traiter. Il convient de sélectionner les données à inclure dans l'entrepôt de données, une opération appelée « schema on write » (schéma à l'écriture).

Le processus de traitement des données en amont de leur stockage dans un entrepôt peut se révéler long et complexe. Cette étape peut demander des mois, voire des années, ce qui vous empêche d'accéder à ces données directement. Avec un data lake, vous pouvez accéder aux données immédiatement et déterminer ensuite leur future utilisation.

Du fait de leur structure, les entrepôts de données sont plus souvent utilisés par des analystes métier et d'autres utilisateurs métier qui savent à l'avance de quelles données ils ont besoin pour créer des rapports régulièrement. Les data lakes sont privilégiés par les spécialistes et analystes de données qui font de la recherche à partir des données, et qui doivent appliquer des filtres et des analyses plus avancées sur les données avant de pouvoir les utiliser.

Enfin, les data lakes et les entrepôts de données reposent généralement sur du matériel différent. Les entrepôts de données peuvent être coûteux, tandis que les data lakes restent peu onéreux malgré leur grande taille, car ils s'appuient souvent sur du matériel standard.


Architecture du data lake

L'architecture du data lake est plate, car les données peuvent être non structurées, semi-structurées ou structurées et provenir de différentes sources dans l'entreprise. Les entrepôts de données, quant à eux, stockent les données dans des fichiers ou des dossiers. Un data lake peut aussi bien être hébergé sur site que dans le cloud.

Grâce à leur architecture, les data lakes offrent une grande évolutivité, jusqu'à plusieurs exaoctets. Il s'agit d'un avantage important, car lorsque vous créez un data lake, vous ne connaissez généralement pas le volume de données qui y sera stocké. Les systèmes de stockage de données traditionnels ne peuvent pas évoluer de la sorte.

Cette architecture profite aux spécialistes des données qui peuvent miner et explorer les données de l'entreprise, les partager, les recouper, y compris à partir de données hétérogènes issues de différents domaines, afin d'obtenir de nouvelles tendances. Ils peuvent également profiter des solutions d'analyse du Big Data et de l'apprentissage automatique pour analyser les données contenues dans un data lake. 

Même si les données ne disposent pas d'un schéma fixe avant leur stockage dans le data lake, une stratégie de gouvernance reste essentielle pour éviter que votre data lake ne se transforme en data swamp. Et pour assurer leur accessibilité ultérieure, il faut associer des métadonnées aux données lors de leur stockage dans le data lake.

Améliorer la gestion des applications d'IA/AA

Dans cette série de webinars, découvrez le point de vue d'experts concernant la simplification du déploiement et de la gestion du cycle de vie des applications d'intelligence artificielle/apprentissage automatique (IA/AA) afin de créer et partager plus rapidement des modèles d'AA et des applications d'IA. 


Red Hat, un partenaire de choix en matière de services de données

Grâce aux solutions ouvertes de stockage logiciel développées par Red Hat, vous êtes en mesure de travailler davantage et d'accélérer la croissance de votre entreprise en ayant la garantie que vos données, qu'il s'agisse de documents financiers importants ou de fichiers de médias enrichis, sont stockées en toute sécurité.

Avec une solution de stockage logiciel évolutive et économique, vous pouvez analyser de grands data lakes pour obtenir de meilleures informations métier. Les solutions de stockage logiciel de Red Hat sont Open Source et profitent des innovations de toute une communauté de développeurs, de partenaires et de clients. Vous contrôlez ainsi exactement la façon dont votre système de stockage est formaté et utilisé, en fonction des charges de travail, des environnements et des besoins spécifiques de votre entreprise.

Les outils dont vous avez besoin pour le stockage des données

Red Hat Ceph Storage Logo

Plateforme de stockage logiciel en mode objet qui offre également des interfaces pour le stockage en modes bloc et fichier. Cette solution prend en charge les infrastructures cloud, les référentiels multimédias, les systèmes de sauvegarde et de restauration, ainsi que les data lakes. Fonctionne particulièrement bien avec Red Hat OpenStack® Platform.

Red Hat OpenStack Platform product logo

Solution qui permet de créer vos conteneurs et d'héberger votre plateforme d'applications conteneurisées sur une infrastructure de cloud privé modulaire et évolutive.À associer avec OpenStack pour profiter de systèmes de stockage en modes objet, bloc et fichier qui améliorent les performances de votre cloud.