Un Data Lake è un repository che archivia copie esatte o semi-esatte dei dati in un'unica posizione. I Data Lake sono sempre più diffusi nelle aziende alla ricerca di un repository globale e di grandi dimensioni per gestire i propri dati e di una soluzione più conveniente rispetto ai database.
Grazie ai Data Lake è possibile ottenere una panoramica non raffinata dei dati. Ciò consente agli analisti più esperti di perfezionare le tecniche di analisi al di fuori dello storage di dati tradizionale (come un data warehouse) e in maniera indipendente da qualsiasi system-of-record, ovvero da una qualsiasi sorgente di dati autorevole per un determinato elemento di dati. Per permettere agli analisti più competenti di continuare a esplorare nuovi metodi di analisi dei dati, perfezionandone le tecniche, disporre di un Data Lake diventa fondamentale.
Senza una manutenzione continua dei Data Lake e un piano che ne regoli l'accesso e l'utilizzo, Senza tutto questo, i dati rischierebbero di diventare inaccessibili, ingombranti, costosi e quindi, inutili. I Data Lake che non sono accessibili agli utenti vengono definiti "data swamp", ovvero "paludi di dati".
Le varie unità aziendali (BU) delle grandi organizzazioni hanno esigenze specifiche in termini di dati. Ognuna di esse, per analizzarli, deve competere in qualche modo per poter accedere ai dati e all'infrastruttura necessaria. Esiste dunque un problema di risorse, a cui i Data Lake non sono in grado di porre rimedio. Ciò che può risolvere il problema è, invece, isolare il carico di lavoro multi-tenant con un contesto di dati condivisi. Cosa significa?
In pratica questa soluzione consente alle organizzazioni di ridurre il numero di copie condivisibili tra le BU tramite la containerizzazione o la virtualizzazione degli strumenti di analisi dei dati. In questo modo non occorre più creare una copia dei dati ogni volta che una nuova unità aziendale ne richiede l'accesso, né tantomeno scrivere gli script necessari per copiare i dati e far funzionare tutto.