Cos'è un data lake?

Pubblicato 25 settembre 2023•8 minuti (tempo di lettura)

Un data lake è un tipo di repository di dati in grado di archiviare set di dati non elaborati di grandi dimensioni e di varia tipologia nel loro formato nativo. I data lake forniscono una visualizzazione non elaborata dei dati, offrendo una sempre più diffusa strategia di gestione dei dati alle aziende che desiderano adottare un repository dei loro dati globale e di grandi dimensioni.

Per "dati non elaborati" si intendono quei dati che non sono ancora stati elaborati per uno scopo specifico. Un dato in un data lake non viene definito fino al momento in cui non viene eseguita una query che lo coinvolga. I data scientist possono accedere ai dati non elaborati mentre utilizzano strumenti di analisi avanzati o di modellazione predittiva.

Con i data lake, nessun dato viene rimosso o filtrato prima di eseguirne lo storage. A differenza di quando i dati vengono elaborati a seconda del loro scopo specifico, nel caso dei data lake non sussistono vincoli o restrizioni temporali per l'analisi dei dati, che possono essere utilizzati più volte.

Dati non filtrati e non strutturati

Il termine "data lake" è stato introdotto da James Dixon, Chief Technology Officer di Pentaho. L'immagine dell'acqua in questo caso è calzante, perché questo repository di dati archivia un pool di dati al suo stato naturale, come se fossero forme fluide non ancora filtrate o suddivise in pacchetti. Il flusso dei dati proviene da più fonti e si riversa nel lake, quindi viene archiviato nel suo formato originale.

I dati all'interno di un data lake vengono trasformati solo nel momento in cui occorre analizzarli e, successivamente, viene applicato uno schema per procedere all'analisi. Questo schema è definito "schema on read", perché i dati vengono elaborati solamente nel momento in cui sono pronti per essere utilizzati.

Accesso ad hoc ai dati

I data lake consentono agli utenti di accedere ai dati e analizzarli dove e come sono, senza doverli spostare in un altro sistema. Le informazioni e la reportistica ottenuti dai data lake vengono elaborati a seconda dei casi e non estratti regolarmente da un'altra piattaforma o da un altro tipo di repository di dati. Tuttavia, gli utenti possono applicare uno schema e una procedura di automazione per poter duplicare un report, se necessario.

I data lake devono disporre di una governance e richiedono una manutenzione continua per rendere i dati fruibili e accessibili. Senza tutto questo, i dati rischierebbero di diventare inaccessibili, ingombranti, costosi e quindi, inutili. I data lake che non sono accessibili dagli utenti vengono definiti "data swamp", ovvero una "palude di dati".

Scopri di più sullo storage dei dati

Lo storing di gruppi grandi e variegati di dati non elaborati nel loro formato nativo offre numerosi vantaggi alle aziende.

La scalabilità. I data lake possono accogliere grandi volumi di dati strutturati, semi-strutturati e non strutturati, su larga scala. L'archiviazione non richiede uno schema predefinito, consentendo lo storage di diverse tipologie di dati e, di conseguenza, il miglioramento del processo di elaborazione. I data lake moderni sfruttano i framework distribuiti, consentendo l'elaborazione di grandi volumi di dati.
I data lake rappresentano un' opzione conveniente per l'archiviazione di grandi quantità di dati perché solitamente impiegano soluzioni di storage low cost, come lo storage di oggetti basato sul cloud. I data lake sono strutturati come storage di dati centralizzati e riducono la necessità di conservare più copie degli stessi dati in sistemi diversi.
L'approccio "schema on read" dei data lake offre più flessibilità rispetto ai data warehouse tradizionali. Inoltre, sono caratterizzati da una maggiore agilità nell'integrazione e nell'analisi dei diversi gruppi di dati, perché li archiviano nel formato nativo.
Rispetto ai data warehouse tradizionali, il repository centrale di un data lake consente di avere una panoramica completa dei dati aziendali. Questo consolidamento migliora l'accesso ai dati e ne rende più semplice la condivisione e la gestione in modalità collaborativa.
Il repository centralizzato dei data lake semplifica la governance dei dati. Le funzionalità utili per la governance dei dati come gestione dei metadati, data lineage e controlli degli accessi garantiscono l'uniformità, la qualità e la conformità dei dati alle normative.
Tutti i vantaggi descritti finora agevolano l' innovazione. I data lake fungono da ambiente sandbox, in cui i data scientist possono analizzare i dati e fare esperimenti senza conseguenze negative per i sistemi di produzione. Un'elaborazione più rapida dei dati e un'analisi flessibile nei data lake accelerano l'acquisizione di informazioni, che a sua volta migliora l'agilità e la reattività rispetto ai cambiamenti del mercato.

Ecco alcuni degli scenari di utilizzo comuni dei data lake:

1. Apprendimento automatico e analisi avanzata: i data lake possono archiviare grandi quantità di dati in formato nativo. Questa loro caratteristica li rende essenziali per eseguire analisi avanzate e attività relative all'apprendimento automatico. I data lake possono raccogliere e integrare diverse fonti di dati come le interazioni tra i clienti, i dati di vendita e le attività sui social media. Ciò permette ai data scientist di sviluppare modelli predittivi e applicazioni di IA sofisticate, che consentono ad avere informazioni più approfondite e a prendere decisioni in modo più consapevole.

2. Elaborazione dei dati in tempo reale: poiché supportano l'acquisizione e l'elaborazione dei dati in tempo reali, i data lake sono ideali per le applicazioni che richiedono informazioni approfondite nell'immediato, come il trading finanziario, il rilevamento delle frodi e il monitoraggio delle operazioni. Un data lake può monitorare i dati relativi alle transazioni in tempo reale, in modo da prevenire e individuare in modo tempestivo le attività fraudolente. Negli stabilimenti di produzione, i dati in tempo reale acquisiti dai macchinari consentono di rilevare le anomalie ed eseguire una manutenzione predittiva, in modo da ridurre i tempi di fermo e migliorare l'efficienza.

3. Consolidamento e integrazione dei dati: i data lake possono integrare i dati provenienti da più fonti in un unico repository, eliminando i silos di dati. Ciò è utile in particolare per la creazione di una panoramica completa dei clienti. Una società di retail può unire i dati sulle cronologie di acquisto, sulle interazioni con i siti web e sui social media per comprendere meglio i comportamenti dei clienti e creare campagne di marketing personalizzate.

4. Conformità alle normative e governance dei dati: poiché rappresentano una soluzione scalabile e sicura per lo storage di grandi quantità di dati, i data lake possono garantire la conformità a normative come GDPR, HIPAA e CCPA. Mantenere la conformità in tempo reale è fondamentale per settori come quello sanitario o quello finanziario, che devono aderire ai severi requisiti previsti dalle normative sullo storage e sulla sicurezza dei dati.

5. Gestione dei dati dei dispositivi edge: i dispositivi edge generano enormi quantità di dati molto diversi tra loro, che i data lake sono in grado di archiviare ed elaborare. All'edge, questi dati possono includere le letture dei sensori, i dati degli smart meter e i registri dei dispositivi connessi. Grazie a questa funzionalità, i data lake possono essere utilizzati per la gestione delle smart city, l'automazione industriale e la manutenzione predittiva.

I data lake offrono l'agilità e l'adattabilità per gestire i tanti scenari di utilizzo che riguardano lo storage e l'elaborazione dei dati.

Benché vengano spesso confusi, i data lake e i data warehouse sono due concetti diversi e servono a scopi profondamente distinti. L'unico punto in comune è che entrambi sono repository di storage di dati per i big data. Per realizzare i propri obiettivi aziendali, molte società usano sia i data warehouse che i data lake.

Un data warehouse fornisce un modello di dati strutturato e progettato per la reportistica. Si tratta della principale differenza tra i data lake e i data warehouse. Un data lake archivia dati non strutturati, non elaborati e senza uno scopo predefinito.

Prima di inserire i dati in un data warehouse è necessario elaborarli. A questo scopo, si decide quali dati includere o meno nel data warehouse, un processo che viene definito "schema on write".

Affinare i dati prima di archiviarli in un data warehouse può richiedere tempo, a volte mesi o anni, ed è un processo complesso, il che impedisce inoltre di acquisirli immediatamente. Con un data lake, puoi iniziare a raccogliere i dati fin da subito e decidere come utilizzarli in un secondo momento.

Tenuto conto della loro struttura predefinita, i data warehouse vengono utilizzati più spesso dagli analisti e dagli utenti aziendali che sanno in anticipo di quali dati hanno bisogno per la reportistica standard. Un data lake viene invece utilizzato soprattutto dai data scientist e dagli analisti che effettuano le ricerche utilizzando i dati, applicando di volta in volta filtri e analisi più avanzati perché possano risultare utili.

Inoltre, i data lake e i data warehouse usano diversi hardware per lo storage. I data warehouse possono essere costosi, mentre i data lake, nonostante la loro dimensione, riescono a essere più economici poiché usano hardware di largo consumo.

Le soluzioni cloud offrono scalabilità e convenienza alle aziende in crescita. I data lake che si servono dello storage su cloud hanno una scalabilità illimitata perché il loro ampliamento non è condizionato dall'hardware aziendale. Oltre alla scalabilità, le soluzioni cloud sono basate sulle prestazioni perché possono essere ampliate o ridotte secondo necessità. Le soluzioni cloud per i data lake offrono un'infrastruttura flessibile, pertanto possono risultare più convenienti rispetto all'hardware on premise.

I data lake su cloud agevolano l' accesso ai dati rispetto ad altre soluzioni perché possono essere utilizzati ovunque, il che rappresenta un vantaggio per i team che lavorano da remoto. Inoltre, poiché i servizi cloud sono progettati per essere integrati fra loro, i data lake su cloud possono offrire un' integrazione migliore con meno sforzo.

Tutte le aziende più importanti nel settore del cloud computing offrono servizi di data lake. Amazon S3 offre i data lake su AWS. Microsoft Azure propone Azure Data Lake Storage. Google Cloud Storage consente lo storage di oggetti scalabile e sicuro che funge da base per i data lake su Google Cloud Platform. IBM Cloud Object Storage è ideale per creare data lake perché è progettato per un'elevata durabilità, sicurezza e disponibilità dei dati, oltre che per interagire con i servizi di IA e di analisi di IBM, in modo da offrire soluzioni complete per i dati.

Un data lake ha un'architettura piatta in cui i dati possono essere non strutturati, semi-strutturati o strutturati e raccolti da diverse fonti all'interno dell'organizzazione; al contrario, un data warehouse archivia i dati in file o cartelle. Il data lake può essere on-premise o su cloud.

Per la natura della loro architettura, i data lake offrono una scalabilità massiva fino alla scala exabyte. Questo è molto importante soprattutto perché quando si crea un data lake non si conosce in anticipo il volume dei dati che verranno trattenuti. I sistemi di storage di dati tradizionali non offrono questo tipo di scalabilità.

Questo tipo di architettura va a vantaggio dei data scientist poiché consente loro di accedere ai dati dell'intera azienda, analizzarli, condividerli e fare riferimenti incrociati, anche tra dati eterogenei da campi diversi, per ottenere nuove informazioni. Possono inoltre sfruttare gli strumenti di analisi dei big data e di machine learning per analizzare i dati in un data lake.

Benché ai dati non venga applicata una struttura predefinita prima di essere archiviati in un data lake, la loro governance è comunque fondamentale. Per garantire la loro futura accessibilità evitando un data swamp, una volta inseriti nei data lake, i dati devono essere contrassegnati con metadati.

Migliora la gestione delle applicazioni di AI/ML

Guarda questa serie di webinar on demand per scoprire i consigli degli esperti su come semplificare il deployment e la gestione del ciclo di vita delle applicazioni di intelligenza artificiale e apprendimento automatico (AI/ML) e inizia a creare, collaborare e condividere i modelli di ML e le app di IA più rapidamente.

Guarda la serie di webinar on demand

Le soluzioni di storage software defined e open di Red Hat permettono alla tua azienda di ottenere più efficienza e crescere più rapidamente, garantendo una sicura archiviazione di qualsiasi tipologia di dati, da documenti finanziari importanti a rich media.

Grazie a uno storage software defined scalabile e conveniente, potrai analizzare elevate quantità di dati e ottenere business insight più dettagliate. Le soluzioni di storage software defined di Red Hat sono tutte open source e si basano sulle innovazioni di una community di sviluppatori, partner e clienti. A seconda dei carichi di lavoro, degli ambienti e delle necessità specifiche della tua azienda, potrai decidere il formato e l'utilizzo del tuo storage.

Scopri le soluzioni di storage di Red Hat

Continua a leggere

Come creare una macchina virtuale con i tipi di istanza

Scopri come creare una macchina virtuale con uno dei tipi di istanza di Red Hat OpenShift Virtualization attraverso la GUI della console di Red Hat OpenShift.

Che cos'è il computing confidenziale?

Il computing confidenziale utilizza l'elaborazione basata su hardware per proteggere i dati attivi o in transito, ovvero mentre vengono utilizzati.

Cosa sono SPIFFE e SPIRE?

SPIFFE e SPIRE sono due progetti open source pensati per la gestione delle identità in ambienti di elaborazione dinamici e diversificati che, insieme, collaborano per risolvere svariati problemi di sicurezza.

Cos'è un data lake?

Dati non filtrati e non strutturati

Accesso ad hoc ai dati

Risorse da Red Hat

Migliora la gestione delle applicazioni di AI/ML

Il blog ufficiale di Red Hat

Tutte le versioni di prova dei prodotti Red Hat

Continua a leggere

Come creare una macchina virtuale con i tipi di istanza

Che cos'è il computing confidenziale?

Cosa sono SPIFFE e SPIRE?

Data science: risorse consigliate

Piattaforme

Strumenti

Prova, acquista, vendi

Comunica

Informazioni su Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links