Cerca

Italiano

Accedi Account

Accedi / Registrati Account

Website

Storage

Cos'è un Data Lake?

Un Data Lake è un tipo di repository di dati in grado di archiviare set di dati non elaborati di grandi dimensioni e di varia tipologia nel loro formato nativo. I Data Lake forniscono una visualizzazione non elaborata dei dati, offrendo una sempre più diffusa strategia di gestione dei dati alle aziende che desiderano adottare un repository dei loro dati globale e di grandi dimensioni. 

Per "dati non elaborati" si intendono quei dati che non sono ancora stati elaborati per uno scopo specifico. Un dato in un Data Lake non viene definito fino al momento in cui non viene eseguita una query che lo coinvolga. I data scientist possono accedere ai dati non elaborati mentre utilizzano strumenti di analisi avanzati o di modellazione predittiva.

Con i Data Lake, nessun dato viene rimosso o filtrato prima di eseguirne lo storage. A differenza di quando i dati vengono elaborati a seconda del loro scopo specifico, nel caso dei Data Lake non sussistono vincoli o restrizioni temporali per l'analisi dei dati, che possono essere utilizzati più volte.

Il termine Data Lake è stato introdotto da James Dixon, Chief Technology Officer di Pentaho. L'immagine dell'acqua in questo caso è calzante, perché questo repository di dati archivia un pool di dati al suo stato naturale, come se fossero forme fluide non ancora filtrate o suddivise in pacchetti. Il flusso dei dati proviene da più fonti e si riversa nel Lake, quindi viene archiviato nel suo formato originale. 

I dati all'interno di un Data Lake vengono trasformati solo nel momento in cui occorre analizzarli e, successivamente, viene applicato uno schema per procedere all'analisi. Questo schema è definito "schema on read", perché i dati vengono elaborati solamente nel momento in cui sono pronti per essere utilizzati. 

I Data Lake consentono agli utenti di accedere e analizzare i dati dove e come sono, senza doverli spostare in un altro sistema. Gli insight e la reportistica ottenuti dai Data Lake vengono elaborati a seconda dei casi e non estratti regolarmente da un'altra piattaforma o da un altro tipo di repository di dati. Tuttavia, gli utenti possono applicare uno schema e una procedura di automazione per poter duplicare un report, se necessario. 

I Data Lake devono disporre di una governance e richiedono una manutenzione continua per rendere i dati fruibili e accessibili. Senza tutto questo, i dati rischierebbero di diventare inaccessibili, ingombranti, costosi e quindi, inutili. I Data Lake che non sono accessibili dagli utenti vengono definiti "data swamp", ovvero una "palude di dati".


Data Lake e Data Warehouse

Benché vengano spesso confusi, i Data Lake e i Data Warehouse sono due concetti diversi e servono a scopi profondamente distinti. L'unico punto in comune è che entrambi sono repository di storage di dati per i big data. Per realizzare i propri obiettivi aziendali, molte società usano sia i Data Warehouse che i Data Lake. 

Un Data Warehouse fornisce un modello di dati strutturato e progettato per la reportistica. Si tratta della principale differenza tra i Data Lake e i Data Warehouse. Un Data Lake archivia dati non strutturati, non elaborati e senza uno scopo predefinito. 

Prima di inserire i dati in un Data Warehouse è necessario elaborarli. A questo scopo, si decide quali dati includere o meno nel Data Warehouse, un processo che viene definito "schema on write". 

Affinare i dati prima di archiviarli in un Data Warehouse può richiedere tempo, a volte mesi o anni, ed è un processo complesso, il che impedisce inoltre di acquisirli immediatamente. Con un Data Lake, puoi iniziare a raccogliere i dati fin da subito e decidere come utilizzarli in un secondo momento.

Tenuto conto della loro struttura predefinita, i Data Warehouse vengono utilizzati più spesso dagli analisti e dagli utenti aziendali che sanno in anticipo di quali dati hanno bisogno per la reportistica standard. Un Data Lake viene invece utilizzato soprattutto dai data scientist e dagli analisti che effettuano le ricerche utilizzando i dati, applicando di volta in volta filtri e analisi più avanzati perché possano risultare utili.

Inoltre, i Data Lake e i Data Warehouse usano diversi hardware per lo storage. I Data Warehouse possono essere costosi, mentre i Data Lake, nonostante la loro dimensione, riescono a essere più economici poiché usano hardware di largo consumo.


Architettura di un Data Lake

Un Data Lake ha un'architettura piatta in cui i dati possono essere non strutturati, semi-strutturati o strutturati e raccolti da diverse fonti all'interno dell'organizzazione; al contrario, un Data Warehouse archivia i dati in file o cartelle. Il Data Lake può essere on-premise o su cloud.

Per la natura della loro architettura, i Data Lake offrono una scalabilità massiva fino alla scala exabyte. Questo è molto importante soprattutto perché quando si crea un Data Lake non si conosce in anticipo il volume dei dati che verranno trattenuti. I sistemi di storage di dati tradizionali non offrono questo tipo di scalabilità.

Questo tipo di architettura va a vantaggio dei data scientist poiché consente loro di accedere ai dati dell'intera azienda, analizzarli, condividerli e fare riferimenti incrociati, inclusi tra dati eterogenei da campi diversi, per ottenere nuove informazioni. Possono inoltre sfruttare gli strumenti di analisi dei big data e di machine learning per analizzare i dati in un Data Lake. 

Benché ai dati non venga applicata una struttura predefinita prima di essere archiviati in un Data Lake, la loro governance è comunque fondamentale. Per garantire la loro futura accessibilità evitando un data swamp, una volta inseriti nei Data Lake, i dati devono essere contrassegnati con metadati.


Perché scegliere lo storage Red Hat?

Le soluzioni di storage software-defined e open di Red Hat permettono alla tua azienda di ottenere più efficienza e crescere più rapidamente, garantendo una sicura archiviazione di qualsiasi tipologia di dati, da documenti finanziari importanti a rich media.

Grazie a uno storage software-defined scalabile e conveniente, potrai analizzare elevate quantità di dati e ottenere business insight più dettagliate. Le soluzioni di storage software-defined di Red Hat sono tutte open source e si basano sulle innovazioni di una community di sviluppatori, partner e clienti. A seconda dei carichi di lavoro, degli ambienti e delle necessità specifiche della tua azienda, potrai decidere il formato e l'utilizzo del tuo storage.

Gli strumenti ottimali per lo storage dei dati

Una piattaforma di archiviazione di oggetti software-defined, che offre anche le interfacce per lo storage di file e a blocchi. Supporta infrastrutture cloud, repository multimediali, sistemi di backup e ripristino e Data Lake. Particolarmente integrabile con Red Hat OpenStack® Platform.

Crea i tuoi container e ospita la tua piattaforma applicativa per container su un'infrastruttura modulare, scalabile e di cloud privato. Unisci i vantaggi di OpenStack e Red Hat Ceph Storage per uno storage di file, di oggetti o a blocchi che incrementi le prestazioni del tuo cloud.

Scopri gli altri vantaggi offerti dallo storage