Anmelden / Registrieren Konto

Storage

Was sind Data Lakes?

Ein Data Lake ist eine Art Datenspeicher, mit dem umfassende und unterschiedliche Rohdaten in ihrem nativen Format gespeichert werden können und der eine Rohansicht Ihrer Daten bietet. Diese Technologie verbreitet sich zunehmend als Datenverwaltungsstrategie von Unternehmen, die einen großen Gesamtspeicher ihrer Daten benötigen.

Rohdaten sind Informationen, die noch zu keinem bestimmten Zweck verarbeitet worden sind. Daten in einem Data Lake werden erst dann strukturiert, wenn sie erstmals abgefragt werden. Datenwissenschaftler können bei Bedarf auf Rohdaten zugreifen, und zwar indem sie fortschrittliche Analyse-Tools oder prädiktive Modelle nutzen.

Bei der Verwendung von Data Lakes bleiben alle Informationen erhalten und/oder werden vor der Speicherung weder entfernt noch gefiltert. Die Daten können in naher, ferner Zukunft oder gar nicht analysiert werden, und sie können auch viele Male zu verschiedenen Zwecken eingesetzt werden. Dahingehend ist bei Daten, die für einen spezifischen Zweck strukturiert oder formatiert wurden, eine anderweitige Nutzung praktisch ausgeschlossen.

Der Begriff „Data Lake" wurde von James Dixon, Chief Technology Officer von Pentaho, geprägt. Die Beschreibung dieses Datenspeichertyps als „Lake" macht Sinn, weil damit ein Pool an Daten in seinem natürlichem Zustand gespeichert wird, ähnlich einem Gewässer, das nicht gefiltert oder auf irgendeine Weise kanalisiert wurde. Daten fließen aus unterschiedlichen Quellen in den Data Lake und werden dort im Originalformat gespeichert.

Sie werden erst dann transformiert, wenn sie für eine Analyse benötigt werden und dann ein Schema angewendet wird. Man nennt das auch „Schema on Read" (Schema beim Lesen), weil Daten bis zur Nutzung im Rohzustand verbleiben.

Mithilfe von Data Lakes können Nutzer auf Daten zugreifen und sie auf individuelle Art und Weise analysieren, ohne sie in ein anderes System verschieben zu müssen. Erkenntnisse und Berichte aus diesen Data Lakes werden üblicherweise ad-hoc generiert, das heißt, es werden keine regelmäßigen Analyseberichte von anderen Plattformen oder Datenspeichern abgerufen. Allerdings kann der Nutzer ein Schema und eine Automatisierung anwenden, um einen Bericht bei Bedarf zu duplizieren.

Data Lakes müssen geschützt und regelmäßig gewartet werden, damit die darin enthaltenen Daten nutzbar und zugänglich bleiben. Ohne diese Instandhaltung riskieren Sie, dass Ihre Informationen unzugänglich, unhandlich, teuer und nutzlos, also zu Datenmüll werden. Data Lakes, die für den Nutzer nicht mehr zugänglich sind, nennt man auch „Data Swamps" oder Datensümpfe.


Data Lake vs. Data Warehouse

Diese beiden Begriffe werden oft synonym verwendet, aber die zugrundeliegenden Technologien dienen unterschiedlichen Zwecken. Bei beiden handelt es sich um Speicher für Big Data, aber damit endet die Ähnlichkeit auch schon. Viele Unternehmen nutzen sowohl Data Warehouse als auch Data Lake für spezifische Anforderungen und Ziele.

Ein Data Warehouse bietet ein strukturiertes, für Berichte geeignetes Datenmodell. Dies ist der Hauptunterschied zwischen Data Lakes und Data Warehouses. Mit einem Data Lake speichern Sie unstrukturierte, rohe Daten ohne einen aktuell definierten Zweck.

Um Daten in einem Data Warehouse speichern zu können, müssen diese zuvor verarbeitet werden. Dazu müssen Entscheidungen darüber getroffen werden, welche Daten in das Data Warehouse integriert werden und welche nicht. Das nennt man auch „Schema on Write" (Schema beim Schreiben).

Der Prozess der Datenstrukturierung vor der Speicherung in einem Data Warehouse kann sehr zeitaufwändig und komplex sein. Er kann Monate oder gar Jahre dauern, was einer direkten Nutzung komplett entgegensteht. Mit einem Data Lake können Sie Daten sofort erfassen und erst später entscheiden, was mit ihnen geschehen soll.

Wegen der strukturierten Daten werden Data Warehouses meist von Businessanalysten und anderen geschäftlichen Nutzern verwendet, die bereits im Voraus wissen, welche Daten sie für regelmäßige Berichte benötigen. Data Lakes dagegen werden häufig von Datenwissenschaftlern und Analysten in Forschungsprojekten eingesetzt. Hier müssen die Daten erst dann gefiltert und strukturiert werden, wenn sie nutzbar gemacht werden sollen.

Ein weiterer Unterschied zwischen Data Lakes und Data Warehouses ist, dass sie üblicherweise unterschiedliche Hardware für die Speicherung verwenden. Data Warehouses können sehr kostenintensiv sein, während Data Lakes trotz ihres riesigen Speichervolumens recht günstig sind, weil sie gängige Hardware nutzen.


Architektur von Data Lakes

Data Lakes verfügen über eine flache Architektur, weil die Daten unstrukturiert, teils strukturiert oder strukturiert sein und aus verschiedenen Quellen der gesamten Organisation erfasst werden können. Data Warehouses dagegen speichern Informationen in Dateien oder Verzeichnissen. Data Lakes können lokal oder in der Cloud ausgeführt werden.

Wegen ihrer Architektur bieten sie eine Skalierbarkeit bis in den Exabyte-Bereich hinein. Dies ist ein wichtiger Aspekt, denn bei der Erstellung eines Data Lakes wissen Sie im Allgemeinen nicht im Voraus, welches Datenvolumen gespeichert werden soll. Mit traditionellen Datenspeichersystemen ist eine solche Skalierung nicht möglich.

Die Architektur von Data Lakes kommt Datenwissenschaftlern zugute, denn sie können damit Daten-Mining und -analysen im gesamten Unternehmen durchführen, Daten teilen und Querverweise erstellen (auch heterogene Daten aus unterschiedlichen Geschäftsfeldern), Fragen stellen und neue Erkenntnisse sammeln. Dazu können sie Big Data-Analysen und maschinelles Lernen nutzen, um die Informationen in einem Data Lake zu untersuchen.

Auch wenn Informationen vor der Speicherung in einem Data Lake noch über kein festes Schema verfügen, müssen die Daten dennoch geschützt und gesteuert werden, um Datensümpfe zu vermeiden. Daten sollten bei einem solchen Vorgang immer zuerst mit Metadaten getaggt werden, damit später auf sie zugegriffen werden kann.


Warum Red Hat Storage?

Mit den offenen Lösungen von Red Hat, die Software-Defined Storage (SDS) nutzen, können Sie ein größeres Arbeitsvolumen bewältigen und ein schnelleres Wachstum realisieren − und sich dabei darauf verlassen, dass Ihre Daten, von wichtigen Finanzdokumenten bis hin zu Rich Media-Dateien, jederzeit sicher gespeichert werden.

Mit skalierbarem, kostengünstigem Software-Defined Storage lassen sich riesige Data Lakes analysieren und so wertvolle geschäftliche Erkenntnisse gewinnen. Die SDS-Lösungen von Red Hat basieren auch auf Open Source und profitieren damit von einer innovativen Community aus Entwicklern, Partnern und Kunden. Dadurch können Sie exakt steuern, wie Ihr Storage entsprechend Ihren unternehmensspezifischen Workloads, Umgebungen und Erfordernissen formatiert und verwendet werden soll.

Die Tools, die Sie für die Datenspeicherung benötigen

Eine softwaredefinierte Objekt-Storage-Plattform mit Schnittstellen für Block- und Datei-Storage. Sie unterstützt Cloud-Infrastrukturen, Medien-Repositories, Backup- und Wiederherstellungssysteme sowie Data Lakes. Sie eignet sich hervorragend für Red Hat OpenStack®& ;Platform.

Bauen Sie Ihre Container und hosten Sie Ihre Container-Anwendungsplattform auf einer modularen, skalierbaren Private Cloud-Infrastruktur.& ;Kombinieren Sie OpenStack mit Red Hat Ceph Storage für Objekt-, Block- und Datei-Storage und verbessern Sie so die Performance Ihrer Cloud.

Storage hat noch viel mehr zu bieten