Überblick
Ein Data Lake ist eine Art Daten-Repository, mit dem umfassende und unterschiedliche Rohdaten in ihrem nativen Format gespeichert werden können. Er bietet eine Rohansicht Ihrer Daten. Diese Technologie verbreitet sich zunehmend als Datenverwaltungsstrategie von Unternehmen, die ein großes und umfassendes Repository für ihre Daten benötigen.
Rohdaten sind Informationen, die noch zu keinem bestimmten Zweck verarbeitet worden sind. Daten in einem Data Lake werden erst dann strukturiert, wenn sie erstmals abgefragt werden. Data Scientists können bei Bedarf auf Rohdaten zugreifen, und zwar indem sie fortschrittliche Analysetools oder prädiktive Modelle nutzen.
Bei der Verwendung von Data Lakes bleiben sämtliche Informationen erhalten und werden vor der Speicherung weder entfernt noch gefiltert. Die Daten können in naher oder ferner Zukunft oder gar nicht analysiert werden. Sie können aber auch viele Male zu verschiedenen Zwecken eingesetzt werden. Dahingehend ist bei Daten, die für einen spezifischen Zweck strukturiert oder formatiert wurden, eine anderweitige Nutzung praktisch ausgeschlossen.
Ungefilterte und unstrukturierte Daten
Der Begriff „Data Lake“ wurde von James Dixon, Chief Technology Officer von Pentaho, geprägt. Die Beschreibung dieses Datenspeichertyps als „Lake“ macht Sinn, weil damit ein Pool an Daten in seinem natürlichem Zustand gespeichert wird, ähnlich einem Gewässer, das nicht gefiltert oder auf irgendeine Weise kanalisiert wurde. Daten fließen aus unterschiedlichen Quellen in den Data Lake und werden dort im Originalformat gespeichert.
Sie werden erst dann transformiert, wenn sie für eine Analyse benötigt werden und dann ein Schema angewendet wird. Man nennt das auch „Schema on Read“ (Schema beim Lesen), weil Daten bis zur Nutzung im Rohzustand verbleiben.
Ad-hoc-Zugriff auf Daten
Mithilfe von Data Lakes können Nutzerinnen und Nutzer auf Daten zugreifen und sie auf individuelle Art und Weise analysieren, ohne sie in ein anderes System verschieben zu müssen. Erkenntnisse und Berichte aus diesen Data Lakes werden üblicherweise ad hoc generiert, das heißt, es werden keine regelmäßigen Analyseberichte von anderen Plattformen oder Datenspeichern abgerufen. Allerdings können Nutzerinnen und Nutzer ein Schema und eine Automatisierung anwenden, um einen Bericht bei Bedarf zu duplizieren.
Data Lakes müssen geschützt und regelmäßig gewartet werden, damit die darin enthaltenen Daten nutzbar und zugänglich bleiben. Ohne diese Instandhaltung riskieren Sie, dass Ihre Informationen unzugänglich, unhandlich, teuer und nutzlos, also zu Datenmüll werden. Data Lakes, die für Nutzende nicht mehr zugänglich sind, nennt man auch „Data Swamps“ oder Datensümpfe.
Vorteile von Data Lakes
Für Unternehmen hat es viele Vorteile, große und unterschiedliche Rohdaten-Sets in ihrem nativen Format als Data Lake zu speichern.
- Sie sind skalierbar. Data Lakes können große Datenvolumina, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten, in großem Umfang verarbeiten. Sie speichern Daten, ohne dass dafür ein vordefiniertes Schema erforderlich ist und ermöglichen so die Aufnahme unterschiedlicher Datentypen. Dies kann zu einer verbesserten Computing-Performance führen. Moderne Data Lake-Lösungen nutzen verteilte Computing-Frameworks, was die effiziente Verarbeitung großer Datensätze erlaubt.
- Data Lakes sind eine kosteneffektive Option für das Speichern großer Datenmengen, da sie normalerweise kostengünstige Storage-Lösungen, wie etwa cloudbasierten Object Storage, verwenden. Da Data Lakes wie ein zentralisierter Datenspeicher strukturiert sind, entfällt die Notwendigkeit, mehrere Kopien derselben Daten über verschiedene Systeme hinweg zu pflegen.
- Der „Schema on Read“-Ansatz von Data Lakes bietet zudem eine größere Flexibilität als traditionelle Data Warehouses. Da sie Daten in ihrem nativen Format speichern, besitzen Data Lakes mehr Agilität bei der Integration und Analyse diverser Datensätze.
- Im Vergleich zu traditionellen Data Warehouses bietet das zentrale Repository eines Data Lakes einen umfassenden Überblick über Unternehmensdaten. Diese Konsolidierung von Daten verbessert den Datenzugriff und beseitigt Hindernisse beim Teilen von Daten sowie bei der Zusammenarbeit.
- Das zentralisierte Repository von Data Lakes vereinfacht die Data Governance. Funktionen für die Data Governance, wie etwa das Metadaten-Management, die Datenherkunft sowie Zugangskontrollen, stellen die Datenqualität, Konsistenz und die Compliance mit Richtlinien sicher.
- Und diese genannten Vorteile führen zu mehr Innovation. Data Lakes fungieren als Sandbox-Umgebung für Data Scientists, in der diese Daten explorieren und mit diesen Daten experimentieren können, ohne dass dies Auswirkungen auf Produktionssysteme hat. Die schnellere Datenaufnahme und flexible Analyse in Data Lakes beschleunigt das Gewinnen von Insights und verbessert so die Agilität und Anpassung an Marktveränderungen.
Use Cases für Data Lakes
Häufige Use Cases für Data Lakes:
1. Fortschrittliche Analysen und maschinelles Lernen: Durch ihre Fähigkeit, große Datenmengen in ihrem nativen Format zu speichern, sind Data Lakes unerlässlich für fortschrittliche Analysen und maschinelles Lernen. In Data Lakes können Sie Daten aus unterschiedlichen Quellen sammeln und integrieren. Diese Quellen können beispielsweise Kundeninteraktionen, Verkaufsdaten oder Social Media-Aktivitäten sein. So können Data Scientists prädiktive Modelle und ausgeklügelte KI-Anwendungen entwickeln, die zu besseren geschäftlichen Insights und fundierteren Entscheidungen führen können.
2. Echtzeit-Datenverarbeitung: Data Lakes unterstützen die Datenaufnahme und -verarbeitung in Echtzeit und sind daher ideal für Anwendungen, die sofortige Insights benötigen. Beispiele hierfür sind Anwendungen für Aktienhandel, Betrugserkennung und operatives Monitoring. Ein Data Lake kann Transaktionsdaten in Echtzeit überwachen und dadurch sofort betrügerische Aktivitäten identifizieren und verhindern. In Fertigungsanlagen können Echtzeitdaten von Maschinen dazu verwendet werden, Anomalien zu erkennen und eine prädiktive Wartung durchzuführen. So werden Ausfallzeiten reduziert und die Effizienz verbessert.
3. Datenkonsolidierung und -integration: Data Lakes können Daten aus mehreren Quellen in ein einziges, einheitliches Repository integrieren und so Datensilos eliminieren. Das ist besonders hilfreich, um einen umfassenden Überblick über Kunden und Kundinnen zu erstellen. Beispielsweise erhalten Einzelhändler ein besseres Verständnis für das Kundenverhalten, wenn sie Daten aus der Kaufhistorie und von Interaktionen auf der Website oder Social Media kombinieren. Anschließend können sie diese Daten für die Entwicklung personalisierter Marketingkampagnen nutzen.
4. Einhaltung gesetzlicher Vorschriften und Data Governance: Data Lakes sind eine sichere und skalierbare Lösung zum Speichern großer Datenmengen und können die Einhaltung von Richtlinien wie GDPR, HIPAA und CCPA sicherstellen. Diese Echtzeit-Compliance ist besonders wichtig in Branchen wie dem Gesundheits- oder Finanzwesen, in denen strenge gesetzliche Vorschriften für die Datenspeicherung und -sicherheit eingehalten werden müssen.
5. Datenmanagement bei Edge-Geräten: Edge-Geräte generieren enorme Datenmengen, und Data Lakes sind in der Lage, solche großen Volumina und unterschiedliche Arten von Daten zu speichern und zu verarbeiten. Zu diesen Daten am Netzwerkrand zählen unter anderem Sensorwerte, Smart Metering-Daten und Logs verbundener Geräte. Aufgrund dieser Fähigkeit können Data Lakes für das Management von Smart Cities, die industrielle Automatisierung, prädiktive Wartung und weitere Use Cases eingesetzt werden.
Data Lakes bieten die Agilität und Anpassbarkeit, die für viele moderne Use Cases bei der Datenspeicherung und -verarbeitung notwendig sind.
Data Lake oder Data Warehouse
Diese beiden Begriffe werden oft synonym verwendet, aber die zugrundeliegenden Technologien dienen unterschiedlichen Zwecken. Bei beiden handelt es sich um Storage Repositories für Big Data, aber damit endet die Ähnlichkeit auch schon. Viele Unternehmen nutzen sowohl ein Data Warehouse als auch einen Data Lake für spezifische Anforderungen und Ziele.
Ein Data Warehouse bietet ein strukturiertes, für Berichte geeignetes Datenmodell. Dies ist der Hauptunterschied zwischen Data Lakes und Data Warehouses. Mit einem Data Lake speichern Sie unstrukturierte, rohe Daten ohne einen aktuell definierten Zweck.
Um Daten in einem Data Warehouse speichern zu können, müssen diese zuvor verarbeitet werden. Dazu müssen Entscheidungen darüber getroffen werden, welche Daten in das Data Warehouse integriert werden und welche nicht. Das nennt man auch „Schema on Write“ (Schema beim Schreiben).
Der Prozess der Datenstrukturierung vor der Speicherung in einem Data Warehouse kann sehr zeitaufwendig und komplex sein. Er kann Monate oder gar Jahre dauern, was einer direkten Nutzung komplett entgegensteht. Mit einem Data Lake können Sie Daten sofort erfassen und erst später entscheiden, was mit ihnen geschehen soll.
Wegen der strukturierten Daten werden Data Warehouses meist von Business Analysts und anderen geschäftlichen Nutzenden verwendet, die bereits im Voraus wissen, welche Daten sie für regelmäßige Berichte benötigen. Data Lakes dagegen werden häufig von Data Scientists und Data Analysts in Forschungsprojekten eingesetzt. Hier müssen die Daten erst dann gefiltert und strukturiert werden, wenn sie nutzbar gemacht werden sollen.
Ein weiterer Unterschied zwischen Data Lakes und Data Warehouses ist, dass sie üblicherweise unterschiedliche Hardware für die Speicherung verwenden. Data Warehouses können sehr kostenintensiv sein, während Data Lakes trotz ihres riesigen Speichervolumens recht günstig sind, weil sie gängige Hardware nutzen.
Data Lakes in der Cloud
Cloud-Lösungen bietet Skalierbarkeit und Kosteneffektivität, da Unternehmen ihren Bedarf im Laufe der Zeit anpassen können. Wenn Data Lakes auf Cloud Storage zurückgreifen, sind sie unendlich skalierbar, da sie bei ihrem Wachstum nicht von der Hardware einer Organisation abhängig sind. Zusätzlich zu dieser Skalierbarkeit bieten Cloud-Lösungen Performance-Lösungen, da sie nach Bedarf vertikal oder horizontal skaliert werden können. Cloud-Lösungen für Data Lakes sind außerdem oft kosteneffizienter als On-Premise-Hardware, da sie eine flexible Infrastruktur bieten.
Cloudbasierte Data Lakes bieten mehr Datenzugriff als andere Lösungen, da von beliebigen Orten weltweit auf sie zugegriffen werden kann, was einen großen Vorteil für verteilte Teams darstellt. Weiterhin wurden Cloud Services für die Integration mit anderen Cloud Services entwickelt, wodurch cloudbasierte Data Lakes eine bessere Integration mit weniger Aufwand bieten.
Die größten Anbieter im Bereich Cloud Computing bieten nahezu alle Data Lake-Services an. Amazon S3 ist die Basis für Data Lakes auf AWS. Microsoft Azure bietet Azure Data Lake Storage. Google Cloud Storage bietet skalierbaren und sicheren Object Storage, der als Basis für Data Lakes auf Google Cloud Platform dient. IBM Cloud Object Storage ist ideal für die Entwicklung von Data Lakes, da er auf eine hohe Dauerhaftigkeit, Sicherheit und Datenverfügbarkeit ausgelegt ist, sich mit den Analysen und KI-Services von IBM integrieren lässt und umfassende Datenlösungen bietet.
Architektur von Data Lakes
Data Lakes verfügen über eine flache Architektur, weil die Daten unstrukturiert, teils strukturiert oder strukturiert sein und aus verschiedenen Quellen der gesamten Organisation erfasst werden können. Data Warehouses dagegen speichern Informationen in Dateien oder Verzeichnissen. Data Lakes können lokal oder in der Cloud ausgeführt werden.
Wegen ihrer Architektur bieten sie eine Skalierbarkeit bis in den Exabyte-Bereich hinein. Dies ist ein wichtiger Aspekt, denn bei der Erstellung eines Data Lakes wissen Sie im Allgemeinen nicht im Voraus, welches Datenvolumen gespeichert werden soll. Mit traditionellen Datenspeichersystemen ist eine solche Skalierung nicht möglich.
Die Architektur von Data Lakes kommt Data Scientists zugute, denn sie können damit Daten-Mining und -analysen im gesamten Unternehmen durchführen, Daten teilen und Querverweise erstellen (auch heterogene Daten aus unterschiedlichen Geschäftsfeldern), Fragen stellen und neue Erkenntnisse sammeln. Dazu können sie Big Data-Analysen und maschinelles Lernen nutzen, um die Informationen in einem Data Lake zu untersuchen.
Auch wenn Informationen vor der Speicherung in einem Data Lake noch über kein festes Schema verfügen, müssen die Daten dennoch geschützt und gesteuert werden, um Datensümpfe zu vermeiden. Daten sollten bei einem solchen Vorgang immer zuerst mit Metadaten getaggt werden, damit später auf sie zugegriffen werden kann.
Besseres Management von KI/ML-Anwendungen
In dieser Webinar-Reihe erfahren Sie von Fachleuten, wie das Deployment und Lifecycle-Management von KI/ML-Anwendungen (Künstliche Intelligenz/Maschinelles Lernen) vereinfacht werden, damit Sie ML-Modelle und KI-Apps schneller entwickeln, gemeinsam bearbeiten und freigeben können.
Warum Red Hat Data Services?
Mit den offenen Lösungen von Red Hat, die Software-Defined Storage (SDS) nutzen, können Sie ein größeres Arbeitsvolumen bewältigen und ein schnelleres Wachstum realisieren − und sich dabei darauf verlassen, dass Ihre Daten, von wichtigen Finanzdokumenten bis hin zu Rich Media-Dateien, jederzeit sicher gespeichert werden.
Mit skalierbarem, kostengünstigem Software-Defined Storage lassen sich riesige Data Lakes analysieren und so wertvolle geschäftliche Erkenntnisse gewinnen. Die SDS-Lösungen von Red Hat basieren auch auf Open Source und profitieren damit von einer innovativen Community aus Entwicklerinnen und Entwicklern, Partnern und Kunden. Dadurch können Sie exakt steuern, wie Ihr Storage entsprechend Ihren unternehmensspezifischen Workloads, Umgebungen und Erfordernissen formatiert und verwendet werden soll.