数据湖是一种以原生格式存储各种大型原始数据集的数据存储库。您可以通过数据湖宏观了解自己的数据。在一些需要为数据设置大型整体存储库的企业中,数据湖正在成为一种更通用的数据管理策略。
原始数据是指尙未针对特定目的处理过的数据。数据湖中的数据只有在查询后才会进行定义。数据科学家可在需要时用比较先进的分析工具或预测建模法访问原始数据。
数据湖可为您保留所有数据,在您存储前,任何数据都不会被删除或过滤。有些数据可能很快就会用于分析,有些则可能永远都派不上用场。有些数据也可能为了不同用途而多次使用,同时也有数据会为了特定目的不断优化,这就让我们难以用不同的方式重复使用数据。
Pentaho 的首席技术官 James Dixon 对"数据湖"进行了介绍。之所以将其称为湖,是因为这种数据存储库可以在自然状态下存储大量数据,就像一片未经过滤或包装的水体。数据从多种来源流入湖中,然后以原始格式存储。
只有在需要用来分析时,数据湖中的数据才会进行转换,因而分析数据时需要用到数据库模式(Schema)。这叫作"读时模式",因为数据会一直处于原始状态,直到读取使用。
通过数据湖,用户能够以自己的方式访问和探索数据,无需将数据移入其他系统。不同于定期从其他平台或数据存储库提取分析报告,数据湖的分析和报告通常可以临时获取。但是,用户可在必要时通过模式和自动化复制报告。
您需要监管和持续维护数据湖,才能确保数据时刻可用和可访问。如果维护不当,您的数据就可能会沦为一堆垃圾,无法访问、难以操作、价格高昂而且毫无用处。用户无法访问的数据湖,就成了"数据沼泽"。