什么是大数据?
大数据是指对于传统的数据处理方法来说过于庞大或复杂的数据。总的来说,大数据的特征可总结为"3V"——体量(volume)、类型(variety)和速度(velocity)。体量是指数据量极大,类型是指非标准格式范围广,而速度则意味着要快速高效地处理。
大数据分析与 IT 优化
大数据分析是指对所有原始数据和暗数据进行整合,从而让您理解、为您所用的过程。暗数据是组织在正常业务活动中收集的数据,为满足合规性要求,我们必须对暗数据进行存储和保护。人们常常会忽视暗数据,但与其他数据一样,它们也能够生成有价值的洞见,帮助您改善业务。
大数据洞察可帮助您避免代价高昂的问题,而不是被动地响应问题。分析数据模式有助于您预测(而不只是猜测)客户的行为和需求,它也能帮您增加收入。
为了确保效率,分析软件需要运行于灵活、全面且可信的基础之上。因此,IT 优化就非常关键。您需要确保在技术堆栈发生变化时,仍能继续收集、分析和使用数据。
数据湖、数据沼泽与大数据存储
数据湖是一个存储库,可将数据的近似精确副本或精确副本存储在同一位置。在需要一个大型整体存储库来管理其数据的企业中,数据湖已经越来越普遍。与数据库相比,它们的价格也更低。
数据湖可让您以原生格式保存大量数据,方便您的顶级分析师在传统数据存储(比如数据仓库)以外,独立于任何记录系统(针对给定数据元素的权威数据源名称),来钻研其细化和分析技能。如果您想要让您最优秀的分析师继续磨练他们的技能并探索分析数据的新方法,那么您就需要一个数据湖。
数据湖既需要持续维护,也需要针对数据的访问和使用制定一个计划。如果维护不当,您的数据就可能会沦为一堆垃圾,无法访问、难以操作、价格高昂而且毫无用处。用户无法访问的数据湖,就成了"数据沼泽"。
大型企业都会设有多个业务部门(BU),每个都有特殊的数据需求。为了分析,每个业务部门都要竞相争取获得数据和基础架构,这就是对资源的争夺。但数据湖无法解决这个问题。您需要的,是具备数据共享环境的多租户工作负载隔离。那又意味着什么呢?
简单而言,在这种解决方案中,通过对数据分析工具进行容器化或虚拟化,您的企业可以只用处理少部分可以在各个业务部门之间共享的副本,而不用在每个业务部门需要访问数据时都制定完整数据副本(通过管理编写脚本来复制数据并使其全部工作来完成)。
大数据集成中的 IT 挑战
大数据是敏捷集成的一大挑战。如何在保持严格服务水平协议的同时,在多个业务部门之间共享数据?如何从您的数据中获得更多价值?
挖掘大数据回报很高,但也很复杂。数据科学家负责分析数据,以获取有助于业务发展的洞察和建议。数据工程师需要在数据管道中识别、组装和管理正确的工具,以便为数据科学家提供最好的支持。最后,在基础架构方面,管理员必须深耕基础架构,以提供即将使用的基本服务。这一系列的工作中,无不伴随着集成、存储容量和 IT 预算缩减等挑战。
如果您想寻求集成解决方案,请先思考以下问题:
- 您的数据源是否可靠?您的数据是否真实?
- 您的存储容量是否充足?您基于硬件的存储会不会隔离数据,导致难以查找、访问和管理信息?
- 您的架构能否适应不断发展的数据技术?
- 您有没有充分利用云?
- 您的数据有保护吗?针对大数据您制定了哪些安全性方案?