数据湖或hub的概念最初是由大数据厂商提出的,表面上看,
数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的
企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行
数据分析。现在的大
数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在
商业智能(BI)和
数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时
智能服务发展,这些实时的智能服务可以支持实时的
决策制定。
数据湖架构面向多
数据源的
信息存储,包括
物联网在内。
大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。
数据湖的数据
持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和下一年的数据进行比对,这将抵消其容量成本。
在数据湖架构中,
信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的
存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个
存储库的安全被破坏,那么未知方将可能访问所有数据。很多
数据都以易于读取的格式存储,像是
JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。