数据湖架构面向多数据源的信息存储,包括
物联网在内。大数据分析或
归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。
尽管IT部门起初更多担忧的是数据湖的成本,但数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要那来分析以及和年复一年的数据进行比对,这将抵消其容量成本。
这就是所谓的数据持久性——对于那种一经存储未来5-10年都有价值的数据,它必须是可读的。所有形式的介质都将随时间推移降级。数据湖存储系统必须通过持续的检查避免这种降级。如果发现有损坏或降级的数据集,系统就会利用复制或纠删码制造副本。
在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以已于读取的格式存储,像是JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。