以上思路的主要转变是将域数据产品视为首要关注点,将数据湖工具和管道视为次之关注点。这将当前的架构模式从集中式数据湖转变为可以很好地协同工作的数据产品生态系统,即数据网格。
同样的原则也适用于用于业务报告和可视化的数据仓库。它只是网格上的一个节点,并且可能位于网格的面向消费者的边缘上。
尽管数据网格实践被应用在有些客户中,但企业规模性的采用仍有很长的路要走。这并不是技术的限制,我们今天使用的所有工具都可以适应多个团队的分发和所有权。特别是向批处理和流的统一以及ApacheBeam等工具的转变,很容易允许处理可寻址的多语言数据集。组织中的工程师和领导者应该意识到,现有的大数据模式和大数据平台或数据湖,管理和应用不善可能会重复过去的失败。