构建数据堆栈令人困惑。不一定是。
介绍
如何看待数据栈?
如果您的工作需要分析数据,或者需要支持分析数据的团队,那么您可能会发现自己正在数据管道上工作,并在进行过程中了解其复杂性。尽管数据管道要比20年前少几年,但如今数据团队面临的日常挑战在很大程度上是相同的。到目前为止,我们如何走过,却仍留在原地?
我们已经看到了为促进现代数据堆栈而进行的大量周到的工作。安德森·霍洛维茨(Andreessen Horowitz)关于新兴建筑的开创性思想著作;Matt Turck详尽的数据领域;和Tristan Handy的《现代数据栈:过去,现在和未来》都是当前数据从业者必读的内容。(Tristan随附的有关数据基础设施的未来的视频也是必看的。)
但是,根据我们的经验,在过去5年中,我曾与Internet公司中的大规模数据栈合作,并与数百家公司的数据团队进行了面谈,但仍然感觉到现代数据栈的复杂性并未真正降低。最明显的方式,因此它们被认为是不可避免的。例如,即使在简化数据堆栈方面取得了巨大进步,尤其是在过去的五年中,建立和调试数据管道的数据团队的认知负担仍然大致相同。现在,有更多具有重叠功能的工具可供选择。直到将二手手游账号拍卖平台工具组合在一起并在一段时间内使用它们之后,才知道工具选择的真正含义是什么。没有一个简单易懂的框架可以帮助团队了解如何为自己的独特需求构建最佳的数据堆栈。
本文的目的是提出一个简化的框架并开始对话。我们不会尝试提供所有工具的完整词汇表以及如何使用它们(为此,我们强烈建议您查看Matt Turck的景观pdf)。但是,我们将为您提供一个概念模型,以帮助您在选择工具时考虑其含义。
我们将为您如何考虑构建数据堆栈提供一个简化的框架。更重要的是,我们希望不要仅仅根据当今可用或流行的工具来考虑您的数据堆栈,而要让您掌握这些工具以及它们的发展方式,而是让您重新控制自己的想法数据堆栈和满足您需要的工具中的插槽。这并不意味着您不必进行集成工具的艰苦工作,但是至少,它应该可以帮助您合理化为什么要进行如此艰苦的工作!
我们在Datacoral的团队积极使用此模型来构建我们的产品,并建议我们的客户和合作伙伴选择适合他们需求的工具。
通过共享此模型,我们希望为数据团队提供更好的方式来了解他们如何将不同的工具放入其数据堆栈中。最终,我们希望开始对话,朝着实现此概念模型的方向发展,以构建更好,更具可扩展性的现代数据堆栈。
谁在乎?
无论您是只是认真对待数据的A系列公司的CTO(即,您不对生产数据库进行分析!)还是已建立公司的数据总监,都在担心数据治理和数据管理成本,您可能希望升级数据堆栈,以使数据更复杂,同时又使它:
更具扩展性易于管理便宜一点
最重要的是,您的目标可能是相同的。建立一个系统来集成,转换,加载和分析数据对于您的成功至关重要。为了满足您的需求,市场上已经提供了数百种工具和技术来帮助公司迁移,存储,操纵,管理和管理数据。这包括:
来自公共云的PaaS工具开源工具新的云原生SaaS工具从90年代末到2000年代初,在职人数大量但在减少
此外,针对数据栈的每个方面都有多个选项,例如数据集成,查询引擎,ETL,数据治理,机器学习和数据可视化。
公司在升级其数据栈时面临的最大问题是要选择哪种工具组合。有太多可供选择的选择,而且尚不清楚一个工具的功能在哪里结束而另一种工具在哪里开始。始终将它们与更新的工具结合在一起,您永远都不知道自己是否做出了正确的选择。但是很清楚的是,无论您做出什么选择,您都必须花费时间将它们集成起来,并解决不可避免地出现的所有问题。此外,您的选择还告知(或限制)您应该如何操作栈-基本上决定数据栈的人员,流程和技术的三元组。
由于很难更换工具,问题是:“在未来两到三年内,什么样的分析栈能很好地为我的组织服务?”
我