建立现代化数据栈时要牢记的三件事

简介:   构建数据堆栈令人困惑。不一定是。  介绍  如何看待数据栈?  如果您的工作需要分析数据,或者需要支持分析数据的团队,那么您可能会发现自己正在数据管道上工作,并在进行过程中了解其复杂性。尽管数据管道要比20年前少几年,但如今数据团队面临的日常挑战在很大程度上是相同的。到目前为止,我们如何走过,却仍留在原地?

  构建数据堆栈令人困惑。不一定是。

  介绍

  如何看待数据栈?

  如果您的工作需要分析数据,或者需要支持分析数据的团队,那么您可能会发现自己正在数据管道上工作,并在进行过程中了解其复杂性。尽管数据管道要比20年前少几年,但如今数据团队面临的日常挑战在很大程度上是相同的。到目前为止,我们如何走过,却仍留在原地?

  我们已经看到了为促进现代数据堆栈而进行的大量周到的工作。安德森·霍洛维茨(Andreessen Horowitz)关于新兴建筑的开创性思想著作;Matt Turck详尽的数据领域;和Tristan Handy的《现代数据栈:过去,现在和未来》都是当前数据从业者必读的内容。(Tristan随附的有关数据基础设施的未来的视频也是必看的。)

  但是,根据我们的经验,在过去5年中,我曾与Internet公司中的大规模数据栈合作,并与数百家公司的数据团队进行了面谈,但仍然感觉到现代数据栈的复杂性并未真正降低。最明显的方式,因此它们被认为是不可避免的。例如,即使在简化数据堆栈方面取得了巨大进步,尤其是在过去的五年中,建立和调试数据管道的数据团队的认知负担仍然大致相同。现在,有更多具有重叠功能的工具可供选择。直到将二手手游账号拍卖平台工具组合在一起并在一段时间内使用它们之后,才知道工具选择的真正含义是什么。没有一个简单易懂的框架可以帮助团队了解如何为自己的独特需求构建最佳的数据堆栈。

  本文的目的是提出一个简化的框架并开始对话。我们不会尝试提供所有工具的完整词汇表以及如何使用它们(为此,我们强烈建议您查看Matt Turck的景观pdf)。但是,我们将为您提供一个概念模型,以帮助您在选择工具时考虑其含义。

  我们将为您如何考虑构建数据堆栈提供一个简化的框架。更重要的是,我们希望不要仅仅根据当今可用或流行的工具来考虑您的数据堆栈,而要让您掌握这些工具以及它们的发展方式,而是让您重新控制自己的想法数据堆栈和满足您需要的工具中的插槽。这并不意味着您不必进行集成工具的艰苦工作,但是至少,它应该可以帮助您合理化为什么要进行如此艰苦的工作!

  我们在Datacoral的团队积极使用此模型来构建我们的产品,并建议我们的客户和合作伙伴选择适合他们需求的工具。

  通过共享此模型,我们希望为数据团队提供更好的方式来了解他们如何将不同的工具放入其数据堆栈中。最终,我们希望开始对话,朝着实现此概念模型的方向发展,以构建更好,更具可扩展性的现代数据堆栈。

  谁在乎?

  无论您是只是认真对待数据的A系列公司的CTO(即,您不对生产数据库进行分析!)还是已建立公司的数据总监,都在担心数据治理和数据管理成本,您可能希望升级数据堆栈,以使数据更复杂,同时又使它:

  更具扩展性易于管理便宜一点

  最重要的是,您的目标可能是相同的。建立一个系统来集成,转换,加载和分析数据对于您的成功至关重要。为了满足您的需求,市场上已经提供了数百种工具和技术来帮助公司迁移,存储,操纵,管理和管理数据。这包括:

  来自公共云的PaaS工具开源工具新的云原生SaaS工具从90年代末到2000年代初,在职人数大量但在减少

  此外,针对数据栈的每个方面都有多个选项,例如数据集成,查询引擎,ETL,数据治理,机器学习和数据可视化。

  公司在升级其数据栈时面临的最大问题是要选择哪种工具组合。有太多可供选择的选择,而且尚不清楚一个工具的功能在哪里结束而另一种工具在哪里开始。始终将它们与更新的工具结合在一起,您永远都不知道自己是否做出了正确的选择。但是很清楚的是,无论您做出什么选择,您都必须花费时间将它们集成起来,并解决不可避免地出现的所有问题。此外,您的选择还告知(或限制)您应该如何操作栈-基本上决定数据栈的人员,流程和技术的三元组。

  由于很难更换工具,问题是:“在未来两到三年内,什么样的分析栈能很好地为我的组织服务?”

  我

目录
相关文章
|
4月前
|
JavaScript API
【Vue 3】effectScope 究竟为何物?其运作机制如何?又能为我们化解哪些难题?
【Vue 3】effectScope 究竟为何物?其运作机制如何?又能为我们化解哪些难题?
|
监控 前端开发
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
131 0
|
存储 开发框架 缓存
数据流动的精妙之道——UniApp中的数据通信与状态管理解析
数据流动的精妙之道——UniApp中的数据通信与状态管理解析
相亲软件开发,关注应用启动优化的本质
相亲软件开发,关注应用启动优化的本质
|
JSON JavaScript 数据可视化
提高效率,记一个内部工具的开发经历
提高效率,记一个内部工具的开发经历
213 0
|
JavaScript Dubbo 小程序
4年工作经验,多线程间的5种通信方式都说不出来,你敢信?
有两个线程,A 线程向一个集合里面依次添加元素“abc”字符串,一共添加十次,当添加到第五次的时候,希望 B 线程能够收到 A 线程的通知,然后 B 线程执行相关的业务操作。线程间通信的模型有两种:共享内存和消息传递,以下方式都是基本这两种模型来实现的。
相亲源码开发,如何让消息模块发挥应有价值?
相亲源码开发,如何让消息模块发挥应有价值?
|
Java C++
保守VS开放?看清封装对象属性 | 带你学《Java面向对象编程》之四
高楼万丈,起于平地。本节通过对比正反几个实例剖析了封装对象属性的必要性,介绍了进行封装的基本原则。
保守VS开放?看清封装对象属性   |  带你学《Java面向对象编程》之四
还在担心工作要被取代?现实却是机器人已经开始被开除了
短时间内,所谓的“机器人酒店”都是噱头。
351 0
|
程序员 数据库
主动编程与被动编程!(8/2原则的续集)
1、被动编程。      就好比对日外包的项目,不是太了解,只是有所耳闻。听说日本公司那面会发过来一份(也许用一批更好一些)很详细的文档,里面的内容就是编写代码的详细的要求,会非常非常的详细,细到一个页面里面放置列表页面显示那些信息,一页多少条记录、表单里面放多少个控件,以及控件的ID、类型、大小、等等信息。
831 0