数据使用的场景在转变,驱动的源头也发生了变化,产生了很多由项目驱动变成运营驱动的数据建模。实际上,传统的数据建模的过程,已经不适合现代的要求。
现代数据栈是基于原始数据进行数据建模,需求更加旺盛,数据建模的重要性也得以凸显。如今,现代数据栈也繁衍出越来越多的新产品。关于现代数据建模有四种产品:Dbt、Dataform、Datameer、QuickTable。
数据建模产品
Dbt
Dbt Labs是一家数据建模产品公司,成立于2016年。其产品Dbt的目标是成为帮助数据分析师进行数据转换的工具。Dbt关键功能分为六个部分:
SQL代码版本控制(GitHub) ;
模型化SQL;
协作;
SQL流调度;
Jinja扩展;
Matrics商店。
Dataform
Dataform是与Dbt类似的产品。
Dataform成立于2018年,在2020年被Google收购,随后,Dataform逐渐变成GCP(Google Cloud Platform)的一部分。
Datameer
Datameer成立于2009年,经历了公司转型,最终在云上找到了自己生存的位置。Datameer产品以Hadoop云供应商Altiscale和Bigstep为特色,将大数据分析环境简化为Hadoop平台之上的单一应用程序。
Datameer通过引入智能执行来消除复杂性。智能执行是一种检查数据集特征、分析任务和可用系统资源的技术,可以智能、动态地确定并为每个工作负载使用最合适的执行框架。此选择对最终用户完全透明,不需要IT协助或额外的硬件和软件。
QuickTable
QuickTable是快用云科团队做的产品,它的功能体现在五个方面。
无代码数据建模工具。QuickTable使用户只需通过简单的拖拽操作,即可交互式地构建数据模型。用户无需编写复杂的SQL和Python代码,建模结果即刻呈现。
电子表格状界面。QuickTable让用户可以使用类似电子表格的界面来访问、探索、清洗、建模和转换数据。
多数据库和数据仓库支持。QuickTable为本地文件、在线电子表格、主流数据仓库/数据湖、对象存储和API提供了丰富的连接器,用户可以快速轻松地访问数据。
跨团队协作支持。通过QuickTable,团队成员之间可以随时随地查看、评论和编辑数据模型。
自动文档支持。如果用户先建模,把文档自动生成,文档与建模实际上是一体的,这样更有利于整个企业内部的数据处理。
总结
总的来说,现代数据栈已经成为一个新的趋势,如今关于数据栈的讨论也越来越多。云的能力实际上给企业使用数据提供了很好的基础,由于SaaS本身就是在收集企业数据,现代数据栈技术上的产品能让企业低成本地完成数据驱动。
因此,在这样的趋势之下,所有传统的数据技术工具都在现代数据栈上重新被构建。从数据接入到数据建模到BI,很多传统的数据产品也在现代数据技术栈中被重新的构建。当数据建模的场景日益丰富,数据的来源更加繁杂,数据建模在场景当中变得越来越重要。
但数据建模的产品,离真正成熟还有一定的距离。需要让更多的用户在不同的场景当中使用,经历产品反复打磨的过程。相信未来在数据建模的领域,一定会有更多的优质工具产生,这值得我们共同去探索。
————————————————