引言
最近,a16z发布了关于数据领域的技术文章《Emerging Architectures for Modern Data Infrastructure》,文章将大量的数据领域创新技术综合在一起,搭建出一个数据基础设施蓝图,称之为“Unified data infrastructure (2.0)”。之所以称之为2.0,是因为a16z在2020年就已经发布过当时的技术总结《Emerging Architectures for Modern Data Infrastructure: 2020》。另外,a16z在不久前发布《Data50: The World’s Top Data Startups》报告,其中列出了2022年最值得关注的50家数据领域创业公司。
这里,我们将一起学习以上几篇文章,了解最新数据领域的技术动态和分析其中所包含2020年至今的一些发展趋势。
关于a16z,网上已经有很多讲解文章,做一个简述“这是一家专注于新兴技术的黑马投资机构”。
Data50:2022年最值得关注的50家数据创业公司
报告从市场角度将数据领域分为7个方向,各方向所包含的公司如上图所示。对每个方向也有对应的分析:
- Query and processing(公司数占比20%,投资额占比48%): 作为数据查询和分析的核心技术,包括批处理(例如Databricks和Starburst)和实时处理(比如ClickHouse和Imply)两个方向。随着用户应用对数据实时性要求越要越高,实时处理方向最近几年也备受瞩目。
- AI/ML(公司数占比30%,投资额占比14.1%): 包括算法和数据处理两个大方向。一些公司专注于某类特定场景(比如Rasa和Hugging Face专注在NLP),一些则志在完成通用AI(比如 Scale、Tecton、Weights and Biases、Anyscale)。
- ELT & orchestration(公司数占比12%,投资额占比12.1%):实现数据的流转与处理。传统的本地部署(on-premise)ETL工具提供拖拖拽拽的用户界面。而最新的发展趋势是云原生(比如Fivetran和dbt)和面向开发者(Astronomer和Prefect),其面对的数据环境更为复杂。
- Data governance and security(公司数占比12%,投资额占比15.2%):相对较新的领域,目前主要服务受合规管控的大公司。不过市场重视程度也在提高。一些公司在研发数据生命周期管理的产品(比如 OneTrust和Collibra)。
- Customer data analytics(公司数占比12%,投资额占比5.4%):在传统分类里,这一领域属于营销团队,不过随着越来越受市场重视,数据团队也参与其中。报告里选中的两家相关公司都是与垂直领域反向ETL相关(Census和Hightouch)
- BI & notebooks(公司数占比10%,投资额占比4%):数据的最终消费端。重点公司有开源新玩家 Preset和Metabase,交互式操作平台(notebooks)Hex,自动话数据洞察Sisu。
- Data observability(公司数占比4%,投资额占比1.2%):这是最新的方向,选中的公司包括Monte Carlo和Bigeye。
报告中有一些比较有意思的统计结论。比如公司数目最多的方向是AI/ML(占比30%),获得投资额最多的方向是query and processing(占比48%)。个人理解,这表示AI/ML还在初期,竞争非常激烈;而query and processing则相对成熟,出现了少数规模较大的玩家。
AI/ML方向的新增创业公司数在2019年达到顶峰:
每个方向的获投资额都是在逐年增长。报告认为“未来十年将会是数据的时代”,相关的机会和创业公司会越来越多。
数据基础设施蓝图
上图是通用数据基础设施蓝图,其中各个部分功能定义如下:
Sources |
Ingestion and Transport |
Storage |
Query and Processing |
Transformation |
Analytics and Output |
数据源:产生特定的业务或者系统运行数据,并可以通过某种方式将数据提供出来 |
Extract:从数据源中拉取数据 Load:解析原始数据,并写入存储目标 Transport:将存储目标中的数据写入左侧数据源源中,提供业务使用(即反向ETL,并非ETL中的T) |
数据存储,提供给查询和分析使用。 设计目标:高并发、低延迟、低成本、可扩展。 |
将用户使用的高级数据处理语言(比如SQL、Python)解析为程序执行语言。 运行查询和分析。包括历史数据的统计分析和未来趋势预测等。 |
对数据进行规整化(即加工处理,ETL中的T)。 包括流程编排。 |
给数据科学家或者业务分析者提供的结果可视化接口。 也可能是将数据分析结果提供给数据应用的用户。 |
从图中个人直观感觉最明显的两点变化:
- ETL变为了EL+T,相比于前两年的ELT流程更彻底。这一点从Data50的报告中也可以看到,比如T的典型公司dbt保持优势,专注在EL的Airbyte强劲增长。
- 增加了反向ETL(即图中Transport),具体也可参考上文Data50的相关内容。
上图是机器学习技术架构,其相较于通用数据架构更为复杂,二者的工具链完全不一样所以需要单独讨论。其中各个部分功能定义如下:
Data Transformation |
Model Training and Development |
Model Inference |
Integration |
数据预处理和打标(监督学习)。 |
模型训练(基本都是基于预训练好的基础模型)。 参数优化监测。 模型评估。 模型输出(给下游应用系统)。 |
模型检验(包括在线预测和离线预测两种场景),比如性能、错误率等。 |
模型上线。 |
相对于2020版本的更新
文章中认为,数据领域的核心并没有改变。包括云原生相关产品在快速增长、数据的ETL过程活力依旧。其中最大的变化是相关生态在快速的丰富(文中用了寒武纪大爆发来形容):大量的垂直领域工具和上层数据应用的发布。
文章将数据驱动的场景分为三个主模块:最新BI系统、多模式数据处理和AI/ML,接下来会详细讨论。在此之上,将上层数据应用系统分为2类:分析型系统(将数据提供给公司内部业务和决策部门使用)、交互型系统(将数据或者模型通过数据应用提供给用户使用)。
下面几个部分的分析图的相关图例:
- 灰色部分表示与当前讨论内容相关度较低,可以暂时忽略;
- 深颜色表示该部分与2020版本相比存在较大变化;
- 浅颜色表示该部分与2020版本相比没有较大变化。
最新BI系统
定义:可以为任何一家公司提供服务的云原生BI系统。
哪些没有改变:
- 数据系统核心没有改变,之前强势的厂商依然保持,比如Fivetran、Snowflake、dbt。一些较新的玩家保持增长,比如Airbyte、Firebolt。
- 可视化仪表盘依然是数据输出至应用册的主流方案。
哪些方面变化较大:
- 数据模式定义层(metrics layer)广受关注。
- 反向ETL快速增长,这一点上文已有讨论。目前相关的服务对象基本上是CRM和ERP。
- 可视化仪表盘标准化推进,比如Hex。
- 数据可观测性,这一点在Data50报告中也有相关方向讨论。
多模式数据处理
定义:湖仓一体同时支持分析型系统和交互型系统,也被称为Hadoop系的最新架构升级版。
哪些没有改变:
- 数据处理、传输、存储等数据系统核心依然增长强劲。
- 多摸数据系统多样化发展。
哪些方面变化较大:
- 湖仓一体架构的共识提升。
- 数据存储层在迭代升级。
- 实时计算新增一些玩家,主要方向是低使用门槛,比如Materialize和Upsolver。
AI/ML
定义:稳定的机器学习模型开发、测试和实施系统。
哪些没有改变:
- 模型开发工具链几乎没有变化。
- 模型的构建与实施依然存在非常高的门槛。
哪些方面变化较大:
- 数据为中心的ML发展:数据打标、特征存储等方向发展迅速、低代码ML(比如Continual和MindsDB)。
- 预训练模型的应用基本称为标准选择。
- MLOps工具链发展。
- ML模型集成至数据系统方案发展,比如OpenAI、Pinecone。
数据平台假设
此章节中,作者提出了一个概念数据平台(data platform),主要目的是将各个独立的模块通过系统的形式组装起来。个人感觉跟前几年国内的火热的数据中台概念比较相似。具体论述细节就不在这里讨论。
思考与总结
以上是学习a16z最近在数据领域的几篇文章的完整内容,每篇文章的具体链接已经在正文链接中给出,本文所有图片均来自于引用的文章。
由于个人的技术背景和理解限制,文中的翻译可能存在偏差,仅供读者参考。如果有相同的兴趣或者不同的见解,欢迎探讨。