从50家值得关注的数据领域创业公司,简单解读“最新数据基础设施”

简介: 一起学习a16z最近的几篇文章,了解最新数据领域的技术动态和分析其中所包含2020年至今的一些发展趋势。

引言

最近,a16z发布了关于数据领域的技术文章《Emerging Architectures for Modern Data Infrastructure》,文章将大量的数据领域创新技术综合在一起,搭建出一个数据基础设施蓝图,称之为“Unified data infrastructure (2.0)”。之所以称之为2.0,是因为a16z在2020年就已经发布过当时的技术总结《Emerging Architectures for Modern Data Infrastructure: 2020》。另外,a16z在不久前发布《Data50: The World’s Top Data Startups》报告,其中列出了2022年最值得关注的50家数据领域创业公司。

这里,我们将一起学习以上几篇文章,了解最新数据领域的技术动态和分析其中所包含2020年至今的一些发展趋势。

关于a16z,网上已经有很多讲解文章,做一个简述“这是一家专注于新兴技术的黑马投资机构”。

Data50:2022年最值得关注的50家数据创业公司

报告从市场角度将数据领域分为7个方向,各方向所包含的公司如上图所示。对每个方向也有对应的分析:

  1. Query and processing(公司数占比20%,投资额占比48%): 作为数据查询和分析的核心技术,包括批处理(例如DatabricksStarburst)和实时处理(比如ClickHouseImply)两个方向。随着用户应用对数据实时性要求越要越高,实时处理方向最近几年也备受瞩目。
  2. AI/ML(公司数占比30%,投资额占比14.1%): 包括算法和数据处理两个大方向。一些公司专注于某类特定场景(比如RasaHugging Face专注在NLP),一些则志在完成通用AI(比如 ScaleTectonWeights and BiasesAnyscale)。
  3. ELT & orchestration(公司数占比12%,投资额占比12.1%):实现数据的流转与处理。传统的本地部署(on-premise)ETL工具提供拖拖拽拽的用户界面。而最新的发展趋势是云原生(比如Fivetrandbt)和面向开发者(AstronomerPrefect),其面对的数据环境更为复杂。
  4. Data governance and security(公司数占比12%,投资额占比15.2%):相对较新的领域,目前主要服务受合规管控的大公司。不过市场重视程度也在提高。一些公司在研发数据生命周期管理的产品(比如 OneTrustCollibra)。
  5. Customer data analytics(公司数占比12%,投资额占比5.4%):在传统分类里,这一领域属于营销团队,不过随着越来越受市场重视,数据团队也参与其中。报告里选中的两家相关公司都是与垂直领域反向ETL相关(CensusHightouch
  6. BI & notebooks(公司数占比10%,投资额占比4%):数据的最终消费端。重点公司有开源新玩家 PresetMetabase,交互式操作平台(notebooks)Hex,自动话数据洞察Sisu
  7. Data observability(公司数占比4%,投资额占比1.2%):这是最新的方向,选中的公司包括Monte CarloBigeye

报告中有一些比较有意思的统计结论。比如公司数目最多的方向是AI/ML(占比30%),获得投资额最多的方向是query and processing(占比48%)。个人理解,这表示AI/ML还在初期,竞争非常激烈;而query and processing则相对成熟,出现了少数规模较大的玩家。

AI/ML方向的新增创业公司数在2019年达到顶峰:

每个方向的获投资额都是在逐年增长。报告认为“未来十年将会是数据的时代”,相关的机会和创业公司会越来越多。

数据基础设施蓝图

上图是通用数据基础设施蓝图,其中各个部分功能定义如下:

Sources

Ingestion and Transport

Storage

Query and Processing

Transformation

Analytics and Output

数据源:产生特定的业务或者系统运行数据,并可以通过某种方式将数据提供出来

Extract:从数据源中拉取数据

Load:解析原始数据,并写入存储目标

Transport:将存储目标中的数据写入左侧数据源源中,提供业务使用(即反向ETL,并非ETL中的T)

数据存储,提供给查询和分析使用。

设计目标:高并发、低延迟、低成本、可扩展。

将用户使用的高级数据处理语言(比如SQL、Python)解析为程序执行语言。

运行查询和分析。包括历史数据的统计分析和未来趋势预测等。

对数据进行规整化(即加工处理,ETL中的T)。

包括流程编排。

给数据科学家或者业务分析者提供的结果可视化接口。

也可能是将数据分析结果提供给数据应用的用户。

从图中个人直观感觉最明显的两点变化:

  1. ETL变为了EL+T,相比于前两年的ELT流程更彻底。这一点从Data50的报告中也可以看到,比如T的典型公司dbt保持优势,专注在EL的Airbyte强劲增长。
  2. 增加了反向ETL(即图中Transport),具体也可参考上文Data50的相关内容。


上图是机器学习技术架构,其相较于通用数据架构更为复杂,二者的工具链完全不一样所以需要单独讨论。其中各个部分功能定义如下:

Data Transformation

Model Training and Development

Model Inference

Integration

数据预处理和打标(监督学习)。

模型训练(基本都是基于预训练好的基础模型)。

参数优化监测。

模型评估。

模型输出(给下游应用系统)。

模型检验(包括在线预测和离线预测两种场景),比如性能、错误率等。

模型上线。

相对于2020版本的更新

文章中认为,数据领域的核心并没有改变。包括云原生相关产品在快速增长、数据的ETL过程活力依旧。其中最大的变化是相关生态在快速的丰富(文中用了寒武纪大爆发来形容):大量的垂直领域工具和上层数据应用的发布。

文章将数据驱动的场景分为三个主模块:最新BI系统、多模式数据处理和AI/ML,接下来会详细讨论。在此之上,将上层数据应用系统分为2类:分析型系统(将数据提供给公司内部业务和决策部门使用)、交互型系统(将数据或者模型通过数据应用提供给用户使用)。

下面几个部分的分析图的相关图例:

  1. 灰色部分表示与当前讨论内容相关度较低,可以暂时忽略;
  2. 深颜色表示该部分与2020版本相比存在较大变化;
  3. 浅颜色表示该部分与2020版本相比没有较大变化。

最新BI系统

定义:可以为任何一家公司提供服务的云原生BI系统。

哪些没有改变:

  • 数据系统核心没有改变,之前强势的厂商依然保持,比如Fivetran、Snowflake、dbt。一些较新的玩家保持增长,比如Airbyte、Firebolt。
  • 可视化仪表盘依然是数据输出至应用册的主流方案。

哪些方面变化较大:

  • 数据模式定义层(metrics layer)广受关注。
  • 反向ETL快速增长,这一点上文已有讨论。目前相关的服务对象基本上是CRM和ERP。
  • 可视化仪表盘标准化推进,比如Hex。
  • 数据可观测性,这一点在Data50报告中也有相关方向讨论。

多模式数据处理

定义:湖仓一体同时支持分析型系统和交互型系统,也被称为Hadoop系的最新架构升级版。

哪些没有改变:

  • 数据处理、传输、存储等数据系统核心依然增长强劲。
  • 多摸数据系统多样化发展。

哪些方面变化较大:

  • 湖仓一体架构的共识提升。
  • 数据存储层在迭代升级。
  • 实时计算新增一些玩家,主要方向是低使用门槛,比如Materialize和Upsolver

AI/ML

定义:稳定的机器学习模型开发、测试和实施系统。

哪些没有改变:

  • 模型开发工具链几乎没有变化。
  • 模型的构建与实施依然存在非常高的门槛。

哪些方面变化较大:

  • 数据为中心的ML发展:数据打标、特征存储等方向发展迅速、低代码ML(比如Continual和MindsDB)。
  • 预训练模型的应用基本称为标准选择。
  • MLOps工具链发展。
  • ML模型集成至数据系统方案发展,比如OpenAI、Pinecone。

数据平台假设

此章节中,作者提出了一个概念数据平台(data platform),主要目的是将各个独立的模块通过系统的形式组装起来。个人感觉跟前几年国内的火热的数据中台概念比较相似。具体论述细节就不在这里讨论。

思考与总结

以上是学习a16z最近在数据领域的几篇文章的完整内容,每篇文章的具体链接已经在正文链接中给出,本文所有图片均来自于引用的文章。

由于个人的技术背景和理解限制,文中的翻译可能存在偏差,仅供读者参考。如果有相同的兴趣或者不同的见解,欢迎探讨。

目录
相关文章
|
存储 机器学习/深度学习 数据采集
从50家值得关注的数据领域创业公司,简单解读“最新数据基础设施”
这里,我们将一起了解最新数据领域的技术动态和分析其中所包含2020年至今的一些发展趋势。
347 0
|
供应链 数据挖掘 调度
从阿里巴巴全球十万余员工疫情中远程协同办公,看组织数字化新机遇 | 首席增长官·大咖说
近期,首席增长官内容平台邀请到了支持阿里巴巴组织数字化、助力政企数字化发展,阿里巴巴资深总监田群喜带来重磅分享。以下是直播内容的精华版。
2524 0
从阿里巴巴全球十万余员工疫情中远程协同办公,看组织数字化新机遇 | 首席增长官·大咖说
[转]到2022年陕西省各类双创孵化载体要达到2000家
11月12日从陕西省科技创新创业工作推进会上了解到,陕西省深入实施创新驱动发展战略,积极构建双创服务体系,营造双创良好生态,目前,全省建立各类孵化载体1451家,在孵企业4.8万余家。
|
云计算
2017年最酷的100家云计算供应商
本文讲的是2017年最酷的100家云计算供应商【IT168 资讯】CRN已经连续7年推出《100大最酷的云计算供应商指南》,2017年2月1日,2017年的名单公布,该名单分别由20家云存储供应商、20家云平台和开发供应商、20家云基础设施供应商、20家云安全供应商和20家云软件供应商组成。
1883 0
|
数据采集 监控 安全
这家公司要做以数据和业务为核心的大数据安全
本文讲的是这家公司要做以数据和业务为核心的大数据安全,大数据与网络安全,已经越来越密不可分。
1391 0