从50家值得关注的数据领域创业公司,简单解读“最新数据基础设施”

简介: 一起学习a16z最近的几篇文章,了解最新数据领域的技术动态和分析其中所包含2020年至今的一些发展趋势。

引言

最近,a16z发布了关于数据领域的技术文章《Emerging Architectures for Modern Data Infrastructure》,文章将大量的数据领域创新技术综合在一起,搭建出一个数据基础设施蓝图,称之为“Unified data infrastructure (2.0)”。之所以称之为2.0,是因为a16z在2020年就已经发布过当时的技术总结《Emerging Architectures for Modern Data Infrastructure: 2020》。另外,a16z在不久前发布《Data50: The World’s Top Data Startups》报告,其中列出了2022年最值得关注的50家数据领域创业公司。

这里,我们将一起学习以上几篇文章,了解最新数据领域的技术动态和分析其中所包含2020年至今的一些发展趋势。

关于a16z,网上已经有很多讲解文章,做一个简述“这是一家专注于新兴技术的黑马投资机构”。

Data50:2022年最值得关注的50家数据创业公司

报告从市场角度将数据领域分为7个方向,各方向所包含的公司如上图所示。对每个方向也有对应的分析:

  1. Query and processing(公司数占比20%,投资额占比48%): 作为数据查询和分析的核心技术,包括批处理(例如DatabricksStarburst)和实时处理(比如ClickHouseImply)两个方向。随着用户应用对数据实时性要求越要越高,实时处理方向最近几年也备受瞩目。
  2. AI/ML(公司数占比30%,投资额占比14.1%): 包括算法和数据处理两个大方向。一些公司专注于某类特定场景(比如RasaHugging Face专注在NLP),一些则志在完成通用AI(比如 ScaleTectonWeights and BiasesAnyscale)。
  3. ELT & orchestration(公司数占比12%,投资额占比12.1%):实现数据的流转与处理。传统的本地部署(on-premise)ETL工具提供拖拖拽拽的用户界面。而最新的发展趋势是云原生(比如Fivetrandbt)和面向开发者(AstronomerPrefect),其面对的数据环境更为复杂。
  4. Data governance and security(公司数占比12%,投资额占比15.2%):相对较新的领域,目前主要服务受合规管控的大公司。不过市场重视程度也在提高。一些公司在研发数据生命周期管理的产品(比如 OneTrustCollibra)。
  5. Customer data analytics(公司数占比12%,投资额占比5.4%):在传统分类里,这一领域属于营销团队,不过随着越来越受市场重视,数据团队也参与其中。报告里选中的两家相关公司都是与垂直领域反向ETL相关(CensusHightouch
  6. BI & notebooks(公司数占比10%,投资额占比4%):数据的最终消费端。重点公司有开源新玩家 PresetMetabase,交互式操作平台(notebooks)Hex,自动话数据洞察Sisu
  7. Data observability(公司数占比4%,投资额占比1.2%):这是最新的方向,选中的公司包括Monte CarloBigeye

报告中有一些比较有意思的统计结论。比如公司数目最多的方向是AI/ML(占比30%),获得投资额最多的方向是query and processing(占比48%)。个人理解,这表示AI/ML还在初期,竞争非常激烈;而query and processing则相对成熟,出现了少数规模较大的玩家。

AI/ML方向的新增创业公司数在2019年达到顶峰:

每个方向的获投资额都是在逐年增长。报告认为“未来十年将会是数据的时代”,相关的机会和创业公司会越来越多。

数据基础设施蓝图

上图是通用数据基础设施蓝图,其中各个部分功能定义如下:

Sources

Ingestion and Transport

Storage

Query and Processing

Transformation

Analytics and Output

数据源:产生特定的业务或者系统运行数据,并可以通过某种方式将数据提供出来

Extract:从数据源中拉取数据

Load:解析原始数据,并写入存储目标

Transport:将存储目标中的数据写入左侧数据源源中,提供业务使用(即反向ETL,并非ETL中的T)

数据存储,提供给查询和分析使用。

设计目标:高并发、低延迟、低成本、可扩展。

将用户使用的高级数据处理语言(比如SQL、Python)解析为程序执行语言。

运行查询和分析。包括历史数据的统计分析和未来趋势预测等。

对数据进行规整化(即加工处理,ETL中的T)。

包括流程编排。

给数据科学家或者业务分析者提供的结果可视化接口。

也可能是将数据分析结果提供给数据应用的用户。

从图中个人直观感觉最明显的两点变化:

  1. ETL变为了EL+T,相比于前两年的ELT流程更彻底。这一点从Data50的报告中也可以看到,比如T的典型公司dbt保持优势,专注在EL的Airbyte强劲增长。
  2. 增加了反向ETL(即图中Transport),具体也可参考上文Data50的相关内容。


上图是机器学习技术架构,其相较于通用数据架构更为复杂,二者的工具链完全不一样所以需要单独讨论。其中各个部分功能定义如下:

Data Transformation

Model Training and Development

Model Inference

Integration

数据预处理和打标(监督学习)。

模型训练(基本都是基于预训练好的基础模型)。

参数优化监测。

模型评估。

模型输出(给下游应用系统)。

模型检验(包括在线预测和离线预测两种场景),比如性能、错误率等。

模型上线。

相对于2020版本的更新

文章中认为,数据领域的核心并没有改变。包括云原生相关产品在快速增长、数据的ETL过程活力依旧。其中最大的变化是相关生态在快速的丰富(文中用了寒武纪大爆发来形容):大量的垂直领域工具和上层数据应用的发布。

文章将数据驱动的场景分为三个主模块:最新BI系统、多模式数据处理和AI/ML,接下来会详细讨论。在此之上,将上层数据应用系统分为2类:分析型系统(将数据提供给公司内部业务和决策部门使用)、交互型系统(将数据或者模型通过数据应用提供给用户使用)。

下面几个部分的分析图的相关图例:

  1. 灰色部分表示与当前讨论内容相关度较低,可以暂时忽略;
  2. 深颜色表示该部分与2020版本相比存在较大变化;
  3. 浅颜色表示该部分与2020版本相比没有较大变化。

最新BI系统

定义:可以为任何一家公司提供服务的云原生BI系统。

哪些没有改变:

  • 数据系统核心没有改变,之前强势的厂商依然保持,比如Fivetran、Snowflake、dbt。一些较新的玩家保持增长,比如Airbyte、Firebolt。
  • 可视化仪表盘依然是数据输出至应用册的主流方案。

哪些方面变化较大:

  • 数据模式定义层(metrics layer)广受关注。
  • 反向ETL快速增长,这一点上文已有讨论。目前相关的服务对象基本上是CRM和ERP。
  • 可视化仪表盘标准化推进,比如Hex。
  • 数据可观测性,这一点在Data50报告中也有相关方向讨论。

多模式数据处理

定义:湖仓一体同时支持分析型系统和交互型系统,也被称为Hadoop系的最新架构升级版。

哪些没有改变:

  • 数据处理、传输、存储等数据系统核心依然增长强劲。
  • 多摸数据系统多样化发展。

哪些方面变化较大:

  • 湖仓一体架构的共识提升。
  • 数据存储层在迭代升级。
  • 实时计算新增一些玩家,主要方向是低使用门槛,比如Materialize和Upsolver

AI/ML

定义:稳定的机器学习模型开发、测试和实施系统。

哪些没有改变:

  • 模型开发工具链几乎没有变化。
  • 模型的构建与实施依然存在非常高的门槛。

哪些方面变化较大:

  • 数据为中心的ML发展:数据打标、特征存储等方向发展迅速、低代码ML(比如Continual和MindsDB)。
  • 预训练模型的应用基本称为标准选择。
  • MLOps工具链发展。
  • ML模型集成至数据系统方案发展,比如OpenAI、Pinecone。

数据平台假设

此章节中,作者提出了一个概念数据平台(data platform),主要目的是将各个独立的模块通过系统的形式组装起来。个人感觉跟前几年国内的火热的数据中台概念比较相似。具体论述细节就不在这里讨论。

思考与总结

以上是学习a16z最近在数据领域的几篇文章的完整内容,每篇文章的具体链接已经在正文链接中给出,本文所有图片均来自于引用的文章。

由于个人的技术背景和理解限制,文中的翻译可能存在偏差,仅供读者参考。如果有相同的兴趣或者不同的见解,欢迎探讨。

目录
相关文章
|
存储 Java
【JVM】 程序计数器(Program Counter Register)
【JVM】 程序计数器(Program Counter Register)
451 1
|
关系型数据库 MySQL 数据库连接
QT安装mysql驱动和使用ODBC连接mysql
上一篇博文中提到了mysql的使用,但是很多人在使用新版Qt连接mysql的时候出现连接不上或者是没有mysql驱动的问题,网上有很多博文写了这个问题。但是对于最新版的mysql,使用网上的那些编译办法无法完全解决driver not loaded的问题,接下来我将写一篇文章详细的说一下如何解决该 问题,并且介绍一下除了使用驱动连接mysql,还可以使用odbc连接mysql。
1276 0
|
JavaScript
在vue中,Vue 的父组件和子组件生命周期钩子函数执行顺序?
在vue中,Vue 的父组件和子组件生命周期钩子函数执行顺序?
228 0
|
存储 缓存 自然语言处理
【Elasticsearch专栏 05】深入探索:Elasticsearch在处理非结构化数据时,倒排索引有何优势
在处理非结构化数据时,倒排索引的优势在于其高效的查询性能,能够迅速匹配文本中的关键词,实现全文搜索。此外,倒排索引支持复杂的查询操作,可扩展性强,且通过压缩技术优化存储空间。这些特点使倒排索引成为处理非结构化数据的理想选择。
215 1
|
2月前
|
SQL 人工智能 数据可视化
开源AI BI可视化工具-WrenAI
Wren AI 是一款开源的 SQL AI 代理,支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型(LLM)与检索增强生成(RAG)技术,助力用户高效处理复杂数据分析任务。
|
10月前
|
消息中间件 数据采集 运维
一份运维监控的终极秘籍!监控不到位,宕机两行泪
【10月更文挑战第25天】监控指标的采集分为基础监控和业务监控。基础监控涉及CPU、内存、磁盘等硬件和网络信息,而业务监控则关注服务运行状态。常见的监控数据采集方法包括日志、JMX、REST、OpenMetrics等。Google SRE提出的四个黄金指标——错误、延迟、流量和饱和度,为监控提供了重要指导。错误监控关注系统和业务错误;延迟监控关注服务响应时间;流量监控关注系统和服务的访问量;饱和度监控关注服务利用率。这些指标有助于及时发现和定位故障。
823 1
|
Kubernetes 负载均衡 API
在K8S中,Kube-proxy有什么功能?
在K8S中,Kube-proxy有什么功能?
|
前端开发 JavaScript 数据可视化
Python+Dash快速web应用开发——基础概念篇
Python+Dash快速web应用开发——基础概念篇
390 3
|
负载均衡 Java 网络架构
使用OpenFeign实现服务远程调用
当微服务架构日益普及,服务之间的远程调用变得至关重要。在这一背景下,OpenFeign作为一个强大的HTTP客户端框架简化了服务之间的远程通信。本文旨在介绍如何运用OpenFeign实现服务远程调用。
547 0
|
人工智能 监控 物联网
医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性
医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性【2月更文挑战第3天】
医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性

热门文章

最新文章