历史
大部分人应该都不知道Confluent,但Kafka绝对是无人不知谁人不晓热门话题。没错,Confluent是Kafka商业化母公司。说到Kafka很多人应该知道Jay Krep故事,Jay原先是Linkedin工程师,在面临大量数据孤岛问题时研发了Kafka,由于性能好、开源、又符合大数据发展的阶段需求从而一路走红,几乎成为了Pub-Sub,消息队列、数据传输等场景的标配。Kafka背后诞生过程并非一蹴而就,而是有大量对于工作场景的抽象,详见2013年前他在Linkedin上发表过一篇广泛传播的文章《The Log: What every software engineer should know about real-time data's unifying abstraction》。
Kafka在2012年开源,在那个时代前后诞生了很多开源软件公司,例如MongoDB、ElasticSearch、Hadoop等,笔者认为一个重要的原因是大数据时代开始了,新工具在增量时代中快速增长,而大厂背书的开源项目是快速扩张的的首选。但和其他几家公司不同的是,Confluent是在Kafka流行后2年再成立的,在一些产品功能究竟应该是“获客的免费功能”还是“商业化License”这两个选项上摇摆,有点错过发展最佳阶段。
Confluent历史上重要时间点如下:
- 2012年:kafka开源
- 2014年:Jay离开Linkedin,成立商业化公司
- 2017年:推出Confluent Cloud云托管模式
- 2018年:推出KsqlDB,试图向下游的流计算进军
- 2019年:获得了100M$ ARR
- 2020年:获得1000个付费客户,Confluent Server推出
- 2021年:官方版本在生态支持了超过120个插件,商业化,获得2500个付费客户
其中在2018年后期,Confluent将Apache 2.0 证书切换为 Confluent Community License,理由和ES/MongoDB比较一致,理由是:云供应商(AWS、MS、Alibaba、Google)利用开源软件来进行服务化,从而盈利,没有贡献开源但吃了开源的红利。对于ES/MongoDB、云厂商是没有替换方案的,AWS只能靠Fork分支来正面硬杠,其他几家选择的是合作。而在Confluent替代品上,几乎所有云厂商都有服务化替代方案,例如Kinesis、EventHub等,议价能力稍显不足。
目标市场
Confluent讲的故事提炼为3个趋势:
- 所有公司都需要数字化、都需要软件
- 业务模式越来越趋向于实时化,用以提升用户体验等竞争力:例如微服务、IoT、机器学习等
- 数据引力(数据吸引数据)、网络效应两个飞轮让基于数据的公司保持竞争力
这些趋势背后有一股“神秘力量”在支配,也就是Confluent认为的“Data At Rest”转移至“Data In Motion”。数据只有实时流动才能诞生更大的价值,也能体现出管道的价值。
Confluent认为市场规模是500亿$市场(细分如下),该市场到2024年预计会达到910亿$,年复合增长率为22%。
领域 | 规模(B$) |
---|---|
Applicaiton Information & Middleware | 31 |
Data Management Systems | 7 |
Analytics and BI | 7 |
Data Integration Tools | 4 |
==Total== | 50 |
当然竞争者也非常多,可以分为三类:
- 各个云厂商类似的服务化产品
- 数据产品厂商一般内置管道类产品
- CNCF等标准虽没有实体产品,但定义了一系列标准
Confluent提供产品
商业化产品有3大类:
- 主营产品:Confluent Platform,Confluent Cloud
- 支撑产品:无法单独购买,主要用来给楼上引流,例如应用市场中的各种插件
- 咨询服务类:例如专家服务,培训等
1. Confluent Cloud(PayAsYouGo)
该模式是最推荐的:
- 把云计算基础设施供应链化,可以根据地域按需创建Confluent资源。
- 根据可用性、安全等企业特性分为3个版本:Basic、Standard、Dedicated。
- 按量收费,无需关注细节,提供3个月免费额度。
2. Confluent Platform(Subscription)
提供了Apache kafka非开源商业特性,通过订阅购买,包含:
- 上下游工具:Kafka Stream、Connector
- 组件:KsqlDB、Schema Registry、Rest Proxy等
- 其他商业化特性等
3. Hub
截止2021年6月,共提供204个插件,可以认为是Kafka上下游的应用市场,主要目的是为商业版本引流,这里不再开了。
财务数据分析
根据S1提交的表格,我们把一些关键指标摘录出来:
营收
- FY20营收为$236M,FY19为$149M,同比为58%
- 营收构成:Confluent Platform(订阅模式)占比79%,Confluent Cloud 占比21%,后者在不断增长
- 国际营收:占比从FY19 34% 增长到FY20的 36%
付费用户数
- 1500(FY19)-> 2500 (FY20)
- 每年消费超过100K$用户数:347(FY19)-> 561 (FY20)
- 每年消费超过1M$用户数:33->60
Fortune 500企业中:
- 有137家是付费客户,YoY 27%,占据所有营收的37%
- 保守估计有70%(约350家)在使用,包含免费模式
- 整体平均客单价:$10W/每年
SaaS核心指标(Retention)
分别为:134%(FY19),125%(FY20),117%(2021 Q1),说实在的在增长阶段这个指标并不是很理想。Confluent自己认为的主要原因是:
- 大客户账号合并(按账号统计)
- Covid19影响
- Confluent Platform转为Cloud的过程(可能存在免费额度)
毛利率(Margin)
FY19毛利率为67%,比预料得低,Confluent理论上应该是价值型公司,可以在云资源上卖高溢价的。这个数值低于SaaS平均毛利率75%,可能和增长阶段有关。
运营成本(Operation Cost)
- 研发(R&D):$105M
- 销售与市场(S&M):$166M (占比营收70%)
- 行政(G&A):$122M(意外的高,不确定增长是否为了做后期盈利)
历史融资与估值
- 累计:$456M来自 Index, Sequoia, Altimeter, and Coatue
- 最后一轮(E轮):$250M(2020年4月),估值$4.5B
- 现金等价物:$280M
- 员工数:S1未透露
个人粗浅看法
从S1财务指标来看,Confluent指标并不突出,主要体现在:
- 留存率和获客不理想,在增长阶段留存率应该保持增长,而目前留存正在下降
- 最后E轮估值过高($4.5B),几乎对标Cloudera市值
- 竞争对手激烈,管道附加值低,容易被模范
- 上下游发展不畅,下游核心产品KsqlDB被寄予厚望(in the earily stage of adoption),但用户并不买账,更喜欢用Flink
- 高管退出影响:3位创始人中的Neha(获得过全球影响力女性)在2019年离职,并抛售了77.8M$股票
笔者一直是Kafka死忠粉,设计优雅、可读性强、场景应用广泛、性能好,几年前Confeluent Blog上每一篇文章都会去看。但随着时代发展,Queue单一系统可以替代的方案越来越多(服务化云厂商方案、开源方案如Pulsar)。而Kafka近几年大Feature除了去ZK依赖外似乎很少,而商业化KStream,KSQLDB实际上还是在模仿Flink一些理念,管道似乎就成了一个标准化的产品。
Confluent在两个核心赛道挑战如下:
- 在数据分析领域,随着数据库(Data Lake)产生,Confeluent认为数据多源化、碎片化、建设无序的环境正在被统一。在数据湖中,更快批计算、流批一体混合模式慢慢起到实时效果。很有可能过几年,Confluent认为的“data in motion”就会变成数据湖内流动,留给Queue的空间越来越小。
- 在应用开发领域,PubSub管道模式应该会长期存在,CNCF把Queue标准化后越来越多供应商进入,Pulsar等新开源软件的引入也是不小的挑战。
目前Confeluent面临市场很大,也有Kafka一手好牌,但竞争同样非常激烈,可以说是挑战与机遇并存。从开盘第一天的股价表现来看,大家对Confluent的增长还是非常期待的,让我们拭目以待吧。