国内数据竞赛市场,能做好的话,预测一两年就会有繁荣景象。
——DataFountain COO 陈娟
要说本月开发者圈子的头等大事,毫无疑问是 Kaggle 被谷歌云收购。作为全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台,Kaggle 不仅开拓了一个全新市场(虽然该市场的当前商业价值有限),还为国内近几年冒出的数据竞赛平台树立了学习、模仿的榜样。
李飞飞宣布谷歌云收购 Kaggle
目前看来,这场收购可谓是皆大欢喜。
Kaggle 得到了谷歌云的计算资源、数据资源和业界关系支持,也对投资者有了交代。谷歌得到了对该社区的直接影响力,以及一个谷歌云的业务突破口。
但作为一个细分市场的霸主,Kaggle 却从未有过“霸主”的春风得意。自 2010 年成立至今,Kaggle 耕耘数据竞赛领域已有七年。这时间说长不长,说短不短,但足以打消风投和部分商业观察家“超级独角兽”的梦想。平台上的竞赛数目,并没有指数级地增长;其商业模式到底是不是众包,业内也存争议;但最重要的一点,直接指向了 Kaggle 的“七寸”:缺乏商业变现能力。
嫁给谷歌云,或许已经是最好的结局。
于是我们不禁要问:一家在所处行业成为全球第一、没有重量级竞争对手、并踩在大数据风口的创业公司,为何“被收购”却成为最佳选项?
(注:并不是说被谷歌收购不理想,而是许多人认为 Kaggle 原本可以做得更好。)
在雷锋网看来,这个问题折射出的现实情形,要比答案本身更有价值。相比 Kaggle 的自身经营状况,我们更关心数据竞赛这个市场——究竟是贫瘠的盐碱地,还是未经充分开垦的处女地?
太平洋的另一端,在中国,2014 年之后涌现出大大小小多家数据竞赛平台。目前比较有名的,有阿里云旗下的天池,中科院孵化出的 DataFountain,成都电子科大教授周涛创立的 DataCastle,以及上海 SODA 大赛的指定运营方科赛网。各家平台在将来的发展侧重点各有不同,但当下的核心业务都是线上数据竞赛。
大数据竞赛究竟有多大的市场空间,行业前景如何,就成了至关重要的问题。
为此,雷锋网采访了DataCastle CEO 张琳艳, DataFountain COO 陈娟,天池高级专家王一婷,以及“中国 Kaggle 第一人”、商汤科技研发总监张伟;从 Kaggle 商业化的努力,谈到国内数据竞赛的市场环境,以及最重要的:如何把这个市场做“活”?
我们先从 Kaggle 被收购折射出的困局谈起。
1. Kaggle 的商业化探索
Kaggle 的商业化之路十分坎坷,这在业内广为人知。
自 2013 年起,Kaggle 就设立了能源咨询业务。当时恰逢美国页岩油、页岩气革命,Kaggle 希望用大数据帮助能源公司进行石油勘探。这本将是一笔利润颇丰的生意。可惜随后的全球原油价格暴跌,使得石油公司大幅减产;新的勘探、开采计划纷纷被推迟或取消,相关研究也被搁置。Kaggle 从能源行业入手,逐步建立跨行业数据咨询业务的计划就此搁浅。更何况,人们逐渐意识到,数据咨询业务的成长性实在有限,不适合风投参股的企业。
与此同时,Kaggle 在 2013 年推出了 “Kaggle Connect”咨询平台:将社区最精英的数据科学家介绍给有需求的公司,以解决不适合以竞赛形式封装的现实问题。
Kaggle 还推出了招聘服务,这倒用不着多说。重点是,直到今年被谷歌收购,Kaggle 在商业变现上始终没有找到一个好的突破口。
2. 如何看待 Kaggle 被收购
因此,对于 Kaggle 被收购,行业内认为理所当然者有之,惊喜者有之,惋惜者也有。
堪称“中国 Kaggle 第一人”的张伟,自 2012 年参与 Kaggle 平台上的比赛。当前排名世界第十,历史最高排名世界第六、中国第一。他认为,Kaggle 寻求商业支持、被谷歌收购是水到渠成的事情。
从他的角度看,Kaggle 一直在进行商业化的尝试,业务上也面临较大瓶颈,竞赛的数量到现在也不是很多。这其中的一大问题,是与工业界的关系不够紧密,不足以说服更多公司在 Kaggle 平台上开放数据、举办竞赛。借助谷歌对业界的影响力十分合情合理。这将有助于更进一步拓展平台用户,把市场做到此前难以企及的规模。另外,大量 Kaggle 参赛者使用亚马逊 AWS,如能免费提供谷歌云,确是一件好事。
持相似观点的还有阿里云天池。天池高级专家王一婷直截了当地表示:
“ Kaggle 在历经了六、七年的发展后始终没有找到一个很好的商业模式,主要靠卖比赛收取服务费赚钱。但平台上的比赛频率并不高,大部分奖金也很少,所以收益应该不高。虽然 Kaggle 号称沉淀了一批数据爱好者、开源数据集和算法模型,但没有计算能力,数据的价值就无法真正变现。他们一定是需要寻找突破口的,所以现在被谷歌云收购是最好的归宿。”
值得注意的是,关于谷歌之于 Kaggle 的价值,王一婷更强调计算资源。在她看来,无论在数据、AI 还是机器学习领域,企业的最核心竞争优势或者说行业门槛,都是大数据+云计算。换句话说,只有与谷歌云的基础设施结合,Kaggle 才算是完成了生态链的闭环。因此,Kaggle 加入谷歌是理所应当的战略布局(对谷歌亦然)。而在这一点上,结合了阿里云计算资源的天池,同样拥有巨大优势。
同样对 Kaggle 关注已久的 DataCastle CEO 张琳艳,则十分强调 Kaggle 的数据科学家社区 DNA。她向雷锋网(公众号:雷锋网)表示:
“我的第一反应是惊讶。一直觉得 Kaggle 是不小心闯入商业圈子的数据科学圣殿,说是一股清流也不为过——感觉商业模式不赚钱,却也坚持做了这么多年而且越做越大,题目越来越丰富,必定有种坚持在里面。一直感觉他们离商业和资本很遥远,但是总体来说很高兴,因为这个消息给我们带来了很大的信心。”
张琳艳十分认同谷歌云计算资源对于 Kaggle 的价值,无论是针对数据安全,还是提供更大规模的数据集,并表示“这很有可能是 Google 对 Kaggle 吸引力最大的其中一点”。但她同时指出,计算环境对不同语言、框架的支持,带来了额外的公平性和技术问题需要考虑。
DataFountain COO 陈娟的观点,又与上述三位不同。她认为,加入谷歌固然带来诸多优势,但长期来看,Kaggle 将专注于仅仅作为一个竞赛平台,业务单一,因而有利有弊。另一方面,她反对将计算资源看做数据竞赛行业一项关键竞争力门槛的观点。接入第三方计算资源并非难以做到,真正开放的平台也应该面向所有云计算服务。
集合上述各位的表态与 Kaggle 的现实情况,一条现实情形变得十分清晰:只做竞赛和社区,在资本层面没有多少想象空间。国内的数据竞赛平台,除了背靠阿里云的天池(但阿里高层也希望天池做到收支平衡),均要另找出路。
路在何方?
3. 数据竞赛平台面临的挑战
3.1 业务定位
上文提到,平台很难通过核心的竞赛业务赚钱。对此,张琳艳的解释十分透彻:
“竞赛是个小众、低频的行为,所以只是单纯的竞赛业务是很难大规模商业化的,而且竞赛对于出题单位的门槛也很高,更进一步的缩小了业务的可扩展和复制性。所以竞赛只是形式,通过竞赛沉淀下来的方案、人才等才是真正有价值的。那么变现渠道就不仅仅是竞赛佣金这一种形式,解决方案众包、人才众包、猎头招聘等都是它的变现渠道。”
虽然竞赛是立身根基,但衍生业务才是平台活下去的手段。出于此,国内几家主要竞赛平台,均强调自身与 Kaggle 定位的不同:并没打算像 Kaggle 那样专注做竞赛和社区,而要与其他服务对接、整合。
DataFountain 与 DataCastle 都打出了“培养下一代大数据人才”的口号。因而我们可以作出合理预期——培训、招聘业务将成为他们的重点。
而天池的定位则十分不同。天池最早是为阿里巴巴集团内部服务的团队,它的成立从一开始就考虑到满足阿里云的战略需要。天池的许多经典竞赛,其实是原先阿里内部的数据课题。天池打出的口号是:
“外脑+内脑”,利用“众智”模式向外输出大数据解决方案。
即把天池平台的个人开发者,与阿里云内部专家团队的智慧结合到一起,向企业客户提供最顶尖的数据、AI 咨询服务。而阿里 ET 人工智能系统,便是阿里云咨询业务的核心品牌。
3.2 竞赛属性 VS 产品属性
可以看出,天池的定位十分重视 B 端。甚至可以说,在根本上是为有大数据解决方案需求的企业客户创造价值。而早在 2015 年,《连线》杂志就引用知情人士的发言,称竞赛的优胜方案有时不能给主办企业带来价值。这就牵扯出另外一个问题:
数据竞赛和产品级的解决方案之间,究竟相隔多远?
对此有一个圈内共识:Kaggle 的竞赛优胜方案,只有很少一部分能直接应用于企业产品。对此的通常解释是,比赛队伍为追求极限,使用了大量 ensemble。而这对于实际产品非常鸡肋,计算资源耗费过大。
Cloudera 的数据科学主管 Sean Owen 认为,比赛就是单纯的比赛,其应用意义有限:
“如果有任何公司认为,这些数据竞赛能产生即刻能用的机器学习模型,他们一定脑子有毛病。这些参赛团队把 Hadoop 输出的点流数据表(clickstream table)作为比赛输入,然后给出一连串在 Windows 上运行的 Python 或 R 语言代码——但他们压根儿不知道用这些代码做什么。而这也不是 Kaggle 的目标。数据竞赛,是公司寻找技能人才,并做点品牌营销的途径,仅此而已。”
这就牵扯到了数据竞赛的本质:到底是为竞赛主办方、企业客户创造价值,为他们提供有实际价值的解决方案?还是偏向为参赛者提供价值,提供最佳的展示技能和练手的机会?
当然,这两个方向并不矛盾,也不互相排斥。但在实际操作中,比赛的方式尤其是排名机制,往往要求在开发实用解决方案方面做出牺牲,两者之间很难达到一个完美兼顾的平衡。而竞赛平台,则可能不得不在比赛的竞赛属性 VS 产品属性之间做出选择。
3.3 B 端
主办竞赛的企业客户不足,是数据竞赛平台发展缓慢的一大原因,国内国外皆是如此。这也是为什么,张伟会看好与谷歌结合为 Kaggle 带来的业界客户关系。
张琳艳认为,B 端薄弱是受制于时下的市场发展阶段。无论是她、陈娟还是王一婷,均认为当下的大数据竞赛行业处在十分原始、不成熟的阶段。企业对于数据开放、组织竞赛心有疑虑。说白了,国内大多数企业并不懂得如何向“数据驱动型”组织转型。
张琳艳列举出三条市场不成熟的“症状”:
几乎每个上规模的企业都有大量数据,但是如何合规合法合理的使用,不清楚;
企业内部的数据团队实力参差不齐,对于平常的业务也许还可以,但是整理成一份赛题,无疑要求更高。
大家对竞赛的理解,还停留在类似学校考试的层面。其实现在竞赛平台上的竞赛,问题和数据都来源于真实场景,而非之前的学术科研层面的理想环境,也就是比大家印象中的所谓‘竞赛’更落地。
受限于这些客观因素,数据竞赛的 B 端客户少之又少、增长缓慢,新合作关系的拓展十分困难。各家竞赛平台每年新举办的竞赛数目,多则十几个、少则个位数。然而竞赛平台又没有实力和资源来改变市场大气候,导致拓展 B 端企业客户效率低下、十分困难。
3.4 C 端
当下的参赛者群体,国内国外有天壤之别。
DataFountain 透漏了一组数字:在 2016 年的 CCF 大赛,有 55% 的参赛者是在校学生。当问及这背后的原因,陈娟笑着说:“你看国内哪个做 IT 的,下班后还有时间搞竞赛?”
采访中,DataFountain 陈娟更倾向于从国内大数据行业发展的维度看待问题。据她观察,其平台的参赛者主要有三个群体:学生、公司团体和个人。其中,学生群体在大多数比赛中占据参赛者的绝大多数,而且在大多数时候表现非常不错,常占据排行榜的前几位。究其原因,陈娟认为,在校生有空闲有兴趣,肯花时间肯钻研,加之有明师指导,成绩好实不足为奇。
第二个群体,是公司组织员工参赛。而这背后往往有明确的参赛目标——达到某个名次,为企业技术实力宣传造势。业内确实有公司在知名比赛中拔得头筹,结果客户络绎不绝的例子。因此,这一参赛群体有经验有压力有动力,加之公司安排时间专门去做这件事,往往成绩也很不错。
第三个群体,是个人开发者。这一群体在国内不如 Kaggle 活跃,客观上也难以大幅增长。
按照这一分类,C 端用户唯一有增长潜力的群体是学生。而这未必是一个好消息。陈娟强调,C 端用户的成长,是繁荣大数据竞赛的必要条件,靠学生群体能否将之支撑起来?
目前,国内除天池以外,其余几家平台的用户基数不多,在数千名到万余左右徘徊。相比号称有 80 万注册用户的 Kaggle,只相当于它的零头。这里的问题显而易见——参赛用户不足,社区难以活跃,好的方案也难以产生。如何耕耘 C 端,实是各平台的当务之急。
但对此也有不同声音。张琳艳认为,国内竞赛刚刚起步,现在的用户未必具有代表性,尚待进一步观察。而王一婷的观点则更加乐观,她认为,随着国内市场逐渐成熟,国内参赛者群体会与国外逐渐趋同。在她看来,国内用户与 Kaggle 的最大区别在于分享习惯。Kaggle 有积累了多年的社区氛围,用户乐于在论坛进行技术讨论和分享。相比之下,国内用户的分享习惯尚未养成。如何把社区内部的沟通氛围营造起来,培养用户粘性,才是最大挑战。
4. 天池向左,DataFountain 向右?
首先需指出,各平台现阶段的商业模式仍在摸索,下一步的计划也更多是“思路”,而非“战略”。
天池和 DataFountain 应对上文这些挑战的方式,截然不同。
天池的计划总结起来,可概括为:“高精尖”,加速国际化,结合阿里 ET;
而 DataFountain 的思路可概括为:众包,深耕 C 端,建立开放的全生态。
4.1 “高精尖”VS 众包
天池的目标,无论是在数据、题目设置还是最终解决方案上,都希望达到业内顶尖水平。因此而集中精力做精品赛题,甚至是世界级难题,是谓“高精尖”思路。天池将联合英特儿、国内公立医院推出的肺癌诊断竞赛,便可作为代表。天池的重点,是向阿里云的企业客户输出技术。在竞赛的性质上,也偏重于实际解决方案,务求尽可能还原真实业务场景。
DataFountain 同样强调为 B 端企业客户创造价值的必要性。陈娟认为,这是数据竞赛平台行业的最大门槛。长期来看,拥有一支能高效与企业对接的数据专家队伍,能进行高水平的赛题设置,是平台的核心竞争力之一。但是,陈并不看好以数据竞赛形式解决世界级难题这样的“大单”,而认为真正的市场是“多而小”的数据任务:若把数据竞赛市场比喻为金字塔,塔尖所代表的业务量很小,绝大部分市场空间都在中底部。虽然当下的竞赛市场离真正的众包还有很远,但 DataFountain 更看重中小企业的数据服务需求,并希望最终能将之与参赛者进行充分对接。
4.2 B 端
在当下 B 端市场不成熟,工业界对数据竞赛认识不足的情况下,各平台颇有“等风来”的意味。引用王一婷的表述:
“我觉得数据竞赛市场真正打开需要的是时间,让更多的传统企业能拥抱 AI 的时间。”
陈娟则乐观得多:
国内数据竞赛市场,能做好的话,预测一两年就会有繁荣景象。
这背后的原因,在于政府。陈娟认为,我国各级政府单位近年来推动数据公开的力度越来越大,上海市政府便是范例(比如 SODA)。这带动的国企、公立医院等也开始进行相关尝试。开放公共数据是大势所趋,而在一两年内,就可能量变引发质变,并由此带动民营经济领域的数据开放。
届时,便是行业洗牌的时候。
4.3 C 端
两家平台的 C 端思路也完全不同。近年来,阿里云在国际市场上动作频频。去年与软银合作,在日本推出“SB Cloud”品牌,便是一个颇令人瞩目的例子。作为阿里云的子部门,天池是国内竞赛平台中迄今为止,唯一有国际化大动作的一家。王一婷表示:
“天池的国际化脚步才刚刚迈开,这是我们需要加快步伐的地方,所以今年我们成功申请了国际数据挖掘领域最顶级赛事 KDD-Cup 2017 的举办权,以此向全世界的数据爱好者张开双臂。”
在与雷锋网的采访中,王一婷多次提到,当下天池平台的用户基本都是海内外华人,她们有意改变这一点。
陈娟则认为,如能充分挖掘国内市场,单是把全国计算机专业的学生动员起来,就是十分可观的用户基础。在这方面,作为中国计算机学会 CCF 官方指定平台的 DataFountain,有着天然优势。陈表示,“深耕 C 端这件事必须有人去做”。如果国内没人做,数据竞赛市场很难真正做大。
最后,针对国内市场, DataCastle 张琳艳如此评论道:
“最经典的就是卖鞋的例子了,没有人穿鞋,到底是挑战还是机遇呢?”
相关文章:
谷歌收购 Kaggle 为什么会震动三界(AI、机器学习、数据科学界)?
TOP5%Kaggler:如何在 Kaggle 首战中进入前 10% | 干货
本文作者:三川
本文转自雷锋网禁止二次转载,原文链接