从 Kaggle 困局,看国内数据竞赛平台如何突围

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

国内数据竞赛市场,能做好的话,预测一两年就会有繁荣景象。

——DataFountain COO 陈娟

要说本月开发者圈子的头等大事,毫无疑问是 Kaggle 被谷歌云收购。作为全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台,Kaggle 不仅开拓了一个全新市场(虽然该市场的当前商业价值有限),还为国内近几年冒出的数据竞赛平台树立了学习、模仿的榜样。

从 Kaggle 困局,看国内数据竞赛平台如何突围

李飞飞宣布谷歌云收购 Kaggle

目前看来,这场收购可谓是皆大欢喜。

Kaggle 得到了谷歌云的计算资源、数据资源和业界关系支持,也对投资者有了交代。谷歌得到了对该社区的直接影响力,以及一个谷歌云的业务突破口。

但作为一个细分市场的霸主,Kaggle 却从未有过“霸主”的春风得意。自 2010 年成立至今,Kaggle 耕耘数据竞赛领域已有七年。这时间说长不长,说短不短,但足以打消风投和部分商业观察家“超级独角兽”的梦想。平台上的竞赛数目,并没有指数级地增长;其商业模式到底是不是众包,业内也存争议;但最重要的一点,直接指向了 Kaggle 的“七寸”:缺乏商业变现能力。

嫁给谷歌云,或许已经是最好的结局。

于是我们不禁要问:一家在所处行业成为全球第一、没有重量级竞争对手、并踩在大数据风口的创业公司,为何“被收购”却成为最佳选项?

(注:并不是说被谷歌收购不理想,而是许多人认为 Kaggle 原本可以做得更好。)

在雷锋网看来,这个问题折射出的现实情形,要比答案本身更有价值。相比 Kaggle 的自身经营状况,我们更关心数据竞赛这个市场——究竟是贫瘠的盐碱地,还是未经充分开垦的处女地?

太平洋的另一端,在中国,2014 年之后涌现出大大小小多家数据竞赛平台。目前比较有名的,有阿里云旗下的天池,中科院孵化出的 DataFountain,成都电子科大教授周涛创立的 DataCastle,以及上海 SODA 大赛的指定运营方科赛网。各家平台在将来的发展侧重点各有不同,但当下的核心业务都是线上数据竞赛。

大数据竞赛究竟有多大的市场空间,行业前景如何,就成了至关重要的问题。

为此,雷锋网采访了DataCastle CEO 张琳艳, DataFountain COO 陈娟,天池高级专家王一婷,以及“中国 Kaggle 第一人”、商汤科技研发总监张伟;从 Kaggle 商业化的努力,谈到国内数据竞赛的市场环境,以及最重要的:如何把这个市场做“活”?

我们先从 Kaggle 被收购折射出的困局谈起。

1. Kaggle 的商业化探索

从 Kaggle 困局,看国内数据竞赛平台如何突围

Kaggle 的商业化之路十分坎坷,这在业内广为人知。

自 2013 年起,Kaggle 就设立了能源咨询业务。当时恰逢美国页岩油、页岩气革命,Kaggle 希望用大数据帮助能源公司进行石油勘探。这本将是一笔利润颇丰的生意。可惜随后的全球原油价格暴跌,使得石油公司大幅减产;新的勘探、开采计划纷纷被推迟或取消,相关研究也被搁置。Kaggle 从能源行业入手,逐步建立跨行业数据咨询业务的计划就此搁浅。更何况,人们逐渐意识到,数据咨询业务的成长性实在有限,不适合风投参股的企业。

与此同时,Kaggle 在 2013 年推出了 “Kaggle Connect”咨询平台:将社区最精英的数据科学家介绍给有需求的公司,以解决不适合以竞赛形式封装的现实问题。

Kaggle 还推出了招聘服务,这倒用不着多说。重点是,直到今年被谷歌收购,Kaggle 在商业变现上始终没有找到一个好的突破口。

2. 如何看待 Kaggle 被收购

因此,对于 Kaggle 被收购,行业内认为理所当然者有之,惊喜者有之,惋惜者也有。

堪称“中国 Kaggle 第一人”的张伟,自 2012 年参与 Kaggle 平台上的比赛。当前排名世界第十,历史最高排名世界第六、中国第一。他认为,Kaggle 寻求商业支持、被谷歌收购是水到渠成的事情。

从他的角度看,Kaggle 一直在进行商业化的尝试,业务上也面临较大瓶颈,竞赛的数量到现在也不是很多。这其中的一大问题,是与工业界的关系不够紧密,不足以说服更多公司在 Kaggle 平台上开放数据、举办竞赛。借助谷歌对业界的影响力十分合情合理。这将有助于更进一步拓展平台用户,把市场做到此前难以企及的规模。另外,大量 Kaggle 参赛者使用亚马逊 AWS,如能免费提供谷歌云,确是一件好事。

持相似观点的还有阿里云天池。天池高级专家王一婷直截了当地表示:

“  Kaggle 在历经了六、七年的发展后始终没有找到一个很好的商业模式,主要靠卖比赛收取服务费赚钱。但平台上的比赛频率并不高,大部分奖金也很少,所以收益应该不高。虽然 Kaggle 号称沉淀了一批数据爱好者、开源数据集和算法模型,但没有计算能力,数据的价值就无法真正变现。他们一定是需要寻找突破口的,所以现在被谷歌云收购是最好的归宿。”

值得注意的是,关于谷歌之于 Kaggle 的价值,王一婷更强调计算资源。在她看来,无论在数据、AI 还是机器学习领域,企业的最核心竞争优势或者说行业门槛,都是大数据+云计算。换句话说,只有与谷歌云的基础设施结合,Kaggle 才算是完成了生态链的闭环。因此,Kaggle 加入谷歌是理所应当的战略布局(对谷歌亦然)。而在这一点上,结合了阿里云计算资源的天池,同样拥有巨大优势。

同样对 Kaggle 关注已久的 DataCastle CEO 张琳艳,则十分强调 Kaggle 的数据科学家社区 DNA。她向雷锋网(公众号:雷锋网)表示:

“我的第一反应是惊讶。一直觉得 Kaggle 是不小心闯入商业圈子的数据科学圣殿,说是一股清流也不为过——感觉商业模式不赚钱,却也坚持做了这么多年而且越做越大,题目越来越丰富,必定有种坚持在里面。一直感觉他们离商业和资本很遥远,但是总体来说很高兴,因为这个消息给我们带来了很大的信心。”

从 Kaggle 困局,看国内数据竞赛平台如何突围

张琳艳十分认同谷歌云计算资源对于 Kaggle 的价值,无论是针对数据安全,还是提供更大规模的数据集,并表示“这很有可能是 Google 对 Kaggle 吸引力最大的其中一点”。但她同时指出,计算环境对不同语言、框架的支持,带来了额外的公平性和技术问题需要考虑。

DataFountain COO 陈娟的观点,又与上述三位不同。她认为,加入谷歌固然带来诸多优势,但长期来看,Kaggle 将专注于仅仅作为一个竞赛平台,业务单一,因而有利有弊。另一方面,她反对将计算资源看做数据竞赛行业一项关键竞争力门槛的观点。接入第三方计算资源并非难以做到,真正开放的平台也应该面向所有云计算服务。

集合上述各位的表态与 Kaggle 的现实情况,一条现实情形变得十分清晰:只做竞赛和社区,在资本层面没有多少想象空间。国内的数据竞赛平台,除了背靠阿里云的天池(但阿里高层也希望天池做到收支平衡),均要另找出路。

路在何方?

3. 数据竞赛平台面临的挑战

3.1 业务定位

上文提到,平台很难通过核心的竞赛业务赚钱。对此,张琳艳的解释十分透彻:

“竞赛是个小众、低频的行为,所以只是单纯的竞赛业务是很难大规模商业化的,而且竞赛对于出题单位的门槛也很高,更进一步的缩小了业务的可扩展和复制性。所以竞赛只是形式,通过竞赛沉淀下来的方案、人才等才是真正有价值的。那么变现渠道就不仅仅是竞赛佣金这一种形式,解决方案众包、人才众包、猎头招聘等都是它的变现渠道。”

虽然竞赛是立身根基,但衍生业务才是平台活下去的手段。出于此,国内几家主要竞赛平台,均强调自身与 Kaggle 定位的不同:并没打算像 Kaggle 那样专注做竞赛和社区,而要与其他服务对接、整合。

DataFountain 与 DataCastle 都打出了“培养下一代大数据人才”的口号。因而我们可以作出合理预期——培训、招聘业务将成为他们的重点。

从 Kaggle 困局,看国内数据竞赛平台如何突围

而天池的定位则十分不同。天池最早是为阿里巴巴集团内部服务的团队,它的成立从一开始就考虑到满足阿里云的战略需要。天池的许多经典竞赛,其实是原先阿里内部的数据课题。天池打出的口号是:

“外脑+内脑”,利用“众智”模式向外输出大数据解决方案。

即把天池平台的个人开发者,与阿里云内部专家团队的智慧结合到一起,向企业客户提供最顶尖的数据、AI 咨询服务。而阿里 ET 人工智能系统,便是阿里云咨询业务的核心品牌。

从 Kaggle 困局,看国内数据竞赛平台如何突围

3.2 竞赛属性 VS 产品属性

可以看出,天池的定位十分重视 B 端。甚至可以说,在根本上是为有大数据解决方案需求的企业客户创造价值。而早在 2015 年,《连线》杂志就引用知情人士的发言,称竞赛的优胜方案有时不能给主办企业带来价值。这就牵扯出另外一个问题:

数据竞赛和产品级的解决方案之间,究竟相隔多远?

对此有一个圈内共识:Kaggle 的竞赛优胜方案,只有很少一部分能直接应用于企业产品。对此的通常解释是,比赛队伍为追求极限,使用了大量 ensemble。而这对于实际产品非常鸡肋,计算资源耗费过大。

Cloudera 的数据科学主管 Sean Owen 认为,比赛就是单纯的比赛,其应用意义有限:

“如果有任何公司认为,这些数据竞赛能产生即刻能用的机器学习模型,他们一定脑子有毛病。这些参赛团队把 Hadoop 输出的点流数据表(clickstream table)作为比赛输入,然后给出一连串在 Windows 上运行的 Python 或 R 语言代码——但他们压根儿不知道用这些代码做什么。而这也不是 Kaggle 的目标。数据竞赛,是公司寻找技能人才,并做点品牌营销的途径,仅此而已。”

这就牵扯到了数据竞赛的本质:到底是为竞赛主办方、企业客户创造价值,为他们提供有实际价值的解决方案?还是偏向为参赛者提供价值,提供最佳的展示技能和练手的机会?

当然,这两个方向并不矛盾,也不互相排斥。但在实际操作中,比赛的方式尤其是排名机制,往往要求在开发实用解决方案方面做出牺牲,两者之间很难达到一个完美兼顾的平衡。而竞赛平台,则可能不得不在比赛的竞赛属性 VS 产品属性之间做出选择。

3.3 B 端

主办竞赛的企业客户不足,是数据竞赛平台发展缓慢的一大原因,国内国外皆是如此。这也是为什么,张伟会看好与谷歌结合为 Kaggle 带来的业界客户关系。

张琳艳认为,B 端薄弱是受制于时下的市场发展阶段。无论是她、陈娟还是王一婷,均认为当下的大数据竞赛行业处在十分原始、不成熟的阶段。企业对于数据开放、组织竞赛心有疑虑。说白了,国内大多数企业并不懂得如何向“数据驱动型”组织转型。

张琳艳列举出三条市场不成熟的“症状”:

  1. 几乎每个上规模的企业都有大量数据,但是如何合规合法合理的使用,不清楚;

  2. 企业内部的数据团队实力参差不齐,对于平常的业务也许还可以,但是整理成一份赛题,无疑要求更高。

  3. 大家对竞赛的理解,还停留在类似学校考试的层面。其实现在竞赛平台上的竞赛,问题和数据都来源于真实场景,而非之前的学术科研层面的理想环境,也就是比大家印象中的所谓‘竞赛’更落地。

受限于这些客观因素,数据竞赛的 B 端客户少之又少、增长缓慢,新合作关系的拓展十分困难。各家竞赛平台每年新举办的竞赛数目,多则十几个、少则个位数。然而竞赛平台又没有实力和资源来改变市场大气候,导致拓展 B 端企业客户效率低下、十分困难。

3.4 C 端

当下的参赛者群体,国内国外有天壤之别。

DataFountain 透漏了一组数字:在 2016 年的 CCF 大赛,有 55% 的参赛者是在校学生。当问及这背后的原因,陈娟笑着说:“你看国内哪个做 IT 的,下班后还有时间搞竞赛?

采访中,DataFountain 陈娟更倾向于从国内大数据行业发展的维度看待问题。据她观察,其平台的参赛者主要有三个群体:学生、公司团体和个人。其中,学生群体在大多数比赛中占据参赛者的绝大多数,而且在大多数时候表现非常不错,常占据排行榜的前几位。究其原因,陈娟认为,在校生有空闲有兴趣,肯花时间肯钻研,加之有明师指导,成绩好实不足为奇。

第二个群体,是公司组织员工参赛。而这背后往往有明确的参赛目标——达到某个名次,为企业技术实力宣传造势。业内确实有公司在知名比赛中拔得头筹,结果客户络绎不绝的例子。因此,这一参赛群体有经验有压力有动力,加之公司安排时间专门去做这件事,往往成绩也很不错。

第三个群体,是个人开发者。这一群体在国内不如 Kaggle 活跃,客观上也难以大幅增长。

按照这一分类,C 端用户唯一有增长潜力的群体是学生。而这未必是一个好消息。陈娟强调,C 端用户的成长,是繁荣大数据竞赛的必要条件,靠学生群体能否将之支撑起来?

目前,国内除天池以外,其余几家平台的用户基数不多,在数千名到万余左右徘徊。相比号称有 80 万注册用户的 Kaggle,只相当于它的零头。这里的问题显而易见——参赛用户不足,社区难以活跃,好的方案也难以产生。如何耕耘 C 端,实是各平台的当务之急。

但对此也有不同声音。张琳艳认为,国内竞赛刚刚起步,现在的用户未必具有代表性,尚待进一步观察。而王一婷的观点则更加乐观,她认为,随着国内市场逐渐成熟,国内参赛者群体会与国外逐渐趋同。在她看来,国内用户与 Kaggle 的最大区别在于分享习惯。Kaggle 有积累了多年的社区氛围,用户乐于在论坛进行技术讨论和分享。相比之下,国内用户的分享习惯尚未养成。如何把社区内部的沟通氛围营造起来,培养用户粘性,才是最大挑战。

4. 天池向左,DataFountain 向右?

从 Kaggle 困局,看国内数据竞赛平台如何突围

首先需指出,各平台现阶段的商业模式仍在摸索,下一步的计划也更多是“思路”,而非“战略”。

天池和 DataFountain 应对上文这些挑战的方式,截然不同。

天池的计划总结起来,可概括为:“高精尖”,加速国际化,结合阿里 ET;

而 DataFountain 的思路可概括为:众包,深耕 C 端,建立开放的全生态。

4.1 “高精尖”VS 众包

天池的目标,无论是在数据、题目设置还是最终解决方案上,都希望达到业内顶尖水平。因此而集中精力做精品赛题,甚至是世界级难题,是谓“高精尖”思路。天池将联合英特儿、国内公立医院推出的肺癌诊断竞赛,便可作为代表。天池的重点,是向阿里云的企业客户输出技术。在竞赛的性质上,也偏重于实际解决方案,务求尽可能还原真实业务场景。

DataFountain 同样强调为 B 端企业客户创造价值的必要性。陈娟认为,这是数据竞赛平台行业的最大门槛。长期来看,拥有一支能高效与企业对接的数据专家队伍,能进行高水平的赛题设置,是平台的核心竞争力之一。但是,陈并不看好以数据竞赛形式解决世界级难题这样的“大单”,而认为真正的市场是“多而小”的数据任务:若把数据竞赛市场比喻为金字塔,塔尖所代表的业务量很小,绝大部分市场空间都在中底部。虽然当下的竞赛市场离真正的众包还有很远,但 DataFountain 更看重中小企业的数据服务需求,并希望最终能将之与参赛者进行充分对接。

4.2 B 端

在当下 B 端市场不成熟,工业界对数据竞赛认识不足的情况下,各平台颇有“等风来”的意味。引用王一婷的表述:

“我觉得数据竞赛市场真正打开需要的是时间,让更多的传统企业能拥抱 AI 的时间。”

陈娟则乐观得多:

国内数据竞赛市场,能做好的话,预测一两年就会有繁荣景象。

这背后的原因,在于政府。陈娟认为,我国各级政府单位近年来推动数据公开的力度越来越大,上海市政府便是范例(比如 SODA)。这带动的国企、公立医院等也开始进行相关尝试。开放公共数据是大势所趋,而在一两年内,就可能量变引发质变,并由此带动民营经济领域的数据开放。

届时,便是行业洗牌的时候。

4.3 C 端

两家平台的 C 端思路也完全不同。近年来,阿里云在国际市场上动作频频。去年与软银合作,在日本推出“SB Cloud”品牌,便是一个颇令人瞩目的例子。作为阿里云的子部门,天池是国内竞赛平台中迄今为止,唯一有国际化大动作的一家。王一婷表示:

“天池的国际化脚步才刚刚迈开,这是我们需要加快步伐的地方,所以今年我们成功申请了国际数据挖掘领域最顶级赛事 KDD-Cup 2017 的举办权,以此向全世界的数据爱好者张开双臂。”

从 Kaggle 困局,看国内数据竞赛平台如何突围

在与雷锋网的采访中,王一婷多次提到,当下天池平台的用户基本都是海内外华人,她们有意改变这一点。

陈娟则认为,如能充分挖掘国内市场,单是把全国计算机专业的学生动员起来,就是十分可观的用户基础。在这方面,作为中国计算机学会 CCF 官方指定平台的 DataFountain,有着天然优势。陈表示,“深耕 C 端这件事必须有人去做”。如果国内没人做,数据竞赛市场很难真正做大。

最后,针对国内市场, DataCastle 张琳艳如此评论道:

“最经典的就是卖鞋的例子了,没有人穿鞋,到底是挑战还是机遇呢?”

相关文章:

谷歌收购 Kaggle 为什么会震动三界(AI、机器学习、数据科学界)?

TOP5%Kaggler:如何在 Kaggle 首战中进入前 10% | 干货

加入 Kaggle 大数据竞赛,总共分几步?

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
人工智能 安全 算法
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
118 12
|
机器学习/深度学习 传感器 人工智能
新网银行金融科技挑战赛 AI算法赛道 亚军方案
新网银行金融科技挑战赛 AI算法赛道 亚军方案
371 0
新网银行金融科技挑战赛 AI算法赛道 亚军方案
|
机器学习/深度学习 人工智能 编解码
为什么这两家娱乐公司都在不务正业搞AI竞赛?
十数年时间,中国互联网视频历经风云变幻,总是你方唱罢我才休。
为什么这两家娱乐公司都在不务正业搞AI竞赛?
|
机器学习/深度学习 人工智能 算法
复旦大学产学合作实践:面向新工科的机器学习混合课程建设
从认知论的角度而言,人类获得新知识的过程往往是从大量的个案和具体的问题入手,通过抽取其共性,形成了相关的概念和认识,然后在应用到个案中。在机器学习建设过程中,通过课前引入具体的应用领域背景,揭示其中要解决的问题,增加在线课程的趣味性和吸引力。在此基础上,从现实领域问题的视野,突出其中关键的步骤,然后再介绍相关的概念和算法等理论知识,并给出具体的解题过程。之后还要通过自建案例库的实验探讨其中的关键问题,从而能使学生的认知达到一定的深度。这个从应用中学习的过程也是深度学习的要求。
467 0
复旦大学产学合作实践:面向新工科的机器学习混合课程建设
|
人工智能 达摩院 算法
AI圈内卷?天池团聚请来专家集体“问诊”
当前,人工智能已成为引领新一轮科技革命与产业变革的重要驱动力,而数据则是人工智能时代必不可少的生产资料。
AI圈内卷?天池团聚请来专家集体“问诊”
|
人工智能 算法 前端开发
“数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人
“数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人
271 0
|
人工智能 运维 算法
算法博士平均月入4万,数据可视化技能全球吃香 | 2020年《顶级数据团队建设全景报告》重磅发布
算法博士平均月入4万,数据可视化技能全球吃香 | 2020年《顶级数据团队建设全景报告》重磅发布
175 0
|
机器学习/深度学习 人工智能 自然语言处理
|
人工智能 大数据
阿里云天池联合重庆广发“英雄帖”,用AI突破工业技术瓶颈
8月27日,在2019重庆智博会阿里云峰会上,重庆市大数据应用发展管理局、重庆市江津区人民政府联合阿里云天池大数据众智平台共同启动首届“数智重庆·全球产业赋能创新大赛”,旨在探索计算机视觉算法、运筹优化算法等AI技术,促进工业和人工智能技术融合,用技术驱动重庆产业智能转型升级。
1119 0