创始人Anthony解答30个关于Kaggle的问题-阿里云开发者社区

开发者社区> 数据派> 正文

创始人Anthony解答30个关于Kaggle的问题

简介:

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


Kaggle是全球机器学习竞赛、开放数据集和数据科学合作的发源地。在被谷歌收购之际,Kaggle已经举办了许多备受瞩目的比赛,最近跨过了百万用户的大关,进一步在数据科学界巩固了它家喻户晓的地位。

近日,Kaggle创始人兼CEO Anthony Goldbloom参加了一个Ask Me Anything的活动,回答了与会者30余个关于Kaggle的问题,分享了他创立Kaggle七年来的心得和对未来的展望。


主持人:首先,请允许我代表大家感谢你创立了Kaggle。你可以和大家分享一些你的个人情况吗?比如你来自哪里,你在学校学过什么,为什么你认为Kaggle对数据科学的未来很重要?


Anthony:我来自澳大利亚的墨尔本。我在墨尔本大学学习计量经济学(主要是经济数据)。我大学毕业后的第一份工作是在澳大利亚财政部工作,预测GDP、通货膨胀和失业。我喜欢玩转数据,但传统的经济数据规模很小而且噪声很大,所以很难得出有趣的发现,这是最令我感到受挫的。

 

创建Kaggle的想法实际上源于我想获得更有趣的数据集和问题。当然,这有点讽刺,因为我没有机会参与其中。但塞翁失马呀,后来我意识到在Kaggle上有太多大神,我就算做了可能也不会那么好…


我们的目标是让Kaggle成为一个充满活力的代码、数据和讨论的生态系统。如果你在其他地方做数据科学/机器学习,你的起步时从一个闪烁的光标和一个空白的区域。而在Kaggle,我们是希望你能够可以获得可以复制的好代码,可以直接分析的数据以及可以直接参与讨论共同学习进步。我们从比赛开始,到现在有了Kaggle Kernels和公共数据平台。我们近期的重点是让Kaggle Kernels更加灵活和强大,您可以使用它来进行更重的计算、选择硬件、安装软件包等;还要大量增加公共数据平台上的数据集规模。随着时间的推移,我们希望你能够使用Kaggle在工作的同时,来学习、获得资格认证,也能从中获得乐趣。

 

Q:从你创建Kaggle已经7年过去了。与你最初的愿景相比,什么已经实现了?什么还没?什么让你最满意,收获的最大惊喜是?最大的遗憾有是什么呢?

 

Anthony:坦白说,7年前我们做这件事的时候其实没有什么宏达的愿景。更多的是我觉得我们的世界上需要有Kaggle的存在。可以说,我们的目标是随着Kaggle的不断发展壮大在增长的。每当我们取得新的成功,我们就会为下一件事而努力。最大的满足感在于当听到我们的用户说Kaggle给他们提供了之前不可能拥有的可能。当然,我也是很开心Kaggle已经成为了一个家喻户晓的数据科学/机器学习品牌。

 

最大的遗憾应该就是是我们没有尽早推出Kaggle Kernels和公共数据平台——我对Kaggle的这些领域感到非常兴奋。我们还有更多的事情可以做,如果我们早点开始的话,这就会是比现在更先进的产品。

 

Q:在2015年,受Kaggle启发,我辞去了工作,开始专注做自己的数据科学咨询业务。我面临的最大挑战之一是找到预测建模项目的高质量大客户。请问有什么建议吗?

 

Anthony:这很难。我认为现阶段的公司主要还都在研究如何更全面地使用数据科学/机器学习/预测建模的探索阶段,因此他们的很多用例相对来说都没有很复杂。为了找到更高级的客户,你可以看看在Kaggle的社区上发布的公司属性(如果他们了解Kaggle,说明他们还是比较超前的;如果他们在招聘,说明他们还有未满足的需求,而咨询可能会是另一个满足需求的方法)。也就是说,如果你想做更高级的工作,咨询可能并不合适。建议是在一个已经意识到数据科学/机器学习/预测建模的优势的前沿公司找到一份工作可能会更好。

 

Q:谷歌为什么要收购Kaggle?怎么样让二者相得益彰?

 

Anthony:目前三大云服务商玩家——AWS、Azure和谷歌云正在进行激烈的较量。谷歌云的优势之一是最好的机器学习云:通过Google CloudML Engine等提供TPU、Tensorflow服务。Kaggle是世界上最大的机器学习和数据科学社区,所以收购Kaggle可以让Google Cloud将这些工具提供给我们的社区,用户在使用时可以获取反馈和更多的推广。从Kaggle的角度来看,也是一件好事。它使得我们可以为社区提供更强大的计算机/服务(可能出现在Kaggle Kernels),比我们作为一个小型独立公司要好很多。

 

Q:在Kaggle的“成长”过程中,你是否经历过明显的愿景和商业模式上的转型?在这个过程中,什么类型的支持让你记忆深刻?可以分享一下嘛?

 

Anthony:早些时候,Kaggle谈不上是什么远大理想,更多的是一个有趣的项目。随着我们的不断成功才有了更远大的理想。早期,我们从机器学习竞赛中获得了所有收入,但那并不是很赚钱。因为当时机器学习还非常不成熟,所以机器学习竞赛没有多少市场。2013年,我们研究了其他可盈利的业务:比如在特定行业形成专业知识,并为该行业构建机器学习的解决方案。我们选择石油和天然气作为我们的第一产业,并把壳牌选作想要和我们做更多的客户,我们认为市场机会是好的。当油价在2014年末暴跌时,该行业变得非常有挑战性。但这时机器学习市场已经开始成熟,所以我们可以回到机器学习比赛上来建立强大的业务。我们还推出了一个工作板块,这对我们来说也是一个很好的收入来源。展望未来,我们愿意提供其他服务,包括允许公司在其数据科学团队中使用Kaggle Kernels。

 

我们也有着一路支持的投资者,他们看过许多企业的迂回曲折,为我们发展业务决策提供了很多有用的视角。

 

Q:如果想在Kaggle取得成功,需要具备的技能有哪些呢?比如模型融合(stacking、blending)等。同时,作为一名学生,我一般不参加那些有大量数据集的难题,主要是硬件的瓶颈。你愿意在谷歌云上提供免费的时间吗?

 

Anthony:我建议你在博客上阅读获胜者的采访。你会从比我更聪明的人那里学习到更多!我们希望在成为Google的一员后,能够为我们的社区提供更多的计算力,特别是在大型的比赛中。目前这一部分还在进行中。

 

Q:关于怎样开始学习深度学习技能,你有什么建议?


Anthony:我觉得fast.ai(http://course.fast.ai/)课程就很好。

 

Q:我注意到图像分类比赛数量有所增加,这是Kaggle的一个新趋势吗?以前的“Private Masters”的风格是否会卷土重来?

 

Anthony:我们不决定我们要组织什么比赛——这取决于我们的客户给我们带来什么。我们最近一直在增加竞争团队(你们很多人都知道连Walter Reade都加入了!)所以我们希望能举行更多的比赛。我们负责比赛的团队也为第三季度设定了一个更好的目标,所以我们正在尝试。

 

Q:对于你的客户(赞助比赛的公司)来说,几乎所有的解决方案都涉及模型的组合定义,你是如何看待这个问题?你是否有计划会发布一个全新的比赛,要求最后的提交都是基于一个不需要整合的简单模型?

 

Anthony:在给获胜者的介绍方案中,我们要求他们分享一个性能在90%-95%的简单模型细节。在实际操作中,这些简单的模型通常表现得更接近集成模型的99%,对客户来说更有用。未来的一种可能是,在之后的比赛中,我们来限制计算约束,来有效限制疯狂创建集合的能力。

 

Q:作为创始人你最喜欢的是什么?


Anthony:8年前,最初的Kaggle只是一个闪烁的光标和Vim文本编辑器。我真的为我们所建立的事业感到骄傲:有那么多聪明的人选择把一天的时间花全心投入,这是非常有益的。

 

Q:如果你把自己列为Kaggle的排行榜,那么你认为你会排在哪里?


Anthony:我想我可以到Expert,但到Master还是有点困难,除非我抱到了一个大腿,成为Grandmaster估计是没戏了。我以前认为我是一个很好的统计学家和一个好的程序员:经过多年在Kaggle社区的观察,我再也不这么认为了。

 

Q:Kaggle的数据科学家团队现在有多大?


Anthony:我们的数据科学团队只有三个人——Wendy, Will和Walter。他们与客户合作推出比赛。我们现在规模还很小,只有24个人,也没有办公室,团队大部分人都在远程工作。

 

Q:你什么时候第一次遇见“数据科学”,你如何知道这就是你今后要走的路?

 

Anthony:我在大学毕业后的第一份工作是预测GDP,通货膨胀和失业率。我喜欢玩数据!每个数据集都有其秘密,我认为尝试去发现这些隐藏在数据背后的秘密是令人兴奋的。

 

Q:有没有什么比赛是你希望Kaggle举办但还没有办的?

 

Anthony:私下里我一直在参加kitefoil的比赛。我希望对风的预测能有一个更好的模型,所以我一直希望能办一个和风的预测有关的比赛。

 

Q:在未来5-10年里,你期待看到什么类型的AI相关技术?(刨去汽车相关的)

 

Anthony:今年11月,我的第一个孩子就要出生了。昨晚我还和我的妻子开玩笑说:要是能有一个自动驾驶的婴儿车也蛮不赖的。人类在语音识别领域取得的进展也让我很兴奋。我已经买了一个Google Home智能音箱放在家里,用起来感觉很不错。我期待有一天我再也不用一直看着手机了,而是可以用语音来进行一切指令的操作。

 

Q:未来10年,数据科学(ML/DL)将会拥有一个怎样的未来呢?

 

Anthony:我很喜欢William Gibson的名言:未来已来,只是尚未流行。像谷歌这样的公司已经展示了在Google Home、谷歌照片、Word Lens等app中数据科技可以企及的高度。未来10年,我们将看到越来越多的机器学习应用在我们的产品中。希望之后我们也能开始看到如今学术界流行的一些技术(如强化学习,GAN等)能应用在现实的产品中。

 

Q:对于在数据科学领域创业的创业者,你能否给3点建议?

 

Anthony:其实我只有2点建议,但这也是最重要的2点。

  • 去解决那些你自己有切身体会,你觉得其他人也正经历,而且还没有被解决的问题;

  • 你要对这个问题充满热情。

 

Q:有没有计划向那些对使用公开地址有疑惑的大企业提供企业版的Kaggle?我想这可能对Kaggle来说是一个比较好的发展机会。

 

Anthony:当然考虑过啦~我们在计划启动一些大企业内部的比赛,几家企业可以打通数据集。但这个优先级目前还没有那么高,预计大概要到2018年才会和大家见面了吧。

 

Q:个人来说,我相信Kaggle Kernels是目前数据科学领域最好的一个发明。你们早开始创建它是源于怎么样的动力呢?

 

Anthony:之前Kaggle上有很多附上code的用户讨论,但是那些code很少是有人跑过的。经常是有不少人点赞,但没有回复。这让我们意识到,其实要跑通其他人的code是一个真实的痛点。大部分的人来Kaggle都是来学习的,因此我们发布的Kaggle Kernel来确保我们有更丰富的学习体验,以及让kenerl的作者机会来展示他们的聪明才智。

 

Q:你能不能和我们大家分享两个Kaggle成立以来最困难的时刻?


Anthony:大概在2013年,Kaggle最早是专注在垂直行业起家的,我们用一个个case来拉动我们的业务增长。刚开始我们专注在石油和天燃气行业,但是2014年油价大跌,我们大部分的收入就没了。我们必须裁员以求自保。另外,在商业中我学到的最多的就是要招那些聪明但是不自负的人。Kaggle刚开始的时候,我们总是追求一个人是不是聪明。但那是错的。因为在实际的工作中,你是很难去跟那些自以为是的人去合作的。

 

Q:在Kaggle得到第一笔投资前,你拜访了多少个投资人呢?能和我们分享一下么?

 

Anthony:融资总是很难的。VC一般每年会看成百上千个项目,然后从中选两个投。我们的第一轮相对容易一些:找了大概30家机构,然后有4家对我们感兴趣的。我们的第二轮就比较难了(就是在油价大跌之后),我们找了60家机构,只有一家感兴趣的。

 

Q:你是如何遇到Kaggle的CTO兼联合创始人Ben Hamner的?

 

Anthony:最早是在悉尼的ICDM 2010大会上。Ben Hamner也在那个大会上,因为他参加了ICDM的机器学习挑战赛。我当时去那儿是为了安利Kaggle。然后Ben就开始在Kaggle上参加比赛了,而且表示地非常积极。2012年我又见到他了,那时候他在湾区面试Google。不过最后他还是放弃Google,加入了我们。

 

Q:如果在创立一家数据科学领域相关的公司,哪些是最需要考虑的点?

 

Anthony:现在来看的话,这已经是一个相当拥护的领域了。首先,你要确保你有一个不同的切入点。Kaggle其实是很幸运的,因为我们在大家关注之前创立了公司。所以,当出现泡沫的时候,我们反而受益了。现在大家对数据科学和机器学习的关注度这么高,要脱颖而出其实是更难了。

 

Q:如果可以作一个超级英雄,你最想成为谁?


Anthony:不知道他算不算,我想成为《安德的游戏》(Ender's Game)里的Andrew 'Ender' Wiggin。


最后谢谢所有成就了Kaggle的今天的你们! 未来Kaggle还有更多令人兴奋的事情,希望你继续从中找寻喜欢和宝贵的事情~



原文发布时间为:2017-08-19

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

版权声明:如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developerteam@list.alibaba-inc.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

官网链接