5 Resources toInspire Your Next Data Science Project
在正文开始之前,我们先来了解一下,什么是Side Project?简书上有这么一篇文章:#85 | 什么是Side Project,为什么要做Side Project? 浅显易懂又引人深思。文中提到,其实简书这个平台,原来就是一个side project。
Side Project 对应的中文是副业、业余项目或小项目的意思。
简书团队在做简书之前,主业是做一款面向小型团队的协作软件,后来林立发现互联网上还没有支持Markdown的在线笔记本,就自己设计了一款,然后让公司新来的一个实习生去编程实现,这就是简书的原型。2012年9月简书团队放弃了之前已投入2年多的产品,把简书项目扶正,最终凭借简书这个Side Project帮公司完成了新生。
林立说创业就是赌博,好运气真的非常重要。
国外有个叫Crew的公司,在做项目外包平台,平台上线之后没人知道也没用户,公司的钱只够撑三个月,更没法做广告了,当初他们做公司网站时需要图片,免费的太差劲好图片版权又太贵,于是就请摄影师拍了一组照片,他们想把多余的照片放在网上免费给大家用,于是做了一个叫unsplash.com的网站,然后把这个网站通过Hacker News分享了出去。奇迹出现了,大量的用户拥入Unsplash,然后也顺便进入了Crew的主页,网站几个小时的访问量就超过了过去一年的。所以这次Side Project挽救了主业。
Crew创建Unsplash的初衷是给人们提供一些有价值的东西,但它却意外拯救了公司,今天的封面图就来自于unsplash.com。
上面举的都是创业公司的例子,其实我们每个人也可以利用业余时间做个side project。这两年掀起学习热潮,各种付费课程、专栏、书籍、文章,学习的时候热血沸腾,但很快发现学了没啥用,自己的生活并没什么改变,原因很简单:没有学以致用,没有落地实践。
一说到实践,我现在见得最多的就是写作、英语、读书,然后拉个微信群一块天天打卡互相鼓励,这挺好但其实还是停留在学习的阶段,对自己或许有帮助但对他人价值不大,如果真的想实践不妨花点心思琢磨一个side project。
湾曲日报是一个软件工程师利用业余时间做的一个side project,2014年8月6日创建,网站每天推荐5篇优质英文文章,然后会附上简单的评语,到今天已经有10万人订阅。2016年有很多知识大V涌现出来,如果你留意观察会发现这些大V们基本都常年运营着几个side project,而正是这些side project成就了他们。
我们身边也有很多人正通过自己的side project为这个世界贡献着价值,无论成不成功赚不赚钱,但至少算是真的在实践了,也能让我们的生活变得更有意义。
开始
我们接触到了看似源源不断的数据科学职业建议,但有一个话题没有得到足够的关注:业余项目(或称为小项目,side project)。由于种种原因[1],小项目是很棒的,我喜欢Julie Zhuo在下面简单的Venn图中这样表示:
与你在工作或学校中可能经历的相比,业余项目是一种在目标驱动较少的环境中应用数据科学的一种方式。它们提供了一个随心所欲地玩数据的机会,同时也提供了学习实用技能的机会。
除了有很多乐趣和学习新技能的好方法外,业余项目也能帮助你申请工作。招聘人员和经理们都喜欢看到一些项目,这些项目表明你对数据的兴趣超出了课程和就业的范围。
问题
你曾经想过要开始一个新的项目,但你无法决定该做什么?首先,你花了几个小时集思广益,然后几天过去了。在你知道之前,几周过去了,没有任何新的东西。
这在所有领域的自我驱动项目中都是非常常见的。数据科学没有什么不同。很容易有远大的抱负,但执行起来却要困难得多。我发现数据科学项目最难的部分是开始,以及决定走哪条路。
在这篇文章中,我的意图是提供一些有用的技巧和资源,让你能够高效进入下一个数据科学项目。
思考
在我们跳进下面的资源之前,有一些事情在考虑数据科学项目时值得注意。
你的目标
数据科学是一个极其多样化的领域;这意味着几乎不可能把每一个概念和工具都挤进一个项目中。你需要挑选和选择你想要进一步发展的技能。以下几个相关的例子可以包括:
机器学习与建模
探索性数据分析
度量与实验
数据可视化与交流
数据挖掘与清洗
请注意,虽然很难将每个概念结合在一起,但你可能能够将其中的几个概念结合在一起,例如,你可以爬取数据进行探索性数据分析,然后以一种有趣的方式将其可视化。
基本上,如果你想成为一名更有效的机器学习工程师,你很可能不会通过做一个数据项目来完成这个任务。你的项目应该反映你的目标。这样的话,即使它没有爆发或发现任何开创性的洞察力,你还是会带着一场胜利和一堆应用知识离开。
你的兴趣
就像我们之前提到的那样,业余项目应该是愉快的。不管我们是否意识到了,我们每天都会问自己几百个问题。今天剩下的时间里,试着比平时更多地考虑这些问题。你会对发生的事情感到惊讶,可能会发现你对某些你想的事情更有创意和兴趣。
现在把它应用到你的下一个数据科学项目。你对如何分类早晨跑步感到好奇吗[2]?想知道Trump是如何和何时发Twitter的吗[3]?对体育史上最伟大的一幕感兴趣吗[4]?
这种可能性是无止境的。让你的兴趣、好奇心和目标驱动你的下一个项目。
灵感
我们很容易认为我们是靠自己的力量,但事实证明,很少有这样的情况。如果你努力的话,总有其他人有着相似的兴趣和目标。这种影响对于idea来说是非常强大的。
“Nothing isoriginal. Steal from anywhere that resonates with inspiration or fuels yourimagination.”—Jim Jarmusch
找出你喜欢或欣赏的项目,然后用它们作为跳板来创造新的、独树一帜的作品。我最喜欢的灵感来源如下:
Data is Beautiful[5]
我可以花上几个小时浏览这个数据可视化的小部分。你会对人们想出来的所有独特的想法和问题感兴趣。这里还有一个月挑战,选择一个数据集,用户被要求以最有效的方式可视化它。
Kaggle[6]
有几种方法可以有效地利用Kaggle来激发灵感。首先,你可以看看趋势数据集[7],想出一些有趣的方法来利用这些信息。如果你对机器学习和例子本身更感兴趣,kernelfeature[8]会随着时间的推移而变得越来越好。
The Pudding[9]
的确,视觉文章是一种新兴的新闻形式。The Pudding体现了这种趋势。研究小组利用原始数据集、初步研究和互动来探索大量有趣的话题。
FiveThirtyEight[10]
很经典,但对今天仍然是有用的。数据驱动的博客涉及从政治到体育到文化的方方面面。更别提他们刚刚改进了他们的数据输出页面。
Towards Data Science[11]
最后,我要向TDS团队发出一个振奋人心的声音,让聪明的人聚集在一起,在数据科学领域有一种对实现事物和帮助他人成长的热情。任何一天,浏览最近的故事会给你带来超过一些有趣的项目想法。
打包
在我整个开发过程中,业余项目不仅对我有很大的帮助,而且它们通常也很有趣。最近,数据科学组合上出现了越来越多令人敬畏的内容。如果有兴趣的话,我强烈建议查看以下链接:
Advice on Building Data Science Portfolios[12]
How to Build a Data Science Portfolio[13]
How to Build a Compelling Data Science Portfolio & Resume[14]
任何事情最难的部分是开始。我希望上面的提示和资源能帮助你完成下一个数据科学项目。
知易行难,与君共勉。
原文发布时间为:2018-08-06
本文作者: Conor Dewey
本文来自云栖社区合作伙伴“专知”,了解相关信息可以关注“专知”