祛魅之旅-问答-阿里云开发者社区-阿里云

开发者社区> Adamus_7> 正文

祛魅之旅

2014-05-19 21:52:55 8231 3
       我已经不记得第一次听到“大数据”这个时尚名词是什么时候了。伴随着“大数据”出现的又总是牛逼闪闪的公司和学者,实在是遥不可及。读过 维克托·迈尔舍恩伯格的《大数据时代》,讲了很多伟大的数据案列,直观地展示了数据的力量。社交网络上几乎每周都会有关于大数据的成功解读,名家解释。当然有力挺也有批判。读研选择的方向恰巧也是与此相关,每天都能接触到来自社会和学术圈的大数据信息,专业课不同的教授也给我们讲授各种各样大数据的相关。从商品推荐到医疗应用,从社交网络到生物信息…
大数据这个概念从一开始就有神秘色彩,大家 模模糊糊地 都能说出个一二三,但是要完整给出大数据的挖掘方法,好像又没有人能讲得非常清楚。大数据的教科书案例:google流感预测,近来也充满争议。很多人都在给我们描绘或者幻想拥有大数据的未来,连我老爸都跑来问我这个东西搞好了能不能用来预测股票……
每天都在仰望星空,现实是从来没有找到过大地。
可能很多人和我一样都有这样的困惑,对于同样的问题,数据量上了规模之后,到底会带来怎么样的变化和挑战?仅仅停留在paper层面看别人的口水的笔墨,没办法驱除心头的疑惑,也摸不到自己对问题理解的极限。
像我这样的平凡学生狗,一没技术,二没设备, 这样的竞赛提供了一个非常好的学习机会。我把标题叫做祛魅之旅。 祛魅,破除大数据的神秘,感受大数据的魅力。 这是一次直面大量真实数据的机会,第一次拥有可以亲自操作的计算集群。无论是Kaggle还是KDD cup,能做到提供计算平台的,好像真没有。有了数据又有了工具,开始一步一步揭开数据的神秘。亲自做一下,尝试不同的方法和思路,是体会数据魅力的最好方法。可能牛校和高富帅实验室早已标配这样的计算能力,对他们来说竞赛的额外意义可能是提供了持续进步的动力。S1刷榜卖萌最狠的往往都是排名最靠前的牛人。
竞赛带来的体验很有意思,甚至作息都能为之改变……相互的交流和学习没有因为竞赛而丢失,同校可有小伙伴的指导,在线可以有群的交流,S2还有工单支持,还得感谢写博客的各种牛们,没有你们会少很多精彩。至于比赛过程中激烈争论的小号作弊、赛制改变、数据集划分等等的争议,不谈事件的对错,这些事情本身就挺有意思,至少是很多人共同参与的一个进程,T恤最后也争取到了是吧。阿里的员工也够辛苦,目测支撑整个比赛的员工不会太多,工单在凌晨都有人回复,不容易,感谢你们。不管是争论还是折腾,不管是我们认同的还是反对的,也都是就事论事,挺好的。遗憾和缺陷肯定有,看个人怎么想吧。
自己实在是没有什么技术能写出来跟别人分享,都是最基本的想法与实现。拿到数据最有意思的事情就是做各种统计,不同的图表可以反馈出数据的很多特性,有些是和直觉一致的,有些则完全相反。前进的过程能发现一个逆天特征,应该是最大的快乐。模型的调试,问题的化简,本身就充满了未知,如何把握,如何学习新的知识解决现有问题都充满挑战。 类似的方法思路,不同的调制手段出来的结果往往差距也会很大,这其中会有精密的诀窍。 怎么去使用ODPS也是S2开始的一大难题,幸好有各路开拓者的无私分享,利用好现有工具是 提高效率的 最好方法。非常佩服工程师们,实现了这样的计算集群。ODPS也许不是最强大的,也不是最完善的,但是能拿出来给大家玩,还是非常可爱的。文档都为你们定制更新,还有调戏工单客服的机会。
如果要问收获是到底是什么,目前来看是还没到手的T恤一件,得多亏S1最后爬着过了线…… 竞赛的成就感不同于读懂paper的恍然大悟,而是自我的参悟。 正真的收获也许是对大数据的敬畏之心,你可以感受到数据的力量是真实存在的。这个力量就体现在你反复调试和验证的特征或者模型之中。 敬畏是因为四个字段的简单数据就摆在你面前,这些简单的字段组合拥有洞悉未来的能力。
这是我的大数据祛魅之旅,你们的肯定比我还要精彩。


感谢阿里,感谢小伙伴,感谢强哥,感谢所有人。

取消 提交回答
全部回答(3)
  • 一婷
    2014-05-20 10:26:54
    “这是一次直面大量真实数据的机会,第一次拥有可以亲自操作的计算集群。”这是办大数据竞赛最原始的初衷,希望可以带给大家不一样的体验~~~谢谢
    0 0
  • Adamus_7
    2014-05-19 23:48:46
    回1楼ustc学渣的帖子
    还有很多问题读了paper也搞不定……
    0 0
  • ustc_学渣
    2014-05-19 22:00:09
    Re祛魅之旅
    读paper的过程印证你在实际操作中出现的问题的感觉实在是brilliant~
    0 0
添加回答
相关问答

4

回答

Spark 【问答合集】

社区小助手 2019-05-29 14:13:40 123757浏览量 回答数 4

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 120280浏览量 回答数 10

37

回答

SaaS模式云数据仓库MaxCompute 百问百答合集(持续更新20211202)

亢海鹏 2020-05-29 15:10:00 62259浏览量 回答数 37

5

回答

java.lang.UnsupportedOperationException: This is supposed to be overridden by subclasses.

迷茫君 2019-07-16 09:26:11 118495浏览量 回答数 5

10

回答

新的技术,比如大数据、AI如何应用在航空行业?

诺诺罗亚 2019-06-26 16:15:54 117492浏览量 回答数 10

7

回答

大数据如何应用在航空领域?

游客evqqr7nnmkzcs 2019-06-26 17:58:27 118036浏览量 回答数 7

54

回答

作弊队伍处罚公告

天渡 2014-03-31 20:39:11 59970浏览量 回答数 54

18

回答

MaxCompute百问集锦(持续更新20171011)

隐林 2017-06-30 18:30:36 50853浏览量 回答数 18

11

回答

速戳 | 20位阿里出题专家-备战阿里必不可少的题目

Runt 2020-04-15 10:54:04 56758浏览量 回答数 11

13

回答

游戏云精彩帖汇总

nono20011908 2014-08-22 11:00:12 203662浏览量 回答数 13
+关注
0
文章
8
问答
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载