开发者社区> 问答> 正文

祛魅之旅

       我已经不记得第一次听到“大数据”这个时尚名词是什么时候了。伴随着“大数据”出现的又总是牛逼闪闪的公司和学者,实在是遥不可及。读过 维克托·迈尔舍恩伯格的《大数据时代》,讲了很多伟大的数据案列,直观地展示了数据的力量。社交网络上几乎每周都会有关于大数据的成功解读,名家解释。当然有力挺也有批判。读研选择的方向恰巧也是与此相关,每天都能接触到来自社会和学术圈的大数据信息,专业课不同的教授也给我们讲授各种各样大数据的相关。从商品推荐到医疗应用,从社交网络到生物信息…
大数据这个概念从一开始就有神秘色彩,大家 模模糊糊地 都能说出个一二三,但是要完整给出大数据的挖掘方法,好像又没有人能讲得非常清楚。大数据的教科书案例:google流感预测,近来也充满争议。很多人都在给我们描绘或者幻想拥有大数据的未来,连我老爸都跑来问我这个东西搞好了能不能用来预测股票……
每天都在仰望星空,现实是从来没有找到过大地。
可能很多人和我一样都有这样的困惑,对于同样的问题,数据量上了规模之后,到底会带来怎么样的变化和挑战?仅仅停留在paper层面看别人的口水的笔墨,没办法驱除心头的疑惑,也摸不到自己对问题理解的极限。
像我这样的平凡学生狗,一没技术,二没设备, 这样的竞赛提供了一个非常好的学习机会。我把标题叫做祛魅之旅。 祛魅,破除大数据的神秘,感受大数据的魅力。 这是一次直面大量真实数据的机会,第一次拥有可以亲自操作的计算集群。无论是Kaggle还是KDD cup,能做到提供计算平台的,好像真没有。有了数据又有了工具,开始一步一步揭开数据的神秘。亲自做一下,尝试不同的方法和思路,是体会数据魅力的最好方法。可能牛校和高富帅实验室早已标配这样的计算能力,对他们来说竞赛的额外意义可能是提供了持续进步的动力。S1刷榜卖萌最狠的往往都是排名最靠前的牛人。
竞赛带来的体验很有意思,甚至作息都能为之改变……相互的交流和学习没有因为竞赛而丢失,同校可有小伙伴的指导,在线可以有群的交流,S2还有工单支持,还得感谢写博客的各种牛们,没有你们会少很多精彩。至于比赛过程中激烈争论的小号作弊、赛制改变、数据集划分等等的争议,不谈事件的对错,这些事情本身就挺有意思,至少是很多人共同参与的一个进程,T恤最后也争取到了是吧。阿里的员工也够辛苦,目测支撑整个比赛的员工不会太多,工单在凌晨都有人回复,不容易,感谢你们。不管是争论还是折腾,不管是我们认同的还是反对的,也都是就事论事,挺好的。遗憾和缺陷肯定有,看个人怎么想吧。
自己实在是没有什么技术能写出来跟别人分享,都是最基本的想法与实现。拿到数据最有意思的事情就是做各种统计,不同的图表可以反馈出数据的很多特性,有些是和直觉一致的,有些则完全相反。前进的过程能发现一个逆天特征,应该是最大的快乐。模型的调试,问题的化简,本身就充满了未知,如何把握,如何学习新的知识解决现有问题都充满挑战。 类似的方法思路,不同的调制手段出来的结果往往差距也会很大,这其中会有精密的诀窍。 怎么去使用ODPS也是S2开始的一大难题,幸好有各路开拓者的无私分享,利用好现有工具是 提高效率的 最好方法。非常佩服工程师们,实现了这样的计算集群。ODPS也许不是最强大的,也不是最完善的,但是能拿出来给大家玩,还是非常可爱的。文档都为你们定制更新,还有调戏工单客服的机会。
如果要问收获是到底是什么,目前来看是还没到手的T恤一件,得多亏S1最后爬着过了线…… 竞赛的成就感不同于读懂paper的恍然大悟,而是自我的参悟。 正真的收获也许是对大数据的敬畏之心,你可以感受到数据的力量是真实存在的。这个力量就体现在你反复调试和验证的特征或者模型之中。 敬畏是因为四个字段的简单数据就摆在你面前,这些简单的字段组合拥有洞悉未来的能力。
这是我的大数据祛魅之旅,你们的肯定比我还要精彩。


感谢阿里,感谢小伙伴,感谢强哥,感谢所有人。

展开
收起
Adamus_7 2014-05-19 21:52:55 8671 0
3 条回答
写回答
取消 提交回答
  • “这是一次直面大量真实数据的机会,第一次拥有可以亲自操作的计算集群。”这是办大数据竞赛最原始的初衷,希望可以带给大家不一样的体验~~~谢谢
    2014-05-20 10:26:54
    赞同 展开评论 打赏
  • 回1楼ustc学渣的帖子
    还有很多问题读了paper也搞不定……
    2014-05-19 23:48:46
    赞同 展开评论 打赏
  • Re祛魅之旅
    读paper的过程印证你在实际操作中出现的问题的感觉实在是brilliant~
    2014-05-19 22:00:09
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载