余懂冬,数据科学与大数据大四学生一枚。于电脑内存不大,难多开虚拟机不熟分布式Hadoop之际,得知阿里云服务器。吾又听闻飞天加速故而用之。
有一点需特别说明,吾辈大数据专业之人,当多部署完全分布式,尽量少整伪分布式。多机部署和单机部署还是有很大差距的。然后共享一下我的小技巧。有人说三台服务器不好搞啊,买的话真不贵,不买多借几个账户开通也可以。下面说一下我的误区。我买完了直接用public ip通讯当然了不是不可以。只是确实慢。公网不好走啊。路上啥都有,弄不好还会消息撞车。
怎么办呢?组云企网,不得不说阿里就是阿里。这个貌似是针对企业提出的这么个好东西。说白了就是把你的云服务器组成内网。但是不是网线直连我不清楚啊。注意!尽量买一个地儿的服务器,别东边买一台,北边买一台,这样不好。就一个地儿三台,还不用买跨区域流量包。否则组云企网是会收费的。
组成云企网,能达到100M/s真的爽!!!基本上大数据组件之间通信也没啥问题。三台2核4G的阿里云ecs,hadoop、zookeeper、hbase、spark都整成分布式集群一点儿问题没有,别用太过就行。
用服务器学习大数据确实爽,你买的越贵用的越爽。当然入门级别的话太贵的也没啥意义。
我就是因为提前接触了服务器,提前接触了大数据才更有底气地去找工作。能以一个普本的学生,去和一群985、211的高手去竞争。当然了,在座的诸位都是大神。
我谢谢诸位大神,我也谢谢阿里云!给了我这个免费接触云服务器的机会,给了我学习大数据的资本。否则我之前真的错误的认为,非土豪难学大数据。
谨以此文献给阿里,献给阿里云社区的小伙伴们!