本人是一名的大三的软件工程(大数据技术方向)的学生,由于本学期需要学习大数据原理与实践,而学习这门课首先要学习Hadoop的搭建和使用,所以我使用了三台本地虚拟机来搭建了Hadoop集群,但是因为后期需要搭建网站收集网络数据进行学习计算,所以我需要一台云服务器来搭建Hadoop集群。由于跟随企业老师的学习需要用时两个月,而其他的云服务器只能领取一个月,于是我选择了阿里云的飞天加速计划,阿里云的飞天加速计划预计可以领取两个月的云服务器使用,足够支撑我完成学习Hadoop,感谢阿里云的飞天加速计划
阿里云的云服务器管理控制台很好用,不仅可以详细的监控云服务器、设置云服务器的防火墙端口等相关参数,它还会实时报警一些云服务器的风险,使得你能更好的掌控自己的服务器。
在这里分享一下搭建伪分布式Hadoop的过程和遇到的问题:1:上传合适的jdk和Hadoop安装包,上传完成后解压到相应的路径2:配置jdk和Hadoop的环境变量,配置主机映射3:配置core-site.xml文件,指定namenode的地址和Hadoop数据的存储目录4:配置hdfs—site.xml文件,指定namenode的访问地址和Secondarynamenode的地址和HDFS副本数量为15:配置mapred-site.xml文件,指定MapReduce程序运行在Yarn上6:配置yarn-site.xml文件,指定MR走shuffle、指定ResourceManager的地址、继承环境变量7:初始化HDFS、启动HDFS和YARN
也分享一下搭建环境时遇到的问题:我在配置完环境后,发现进程全部运行正常,但是访问不了namenode的客户端,一番排查之后解决了:需要在阿里云控制台开放namenode设置的端口,还有就是云服务器是有一个共网IP和一个私网IP,如果在配置完hadoop集群并成功启动后发现无法在浏览器访问客户端,除了没开放端口外,也可能是配置时搞错了IP,导致浏览器不能正确的指向客户端。
通过这次使用ECS搭建Hadoop的过程,我学习到了Hadoop和云服务器的使用,了解到了ESC的原理和运行过程,感谢阿里云的飞天加速计划