2台电脑分别装了虚拟机,使用ubuntu操作系统,完成了hadoop分布式的配置。然后对2个CSV文件进行数据处理,执行shell脚本,处理完成的情况下可以生成一个CSV文件。这里我的2个CSV文件只需要存放在主机上吗?(在不使用分布式进行处理的时候,一台电脑进行处理数据,2个CSV文件存放在本机上,执行shell脚本后,在本地指定的文件夹下生成一个处理后的CSV文件。现在使用2台电脑搭好分布式环境后应该如何操作?)我直接按照一台电脑的时候操作的时候,运行时间没有产生明显缩短,输出的文件是一样的。哪里存在问题呢?
。。。。hdfs
先fs -put csv hadoopdir把文件上传到hadoop 然后,使用流api啥的处理 ######回复 @孤独小桃子 : 就是hadoop fs -put这个命令把我要处理的文件上传到hadoop集群里,那这样的化我的shell脚本是不是也要改改?我去看看~######hadoop fs -put 把文件上传到hdfs, hdfs是分布式的,一个文件会按大小,切开,分散到不同的节点机器上。你的shell,此时也不再是在本地运行命令,要用hadoop的流式api,看看官方手册吧######map生成的东西都会被写在本地,reduce输出会生成part…的hdfs里面,不知道你想表达什么。######我想知道我要处理的数据文件应该存放在哪里,是存放在主机还是说分散存放在所有机器######你的意思是两台跟一台没啥区别是吧,Hadoop分布式环境应对数据量很大的情况,比如t级别,你的两个CVS文件,就是用n台效果也是一样的,电线杆当筷子了######@lgscofield 是真的分布式的,不是伪分布式。######回复 @颠覆 : 你的hadoop环境是伪分布式还是真正的分布式呢,真分布式基本上是能看出性能提升的,其实10g的文件也不算大,hadoop体现不出优势######我不知道是不是那样使用分布式的,2台电脑处理的是10G的CSV文件,用一台时间太久,由于现在做测试行不行所有用的文件比较小,但是我看网上说的貌似时间也应该会有明显的减少吧。一台运行的时候用了接近3个小时,2台启动hadoop后,按照和一台的方法一样运行时间好像差不多。######那必须是放在master节点。######@颠覆 是的,建议你去看一下Hadoop分布式的原理,map/reduce的工作机制######哦哦,只要放在master节点就可以了啊。具体处理数据的操作和单台电脑处理数据一样吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。