开发者社区> 问答> 正文

Hadoop配置成功后如何处理数据:配置报错 

2台电脑分别装了虚拟机,使用ubuntu操作系统,完成了hadoop分布式的配置。然后对2个CSV文件进行数据处理,执行shell脚本,处理完成的情况下可以生成一个CSV文件。这里我的2个CSV文件只需要存放在主机上吗?(在不使用分布式进行处理的时候,一台电脑进行处理数据,2个CSV文件存放在本机上,执行shell脚本后,在本地指定的文件夹下生成一个处理后的CSV文件。现在使用2台电脑搭好分布式环境后应该如何操作?)我直接按照一台电脑的时候操作的时候,运行时间没有产生明显缩短,输出的文件是一样的。哪里存在问题呢?

展开
收起
kun坤 2020-06-02 17:22:27 519 0
1 条回答
写回答
取消 提交回答
  • 。。。。hdfs 
    先fs -put csv hadoopdir把文件上传到hadoop 然后,使用流api啥的处理 ######回复 @孤独小桃子 : 就是hadoop fs -put这个命令把我要处理的文件上传到hadoop集群里,那这样的化我的shell脚本是不是也要改改?我去看看~######hadoop fs -put 把文件上传到hdfs, hdfs是分布式的,一个文件会按大小,切开,分散到不同的节点机器上。你的shell,此时也不再是在本地运行命令,要用hadoop的流式api,看看官方手册吧######map生成的东西都会被写在本地,reduce输出会生成part…的hdfs里面,不知道你想表达什么。######我想知道我要处理的数据文件应该存放在哪里,是存放在主机还是说分散存放在所有机器######你的意思是两台跟一台没啥区别是吧,Hadoop分布式环境应对数据量很大的情况,比如t级别,你的两个CVS文件,就是用n台效果也是一样的,电线杆当筷子了######@lgscofield 是真的分布式的,不是伪分布式。######回复 @颠覆 : 你的hadoop环境是伪分布式还是真正的分布式呢,真分布式基本上是能看出性能提升的,其实10g的文件也不算大,hadoop体现不出优势######我不知道是不是那样使用分布式的,2台电脑处理的是10G的CSV文件,用一台时间太久,由于现在做测试行不行所有用的文件比较小,但是我看网上说的貌似时间也应该会有明显的减少吧。一台运行的时候用了接近3个小时,2台启动hadoop后,按照和一台的方法一样运行时间好像差不多。######那必须是放在master节点。######@颠覆 是的,建议你去看一下Hadoop分布式的原理,map/reduce的工作机制######哦哦,只要放在master节点就可以了啊。具体处理数据的操作和单台电脑处理数据一样吗?

    2020-06-02 17:22:34
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载