• 关于 用hadoop 的搜索结果

问题

hadoop 启动时候出现权限不够问题

a123456678 2019-12-01 19:59:28 3702 浏览量 回答数 1

回答

oracle 就能搞定,你关系型数据库转到hadoop你做好了面对各种BUG的准备吗? 你这需求无非就是数据库量大存储查询慢而已,上数据库集群就行了oracle完全可以搞定. 没必要上hadoop ######这个要分布的吧,不然数据量大肯定慢的######storm 或者 spark###### 引用来自“huan”的评论storm 或者 spark 为什么 现在都说spark,storm  这个事比hadoop快。但是公司就要用hadoop。 ######用Hadoop存储。读取速度快!。用Spark计算!计算速度快!######+1 我们目前使用spark可以单机处理亿级计算###### 引用来自“huan”的评论storm 或者 spark 引用来自“OSC-小小侦探”的评论为什么 现在都说spark,storm  这个事比hadoop快。但是公司就要用hadoop。 先弄清楚hadoop是什么再说, spark很早就能运行在hadoop上了,storm 也有 on hadoop 版本。######hadoop做存储啊。。上面跑别的。######分裤分表做了么? ssd上了么? ######高大上的感觉!###### 第一次听要hadoop快速的读取存储的。。。。。难道我们用得不是一个东西? ######Hadoop 上的HDFS是分布式文件。读写很快的###### 引用来自“呼啦_小呆”的评论 第一次听要hadoop快速的读取存储的。。。。。难道我们用得不是一个东西? 继续喷。。继续。 我也不是做大数据的,刚学一个星期。你继续喷!继续!

kun坤 2020-06-08 11:15:58 0 浏览量 回答数 0

问题

[@小川游鱼][¥20]我用hue执行hive SQL的时候 hbase报connectionException

晓生寒 2019-12-01 19:26:45 667 浏览量 回答数 1

新手开公司,教你化繁为简

开公司到底有没有那么难,传统的手续繁琐,线下跑断腿,场地搞不定等问题,通过阿里云”云上公司注册“解决你的烦恼。

回答

成阳:blink内部版本使用hadoop 3.0版本的client,从而能使用到一些yarn 3.x才有功能(比如placement constraint)。但如果使用hadoop 3.0特有的api后,会导致flink在低版本的hadoop集群中不能正常运行。目前大部分yarn用户还是以hadoop 2.6为主,所以目前blink开源版对于hadoop的依赖是2.6及以上版本的。如果flink用户不需要hadoop 3.0特有的api的话,编译flink时用hadoop 2.6版本即可。我们已经测试过基于hadoop 2.6.5的flink能够正常运行在hadoop 3.x的集群中。

apache_flink 2019-12-02 01:56:05 0 浏览量 回答数 0

问题

ECS配置好了免密码登录但还是不上是为什么

姜小文 2019-12-01 20:07:49 487 浏览量 回答数 1

问题

用java代码上传文件到hadoop报异常,并且上传了一个0b的文件

ycl0510 2019-12-01 19:26:09 2718 浏览量 回答数 2

问题

hadoop在用的时候为什么需要建一个hadoop用户组?

a123456678 2019-12-01 20:00:21 1057 浏览量 回答数 2

问题

hadoop 配置snappy失败:报错

kun坤 2020-06-20 11:55:54 0 浏览量 回答数 1

问题

hadoop+hive+hbase集成,hive不能向hbase中插入数据?报错

爱吃鱼的程序员 2020-06-09 11:16:26 0 浏览量 回答数 1

问题

hadoop 配置snappy失败:配置报错 

kun坤 2020-06-02 19:49:45 0 浏览量 回答数 1

回答

不需要的。1.要用 hadoop帐号登录,而不是用Root;2.hadoop目录的ower改为hadoop;3.在hadoop的环境变量中加入对应的目录

a123456678 2019-12-02 02:48:16 0 浏览量 回答数 0

回答

数据准备 HDFS是Hadoop/Spark批处理作业最常用的数据存储之一,目前阿里云的HDFS也已经开始公测。本文将演示在HDFS中创建一个文件,并在Spark应用中进行访问。 1、开通HDFS服务,并创建文件系统 2、设置权限组 1、创建权限组 2、设置权限组的规则eci-hdfs-3 3、为挂载点添加权限组 至此HDFS文件系统就准备完毕。 3、安装Apache Hadoop Client。 HDFS文件系统准备就绪后,就是存入文件。我们采用HDFS client的方式。 Apache Hadoop下载地址:官方链接。建议选用的Apache Hadoop版本不低于2.7.2,本文档中使用的Apache Hadoop版本为Apache Hadoop 2.7.2。 1、执行如下命令解压Apache Hadoop压缩包到指定文件夹。 tar -zxvf hadoop-2.7.2.tar.gz -C /usr/local/ 2、执行如下命令打开core-site.xml配置文件。 vim /usr/local/hadoop-2.7.2/etc/hadoop/core-site.xml 修改core-site.xml配置文件如下: fs.defaultFS dfs://f-4b1fcae5dvexx.cn-hangzhou.dfs.aliyuncs.com:10290 fs.dfs.impl com.alibaba.dfs.DistributedFileSystem fs.AbstractFileSystem.dfs.impl com.alibaba.dfs.DFS io.file.buffer.size 8388608 alidfs.use.buffer.size.setting false dfs.usergroupservice.impl com.alibaba.dfs.security.LinuxUserGroupService.class dfs.connection.count 256 注:由于我们是on k8s,所以yarn相关的配置项不用配置,只用配置HDFS相关的几个配置项。修改后的core-site.xml文件后在面很多地方会用到。 3、执行如下命令打开/etc/profile配置文件。 vim /etc/profile 添加环境变量 export HADOOP_HOME=/usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=/usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/:/usr/local/hadoop-2.7.2/share/hadoop/common/:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/hadoop/hdfs/lib/:/usr/local/hadoop-2.7.2/share/hadoop/hdfs/:/usr/local/hadoop-2.7.2/share/hadoop/yarn/lib/:/usr/local/hadoop-2.7.2/share/hadoop/yarn/:/usr/local/hadoop-2.7.2/share/hadoop/mapreduce/lib/:/usr/local/hadoop-2.7.2/share/hadoop/mapreduce/:/usr/local/hadoop-2.7.2/contrib/capacity-scheduler/*.jar export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.2/etc/hadoop 执行如下命令使配置生效。 source /etc/profile 注:我们只需要一个HDFS client即可,不需要部署HDFS集群。 4、添加阿里云HDFS依赖 cp aliyun-sdk-dfs-1.0.3.jar /usr/local/hadoop-2.7.2/share/hadoop/hdfs 下载地址:此处下载文件存储HDFS的SDK。 4、上传数据 #创建数据目录 [root@liumi-hdfs ~]# $HADOOP_HOME/bin/hadoop fs -mkdir -p /pod/data #将本地准备的文件(一本小说文本)上传到hdfs [root@liumi-hdfs ~]# $HADOOP_HOME/bin/hadoop fs -put ./A-Game-of-Thrones.txt /pod/data/A-Game-of-Thrones.txt #查看,文件大小为30G [root@liumi-hdfs local]# $HADOOP_HOME/bin/hadoop fs -ls /pod/data Found 1 items -rwxrwxrwx 3 root root 33710040000 2019-11-10 13:02 /pod/data/A-Game-of-Thrones.txt 至此HDFS数据准备部分就已经ready。 在spark应用中读取HDFS的数据 1、开发应用 应用开发上跟传统的部署方式没有区别。 SparkConf conf = new SparkConf().setAppName(WordCount.class.getSimpleName()); JavaRDD lines = sc.textFile("dfs://f-4b1fcae5dvxxx.cn-hangzhou.dfs.aliyuncs.com:10290/pod/data/A-Game-of-Thrones.txt", 250); ... wordsCountResult.saveAsTextFile("dfs://f-4b1fcae5dvxxx.cn-hangzhou.dfs.aliyuncs.com:10290/pod/data/A-Game-of-Thrones-Result"); sc.close(); 2、将前面的core-site.xml放入应用项目的resources目录 fs.defaultFS dfs://f-4b1fcae5dvexx.cn-hangzhou.dfs.aliyuncs.com:10290 fs.dfs.impl com.alibaba.dfs.DistributedFileSystem fs.AbstractFileSystem.dfs.impl com.alibaba.dfs.DFS io.file.buffer.size 8388608 alidfs.use.buffer.size.setting false dfs.usergroupservice.impl com.alibaba.dfs.security.LinuxUserGroupService.class dfs.connection.count 256 3、打包的jar文件需要包含所有依赖 mvn assembly:assembly 附应用的pom.xml: 1 2 5 4.0.0 6 7 com.aliyun.liumi.spark 8 SparkExampleJava 9 1.0-SNAPSHOT 10 11 12 13 org.apache.spark 14 spark-core_2.12 15 2.4.3 16 17 18 19 com.aliyun.dfs 20 aliyun-sdk-dfs 21 1.0.3 22 23 24 25 26 27 28 29 org.apache.maven.plugins 30 maven-assembly-plugin 31 2.6 32 33 false 34 35 jar-with-dependencies 36 37 38 39 com.aliyun.liumi.spark.example.WordCount 40 41 42 43 44 45 make-assembly 46 package 47 48 assembly 49 50 51 52 53 54 55 4、编写Dockerfile # spark base image FROM registry.cn-hangzhou.aliyuncs.com/eci_open/spark:2.4.4 # 默认的kubernetes-client版本有问题,建议用最新的 RUN rm $SPARK_HOME/jars/kubernetes-client-*.jar ADD https://repo1.maven.org/maven2/io/fabric8/kubernetes-client/4.4.2/kubernetes-client-4.4.2.jar $SPARK_HOME/jars # 拷贝本地的应用jar RUN mkdir -p /opt/spark/jars COPY SparkExampleJava-1.0-SNAPSHOT.jar /opt/spark/jars 5、构建应用镜像 docker build -t registry.cn-beijing.aliyuncs.com/liumi/spark:2.4.4-example -f Dockerfile . 6、推到阿里云ACR docker push registry.cn-beijing.aliyuncs.com/liumi/spark:2.4.4-example 至此,镜像都已经准备完毕。接下来就是在kubernetes集群中部署Spark应用了。

1934890530796658 2020-03-20 20:49:14 0 浏览量 回答数 0

问题

新建hive表连接oss报错:No FileSystem for scheme: oss

泪三国云无痕 2019-12-01 19:27:24 1972 浏览量 回答数 0

问题

hive on tez 设置后报错【java.lang.NoClassDefFoundError: org/apache/tez/serviceplugins/api/TaskScheduler】

alanpan 2019-12-01 19:24:06 2433 浏览量 回答数 1

问题

Hbase 创建的WALs下log文件所属用户为hadoop而不是hbase

hbase小能手 2019-12-01 20:25:51 634 浏览量 回答数 1

问题

E-mapreduce服务是否支持用Python语言开发的程序

smallpotato000 2019-12-01 19:49:16 1999 浏览量 回答数 1

回答

貌似又是32位程序和64位系统的问题把hadoop本地库换成64位的就行这个不是报错,提示你本地没有hadoop的库,使用其它的进行替代,如果不想看到,在网上找找资料,装个hadoop的本地库就行不是错误,启动时检查hadoop本地方法库,本地库压缩跟文件操作会快一些,找不到就用内建的java库,hadoop编译好的只有32位。site.xml配置禁用后就不提示了,你想用的话去下一个64位 libhadoop.so或者自己编译或者在你机器上搞一个32位的libc环境

爱吃鱼的程序员 2020-06-09 13:35:42 0 浏览量 回答数 0

问题

hadoop 得到nameNode, web环境出错? 400 报错

爱吃鱼的程序员 2020-06-03 17:08:27 3 浏览量 回答数 1

问题

用Hadoop构建电影推荐系统,如何成功将这些代码成功打包

爵霸 2019-12-01 19:35:41 1060 浏览量 回答数 1

问题

Java连接Hbase(单机版)?报错

爱吃鱼的程序员 2020-06-22 17:31:36 0 浏览量 回答数 1

回答

应该是Hadoop在hbase和Hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库,而hive是作为分布式数据仓库。当然hive还是借用hadoop的MapReduce来完成一些hive中的命令的执行。而hbase与h... 答案来源网络,供您参考

问问小秘 2019-12-02 02:13:54 0 浏览量 回答数 0

回答

我用的flink-1.7.2版本和hadoop-2.7.2,hadoop_conf_dir和env也配置了,但读取hdfs上数据也报这个错误。后来在flink/lib下添加官网下载的flink和hadoop匹配的flink-shaded-hadoop2-uber-1.7.2.jar包,就不报错了。不知道你的问题是不是也能这样解决

阿森纳不可战胜 2019-12-02 02:04:18 0 浏览量 回答数 0

问题

Hadoop的HDFS的java client jar包在哪下载?

因为相信,所以看见。 2020-05-27 10:03:13 8 浏览量 回答数 1

回答

1 Hadoop主要针对map-reduce函数编程模型的程序,spark则比较灵活,提供多种transformation和action,可以表达更复杂的模型;2 运行在Hadoop上的map-reducec程序,基本上自己管理自己的数据(来自HDFS或者http等文件系统的文件数据,来自关系型数据库或者NoSQL型数据库的数据),而Spark则是提供了RDD这种数据结构并把RDD当作分布式数据来对待;3 Spark可以在程序中指定将特定的RDD缓存于内存还是磁盘,而Hadoop的cache机制并没有那么有效(?)至少理论上是这样;4 Hadoop通常认为适合数据是key-value这种形式的,实际中个人感觉至少要是表格形式的,而且在一次job中表格的条目之间最好逻辑不相关;而Spark则可以处理逻辑结构更加复杂的数据(例如图特别是有向无环图);5 个人感觉Hadoop可以当做分布式计算框架来使用,而Spark更像是一种数据过滤和统计计算工具。未必准确,只是个人的感觉;6 编程语言方面,Hadoop除了Java(或者其他JVM语言)之外,理论上可以支持任何可以用stdin/stdout进行输入输出的编程语言(通过Hadoop Streaming);而Spark仅仅支持Java/Scala/Python/R这四种。

smallpotato000 2019-12-02 01:36:49 0 浏览量 回答数 0

回答

。。。。hdfs  先fs -put csv hadoopdir把文件上传到hadoop 然后,使用流api啥的处理 ######回复 @孤独小桃子 : 就是hadoop fs -put这个命令把我要处理的文件上传到hadoop集群里,那这样的化我的shell脚本是不是也要改改?我去看看~######hadoop fs -put 把文件上传到hdfs, hdfs是分布式的,一个文件会按大小,切开,分散到不同的节点机器上。你的shell,此时也不再是在本地运行命令,要用hadoop的流式api,看看官方手册吧######map生成的东西都会被写在本地,reduce输出会生成part…的hdfs里面,不知道你想表达什么。######我想知道我要处理的数据文件应该存放在哪里,是存放在主机还是说分散存放在所有机器######你的意思是两台跟一台没啥区别是吧,Hadoop分布式环境应对数据量很大的情况,比如t级别,你的两个CVS文件,就是用n台效果也是一样的,电线杆当筷子了######@lgscofield 是真的分布式的,不是伪分布式。######回复 @颠覆 : 你的hadoop环境是伪分布式还是真正的分布式呢,真分布式基本上是能看出性能提升的,其实10g的文件也不算大,hadoop体现不出优势######我不知道是不是那样使用分布式的,2台电脑处理的是10G的CSV文件,用一台时间太久,由于现在做测试行不行所有用的文件比较小,但是我看网上说的貌似时间也应该会有明显的减少吧。一台运行的时候用了接近3个小时,2台启动hadoop后,按照和一台的方法一样运行时间好像差不多。######那必须是放在master节点。######@颠覆 是的,建议你去看一下Hadoop分布式的原理,map/reduce的工作机制######哦哦,只要放在master节点就可以了啊。具体处理数据的操作和单台电脑处理数据一样吗?

kun坤 2020-06-02 17:22:34 0 浏览量 回答数 0

回答

。。。。hdfs  先fs -put csv hadoopdir把文件上传到hadoop 然后,使用流api啥的处理 ######回复 @孤独小桃子 : 就是hadoop fs -put这个命令把我要处理的文件上传到hadoop集群里,那这样的化我的shell脚本是不是也要改改?我去看看~######hadoop fs -put 把文件上传到hdfs, hdfs是分布式的,一个文件会按大小,切开,分散到不同的节点机器上。你的shell,此时也不再是在本地运行命令,要用hadoop的流式api,看看官方手册吧######map生成的东西都会被写在本地,reduce输出会生成part…的hdfs里面,不知道你想表达什么。######我想知道我要处理的数据文件应该存放在哪里,是存放在主机还是说分散存放在所有机器######你的意思是两台跟一台没啥区别是吧,Hadoop分布式环境应对数据量很大的情况,比如t级别,你的两个CVS文件,就是用n台效果也是一样的,电线杆当筷子了###### @lgscofield 是真的分布式的,不是伪分布式。######回复 @颠覆 : 你的hadoop环境是伪分布式还是真正的分布式呢,真分布式基本上是能看出性能提升的,其实10g的文件也不算大,hadoop体现不出优势######我不知道是不是那样使用分布式的,2台电脑处理的是10G的CSV文件,用一台时间太久,由于现在做测试行不行所有用的文件比较小,但是我看网上说的貌似时间也应该会有明显的减少吧。一台运行的时候用了接近3个小时,2台启动hadoop后,按照和一台的方法一样运行时间好像差不多。######那必须是放在master节点。###### @颠覆 是的,建议你去看一下Hadoop分布式的原理,map/reduce的工作机制######哦哦,只要放在master节点就可以了啊。具体处理数据的操作和单台电脑处理数据一样吗?

kun坤 2020-06-14 23:07:36 0 浏览量 回答数 0

问题

用python写hadoop上的map-reduce:报错

kun坤 2020-06-14 09:12:03 0 浏览量 回答数 0

回答

解决问题的层面不一样:首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。 这两者可合可分,Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。

游客z26npzhujwpdw 2019-12-02 03:08:24 0 浏览量 回答数 0

回答

于是回归到PostgreSql 你直接说hadoop不如PG不就行了,还打那么多字 你这一秒钟几十万上下的,打这么多字,怎么也损失了好几个亿了 ######回复 @快速开发师 : 你的意思是说我儿子只配跟门外汉交流?放屁,我儿子是专家。######对于我这样一个门外汉来说,他这样说我更容易理解,未尝不可######哈哈~~我曰。请先去了解大数据生态再来说...你咋啥都能二个凡是 我也是醉了~~######儿啊,你又调皮了######你这个名字够狠######那用什么处理?###### 楼主对hadoop的了解还停留在1版本上。现在2版本是YARN构架,是一个资源分配,调度系统。计算模型也不限于map-reduce,正是因为这个开放性的特点,更多的计算模式被引入了进来,玩法也更多了,离线(map-reduce),准实时(hive),实时(spark)都有对应产品,而且也得到了业界的认可。所以现在提到hadoop,并不是分布式文件的流读取,离线map-reduce。而是整个hadoop生态圈。 ######你先了解一下hadoop和spark吧,并不是你说的那么简单。绝大部分情况,大数据的实时性都不是太高,不然你能想到每秒几个G的数据,或者一下就能分析出用户的某种行为?###### 引用来自“BoXuan”的评论你先了解一下hadoop和spark吧,并不是你说的那么简单。绝大部分情况,大数据的实时性都不是太高,不然你能想到每秒几个G的数据,或者一下就能分析出用户的某种行为? 去了解一下streaming 吧 主流的公司 都不用Hadoop 包括阿里######回复 @BoXuan : 可以滚得远点了######还有你说的streaming这只是一种数据传输方式,底层实现应该也就是socket tcp实现,难道有什么其它神奇之处?######阿里首先用的hadoop,后面才用的spark,目前开源界处理大数据的基本就这两款,spark作为后起之秀,肯定在某些方面优于hadoop的,不过你说的hadoop没有主流公司用,我就不敢苟同了,多查查资料,不要可能就是你自己说的“懒人”才好###### 回复 @BoXuan :  你用菊花说话的吗?  https://www.aliyun.com/product/odps 你们这些嘴里hadoop的,没有一个不是乱七八糟 ######回复 @BoXuan : 你可以滚了,我已经给出阿里的解决方案了。######我看过一个阿里技术大佬有关spark的文章,他们是hadoop和spark都用的。回复你这个的重点是要说明你能不要说脏话吗?人品能不能上升一点?######哈,hadoop都玩出生态了。不过确实可以。但hadoop的生态和大数据没毛线关系吧。喜欢聊大数据的,我倒是很愿意探讨一下。不过希望确实是在讨论大数据的实际问题。######每天被人骂SB,是怎样的体验?

kun坤 2020-06-08 11:16:21 0 浏览量 回答数 0

问题

Hbase create 'test','cf' 报错!?报错

爱吃鱼的程序员 2020-06-22 17:07:03 0 浏览量 回答数 1
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 云栖号物联网 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站 云栖号弹性计算 阿里云云栖号 云栖号案例 云栖号直播