沐远_个人页

沐远

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

Clouder
- Apsara Clouder云计算专项技能认证：云服务器ECS入门
  获得于2023-02-05 20:18:02
ACP
- 阿里云数据仓库工程师ACP认证（Alibaba Cloud Certified Professional - Data Warehouse）
  获得于2022-04-07 14:27:21
ACA
- 阿里云云数据库助理工程师认证（ACA）
  获得于2021-04-30 17:28:00

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

发表了文章 2019-10-15

RDS&POLARDB归档到X-Pack Spark计算最佳实践
发表了文章 2019-02-26

云HBase X-Pack解决传统数据仓库瓶颈，赋能客户计算分析业务
发表了文章 2018-08-23

hive数据导入云hbase
发表了文章 2018-03-30

使用spark分析云HBase的数据

正在加载, 请稍后...

滑动查看更多

回答了问题 2020-03-21

hbase的数据用哪些中间件进行数据分析

1、可以使用phoenix，支持做过滤后小数据量(千万级别)的分析 2、把hbase数据导出到parquet，然后可以使用spark、hive等

赞0 踩0 评论0
回答了问题 2020-03-21

hbase,mongodb应用场景

hbase宽表模式，如果数据是k ,v,v,v方式可以使用hbase mongo主要支持json，如果原始数据就是json，建议mongo

赞0 踩0 评论0
回答了问题 2020-03-21

请问：spark 处理 hive 仓库数据，用sparksql 好？还是hivesql好？sparksql 操作hive 的分区分桶表麻烦吗？

两者可以混用 1、spark sql性能好一些 2、hive sql更加稳定 3、spark sql操作hive分区表比较原生 4、saprk sql操作hive的分桶表麻烦一些

赞0 踩0 评论0
回答了问题 2020-03-21

写hbase+接口的时候是否需要单例模式，hbase+连接是否需要关闭？【应用场景：sparkstreaming+从kafka+拿数据存入hbase

可以使用单例模式，同时可以使用broadcast方式把变量broadcast出去，具体可以参考： https://github.com/aliyun/aliyun-apsaradb-hbase-demo/blob/master/spark/sparkstreaming/src/main/scala/com/aliyun/spark/SparkStreamingOnKafka010ToHBasePerformance.scala

赞0 踩0 评论0
回答了问题 2020-03-21

Hive on hbase 分析10亿以上数据不是特别好？

hive 直接读取hbase，因为hbase是行存分析性能差，建议把hbase的数据导出到parquet，然后分析

赞0 踩0 评论0
回答了问题 2020-03-21

Spark sql怎样实现即席查询?

1、spark本身不支持创建索引，不过有基于spark的社区项目支持给spark的表创建二级索引 https://github.com/Intel-bigdata/OAP 2、针对即系场景的加速，可以使用spark的cache技术

赞0 踩0 评论0
回答了问题 2020-03-21

定时hbase -> parquet数据一致遇到的问题

如果有补发历史事件的数据，只能够把两天的数据存储在不同的事件分区中，然后每天对历史的分区做全量的merge。或者使用hudi这种支持upsert的存储格式代替parquet格式

赞0 踩0 评论0
回答了问题 2020-03-21

spark流试在实时跟HBASE关联时，性能会不会慢啊？

spark steaming处理过程中关联hbase中的维表是非常常见的开发模式。通过rowkey去查询hbase性能能在100ms内，而且随着数据量增加，hbase集群扩容即可

赞0 踩0 评论0
回答了问题 2020-03-21

[@徐雷frank][¥20]spark开发，Java与Scala如何选择

如果项目时间不是那么紧，建议可以直接使用scala，一方面会java再学习scala会很快。另外社区的scala的资料更多，而且spark本身scala研发的，scala熟悉后能够更好的理解和学习spark内核

赞0 踩0 评论0
回答了问题 2020-03-21

impala+hive+hbase

1、hbase本身是行存，比较适合简单查询的高效率和并发 2、对于想要做实时分析，建议把hbase的数据归档到parquet，或者kudu然后使用impala

赞0 踩0 评论0
回答了问题 2020-03-21

sparksql用编程的方式和反射的方式注册临时表，哪一种的应用场景更好点？

建议使用变成的方式注册临时表，这样更易管理

赞0 踩0 评论0
回答了问题 2020-03-21

Data Lake Analytics中文乱码

这总一般是编码的问题，如果dla分析中文csv有乱码，可以参考，设置“serialization.encoding”参数 https://help.aliyun.com/document_detail/109657.html?spm=a2c4g.11186623.6.625.1fdda1c0h8VhLv

赞0 踩0 评论0
回答了问题 2020-03-21

sparkStreaming跑任务，运行一周后，出现任务延迟，重启后，又可以正常运行，过段时间（一周甚至更长）又会出现任务延迟

这种一般可能是内存泄漏，建议在作业慢的时候，看下spark ui的executor里面看下堆栈，同时看下executor的gc信息

赞0 踩0 评论0
回答了问题 2020-03-21

大数据考研or自学？

建议考研，一方面考研找到大数据相关的实验室，实验室的项目会有一定的实际业务场景，这样带着问题来学习使用大数据组件能够更加深入。同时研究生阶段可以多读一些大数据相关的论文，开阔视野

赞0 踩0 评论0
回答了问题 2020-03-21

kafka导入数据到hdfs，怎么比较方便

1、如果需要做预计算火写入，可以写一个spark streaming作业消费，写入到hdfs 2、也可以使用kafka 的connect sink到hdfs 3、也可以自己写java程序写到hdfs

赞0 踩0 评论0
回答了问题 2020-03-23

大神们，你们一般hadoop设置几个副本啊？

如果是物理机及本地盘建议3副本，如果是云盘可以考虑2副本，因为云盘本身有容灾保证

赞0 踩0 评论0

回答了问题 2020-03-21

如何批量向hbase中插入数据

目前hadoop社区有一套bulkload到hbase的工具，原理是使用mr或者spark并行的生成hfile存储在hdfs，然后调用hbase的bulkload直接把这些hfile加载到hbase表。代码参考：

val hConf = HBaseConfiguration.create()
hConf.addResource("hbase-site.xml")
val hTableName = "test_log"
hConf.set("hbase.mapreduce.hfileoutputformat.table.name", hTableName)
val tableName = TableName.valueOf(hTableName)
val conn = ConnectionFactory.createConnection(hConf)
val table = conn.getTable(tableName)
val regionLocator = conn.getRegionLocator(tableName)

val hFileOutput = "/tmp/h_file"

output.saveAsNewAPIHadoopFile(hFileOutput,
  classOf[ImmutableBytesWritable],
  classOf[KeyValue],
  classOf[HFileOutputFormat2],
  hConf
)

val bulkLoader = new LoadIncrementalHFiles(hConf)
bulkLoader.doBulkLoad(new Path(hFileOutput), conn.getAdmin, table, regionLocator)

赞0 踩0 评论0

回答了问题 2020-03-21

关于spark分区什么时候进行的问题？

sc.textFile就会做分片来并发执行，具体可以参考 https://blog.csdn.net/zjwcsdn123/article/details/80489537

赞0 踩0 评论0
回答了问题 2020-03-21

hadoop可以同时oss和hdfs吗

可以同时支持，在core-site.xml中配置了不同fs的实现之后，在程序中使用的时候路径的schema使用不同的前缀就可以了，比如oss://pathxx、hdfs://pathxx fs.oss.impl org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem

赞0 踩0 评论0
回答了问题 2020-03-21

Phoenix关联查询性能上和Mysql差距大吗？

phoenix关联查询和mysql在同等数据量上差距不大。同时phoenix本身不适合做大数据量的关联查询，其中一个表在百万级别是可以的

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

沐远_个人页

个人介绍

擅长的技术

RDS&POLARDB归档到X-Pack Spark计算最佳实践

云HBase X-Pack解决传统数据仓库瓶颈，赋能客户计算分析业务

hive数据导入云hbase

使用spark分析云HBase的数据

hbase的数据用哪些中间件进行数据分析

hbase,mongodb应用场景

请问：spark 处理 hive 仓库数据，用sparksql 好？还是hivesql好？sparksql 操作hive 的分区分桶表麻烦吗？

写hbase+接口的时候是否需要单例模式，hbase+连接是否需要关闭？【应用场景：sparkstreaming+从kafka+拿数据存入hbase

Hive on hbase 分析10亿以上数据不是特别好？

Spark sql怎样实现即席查询?

定时hbase -> parquet数据一致遇到的问题

spark流试在实时跟HBASE关联时，性能会不会慢啊？

[@徐雷frank][¥20]spark开发，Java与Scala如何选择

impala+hive+hbase

sparksql用编程的方式和反射的方式注册临时表，哪一种的应用场景更好点？

Data Lake Analytics中文乱码

sparkStreaming跑任务，运行一周后，出现任务延迟，重启后，又可以正常运行，过段时间（一周甚至更长）又会出现任务延迟

大数据 考研or自学？

kafka导入数据到hdfs，怎么比较方便

大神们，你们一般hadoop设置几个副本啊？

如何批量向hbase中插入数据

关于spark分区什么时候进行的问题？

hadoop可以同时oss和hdfs吗

Phoenix关联查询性能上和Mysql差距大吗？

大数据考研or自学？