沐远个人页面-阿里云开发者社区

4
27

个人介绍

暂无个人介绍

擅长的技术

  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

阿里云技能认证

详细说明
  • 高分内容
  • 最新动态
  • 文章
  • 问答
正在加载, 请稍后...
暂无更多信息

2020年03月

  • 03.21 17:44:47
    回答了问题 2020-03-21 17:44:47

    hbase的数据用哪些中间件进行数据分析

    1、可以使用phoenix,支持做过滤后小数据量(千万级别)的分析 2、把hbase数据导出到parquet,然后可以使用spark、hive等

    踩0 评论0
  • 03.21 17:42:28
    回答了问题 2020-03-21 17:42:28

    hbase,mongodb应用场景

    hbase宽表模式,如果数据是k ,v,v,v方式可以使用hbase mongo主要支持json,如果原始数据就是json,建议mongo

    踩0 评论0
  • 03.21 17:40:09
    回答了问题 2020-03-21 17:40:09

    请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

    两者可以混用 1、spark sql性能好一些 2、hive sql更加稳定 3、spark sql操作hive分区表比较原生 4、saprk sql操作hive的分桶表麻烦一些

    踩0 评论0
  • 03.21 17:36:02
    回答了问题 2020-03-21 17:36:02

    写hbase+接口的时候是否需要单例模式,hbase+连接是否需要关闭?【应用场景:sparkstreaming+从kafka+拿数据存入hbase

    可以使用单例模式,同时可以使用broadcast方式把变量broadcast出去,具体可以参考: https://github.com/aliyun/aliyun-apsaradb-hbase-demo/blob/master/spark/sparkstreaming/src/main/scala/com/aliyun/spark/SparkStreamingOnKafka010ToHBasePerformance.scala

    踩0 评论0
  • 03.21 17:30:49
    回答了问题 2020-03-21 17:30:49

    Hive on hbase 分析10亿以上数据不是特别好?

    hive 直接读取hbase,因为hbase是行存分析性能差,建议把hbase的数据导出到parquet,然后分析

    踩0 评论0
  • 03.21 17:28:58
    回答了问题 2020-03-21 17:28:58

    Spark sql怎样实现即席查询?

    1、spark本身不支持创建索引,不过有基于spark的社区项目支持给spark的表创建二级索引 https://github.com/Intel-bigdata/OAP 2、针对即系场景的加速,可以使用spark的cache技术

    踩0 评论0
  • 03.21 17:26:49
    回答了问题 2020-03-21 17:26:49

    定时hbase -> parquet数据一致遇到的问题

    如果有补发历史事件的数据,只能够把两天的数据存储在不同的事件分区中,然后每天对历史的分区做全量的merge。或者使用hudi这种支持upsert的存储格式代替parquet格式

    踩0 评论0
  • 03.21 17:25:33
    回答了问题 2020-03-21 17:25:33

    spark流试在实时跟HBASE关联时,性能会不会慢啊?

    spark steaming处理过程中关联hbase中的维表是非常常见的开发模式。通过rowkey去查询hbase性能能在100ms内,而且随着数据量增加,hbase集群扩容即可

    踩0 评论0
  • 03.21 17:23:39
    回答了问题 2020-03-21 17:23:39

    [@徐雷frank][¥20]spark开发,Java与Scala如何选择

    如果项目时间不是那么紧,建议可以直接使用scala,一方面会java再学习scala会很快。另外社区的scala的资料更多,而且spark本身scala研发的,scala熟悉后能够更好的理解和学习spark内核

    踩0 评论0
  • 03.21 17:21:39
    回答了问题 2020-03-21 17:21:39

    impala+hive+hbase

    1、hbase本身是行存,比较适合简单查询的高效率和并发 2、对于想要做实时分析,建议把hbase的数据归档到parquet,或者kudu然后使用impala

    踩0 评论0
  • 03.21 17:19:37
    回答了问题 2020-03-21 17:19:37

    sparksql用编程的方式和反射的方式注册临时表,哪一种的应用场景更好点?

    建议使用变成的方式注册临时表,这样更易管理

    踩0 评论0
  • 03.21 17:13:29
    回答了问题 2020-03-21 17:13:29

    Data Lake Analytics中文乱码

    这总一般是编码的问题,如果dla分析中文csv有乱码,可以参考,设置“serialization.encoding”参数 https://help.aliyun.com/document_detail/109657.html?spm=a2c4g.11186623.6.625.1fdda1c0h8VhLv

    踩0 评论0
  • 03.21 17:07:39
    回答了问题 2020-03-21 17:07:39

    sparkStreaming跑任务,运行一周后,出现任务延迟,重启后,又可以正常运行,过段时间(一周甚至更长)又会出现任务延迟

    这种一般可能是内存泄漏,建议在作业慢的时候,看下spark ui的executor里面看下堆栈,同时看下executor的gc信息

    踩0 评论0
  • 03.21 17:06:17
    回答了问题 2020-03-21 17:06:17

    大数据 考研or自学?

    建议考研,一方面考研找到大数据相关的实验室,实验室的项目会有一定的实际业务场景,这样带着问题来学习使用大数据组件能够更加深入。同时研究生阶段可以多读一些大数据相关的论文,开阔视野

    踩0 评论0
  • 03.21 17:01:02
    回答了问题 2020-03-21 17:01:02

    kafka导入数据到hdfs,怎么比较方便

    1、如果需要做预计算火写入,可以写一个spark streaming作业消费,写入到hdfs 2、也可以使用kafka 的connect sink到hdfs 3、也可以自己写java程序写到hdfs

    踩0 评论0
  • 03.21 15:21:57
    回答了问题 2020-03-21 15:21:57

    大神们,你们一般hadoop设置几个副本啊?

    如果是物理机及本地盘建议3副本,如果是云盘可以考虑2副本,因为云盘本身有容灾保证

    踩0 评论0
  • 03.21 15:20:00
    回答了问题 2020-03-21 15:20:00

    如何批量向hbase中插入数据

    目前hadoop社区有一套bulkload到hbase的工具,原理是使用mr或者spark并行的生成hfile存储在hdfs,然后调用hbase的bulkload直接把这些hfile加载到hbase表。代码参考:

    val hConf = HBaseConfiguration.create()
    hConf.addResource("hbase-site.xml")
    val hTableName = "test_log"
    hConf.set("hbase.mapreduce.hfileoutputformat.table.name", hTableName)
    val tableName = TableName.valueOf(hTableName)
    val conn = ConnectionFactory.createConnection(hConf)
    val table = conn.getTable(tableName)
    val regionLocator = conn.getRegionLocator(tableName)
    
    val hFileOutput = "/tmp/h_file"
    
    output.saveAsNewAPIHadoopFile(hFileOutput,
      classOf[ImmutableBytesWritable],
      classOf[KeyValue],
      classOf[HFileOutputFormat2],
      hConf
    )
    
    val bulkLoader = new LoadIncrementalHFiles(hConf)
    bulkLoader.doBulkLoad(new Path(hFileOutput), conn.getAdmin, table, regionLocator)
    
    踩0 评论0
  • 03.21 15:16:04
    回答了问题 2020-03-21 15:16:04

    关于spark分区什么时候进行的问题?

    sc.textFile就会做分片来并发执行,具体可以参考 https://blog.csdn.net/zjwcsdn123/article/details/80489537

    踩0 评论0
  • 03.21 15:13:51
    回答了问题 2020-03-21 15:13:51

    hadoop可以同时oss和hdfs吗

    可以同时支持,在core-site.xml中配置了不同fs的实现之后,在程序中使用的时候路径的schema使用不同的前缀就可以了,比如oss://pathxx、hdfs://pathxx fs.oss.impl org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem

    踩0 评论0
  • 03.21 15:11:04
    回答了问题 2020-03-21 15:11:04

    Phoenix关联查询性能上和Mysql差距大吗?

    phoenix关联查询和mysql在同等数据量上差距不大。 同时phoenix本身不适合做大数据量的关联查询,其中一个表在百万级别是可以的

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
  • 发表了文章 2019-10-15

    RDS&POLARDB归档到X-Pack Spark计算最佳实践

  • 发表了文章 2019-02-26

    云HBase X-Pack解决传统数据仓库瓶颈,赋能客户计算分析业务

  • 发表了文章 2018-08-23

    hive数据导入云hbase

  • 发表了文章 2018-03-30

    使用spark分析云HBase的数据

正在加载, 请稍后...
滑动查看更多
  • 回答了问题 2020-03-21

    hbase的数据用哪些中间件进行数据分析

    1、可以使用phoenix,支持做过滤后小数据量(千万级别)的分析 2、把hbase数据导出到parquet,然后可以使用spark、hive等

    踩0 评论0
  • 回答了问题 2020-03-21

    hbase,mongodb应用场景

    hbase宽表模式,如果数据是k ,v,v,v方式可以使用hbase mongo主要支持json,如果原始数据就是json,建议mongo

    踩0 评论0
  • 回答了问题 2020-03-21

    请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

    两者可以混用 1、spark sql性能好一些 2、hive sql更加稳定 3、spark sql操作hive分区表比较原生 4、saprk sql操作hive的分桶表麻烦一些

    踩0 评论0
  • 回答了问题 2020-03-21

    写hbase+接口的时候是否需要单例模式,hbase+连接是否需要关闭?【应用场景:sparkstreaming+从kafka+拿数据存入hbase

    可以使用单例模式,同时可以使用broadcast方式把变量broadcast出去,具体可以参考: https://github.com/aliyun/aliyun-apsaradb-hbase-demo/blob/master/spark/sparkstreaming/src/main/scala/com/aliyun/spark/SparkStreamingOnKafka010ToHBasePerformance.scala

    踩0 评论0
  • 回答了问题 2020-03-21

    Hive on hbase 分析10亿以上数据不是特别好?

    hive 直接读取hbase,因为hbase是行存分析性能差,建议把hbase的数据导出到parquet,然后分析

    踩0 评论0
  • 回答了问题 2020-03-21

    Spark sql怎样实现即席查询?

    1、spark本身不支持创建索引,不过有基于spark的社区项目支持给spark的表创建二级索引 https://github.com/Intel-bigdata/OAP 2、针对即系场景的加速,可以使用spark的cache技术

    踩0 评论0
  • 回答了问题 2020-03-21

    定时hbase -> parquet数据一致遇到的问题

    如果有补发历史事件的数据,只能够把两天的数据存储在不同的事件分区中,然后每天对历史的分区做全量的merge。或者使用hudi这种支持upsert的存储格式代替parquet格式

    踩0 评论0
  • 回答了问题 2020-03-21

    spark流试在实时跟HBASE关联时,性能会不会慢啊?

    spark steaming处理过程中关联hbase中的维表是非常常见的开发模式。通过rowkey去查询hbase性能能在100ms内,而且随着数据量增加,hbase集群扩容即可

    踩0 评论0
  • 回答了问题 2020-03-21

    [@徐雷frank][¥20]spark开发,Java与Scala如何选择

    如果项目时间不是那么紧,建议可以直接使用scala,一方面会java再学习scala会很快。另外社区的scala的资料更多,而且spark本身scala研发的,scala熟悉后能够更好的理解和学习spark内核

    踩0 评论0
  • 回答了问题 2020-03-21

    impala+hive+hbase

    1、hbase本身是行存,比较适合简单查询的高效率和并发 2、对于想要做实时分析,建议把hbase的数据归档到parquet,或者kudu然后使用impala

    踩0 评论0
  • 回答了问题 2020-03-21

    sparksql用编程的方式和反射的方式注册临时表,哪一种的应用场景更好点?

    建议使用变成的方式注册临时表,这样更易管理

    踩0 评论0
  • 回答了问题 2020-03-21

    Data Lake Analytics中文乱码

    这总一般是编码的问题,如果dla分析中文csv有乱码,可以参考,设置“serialization.encoding”参数 https://help.aliyun.com/document_detail/109657.html?spm=a2c4g.11186623.6.625.1fdda1c0h8VhLv

    踩0 评论0
  • 回答了问题 2020-03-21

    sparkStreaming跑任务,运行一周后,出现任务延迟,重启后,又可以正常运行,过段时间(一周甚至更长)又会出现任务延迟

    这种一般可能是内存泄漏,建议在作业慢的时候,看下spark ui的executor里面看下堆栈,同时看下executor的gc信息

    踩0 评论0
  • 回答了问题 2020-03-21

    大数据 考研or自学?

    建议考研,一方面考研找到大数据相关的实验室,实验室的项目会有一定的实际业务场景,这样带着问题来学习使用大数据组件能够更加深入。同时研究生阶段可以多读一些大数据相关的论文,开阔视野

    踩0 评论0
  • 回答了问题 2020-03-21

    kafka导入数据到hdfs,怎么比较方便

    1、如果需要做预计算火写入,可以写一个spark streaming作业消费,写入到hdfs 2、也可以使用kafka 的connect sink到hdfs 3、也可以自己写java程序写到hdfs

    踩0 评论0
  • 回答了问题 2020-03-23

    大神们,你们一般hadoop设置几个副本啊?

    如果是物理机及本地盘建议3副本,如果是云盘可以考虑2副本,因为云盘本身有容灾保证

    踩0 评论0
  • 回答了问题 2020-03-21

    如何批量向hbase中插入数据

    目前hadoop社区有一套bulkload到hbase的工具,原理是使用mr或者spark并行的生成hfile存储在hdfs,然后调用hbase的bulkload直接把这些hfile加载到hbase表。代码参考:

    val hConf = HBaseConfiguration.create()
    hConf.addResource("hbase-site.xml")
    val hTableName = "test_log"
    hConf.set("hbase.mapreduce.hfileoutputformat.table.name", hTableName)
    val tableName = TableName.valueOf(hTableName)
    val conn = ConnectionFactory.createConnection(hConf)
    val table = conn.getTable(tableName)
    val regionLocator = conn.getRegionLocator(tableName)
    
    val hFileOutput = "/tmp/h_file"
    
    output.saveAsNewAPIHadoopFile(hFileOutput,
      classOf[ImmutableBytesWritable],
      classOf[KeyValue],
      classOf[HFileOutputFormat2],
      hConf
    )
    
    val bulkLoader = new LoadIncrementalHFiles(hConf)
    bulkLoader.doBulkLoad(new Path(hFileOutput), conn.getAdmin, table, regionLocator)
    
    踩0 评论0
  • 回答了问题 2020-03-21

    关于spark分区什么时候进行的问题?

    sc.textFile就会做分片来并发执行,具体可以参考 https://blog.csdn.net/zjwcsdn123/article/details/80489537

    踩0 评论0
  • 回答了问题 2020-03-21

    hadoop可以同时oss和hdfs吗

    可以同时支持,在core-site.xml中配置了不同fs的实现之后,在程序中使用的时候路径的schema使用不同的前缀就可以了,比如oss://pathxx、hdfs://pathxx fs.oss.impl org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem

    踩0 评论0
  • 回答了问题 2020-03-21

    Phoenix关联查询性能上和Mysql差距大吗?

    phoenix关联查询和mysql在同等数据量上差距不大。 同时phoenix本身不适合做大数据量的关联查询,其中一个表在百万级别是可以的

    踩0 评论0
正在加载, 请稍后...
滑动查看更多