寒沙牧_个人页

个人头像照片 寒沙牧
个人头像照片
30
7
0

个人介绍

暂无个人介绍

擅长的技术

  • Java
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

阿里云技能认证

详细说明
暂无更多信息

2019年12月

  • 12.02 14:13:58
    发表了文章 2019-12-02 14:13:58

    Delta元数据解析

    本文介绍Delta的元数据管理相关内容,包括文件夹结构,元数据类型以及元数据产生流程等

2019年07月

  • 07.04 16:32:29
    发表了文章 2019-07-04 16:32:29

    EMR Spark Runtime Filter性能优化

    Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。
  • 发表了文章 2019-07-04

    EMR Spark Runtime Filter性能优化

  • 发表了文章 2019-01-15

    使用Ranger对Hive数据进行脱敏

  • 发表了文章 2018-12-23

    Spark中的内存管理(一)

  • 发表了文章 2018-12-21

    Spark中的资源调度

  • 发表了文章 2018-11-25

    SparkSQL Catalyst解析

  • 发表了文章 2018-11-15

    初学Spark

  • 发表了文章 2018-11-15

    HiveServer2集成LDAP做用户认证

  • 发表了文章 2018-09-20

    SparkSQL自适应执行

  • 发表了文章 2018-03-02

    YARN ResourceManager重启作业保留机制

  • 发表了文章 2018-02-28

    E-MapReduce Kafka Kerberos集群授权

  • 发表了文章 2018-02-07

    YARN中的CPU资源隔离-CGroups

  • 发表了文章 2018-01-06

    HBase ThriftServer Kerberos认证

  • 发表了文章 2017-12-25

    HAS-插件式Kerberos认证框架

  • 发表了文章 2017-12-25

    云上基于Kerberos的大数据安全实践

  • 发表了文章 2017-12-04

    E-MapReduce大数据安全实践

  • 发表了文章 2017-07-05

    TCP的backlog导致的HBase超时问题排查

  • 发表了文章 2017-06-14

    搭建Gateway向E-MapReduce集群提交作业

  • 发表了文章 2017-05-09

    E-MapReduce集群中HDFS服务集成Kerberos

  • 发表了文章 2017-05-05

    E-MapReduce启动/停止HBase集群

  • 发表了文章 2017-04-09

    HBase flush&split&compact

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2018-11-21

    beeline如何访问Kerberos的HiveServer

  • 提交了问题 2018-09-04

    hive表有数据,但count(*)返回0

  • 提交了问题 2018-09-04

    SparkSQL读写HiveOnHBase表

  • 回答了问题 2019-07-17

    hive表有数据,但count(*)返回0

    set hive.compute.query.using.stats=false ; 然后再跑一下。 'When set to true Hive will answer a few queries like count(1) purely using stats\n' + 'stored in metastore. For basic stats collection turn on the config hive.stats.autogather to true.\n' + 'For more advanced stats collection need to run analyze table queries.' 这个比较hack了
    踩0 评论0
  • 回答了问题 2019-07-17

    SparkSQL读写HiveOnHBase表

    SparkSQL本身是支持StorageHandler,需要提供相关jar包。访问HiveOnHBase需要如下jar包:/usr/lib/hbase-current/lib/hbase-server-1.1.1.jar/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar需要将上述jar包添加到spark,有两种方式:a)通过--jars参数来添加如:spark-sql --jars /usr/lib/hbase-current/lib/hbase-server-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar,/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar,/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jarb)spark-defaults.conf里面配置spark.executor.extraClassPath /opt/apps/extra-jars/*:/usr/lib/hbase-current/lib/hbase-server-1.1.1.jar:/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar:/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar:/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar:/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jarspark.driver.extraClassPath /opt/apps/extra-jars/*:/usr/lib/hbase-current/lib/hbase-server-1.1.1.jar:/usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar:/usr/lib/hbase-current/lib/hbase-common-1.1.1.jar:/usr/lib/hbase-current/lib/hbase-client-1.1.1.jar:/usr/lib/hbase-current/lib/hbase-protocol-1.1.1.jar备注:EMR-3.13.0以及以下版本,使用SparkSQL insert 数据到HiveOnHBase表的时候会出异常:java.lang.ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
    踩0 评论0
  • 提交了问题 2017-11-30

    EMR集群spark出现Tez相关类找不到

  • 回答了问题 2019-07-17

    EMR集群spark出现Tez相关类找不到

    您好 您在hive-site.xml里面设置了engine为tez然后/etc/ecm/spark-conf/下面有个hive-site.xml软链接,直接链接到了/etc/ecm/hive-conf/hive-site.xml所以可以这样你把/etc/ecm/spark-conf/下面的hive-site.xml软链接删除,然后从/etc/ecm/hive-conf/hive-site.xml拷贝一份过来,然后把拷贝过来的这个里面hive.execution.engine改成mr
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息