HIVE

首页 标签 HIVE
# HIVE #
关注
5963内容
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;     默认值:strict   描述:strict是避免全分区字段是动态的,必须
Flink BucketingSink 源码分析
0x1 摘要 BucketingSink类提供了非常完美的功能支持数据落HDFS,在实际业务中不建议自己去实现,直接采用此类可以避免一些坑。注:此文基于Flink 1.6.3 版本源码。 0x2 BucketingSink 类结构分析 我们关注RichSinkFunction、Checkpoint.
Presto性能优化
Presto性能优化 查询速度慢, 如何优化? 解决方法1: 避免单节点处理 虽然Presto是分布式查询引擎, 但是一些操作是必须在单节点中处理的. 例如: count(distinct x) 考虑使用approx_distinct(x)代替 但是需要注意这个函数有个大约在2.
20160808北京云栖大会workshop-EMapReduce分析网站数据
目标 了解E-MapReduce创建集群流程; 熟悉端口转发访问集群可视化组件zeppelin; 完成用zeppelin分析热播数据的示例。 创建集群 集群包括一组ecs实例和运行在实例上的分布式计算框架(Hadoop,Spark等),管控程序,是运行计算任务的资源基础。下面带大家熟悉创建
免费试用