暂时未有相关云产品技术能力~
暂无个人介绍
项目命名规范
增量数据入库与增量全合并工作
hivesql进行两张表的数据对比
编写SQL时,应遵循以下规范:所有关键字小写,表别名按a, b, c...顺序使用,复杂逻辑多行书写,提高可读性。SELECT字段需逐行列出,避免使用*,GROUP BY字段同样处理。WHERE条件多于一个时,每条件一行。JOIN子表推荐使用嵌套查询方式1,明确关联条件,避免笛卡尔积。关键逻辑需注释,INSERT SELECT后最外层字段加注释说明用途。示例中展示了推荐的JOIN替代子查询的写法,以提高代码的可读性和维护性。
根据业务需求,当表数据量超过10万条时采用增量数据导入,否则全量导入。增量导入基于`create_date`和`modify_date`字段进行,并确保时间字段已建立索引以提升查询效率。避免在索引字段上执行函数操作。创建增量表和全量表,并按日期进行分区。首次导入全量数据,后续每日新增或变更数据保存在增量表中,通过全量表与增量表的合并保持数据一致性。
hive数据倾斜主要是由shuffle引起的,而引起shuffle的又主要有四种情况,分别为: 1.group by 2.join 3.count(distinct) 4.开窗函数
数据库表的规范化和反规范化设计,设计合适的字段数据类型……
Spark在执行过程中是懒加载模式,RDD转换仅仅是构建DAG描述而不执行,只有遇到action算子才会真正的运行
各种JOIN的区别
数仓项目总结--持续更新中
决策树及随机森林学习总结
Kafka架构及其原理
Kylin学习总结
Flink四大基石——4.Checkpoint容错机制
Flink四大基石——3.State
Flink四大基石——1.window
Flink四大基石——2.Time
Flink执行原理
Kafka使用场景
消息系统的4大使用场景
Kafka生产者同步和异步的JavaAPI代码演示
Flink四种集群模式原理
HBase常用shell操作(未完成)
hive分区与分桶
HDFS常用命令
解决idea每次新建maven项目都需要重新配置maven的问题
Zookeeper常用命令
SQL注入问题及其解决
Java使用FileInputStream&&FileOutputStream模拟客户端向服务器端上传文件(单线程)
集合的特点和数据结构总结
Collection常用API
List集合特有功能
Calendar常用API
Date和SimpleDateFormat常用API