湖仓一体在金融科技行业的实践
上海数禾信息科技大数据平台负责人 程俊杰:MaxCompute+DLF+EMR的湖仓一体架构实现了统一元数据管理 ,统一存储管理,统一权限管理 ,真正实现湖仓计算的自由流动,为企业业务高速发展助力。
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
解决MaxCompute SQL count distinct多个字段的方法
按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下:
Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下
COUNT( { [ DISTINCT ] expression ] | * } )
这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法:
select count( distinct col1 , col2 , col3 , .......) from table
但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。