文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 文章正文

MaxCompute产品使用合集之odps.sql.mapper.split.size和odps.stage.mapper.split.size这两个参数的区别是什么

2024-06-10 791

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MaxCompute作为一款全面的大数据处理平台，广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践，可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集，涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

问题一：大数据计算MaxCompute pyodps里这两个配置都支持吗?

大数据计算MaxCompute pyodps里这两个配置都支持吗?

参考答案：

支持。都是session级别

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574956

问题二：请问大数据计算MaxCompute 有没有区别？

请问大数据计算MaxCompute odps.sql.mapper.split.size 和 odps.stage.mapper.split.size有没有区别？感觉是一样的啊，都是根据输入数据量所需存储动态分配mapper个数

参考答案：

stage.mapper.split.size 是设置每个map worker的输入数据量，框架会参考设置的Split Size值来划分Map，决定Map的个数。

sql.mapper.split.size是设定一个map的最大数据输入量，单位MB。最大值和直接固定一个值是不一样的。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574955

问题三：大数据计算MaxCompute dataworks页面进去是这样，什么原因？

大数据计算MaxCompute dataworks页面进去是这样，什么原因？

参考答案：

这个相当于责任说明，可以点击关闭或者完成就行了

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574954

问题四：请问大数据计算MaxCompute有主键这种说法么?

请问大数据计算MaxCompute有主键这种说法么?或者如果想在插入数据时实现覆盖更新,需要从哪个方面?

参考答案：

MaxCompute 普通表是不支持的。只有事务表可以。https://help.aliyun.com/zh/maxcompute/user-guide/transaction-table2-0-overview?spm=a2c4g.11174283.0.i5

用Flink 写https://help.aliyun.com/zh/maxcompute/user-guide/use-flink-streaming-data-transmission-new-version?spm=a2c4g.11186623.0.i11

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574953

问题五：大数据计算MaxCompute正常spark那些他应该变成：123::456才对吗?

大数据计算MaxCompute正常spark那些他应该变成：123::456才对?

参考答案：

spark-sql> select concat_ws(':','avg',null,'34');

avg:34

Time taken: 0.101 seconds, Fetched 1 row(s)

这个函数会忽略参数为null的值，但不会忽略空字符串。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574952

文章标签：

云原生大数据计算服务 MaxCompute

分布式计算

MaxCompute

大数据

Spark

DataWorks

关键词：

云原生大数据计算服务 MaxCompute产品

sql云原生大数据计算服务 MaxCompute

云原生大数据计算服务 MaxCompute sql

maxcompute SQL

产品云原生大数据计算服务 MaxCompute

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

三分钟热度的鱼

目录

相关文章

探索云世界

|

10月前

|

SQL 人工智能分布式计算

ODPS十五周年实录|构建 AI 时代的大数据基础设施

本文根据 ODPS 十五周年·年度升级发布实录整理而成，演讲信息如下：张治国：阿里云智能集团技术研究员、阿里云智能计算平台事业部 ODPS-MaxCompute 负责人活动：【数据进化·AI 启航】ODPS 年度升级发布

探索云世界

458 9 9

阿里云大数据Al技术

|

11月前

|

人工智能分布式计算 DataWorks

大数据AI产品月刊-2025年7月

大数据& AI 产品技术月刊【2025年7月】，涵盖7月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

阿里云大数据Al技术

2313 2 2

阿里云开发者

|

10月前

|

SQL 存储分布式计算

【万字长文，建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场

本文旨在帮助非专业数据研发但是有高频ODPS使用需求的同学们（如数分、算法、产品等）能够快速上手ODPS查询优化，实现高性能查数看数，避免日常工作中因SQL任务卡壳、失败等情况造成的工作产出delay甚至集群资源稳定性问题。

阿里云开发者

1738 36 43

【万字长文，建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场

xxrjl

|

10月前

|

人工智能分布式计算 DataWorks

阿里云大数据AI产品月刊-2025年8月

阿里云大数据& AI 产品技术月刊【2025年 8 月】，涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

xxrjl

710 2 2

jlbookworm

|

SQL 人工智能分布式计算

MaxCompute平台非标准日期和气象数据处理方法--以电力AI赛为例

MaxCompute平台支持的日期格式通常是对齐的日期格式诸如20170725或2017/07/25这种，而本次电力AI赛提供的日期格式却是未对齐的非标准的日期格式2016/1/1这种，使得无法直接使用ODPS SQL中的日期函数来进行处理。

jlbookworm

5817 0 2

Echo_Wish

|

10月前

|

机器学习/深度学习传感器分布式计算

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

Echo_Wish

638 14 14

1062754335

|

12月前

|

数据采集分布式计算 DataWorks

ODPS在某公共数据项目上的实践

本项目基于公共数据定义及ODPS与DataWorks技术，构建一体化智能化数据平台，涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理，强化数据安全与流通，提升业务效率与决策能力，助力数字化改革。

1062754335

412 4 4

Echo_Wish

|

11月前

|

机器学习/深度学习运维监控

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

Echo_Wish

1074 0 0

Echo_Wish

|

10月前

|

传感器人工智能监控

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

Echo_Wish

306 14 14

大数据与机器学习

大数据计算 MaxCompute

热门文章

最新文章

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

优酷背后的大数据秘密

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

干货：解码OneData，阿里的数仓之路。

品《阿里巴巴大数据实践-大数据之路》一书（上）

MaxCompute常见错误汇总（更新ing）

互联网下半场的角逐，玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场（北京站）干货集锦

Spark SQL 函数分类导航

#Nginx教程 Nginx作为目前最流行的高性能Web服务器和反向代理服务器，凭借其高并发、低内存消耗的特点，被广泛应用于各类生产环境。本文将从零开始，带你快速掌握Nginx的核心配置与实战技巧。

金融行情系统中，API 接入常见的 5 个工程问题

寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

网站代码网站源代码网页源代码网页代码网站

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

ODPS 十五周年实录 | Data + AI，MaxCompute 下一个15年的新增长引擎

【跨国数仓迁移最佳实践6】MaxCompute SQL语法及函数功能增强，10万条SQL转写顺利迁移

诊断设备企业必看！垂直医疗行业的CRM软件有哪些？

相关产品

云原生大数据计算服务 MaxCompute

文档详情产品详情

相关课程

更多

大数据Impala教程

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！