文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

DataWorks中的MaxCompute Writer补充说明有吗？

DataWorks中的MaxCompute Writer补充说明有吗？

展开

收起

真的很搞笑 2023-08-16 10:16:38 151 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

问：MaxCompute Writer补充说明
答：关于列筛选的问题通过配置MaxCompute Writer，可以实现MaxCompute本身不支持的列筛选、重排序和补空等操作。例如需要导入的字段列表，当导入全部字段时，可以配置为"column": ["*"]。 MaxCompute表有a、b和c三个字段，您只同步c和b两个字段，可以将列配置为"column": ["c","b"]，表示会把Reader的第一列和第二列导入MaxCompute的c字段和b字段，而MaxCompute表中新插入的a字段会被置为null。列配置错误的处理为保证写入数据的可靠性，避免多余列数据丢失造成数据质量故障。对于写入多余的列，MaxCompute Writer将报错。例如MaxCompute表字段为a、b和c，如果MaxCompute Writer写入的字段多于三列，MaxCompute Writer将报错。分区配置注意事项 MaxCompute Writer仅提供写入到最后一级分区的功能，不支持写入按照某个字段进行分区路由等功能。假设表一共有三级分区，在分区配置中必须指明写入至某个三级分区。例如，写入数据至一个表的第三级分区，可以配置为pt=20150101, type=1, biz=2，但不能配置为pt=20150101, type=1或者pt=20150101。任务重跑和failoverMaxCompute Writer通过配置"truncate": true，保证写入的幂等性。即当出现写入失败再次运行时，MaxCompute Writer将清理前述数据，并导入新数据，以保证每次重跑之后的数据都保持一致。如果在运行过程中，因为其它的异常导致任务中断，便不能保证数据的原子性，数据不会回滚也不会自动重跑，需要您利用幂等性的特点进行重跑，以确保数据的完整性。说明 truncate为true的情况下，会将指定分区或表的数据全部清理，请谨慎使用。，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-08-16 13:47:18

赞同展开评论

问答分类：

DataWorks 云原生大数据计算服务 MaxCompute 大数据开发治理平台 DataWorks

问答标签：

云原生大数据计算服务 MaxCompute dataworks 大数据开发治理平台 DataWorks maxcompute 云原生大数据计算服务 MaxCompute id 大数据开发治理平台 DataWorks id 大数据开发治理平台 DataWorks writer

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

DataWorks找不到项目。按项目ID和odps项目查找引擎失败怎么办？

325

12

0

在大数据计算MaxCompute中长id会被科学计数法转的后面部分为0，这里应该怎么处理？

208

1

0

DataWorks往es里面写是可以的，但是想读es的_id到odps。怎么写？

205

1

0

在大数据计算MaxCompute中，数据集成可以同步es的_id到odps吗？

217

1

0

大数据计算MaxCompute中project_name是啥子，在哪看，实例id可以吗？

216

1

0

在大数据计算MaxCompute中只想要雪花id 有其他方案吗？

188

0

0

DataWorks集群id，是通过接口【ListClusters】获取吗，好像还没开通？

183

1

0

DataWorks可以把timestamp转成date吐给lindorm writer阿妈？

197

0

0

DataWorks在配置数据源的时候应该如何制定集群id，（指定）oceanbase数据库的？

229

1

0

DataWorks在查询时，像这种长数字的id，导出csv格式后，这种情况怎么避免呢？

199

2

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

从多品牌回答样本到竞品对比结果：数据清洗与指标聚合流程

从多平台回答样本到一致性结果：数据清洗与指标聚合流程

从问题库到AI回答样本：数据清洗与指标聚合流程

从原始AI回答到可分析指标：数据清洗与口径统一流程

DataWorks AI助理：在钉钉里让AI助理帮你盯任务、修问题

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

大数据计算MaxCompute作业运维排序报错，如何解决？

咨询一下，我配置了MySQL实时同步到MaxCompute的任务，但MySQL数据更新后，MaxCo

大数据计算MaxCompute这个海外版什么时候可以体验到4.0啊?

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

【转载】时隔一年多，我又用起了 Superset

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

干货：解码OneData，阿里的数仓之路。

展开全部

还有其他疑问?