文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

大数据计算MaxCompute我用的是开源的解析器呀，我希望格式是parquet，而不是内置的tab

大数据计算MaxCompute我用的是开源的解析器呀，我希望格式是parquet，而不是内置的tablesink，我现在需要怎么处理，你的意思是内置的开源解析器，不会带parquet后缀吗？

展开

收起

真的很搞笑 2024-03-21 07:45:20 275 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

历年考试不作弊
在MaxCompute中，如果您希望使用Paquet格式而不是内置的tab分隔符格式，您需要确保在数据写入和读取时使用支持Parquet格式的开源解析器或工具。
1. 使用Parquet格式：首先，确保您的数据源是以Parquet格式存储的。您可以使用各种支持Parquet格式的工具和库来生成Parquet文件，例如Apache Parquet、Apache Hadoop、Apache Spark等。
2. 选择解析器：在使用MaxCompute进行数据处理时，选择合适的解析器以支持Parquet格式。如果您使用的是开源的解析器，确保该解析器支持读取和写入Parquet格式的数据。
3. 配结构：在创建外部表或视图时，确保表的结构与您的Parquet数据结构匹配。这包括字段名称、类型以及任何嵌套结构。
4. 数据读取：当您从MaxCompute读取数据时，如果数据是以Parquet格式存储的，确保在查询中使用正确的解析器或函数来解析数据。
5. 数据写入：当您将数据写入MaxCompute时，如果希望保持Parquet格式，需要确保使用的写入工具或库支持将数据以Parquet格式写入。
6. 后缀问题：关于文件后缀的问题，通常Parquet文件会带有.parquet的后缀。如果您提到的“开源解析器不会带parquet后缀”，可能意味着解析器在处理数据时不依赖于文件的后缀来确定其格式。在这种情况下，您应确保在相关的数据处理和查询操作中明确指定数据格式为Parquet。
请注意，具体的操作步骤和配置可能会因您使用的MaxCompute版本和工具而有所不同。建议查阅最新的官方文档或联系技术支持以获取详细的操作指南。
2024-03-31 21:28:57

赞同展开评论
芯在这

是的，输出的底层其实是个parquet文件。
我这边确认了下。sink的数据就是parquet格式且没有带扩展名，如果验证的话可以本地用python环境试下，可参考
如果一定要带扩展名的话可以unload试下，参考：https://help.aliyun.com/zh/maxcompute/user-guide/unload-1?spm=a2c4g.11186623.0.i8#section-6bd-l70-9o0 ，此回答整理自钉群“MaxCompute开发者社区2群”

2024-03-21 08:36:58

赞同展开评论

问答分类：

分布式计算 MaxCompute 大数据云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute MaxCompute 数据计算云原生大数据计算服务 MaxCompute解析云原生大数据计算服务 MaxCompute maxcompute解析大数据计算云原生大数据计算服务 MaxCompute 云原生大数据计算服务 MaxCompute解析

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

使用开源spark-datasource-v3.1写maxcompute丢失数据问题

199

1

0

SREWorks开源版中包含了哪些阿里云计算平台系列“大数据&AI”产品的开源版本？

214

1

0

阿里云大数据SRE团队为什么要将SREWorks开源？

315

1

0

Flink在整个开源大数据生态中应该如何定位，如何保持差异化？

346

1

0

Nacos使用metadata【version】==1.0.0格式解析失败？

285

0

0

大数据计算MaxCompute中有能解析uer-agent 中的参数吗？

191

1

0

大数据计算MaxCompute有解析ua的函数吗？

220

1

0

大数据计算MaxCompute有ip解析函数吗？

311

1

0

大数据计算MaxCompute使用内置解析器CsvStorageHandler如何获取对应文件名？

166

1

0

大数据计算MaxCompute这边有没有解析嵌套json数组的案例？

261

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

AutoMQ x 阿里云 OSS Tables：基于 Iceberg 构建流表一体的实时入湖

深度拆解阿里云服务器ECS：CPU内存、公网带宽、系统盘如何搭配最划算？

阿里云服务器ECS新手指南：优势、ECS实例规格族、使用场景、活动及配置选择攻略

智慧医院小程序开发助力医疗服务数字化升级

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

大数据计算MaxCompute failed：odps-0110999怎么办？

在大数据计算MaxCompute怎么将字符串日期快速转成timestamp类型？

MaxCompute这个yaml资源在生产环境中无法找到,什么原因？

关于优化AI交互策略的改进建议——基于用户分层实现工具价值与体验平衡

展开全部

阿里云MaxCompute 2019-5月刊

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

比自建 Hadoop 还便宜！云栖大会揭秘阿里云数加 MaxCompute

解决大数据难题阿里云MaxCompute获科技大奖

3天撸完一个团队半年的项目，单客户数据动辄几百万的行业也玩云？

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

MaxCompute常用语句汇总(更新ing)

MaxCompute模板与样例

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

展开全部

还有其他疑问?