文档备案控制台

开发者社区问答正文

MaxCompute工具及下载：MaxCompute Studio：开发 Java 程序：非结构化开发

MaxCompute2.0新增了一套非结构化数据处理框架，支持通过外部表的方式直接访问OSS,OTS等。Studio对此提供了一些代码模板支持，方便用户快速开发。

编写StorageHandler/Extractor/Outputter

创建MaxCompute Java Module(在examples目录下的unstructured文件夹有示例代码供参考)。
在module的源码目录即src->main上右键new，选择MaxCompute Java。
输入包名.类名，如myun.MyExtractor，选择类型Extractor，点击OK。
模板已自动填充框架代码，只需要编写自己的逻辑代码即可。
类似上述步骤可分别完成Outputter和StorageHandler的编写。

打包上传

StorageHandler/Extractor/Outputter写好后，可以参考打包发布将已写好的java程序打成jar包，并作为resource上传到服务端。

创建外部表

在scripts目录右键 new | MaxCompute Script。
输入sql脚本名，Target Project选择脚本将要在哪个MaxCompute project下执行，点击OK。
editor中选择create external table live template，能快速插入创建外部表脚本模板：然后修改外部表名称，列及类型，StorageHanlder类路径，配置参数，外部路径，jar名等，修改完成后点击运行脚本，创建该外部表。
接下来，就可以查询该外部表了，类似：

展开

收起

行者武松 2017-10-24 13:42:11 2272 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

MaxCompute 2.0 引入的非结构化数据处理框架极大地增强了对诸如OSS（对象存储服务）、OTS（开放表存储）等阿里云存储服务中非结构化数据的处理能力。通过外部表功能，用户可以直接在MaxCompute中查询和分析这些存储在外部系统中的数据，而无需先将数据导入MaxCompute内部表，这大大提升了数据处理的灵活性和效率。

编写StorageHandler/Extractor/Outputter

StorageHandler: 定义了如何与外部数据源交互，包括读取和写入数据的方式。
Extractor: 负责从外部数据源读取数据。
Outputter: 负责将数据写出到外部数据源。

在阿里云DataWorks（原Data IDE）的Studio中，你可以利用提供的代码模板快速开发这些组件。按照指引创建MaxCompute Java Module，并选择相应的类型（Extractor、Outputter或StorageHandler），Studio会自动生成基础代码框架，你只需在此基础上实现具体的逻辑。

打包上传

完成编写后，你需要将Java程序打包成JAR文件，并上传至MaxCompute作为资源。这个过程可以通过DataWorks的发布流程或者使用MaxCompute客户端命令行工具来完成。确保你的JAR包包含所有必要的依赖，并且正确设置了访问权限和配置参数。

创建外部表

接下来，在DataWorks Studio中创建MaxCompute SQL脚本，使用预设的live template快速生成创建外部表的SQL语句。在这个脚本中，你需要指定外部表的名称、列定义、使用的StorageHandler类路径、外部数据源的配置参数、外部数据的路径以及之前上传的JAR包名称。执行该脚本后，MaxCompute就会创建一个指向外部数据源的外部表。

查询外部表

一旦外部表创建成功，你就可以像操作普通MaxCompute表一样进行查询了。例如，使用SELECT语句来检索数据，或者执行更复杂的分析任务，如JOIN操作、聚合函数等，从而充分利用MaxCompute强大的计算能力来处理和分析非结构化数据。

综上所述，MaxCompute 2.0的非结构化数据处理框架通过简化外部数据接入、提供丰富的API支持和便捷的开发工具，使得处理大规模非结构化数据变得更加高效和灵活。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

SQL 分布式计算 Java 数据处理 MaxCompute 对象存储云原生大数据计算服务 MaxCompute 对象存储表格存储

问答标签：

Java开发 Java下载 Java程序 Java工具云原生大数据计算服务 MaxCompute开发

问答地址：

开发者社区 > 大数据 > 问答

相关问答

文字识别OCR为什么下载营业执照ocr识别接口Java(异步)的sdk完整实例后，运行还会报错呢？

287

0

0

'函数计算，麻烦问一下，函数中的 OSS压缩打包下载这个应用，Java进行对接开发如何处理调用的呢？

212

1

0

如何配置Git以便在Java服务中下载代码来运行单元测试？

197

1

0

大数据计算MaxCompute无法通过java-sdk的方式下载是么？

170

3

0

在AUI将java的源码下载到本地打包报错，怎么解决？

188

1

0

如何使用java的SDK下载OSS中指定日期内产生的文件

731

7

0

云效JAVA 应用构建每次都下载依赖包，如何缓存呢？

236

2

0

maxcompute 和odps的关系是什么啊，我第一次做这个，有点不懂

2395

1

0

大数据中maxcompute跟emr的区别是什么呢？

1011

1

0

云原生大数据计算服务 MaxCompute里，运维中最重要的模块是谁？

1052

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

2026年阿里云服务器最便宜多少钱一年？最低38元一年，详细计费价格表

阿里云百炼Token Plan 超出套餐额度后如何计费？

AI理解和执行不到位，自以为是的乱操作，重复试错拿我们算力来训练AI？

不同规格通义千问模型 Token 收费一样吗？

千问云官网在哪？

相关文章

基于SpringBoot+Vue2的智慧班牌及校园管理平台源码解析

软件开发进阶技能之编程语言深度运用（一）

Maven 本地仓库优化：SSD+ 目录结构调整最佳实践

Maven 并行构建配置：-T 4C 提速 4 倍实战

windows版jdk版本管理工具

还有其他疑问?