文档备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

机器学习PAI训练数据的原始 hive表存在emr集群，pai如何才能组装好训练数据进行模型训练呢？

机器学习PAI训练数据的原始 hive 表存在 emr 集群，pai如何才能组装好训练数据进行模型训练呢？官方建议通用的训练样本获取方法是？尝试了几种方法都很难走通

展开

收起

真的很搞笑 2024-08-06 11:43:12 294 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

技术员阿伟

资深 C++与人工智能程序员。精通 C++，善用其特性构建稳健架构。在人工智能领域，深入研习机器学习算法，借 C++与 OpenCV 等实现计算机视觉应用，于自然语言处理构建文本处理引擎。以敏锐洞察探索技术融合边界，用代码塑造智能未来。
以下是机器学习PAI组装EMR集群中Hive表数据进行模型训练的常见方法：

使用PAI-DSW连接EMR集群
- 创建DSW实例：在PAI控制台创建数据科学工作台（DSW）实例，选择合适的计算资源和镜像。
- 连接EMR集群：在DSW实例中，通过相关配置选项或操作，输入EMR集群的连接信息，如集群地址、认证信息等，建立与EMR集群的连接。
- 读取Hive表数据：连接成功后，在DSW的Notebook或代码环境中，使用PySpark等相关技术，通过HiveContext或SparkSession来读取EMR集群中Hive表的数据，将数据加载为DataFrame等格式进行处理和分析。
通过数据传输工具
- 使用OSS作为中间存储：先将EMR集群中Hive表的数据导出到对象存储服务（OSS）中，可以在EMR集群上使用Hive的相关命令或工具，如 INSERT OVERWRITE DIRECTORY 将数据导出到OSS指定路径。然后在PAI中，通过挂载OSS数据集的方式，将数据引入到PAI的训练环境中。
- 使用DataWorks数据集成：如果已开通阿里云DataWorks，可以创建数据集成任务，配置数据源为EMR的Hive，目标数据源为PAI支持的存储类型（如MaxCompute、OSS等），将Hive表数据同步到PAI可访问的存储中，再在PAI中进行模型训练。
利用PAI-DLC直接读取
- 创建DLC训练任务：在PAI中创建深度学习平台（DLC）训练任务，在任务配置中指定数据来源为EMR中的Hive表。
- 配置连接和读取参数：提供EMR集群的连接信息以及Hive表的相关读取参数，如数据库名称、表名等，DLC会自动从Hive表中读取数据，并将其转换为适合模型训练的格式。
2025-02-23 19:57:57

赞同展开评论

问答分类：

SQL HIVE 机器学习/深度学习人工智能平台 PAI

问答标签：

人工智能平台 PAI训练人工智能平台 PAI数据数据emr 数据人工智能平台 PAI 训练人工智能平台 PAI

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

EasyRec在PAI平台训练怎么查模型评估效果？

296

2

0

hologres能映射emr的hive外表吧 hive 表往 holo 写数据有啥好的办法？

334

1

0

在机器学习PAI中，dssm模型训练保存成功了，在拆塔的时候报了个错是为什么？

240

1

0

机器学习PAI用PS-Worker模式进行分布式训练？

192

1

0

机器学习PAI在 Pai 上做向量检索的时候报了这个错，但是我的脚本并没有 gpu 相关的配置链接？

228

1

0

我如何将一个oss 挂载到emr集群。以便通过hive sql 查询oss 里的日志数据？

258

0

0

在机器学习PAI如果同一个特征离线训练用的和在线推理用，来源不一样，可以配置出来吗？

276

0

0

机器学习PAI在哪里可以查到PAI都支持哪些算子？包括特征生产，特征变换，表变换等等

220

1

0

机器学习PAI海外服务器，有和PAI配套的决策引擎产品吗？

239

2

0

机器学习PAI特征选择，是在训练过程中将variational_dropout配到config里吗？

204

1

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

5 步搞定 4 层嵌套 SQL 才能算清的股票连涨天数

API接口的SQL注入与XSS防护实战

开发者自主授权全解析：从社区版到常青藤计划，数据库选型新思路

规则引擎+NLU混合架构 vs 纯大模型方案：单次对话成本差42%，你选哪个？

相关解决方案

更多

基于 Spark 和 PyTorch 的模型训练方案

一键训练模型及部署GPU共享推理服务

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

阿里云百炼大模型怎么收费？要钱吗？

机器学习PAI中代码集管理代码配置这里的 git地址有啥要求吗 ?

机器学习PAI引用akdl三方库的flink-ml-framework,请问该库是否支持微软系统？

机器学习PAI的Alink加载onnx模型和engine那个效率高呢

训练的时候是没问题的，所以为什么机器学习PAI会报错？

返回代码RISK.RISK_CONTROL_REJECTION

在机器学习PAI偶发程序coredump后，gpu没被释放的问题，之前有遇到过吗？

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

如图，使用机器学习PAI报错是为什么？

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习PAI全新功效——实时新闻热点Online Learning实践

基于协同过滤算法的推荐

【数据科学老司机在线教学第二期】阿里云大数据生态协同过滤推荐系统实战

【玩转数据系列十七】机器学习实现双十一购物清单的自动商品标签归类

人民的名义分析

PAI智能答疑机器人上线啦

电网用户窃电识别

农业贷款预测

展开全部

还有其他疑问?