人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一:机器学习PAI服务运行中了,但不可用,调用时报错,如何解决?

机器学习PAI服务运行中了,但不可用,调用时报错?

[2024-03-06 11:38:11] ERROR: Exception in ASGI application

[2024-03-06 11:38:11] Traceback (most recent call last):

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/uvicorn/protocols/http/httptools_impl.py", line 419, in run_asgi

[2024-03-06 11:38:11] result = await app( # type: ignore[func-returns-value]

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/uvicorn/middleware/proxy_headers.py", line 84, in call

[2024-03-06 11:38:11] return await self.app(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/fastapi/applications.py", line 1054, in call

[2024-03-06 11:38:11] await super().call(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/applications.py", line 123, in call

[2024-03-06 11:38:11] await self.middleware_stack(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/errors.py", line 186, in call

[2024-03-06 11:38:11] raise exc

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/errors.py", line 164, in call

[2024-03-06 11:38:11] await self.app(scope, receive, _send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/cors.py", line 83, in call

[2024-03-06 11:38:11] await self.app(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/cors.py", line 83, in call

[2024-03-06 11:38:11] await self.app(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/exceptions.py", line 62, in call

[2024-03-06 11:38:11] await wrap_app_handling_exceptions(self.app, conn)(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/_exception_handler.py", line 64, in wrapped_app

[2024-03-06 11:38:11] raise exc

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/_exception_handler.py", line 53, in wrapped_app

[2024-03-06 11:38:11] await app(scope, receive, sender)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/routing.py", line 758, in call

[2024-03-06 11:38:11] await self.middleware_stack(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/routing.py", line 778, in app

[2024-03-06 11:38:11] await route.handle(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/routing.py", line 299, in handle

[2024-03-06 11:38:11] await self.app(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/routing.py", line 79, in app

[2024-03-06 11:38:11] await wrap_app_handling_exceptions(app, request)(scope, receive, send)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/_exception_handler.py", line 64, in wrapped_app

[2024-03-06 11:38:11] raise exc

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/_exception_handler.py", line 53, in wrapped_app

[2024-03-06 11:38:11] await app(scope, receive, sender)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/starlette/routing.py", line 74, in app

[2024-03-06 11:38:11] response = await func(request)

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/fastapi/routing.py", line 299, in app

[2024-03-06 11:38:11] raise e

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/fastapi/routing.py", line 294, in app

[2024-03-06 11:38:11] raw_response = await run_endpoint_function(

[2024-03-06 11:38:11] File "/usr/local/lib/python3.10/dist-packages/fastapi/routing.py", line 191, in run_endpoint_function

[2024-03-06 11:38:11] return await dependant.call(**values)

[2024-03-06 11:38:11] File "/code/ChatLLM-webui/webui/entrypoints/api_server.py", line 242, in chat_api

[2024-03-06 11:38:11] if cmd_opts.enable_lora:

[2024-03-06 11:38:11] AttributeError: 'Namespace' object has no attribute 'enable_lora'

我加了这个 现在起来了



参考答案:

看着像是vllm在分配显存池的时候没有拿到足够的空间,试试设置下--gpu-memory-utilization,比如0.98 还有 --max-model-len,比如4096



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/602707



问题二:通义千问 HTTP请求多轮对话的方式是什么格式的,文档里的没法实现,需要帮助,谢谢

{"model":"qwen-max","input":{"messages":[{"role": "system","content":"You are a helpful assistant."},{"role":"user","content":"入参"}]},"parameters":{}}

这样能正确返回。

{"model":"qwen-max","input":{"messages":[{"role": "system","content":"You are a helpful assistant."},{"role":"user","content":"入参"},{"role": "system","content":"首次返回的文本"},{"role":"user","content":"继续"}]},"parameters":{}}

这样写提示错误信息,message的大概意思是body格式错误。

{"model":"qwen-max","input":{"messages":[{"role":"user","content":"继续"}]},"parameters":{}}

这样写,会回复 有什么问题需要帮忙什么的...。



参考答案:

通义千问的 HTTP 请求多轮对话是通过 JSON 格式的数据传输来实现的。根据你提供的例子,可以按照以下方式构建 JSON 数据:

{

"model": "qwen-max",

"input": {

"messages": [

{

"role": "system",

"content": "You are a helpful assistant."

},

{

"role": "user",

"content": "入参"

}

]

},

"parameters": {}

}

需要注意的是,在上述示例中,“model”字段指定了所使用的模型名称,“input”字段包含了多轮对话的消息列表,每个消息都有一个“role”字段表示角色(系统或用户),以及一个“content”字段表示消息内容。最后,“parameters”字段可以包含其他参数,根据你的需求进行设置。

请确保将以上 JSON 数据作为 HTTP 请求的主体发送给通义千问的 API 接口,并设置适当的请求头和 URL。具体的请求方式和 URL 取决于你所使用的编程语言和库,可以参考相关文档或示例代码来执行 HTTP 请求。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/602363



问题三:机器学习PAI创建特征视图时报错,怎么处理?

机器学习PAI创建特征视图时报错,怎么处理?



参考答案:

要正常使用的话,必须要有离线数据源和在线数据源,因为上线的时候取特征需要在线数据源,我们也需要保证离在线一致性。现在只使用离线部分的话可以考虑使用TableStore在线数据源,这个是按量计费的。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/602296



问题四:在机器学习PAI按照官方给的最佳实践手册,走到上述步骤「数据同步Hologres」报错,怎么解决?

在机器学习PAI按照官方给的最佳实践手册,走到上述步骤「数据同步Hologres」报错,怎么解决?



参考答案:

楼主你好,看了你的问题,遇到了“数据同步Hologres”报错,你可以检查配置是否正确,确保你按照手册中的指引正确配置了Hologres的连接信息,包括数据库地址、用户名、密码等,一定要确保这些信息正确无误。

还有就是确保你的账号有足够的权限来执行数据同步的操作,检查你的账号是否有在Hologres数据库中读取、写入的权限。以及检查Hologres数据库状态,确认Hologres数据库的状态是否正常运行,可以尝试重新启动或者重建数据库。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/602295



问题五:机器学习PAI webui文件导入导出本地执行没问题,页面运行报错为什么?

机器学习PAI webui文件导入导出本地执行没问题,remote模式下, flink1.13.0集群,执行页面运行报错为什么?




参考答案:

楼主你好,看了你的问题,可能是由于集群版本不匹配引起的,也就是由于使用的Flink集群版本与页面运行环境不兼容导致的,所以请确保页面运行环境和集群版本匹配。

报错信息中提到了Failed to deserialize JobGraph,可能是由于序列化问题导致的,请检查代码中的序列化操作,确保对象能够正确地被序列化和反序列化。

报错信息中incompatible types for field cpuCores,可能是由于字段类型不匹配导致的。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/600926

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
219 7
|
8月前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
309 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
2月前
|
机器学习/深度学习 人工智能 运维
阿里云PAI人工智能平台介绍、优势及收费标准,手动整理
阿里云人工智能平台PAI是面向开发者和企业的机器学习与深度学习工程平台,提供数据标注、模型构建、训练、部署及推理优化等全链路服务。内置140+优化算法,支持PyTorch、TensorFlow等多种框架,具备高性能训练与推理能力,适用于自动驾驶、金融风控、智能推荐、智慧医疗等多个行业场景。PAI提供零代码开发、可视化建模、大模型一键部署等功能,助力企业快速构建AI应用。支持多种购买方式,如按量付费、预付费等,满足不同业务需求。
|
3月前
|
存储 分布式计算 API
基于PAI-FeatureStore的LLM embedding功能,结合通义千问大模型,可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。
本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能,实现物品标题、内容字段的离线与在线特征管理。核心内容包括:1) 离线特征生产(MaxCompute批处理),通过API生成Embedding并存储;2) 在线特征同步,实时接入数据并更新Embedding至在线存储;3) Python SDK代码示例解析;4) 关键步骤说明,如客户端初始化、参数配置等;5) 最佳实践,涵盖性能优化、数据一致性及异常处理;6) 应用场景示例,如推荐系统和搜索排序。该方案支持端到端文本特征管理,满足多种语义理解需求。
114 1
|
4月前
|
人工智能
生成式人工智能认证(GAI认证)官网 - 全国统一认证中文服务平台上线
生成式人工智能(AI)正深刻改变职场规则,但系统化学习相关技术成为难题。近日,由全球知名教育公司培生推出的生成式人工智能认证(GAI认证)中文官网正式上线,为专业人士和学习者提供了权威解决方案。该认证涵盖核心技能、提示工程、伦理合规等内容,助力持证者紧跟技术前沿,在职场中脱颖而出。全国统一认证平台提供便捷报名与在线考试服务,考后快速出成绩并颁发证书。行动起来,开启AI职业新篇章!
|
6月前
|
存储 机器学习/深度学习 缓存
特征平台PAI-FeatureStore的功能列表
本内容介绍了阿里云PAI FeatureStore的功能与使用方法,涵盖离线和在线特征管理、实时特征视图、行为序列特征视图、FeatureStore SDK的多语言支持(如Go、Java、Python)、特征生产简化方案、FeatureDB存储特性(高性能、低成本、及时性)、训练样本导出以及自动化特征工程(如AutoFE)。同时提供了相关文档链接和技术细节,帮助用户高效构建和管理特征工程。适用于推荐系统、模型训练等场景。
130 2
|
6月前
PAI-Rec推荐平台对于实时特征有三个层次
PAI-Rec推荐平台针对实时特征有三个处理层次:1) 离线模拟反推历史请求时刻的实时特征;2) FeatureStore记录增量更新的实时特征,模型特征导出样本准确性达99%;3) 通过callback回调接口记录请求时刻的特征。各层次确保了实时特征的准确性和时效性。
137 0
|
7月前
|
人工智能 自然语言处理 BI
基于阿里云人工智能平台的智能客服系统开发与部署
随着人工智能技术的发展,智能客服系统成为企业提升服务效率和用户体验的重要工具。阿里云提供包括自然语言处理(NLP)、语音识别(ASR)、机器学习(PAI)等在内的完整AI平台,助力企业快速构建智能客服系统。本文将通过电商平台案例,展示如何基于阿里云AI平台从零开始开发、部署智能客服系统,并介绍其核心优势与最佳实践,涵盖文本和语音客服、知识库管理及数据分析等功能,显著提升客户服务效率和用户满意度。
|
8月前
|
机器学习/深度学习 人工智能 算法
阿里云人工智能平台图像视频特征提取
本文介绍了图像与视频特征提取技术在人工智能和计算机视觉中的应用,涵盖图像质量评分、人脸属性分析、年龄分析、图像多标签打标、图文视频动态分类打标、视频质量评分及视频分类打标。通过深度学习模型如CNN和RNN,这些技术能从海量数据中挖掘有价值信息,为图像分类、目标检测、视频推荐等场景提供支持,提升分析精度与效率。
467 9
|
8月前
|
存储 分布式计算 MaxCompute
使用PAI-FeatureStore管理风控应用中的特征
PAI-FeatureStore 是阿里云提供的特征管理平台,适用于风控应用中的离线和实时特征管理。通过MaxCompute定义和设计特征表,利用PAI-FeatureStore SDK进行数据摄取与预处理,并通过定时任务批量计算离线特征,同步至在线存储系统如FeatureDB或Hologres。对于实时特征,借助Flink等流处理引擎即时分析并写入在线存储,确保特征时效性。模型推理方面,支持EasyRec Processor和PAI-EAS推理服务,实现高效且灵活的风险控制特征管理,促进系统迭代优化。
153 6

相关产品

  • 人工智能平台 PAI