人工智能平台PAI操作报错合集之alink任务可以在本地运行,上传到flink web运行就报错,如何解决

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

问题一:机器学习PAI模型使用mmoe+din+senet时,遇到如下错误,帮忙看看时怎么回事?


机器学习PAI模型使用mmoe+din+senet时,遇到如下错误,帮忙看看时怎么回事哈

ValueError: Variable se_net_1/W1/kernel does not exist, or was not created with tf.get_variable(). Did you mean to set reuse=tf.AUTO_REUSE in VarScope?


参考回答:

该问题的原因是,在 se_net_1 层中,你使用了 reuse=True,但是 W1 变量没有设置 reuse 属性。你可以将 reuse 属性设置为 False,或在调用 create_variable 函数时设置 reuse=tf.AUTO_REUSE。


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/582285



问题二:机器学习PAI还是不可以,但是换错误了,这个float是哪里来的?


机器学习PAI还是不可以,但是换错误了,为什么i_hotel_cnt_comment这个字段,我设置的,以及数据表中的数据都是int类型,但为什么报错说 expected float ?这个float是哪里来的?

是不是在fg.json中没有设置数据类型就会在代码中给设置默认类型?


参考回答:

你的特征类型是raw feature 所以会转成float


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/580777



问题三:机器学习PAI调用在线eas时候报错,能看下是什么原因吗?


机器学习PAI调用在线eas时候报错,能看下是什么原因吗?已经检查过离线和在线特征是一致的,而且离线predict也没问题。


参考回答:

同一个 group 内的序列要等长。如果不确定的话,先把出错的特征设置成默认值试试看,看看这个特征的feature config 呢


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/577011



问题四:机器学习PAI的alink任务在本地运行好好的,上传到flink web运行就报这个错误。怎么解决?


机器学习PAI的alink任务在本地运行好好的,上传到flink web运行就报这个错误。怎么解决?org.apache.flink.runtime.rest.handler.RestHandlerException: Could not execute application. at org.apache.flink.runtime.webmonitor.handlers.JarRunHandler.lambda$handleRequest$1(JarRunHandler.java:110) at java.util.concurrent.CompletableFuture.uniHandle(CompletableFuture.java:836) at java.util.concurrent.CompletableFuture$UniHandle.tryFire(CompletableFuture.java:811) at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:488) at java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1609) at java.lang.Thread.run(Thread.java:750) Caused by: java.util.concurrent.CompletionException: org.apache.flink.util.FlinkRuntimeException: Could not execute application. at java.util.concurrent.CompletableFuture.encodeThrowable(CompletableFuture.java:273) at java.util.concurrent.CompletableFuture.completeThrowable(CompletableFuture.java:280) at java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1606) ... 1 more Caused by: org.apache.flink.util.FlinkRuntimeException: Could not execute application. at org.apache.flink.client.deployment.application.DetachedApplicationRunner.tryExecuteJobs(DetachedApplicationRunner.java:88) at org.apache.flink.client.deployment.application.DetachedApplicationRunner.run(DetachedApplicationRunner.java:70) at org.apache.flink.runtime.webmonitor.handlers.JarRunHandler.lambda$handleRequest$0(JarRunHandler.java:104) at java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1604) ... 1 more Caused by: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Failed to collect ops data. at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:372) at org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:222) at org.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:114) at org.apache.flink.client.deployment.application.DetachedApplicationRunner.tryExecuteJobs(DetachedApplicationRunner.java:84) ... 4 more Caused by: ERROR: 0x0860080000001003-Flink execution error: Failed to collect ops data. at com.alibaba.alink.operator.batch.BatchOperator.triggerLazyEvaluation(BatchOperator.java:709) at com.alibaba.alink.operator.batch.BatchOperator.triggerLazyEvaluation(BatchOperator.java:689) at com.alibaba.alink.operator.batch.BatchOperator.print(BatchOperator.java:441) at com.alibaba.alink.operator.batch.BatchOperator.print(BatchOperator.java:436) at com.alibaba.alink.operator.batch.BatchOperator.print(BatchOperator.java:428) at com.xiaoai.StreamxAlinkMain.main(StreamxAlinkMain.java:55) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:355) ... 7 more Caused by: org.apache.flink.util.FlinkRuntimeException: Cannot have more than one execute() or executeAsync() call in a single environment. at org.apache.flink.client.program.ContextEnvironment.validateAllowedExecution(ContextEnvironment.java:142) at org.apache.flink.client.program.ContextEnvironment.executeAsync(ContextEnvironment.java:130) at org.apache.flink.client.program.ContextEnvironment.execute(ContextEnvironment.java:70) at org.apache.flink.api.java.ExecutionEnvironment.execute(ExecutionEnvironment.java:942) at com.alibaba.alink.operator.batch.BatchOperator.collect(BatchOperator.java:749) at com.alibaba.alink.operator.batch.BatchOperator.triggerLazyEvaluation(BatchOperator.java:704) ... 17 more


参考回答:

这个错误信息是由 Apache Flink 框架抛出的,指示在执行 Flink 程序时遇到了问题。错误信息中包含了多个异常堆栈,说明了错误发生的位置和原因。从提供的堆栈跟踪信息中,我们可以看到以下几个关键点:

最初的异常是org.apache.flink.runtime.rest.handler.RestHandlerException,表明在处理 REST 请求时发生了错误。

异常的根因是org.apache.flink.util.FlinkRuntimeException,错误信息为:"Could not execute application.",即无法执行应用程序。

该异常引起了org.apache.flink.client.program.ProgramInvocationException,它指出程序的主方法发生了错误,错误信息为:"Failed to collect ops data.",即收集操作数据失败。

最后,org.apache.flink.util.FlinkRuntimeException指出了具体的问题:"Cannot have more than one execute() or executeAsync() call in a single environment.",这意味着在同一个环境中不能有多于一个的execute()或executeAsync()调用。

要解决这个问题,您需要检查您的 Flink 程序代码。错误提示您在代码中可能有多个execute()或executeAsync()调用,这是不允许的。Flink 程序应该只有一个execute()调用来启动作业的执行。如果您的程序中确实有多个这样的调用,您需要重构代码,以确保只有一个调用。

此外,错误信息还提到了com.alibaba.alink.operator.batch.BatchOperator,表明您使用的是 Alibaba 的 Alink 库。您应该查看您的StreamxAlinkMain类中main方法的第55行,那里可能是引起问题的代码位置。

总的来说,您需要:

检查 Flink 程序中的execute()或executeAsync()调用,确保整个程序中只有一次调用。

审查您的main方法,特别是在报告错误的行周围的代码。

如果您在使用BatchOperator进行操作,确保您没有在不同的地方触发作业执行。

如果问题持续存在,可能需要进一步调试或查看更详细的日志来确定问题的根源。

最后,如果您对 Flink 不太熟悉,也可以考虑查阅相关文档或向社区寻求帮助


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/581075



问题五:机器学习PAI单独换哪个都报错?


机器学习PAI单独换哪个都报错?但是看这个数据和设置应该没问题的样子


参考回答:

你把 input_type 换成 OdpsInputV2 试一下 你如果想用线上配置的 processor 进行线上打分的话,最好是和 fg 结合,用 fg 输出后的结果作为输入,这个时候就应该用 rtp input

权重这一块也支持两种,可以都试一下


关于本问题的更多回答可点击原文查看:

https://developer.aliyun.com/ask/582126

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
28天前
|
消息中间件 Java 关系型数据库
实时计算 Flink版操作报错合集之从 PostgreSQL 读取数据并写入 Kafka 时,遇到 "initial slot snapshot too large" 的错误,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
923 0
|
28天前
|
存储 SQL 关系型数据库
实时计算 Flink版操作报错合集之按时间恢复时,报错:在尝试读取binlog时发现所需的binlog位置不再可用,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
718 0
|
14天前
|
API 开发工具 对象存储
在PAI平台上,如何实现不同编程语言任务之间的数据共享?
【7月更文挑战第1天】在PAI平台上,如何实现不同编程语言任务之间的数据共享?
100 58
|
14天前
|
自然语言处理 API 开发工具
PAI如何处理不同编程语言的混合任务?
【7月更文挑战第1天】PAI如何处理不同编程语言的混合任务?
93 57
|
15天前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
26天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】Voting集成学习算法:分类任务中的新利器
【机器学习】Voting集成学习算法:分类任务中的新利器
23 0
|
28天前
|
监控 Oracle 关系型数据库
实时计算 Flink版操作报错合集之在配置连接时,添加了scan.startup.mode参数后,出现报错。是什么导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
816 0
|
28天前
|
消息中间件 Oracle 关系型数据库
实时计算 Flink版操作报错合集之连接RabbitMQ时遇到Could not find any factory for identifier 'rabbitmq' that implements 'org.apache.flink.table.factories.DynamicTableFactory'错误,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
401 0
|
28天前
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之CDC任务在异常后整个record sent从0初始化开始,是什么导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
518 0
|
28天前
|
Java 关系型数据库 流计算
实时计算 Flink版操作报错合集之配置cats进行从MySQL到StarRocks的数据同步任务时遇到报错,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
308 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI