Restoring from checkpoint failed,Assign requires shapes of both tensors to match. lhs shape= [700,8] rhs shape= [660,8]

简介: 模型恢复出错,是特征参数不一致问题

报错信息:
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/training/saver.py", line 1558, in build
self._build(self._filename, build_save=True, build_restore=True)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/training/saver.py", line 1627, in _build
build_save=build_save, build_restore=build_restore)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/training/saver.py", line 1188, in _build_internal
restore_sequentially, reshape)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/training/saver.py", line 783, in _AddShardedRestoreOps
name="restore_shard"))
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/training/saver.py", line 752, in _AddRestoreOps
assign_ops.append(saveable.restore(saveable_tensors, shapes))
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/training/saver.py", line 278, in restore
self.op.get_shape().is_fully_defined())
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/ops/state_ops.py", line 236, in assign
validate_shape=validate_shape)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/ops/gen_state_ops.py", line 62, in assign
use_locking=use_locking, name=name)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/framework/op_def_library.py", line 787, in _apply_op_helper
op_def=op_def)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/util/deprecation.py", line 488, in new_func
return func(args, *kwargs)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/framework/ops.py", line 3401, in create_op
op_def=op_def)
File "/worker/venv/lib/python2.7/site-packages/tensorflow/python/framework/ops.py", line 1771, in init
self._traceback = tf_stack.extract_stack()

InvalidArgumentError (see above for traceback): Restoring from checkpoint failed. This is most likely due to a mismatch between the current graph and the graph from the checkpoint. Please ensure that you have not altered the graph expected based on the checkpoint. Original error:

Assign requires shapes of both tensors to match. lhs shape= [700,8] rhs shape= [660,8]
[node save/Assign_7 (defined at /worker/tensorflow_jobs/easy_rec/python/model/easy_rec_estimator.py:74) = Assign[T=DT_FLOAT, _class=["loc:@attr_value_names_embedding/embedding_weights"], use_locking=true, validate_shape=true, _device="/job:localhost/replica:0/task:0/device:CPU:0"]]

很明显可以看到是Restoring from checkpoint failed ,从ckpt恢复模型出错,出错原因呢是现在的模型和ckpt的模型中attr_value_names的参数不一样。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
数据库管理
【SQLite】解决unrecognized token:“‘“
【SQLite】解决unrecognized token:“‘“
1594 0
|
6月前
|
机器学习/深度学习 运维 监控
实时异常检测实战:Flink+PAI 算法模型服务化架构设计
本文深入探讨了基于 Apache Flink 与阿里云 PAI 构建的实时异常检测系统。内容涵盖技术演进、架构设计、核心模块实现及金融、工业等多领域实战案例,解析流处理、模型服务化、状态管理等关键技术,并提供性能优化与高可用方案,助力企业打造高效智能的实时异常检测平台。
529 1
|
10月前
|
机器学习/深度学习 缓存 PyTorch
为什么要用TorchEasyRec processor?
TorchEasyRec处理器支持Intel和AMD的CPU服务器及GPU推理,兼容普通PyTorch模型。它具备TorchEasyRec的特征工程(FG)和模型推理功能,提供更快的推理性能,降低成本。通过Item Feature Cache特性,它能够缓存特征以减少网络传输,进一步提升特征工程与推理的速度。
268 2
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在虚拟客服中的关键作用:提升交互体验与服务效率
人工智能在虚拟客服中的关键作用:提升交互体验与服务效率
706 90
|
机器学习/深度学习 并行计算 调度
CuPy:将 NumPy 数组调度到 GPU 上运行
CuPy:将 NumPy 数组调度到 GPU 上运行
576 1
|
10月前
|
传感器 人工智能 算法
《流形学习:破解人工智能复杂数据处理难题的利刃》
流形学习降维算法,如Isomap和LLE,通过挖掘数据的内在几何结构,有效应对高维图像、文本和传感器等复杂数据带来的挑战。Isomap基于测地线距离保持全局结构,LLE则侧重局部线性重构,二者在人脸识别、生物医学数据分析、自然语言处理及传感器数据分析等领域展现出独特优势。尽管面临计算复杂度和噪声影响等挑战,流形学习仍为复杂数据处理提供了强大工具,未来结合深度学习等技术将有更广泛应用前景。
350 10
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
202324 16
对话 | ECS如何构筑企业上云的第一道安全防线
|
11月前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
230 6
|
11月前
|
存储 分布式计算 MaxCompute
使用PAI-FeatureStore管理风控应用中的特征
PAI-FeatureStore 是阿里云提供的特征管理平台,适用于风控应用中的离线和实时特征管理。通过MaxCompute定义和设计特征表,利用PAI-FeatureStore SDK进行数据摄取与预处理,并通过定时任务批量计算离线特征,同步至在线存储系统如FeatureDB或Hologres。对于实时特征,借助Flink等流处理引擎即时分析并写入在线存储,确保特征时效性。模型推理方面,支持EasyRec Processor和PAI-EAS推理服务,实现高效且灵活的风险控制特征管理,促进系统迭代优化。
278 6
|
运维 监控 DataWorks
DataWorks 稳定性保障全解析:深入监控与资源调配
DataWorks 的稳定性保障体系涵盖精细监控与资源调配,确保企业数据业务高效、稳定运行。监控模块包括资源、任务和质量监控,及时预警并处理异常;资源调配策略则针对集成、调度、数据服务及计算资源进行科学配置,保障数据同步、任务优先级和高并发需求。通过全方位的监控和合理的资源配置,DataWorks 为企业筑牢数据根基,助力数字化转型。
535 10