文档备案控制台

开发者社区问答正文

NLP自学习平台为什么同一份文本分类的样本数据，换长文本分类模型，一直在训练中呢？

NLP自学习平台为什么同一份文本分类的样本数据，换长文本分类模型，一直在训练中呢？

tensorflow.python.framework.errors_impl.InvalidArgumentError: ValueError: `generator` yielded an element of shape (0,) where an element of shape (None, None) was expected.
Traceback (most recent call last):
  File \"/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/script_ops.py\", line 236, in __call__
    ret = func(*args)
  File \"/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/data/ops/dataset_ops.py\", line 825, in generator_py_func
    \"of shape %s was expected.\" % (ret_array.shape, expected_shape))
ValueError: `generator` yielded an element of shape (0,) where an element of shape (None, None) was expected.

展开

收起

青城山下庄文杰 2023-08-07 19:03:27 219 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

样本数据不平衡
长文本分类模型对样本数据要求较高,如果不同类别的样本数据量差异很大,容易造成模型倾斜,影响训练效果。

样本数据存在噪声
长文本样本如果存在大量噪声数据,比如格式混乱、标点错误严重、歧义和重复内容,都会影响模型的学习。

文本长度过长
如果样本文本平均长度非常长,则模型需要更多参数和计算资源才能有效捕捉特征,否则易训练不收敛。

模型选型不当
不同的长文本分类模型存在明显差异,需要结合数据特征选择最合适的模型类型。否则可能导致训练失败。

模型参数设置不当
如batch size、learning rate、epoch数等参数设置不合理,容易造成模型在一开始的训练中就出错。

硬件资源紧张
长文本通常要求更高的计算资源,如果使用的是有限的免费配额,很容易导致训练超时或者内存不足而失败。

提供上述信息很有可能定位原因:

训练日志及错误提示
数据与模型信息
数据集量级和平均文本长度
使用的模型参数
训练使用的硬件规格

2023-08-09 20:36:26

赞同展开评论

问答分类：

自然语言处理 Python 自然语言处理

问答标签：

自然语言处理数据自然语言处理模型自然语言处理训练自然语言处理文本分类自然语言处理文本分类模型

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

NLP自学习平台 Structbert模型用了500个数据训练出来准确率等结果仍然为零是怎么回事呢？

231

1

0

NLP自学习平台这个报错，模型预测结果为空是什么意思呢？

215

1

0

NLP自学习平台测试模型用到的测试集有格式要求吗？

186

1

0

NLP自学习平台像这样训练完成的模型发布不了一直显示加速中，取消发布显示部署失败是怎么回事呢？

213

0

0

NLP自学习平台非融合类型的文本分类模型这个使用文档有吗？

164

0

0

NLP自学习平台在训练文本实体抽取的模型时训练失败了，训练日志报错是这样，怎么解决？

198

1

0

NLP自学习平台训练的模型如何调用

235

1

0

自然语言处理OpenAPI支持所有的模型使用吗

239

1

0

NLP自学习平台项目模型发布已经20多分钟了，还是没有显示发布成功，请问这是正常的吗？

155

0

0

NLP自学习平台模型准确率90%以上但是测试没有结果是怎么回事？

181

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

idea qoder cn报错

ECS 带宽跑满导致业务卡顿？CDN 怎么进行分流优化解决高峰期瓶颈？

qoder CN,wiki收费为什么没有提示,以前qoder国际版不是免费的吗,一次跑了几百Cred

阿里云服务器官网在哪？有几种云服务器类型？

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

相关文章

实用小工具：端口卫士

2026企业Agent应用场景：挖掘隐性利润的实战指南

GES DISC 的 OMI/Aura 和 MODIS/Aqua Aerosol 地理托管产品 1-Orbit L2 Swath 13x24 km V003 (OMMYDAGEO)

最新版阿里云计算巢OpenClaw社区版部署教程及全功能深度解析

相关解决方案

更多

基于 Spark 和 PyTorch 的模型训练方案

一键训练模型及部署GPU共享推理服务

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

还有其他疑问?