开发者社区> 问答> 正文

NLP自学习平台为什么同一份文本分类的样本数据,换长文本分类模型,一直在训练中呢?

NLP自学习平台为什么同一份文本分类的样本数据,换长文本分类模型,一直在训练中呢?

tensorflow.python.framework.errors_impl.InvalidArgumentError: ValueError: `generator` yielded an element of shape (0,) where an element of shape (None, None) was expected.
Traceback (most recent call last):
  File \"/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/script_ops.py\", line 236, in __call__
    ret = func(*args)
  File \"/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/data/ops/dataset_ops.py\", line 825, in generator_py_func
    \"of shape %s was expected.\" % (ret_array.shape, expected_shape))
ValueError: `generator` yielded an element of shape (0,) where an element of shape (None, None) was expected.

展开
收起
青城山下庄文杰 2023-08-07 19:03:27 68 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    样本数据不平衡
    长文本分类模型对样本数据要求较高,如果不同类别的样本数据量差异很大,容易造成模型倾斜,影响训练效果。

    样本数据存在噪声
    长文本样本如果存在大量噪声数据,比如格式混乱、标点错误严重、 歧义和重复内容,都会影响模型的学习。

    文本长度过长
    如果样本文本平均长度非常长,则模型需要更多参数和计算资源才能有效捕捉特征,否则易训练不收敛。

    模型选型不当
    不同的长文本分类模型存在明显差异,需要结合数据特征选择最合适的模型类型。否则可能导致训练失败。

    模型参数设置不当
    如batch size、learning rate、epoch数等参数设置不合理,容易造成模型在一开始的训练中就出错。

    硬件资源紧张
    长文本通常要求更高的计算资源,如果使用的是有限的免费配额,很容易导致训练超时或者内存不足而失败。

    提供上述信息很有可能定位原因:

    训练日志及错误提示
    数据与模型信息
    数据集量级和平均文本长度
    使用的模型参数
    训练使用的硬件规格

    2023-08-09 20:36:26
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
自然语言处理得十个发展趋势 立即下载
自然语言处理的十个发展趋势 立即下载
深度学习与自然语言处理 立即下载