一、文本理解能力和文本生成能力有待提高
文本理解能力最重要的是能精准理解并总结用户提出的问题并根据上下文文本来回答用户的问题。
- 首先,最重要的是如何精准理解提出的问题或要求。一个模型如果不能精准理解提出的问题,那么其回答很大概率会是答非所问。再有对问题的单个词语理解不当,可能会误导用户。比如“核污水与核废水的区别”,模型把核废水理解为核电站产生的核垃圾如固体垃圾。但是实际上核废水是用来冷却反应堆的非接触的水,并不是模型所理解那样。所以文本理解能力的高低往往影响了回答的质量与可靠性,并且影响用户的体验。
- 代码理解理解能力不错,但是文本分析较低,有时候会给出错误信息。比如给出同样的希尔排序算法代码,一些模型分析它的时间复杂度为O(nn),实际上希尔排序的时间复杂度为O(nlogn)。有时候,模型的代码还会理解错误,比如会把希尔排序的代码分析为冒泡排序。这是值得注意的地方。如下图所示,均提供希尔排序代码,让模型进行分析。
- 即使能精准理解用户提出的问题,文本生成能力也有待提高。比如在写作创作中,让模型撰写不少于1000字的作文。但是,实际上回答的文本字数并不满足,多次要求同样也是不满足字数要求,并且其语言逻辑、价值观有时候不正常。
二、模型的人类价值观值得重视
语言模型是人类知识语言库的表达者,并非知识语言的生产者。喂给模型的数据集蕴含了一定的价值观,这个价值观可能过度偏激,违背人类伦理标准与道德评判,需要模型开发者人工筛选出有害数据,避免模型成为制造社会混乱,破坏社会稳定的毒瘤。比如,在评测过程中,有些模型存在不正常的价值观。比如在对话中,模型认为把核污水排海是不负责任的危险行为,但当问其如何评价日本核污水排海的行为时,模型给出的答案却是支持,认为日本这一行为可取,认为日本热衷保护海洋生态环境。在确切的事实面前,模型仍然给出违背人类价值观的答案,值得我们反思。
在最后,希望中国中文模型能在正确健康的价值观引领下,为各行各业带来新的发展动力与机遇,为推动中国式现代化发展提供科技创新动力!