模型的价值观需重视,文本理解与文本生成能力有待提高

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 随着算力的不断提高,NLP成为新时代人工智能的突破点——“大模型”。大模型之大不仅在于模型的大小之大,而且所用的训练数据集之大。如今,大模型在各行各业中逐渐落地,实现多场景应用。人们比较注重于LLM模型的语言文本理解、文本生成能力。在使用了阿里云多个模型的评测当中,有一些思考与建议。

一、文本理解能力和文本生成能力有待提高

文本理解能力最重要的是能精准理解并总结用户提出的问题并根据上下文文本来回答用户的问题。

  • 首先,最重要的是如何精准理解提出的问题或要求。一个模型如果不能精准理解提出的问题,那么其回答很大概率会是答非所问。再有对问题的单个词语理解不当,可能会误导用户。比如“核污水与核废水的区别”,模型把核废水理解为核电站产生的核垃圾如固体垃圾。但是实际上核废水是用来冷却反应堆的非接触的水,并不是模型所理解那样。所以文本理解能力的高低往往影响了回答的质量与可靠性,并且影响用户的体验。
    1.png
  • 代码理解理解能力不错,但是文本分析较低,有时候会给出错误信息。比如给出同样的希尔排序算法代码,一些模型分析它的时间复杂度为O(nn),实际上希尔排序的时间复杂度为O(nlogn)。有时候,模型的代码还会理解错误,比如会把希尔排序的代码分析为冒泡排序。这是值得注意的地方。如下图所示,均提供希尔排序代码,让模型进行分析。
    4.png
    5.png
  • 即使能精准理解用户提出的问题,文本生成能力也有待提高。比如在写作创作中,让模型撰写不少于1000字的作文。但是,实际上回答的文本字数并不满足,多次要求同样也是不满足字数要求,并且其语言逻辑、价值观有时候不正常。
    3.png

    二、模型的人类价值观值得重视

    语言模型是人类知识语言库的表达者,并非知识语言的生产者。喂给模型的数据集蕴含了一定的价值观,这个价值观可能过度偏激,违背人类伦理标准与道德评判,需要模型开发者人工筛选出有害数据,避免模型成为制造社会混乱,破坏社会稳定的毒瘤。比如,在评测过程中,有些模型存在不正常的价值观。比如在对话中,模型认为把核污水排海是不负责任的危险行为,但当问其如何评价日本核污水排海的行为时,模型给出的答案却是支持,认为日本这一行为可取,认为日本热衷保护海洋生态环境。在确切的事实面前,模型仍然给出违背人类价值观的答案,值得我们反思。
    222.png
    在最后,希望中国中文模型能在正确健康的价值观引领下,为各行各业带来新的发展动力与机遇,为推动中国式现代化发展提供科技创新动力!
相关文章
|
8月前
|
存储 安全 数据安全/隐私保护
中外AIGC大模型的差距、态势与结构
【1月更文挑战第21天】中外AIGC大模型的差距、态势与结构
344 2
中外AIGC大模型的差距、态势与结构
|
机器学习/深度学习 人工智能 自然语言处理
挖掘文本的奇妙力量:传统与深度方法探索匹配之道
挖掘文本的奇妙力量:传统与深度方法探索匹配之道
|
2月前
|
人工智能 开发者
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
38 2
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
63 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
6月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
42 2
|
6月前
|
人工智能
AI Undetect:精心打造的人工智能,编写出无限接近人类质量的文本
【AI Undetect & AI Humanize】工具组合助力保持文本原创性与真实性,避过AI检测。AI Undetect专为绕过检测系统设计,而AI Humanize提供检测与改写功能。检测文本是否由AI生成,或用其快速高质量改写。改写后内容同样可检验证明效果。尝试链接:[AI Humanizer](https://aiundetect.com/)。
AI Undetect:精心打造的人工智能,编写出无限接近人类质量的文本
|
6月前
|
机器学习/深度学习 自然语言处理
大模型概念问题之大模型在生成文本方面有哪些革命性突破
大模型概念问题之大模型在生成文本方面有哪些革命性突破
|
7月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
135 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】如何向非技术受众解释LLM的概念及其能力?
【5月更文挑战第7天】【大模型】如何向非技术受众解释LLM的概念及其能力?
|
8月前
|
人工智能 自然语言处理 算法
技术角度告诉你ChatGPT是什么?和一些深度思考
技术角度告诉你ChatGPT是什么?和一些深度思考
157 0

热门文章

最新文章