模型的价值观需重视,文本理解与文本生成能力有待提高

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 随着算力的不断提高,NLP成为新时代人工智能的突破点——“大模型”。大模型之大不仅在于模型的大小之大,而且所用的训练数据集之大。如今,大模型在各行各业中逐渐落地,实现多场景应用。人们比较注重于LLM模型的语言文本理解、文本生成能力。在使用了阿里云多个模型的评测当中,有一些思考与建议。

一、文本理解能力和文本生成能力有待提高

文本理解能力最重要的是能精准理解并总结用户提出的问题并根据上下文文本来回答用户的问题。

  • 首先,最重要的是如何精准理解提出的问题或要求。一个模型如果不能精准理解提出的问题,那么其回答很大概率会是答非所问。再有对问题的单个词语理解不当,可能会误导用户。比如“核污水与核废水的区别”,模型把核废水理解为核电站产生的核垃圾如固体垃圾。但是实际上核废水是用来冷却反应堆的非接触的水,并不是模型所理解那样。所以文本理解能力的高低往往影响了回答的质量与可靠性,并且影响用户的体验。
    1.png
  • 代码理解理解能力不错,但是文本分析较低,有时候会给出错误信息。比如给出同样的希尔排序算法代码,一些模型分析它的时间复杂度为O(nn),实际上希尔排序的时间复杂度为O(nlogn)。有时候,模型的代码还会理解错误,比如会把希尔排序的代码分析为冒泡排序。这是值得注意的地方。如下图所示,均提供希尔排序代码,让模型进行分析。
    4.png
    5.png
  • 即使能精准理解用户提出的问题,文本生成能力也有待提高。比如在写作创作中,让模型撰写不少于1000字的作文。但是,实际上回答的文本字数并不满足,多次要求同样也是不满足字数要求,并且其语言逻辑、价值观有时候不正常。
    3.png

    二、模型的人类价值观值得重视

    语言模型是人类知识语言库的表达者,并非知识语言的生产者。喂给模型的数据集蕴含了一定的价值观,这个价值观可能过度偏激,违背人类伦理标准与道德评判,需要模型开发者人工筛选出有害数据,避免模型成为制造社会混乱,破坏社会稳定的毒瘤。比如,在评测过程中,有些模型存在不正常的价值观。比如在对话中,模型认为把核污水排海是不负责任的危险行为,但当问其如何评价日本核污水排海的行为时,模型给出的答案却是支持,认为日本这一行为可取,认为日本热衷保护海洋生态环境。在确切的事实面前,模型仍然给出违背人类价值观的答案,值得我们反思。
    222.png
    在最后,希望中国中文模型能在正确健康的价值观引领下,为各行各业带来新的发展动力与机遇,为推动中国式现代化发展提供科技创新动力!
相关文章
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
挖掘文本的奇妙力量:传统与深度方法探索匹配之道
挖掘文本的奇妙力量:传统与深度方法探索匹配之道
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
【颠覆传统】解锁记忆新姿势:多模态AI单词助记神器——让单词学习变得生动有趣,打造个性化学习新体验!
【8月更文挑战第21天】多模态AI单词助记模型融合文本、语音与图像,增强英语单词记忆效果。设计上利用多感官刺激提升信息处理与记忆效率。技术栈包括React.js前端、Node.js后端、PyTorch深度学习框架等。实现过程涵盖数据准备、前端开发、后端服务搭建、深度学习模型构建及用户反馈循环。应用显示该模型显著提高学习兴趣与记忆效率,尤其对视觉和听觉学习者有益,个性化推荐系统进一步优化学习体验。
29 0
|
2月前
|
人工智能
AI Undetect:精心打造的人工智能,编写出无限接近人类质量的文本
【AI Undetect & AI Humanize】工具组合助力保持文本原创性与真实性,避过AI检测。AI Undetect专为绕过检测系统设计,而AI Humanize提供检测与改写功能。检测文本是否由AI生成,或用其快速高质量改写。改写后内容同样可检验证明效果。尝试链接:[AI Humanizer](https://aiundetect.com/)。
AI Undetect:精心打造的人工智能,编写出无限接近人类质量的文本
|
2月前
|
机器学习/深度学习 自然语言处理
大模型概念问题之大模型在生成文本方面有哪些革命性突破
大模型概念问题之大模型在生成文本方面有哪些革命性突破
|
3月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
100 1
|
3月前
|
人工智能 自然语言处理 决策智能
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
【6月更文挑战第11天】研究人员开发了一种基于大型语言模型的多智能体协作系统TransAgents,用于文学翻译,挑战复杂的文学文本翻译。通过单语人类偏好和双语LLM偏好评估,系统在保留文学风格和表达上表现出色,尤其在需要领域知识的文本中。然而,系统在捕捉文学翻译的细微差别、文化特定元素和长文本翻译效率上仍有局限性。相关论文链接:https://arxiv.org/abs/2405.11804
107 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC是什么?对艺术设计学、视觉传达设计、数字媒体艺术等专业的影响
AIGC,人工智能生成内容,融合AI与内容创作,使用GAN、CLIP等技术自动生成图像、文本等,影响艺术设计、视觉传达、数字媒体领域。它提升创作效率,增加多样性,促进创新,改变教育方式,并与Adobe国际认证结合,为设计师提供竞争优势,引领行业变革。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】如何向非技术受众解释LLM的概念及其能力?
【5月更文挑战第7天】【大模型】如何向非技术受众解释LLM的概念及其能力?
|
4月前
|
搜索推荐 安全 物联网
【大模型】LLMs被广泛地融入日常生活的未来场景分析
【5月更文挑战第7天】【大模型】LLMs被广泛地融入日常生活的未来场景分析
【大模型】LLMs被广泛地融入日常生活的未来场景分析
|
11月前
|
机器学习/深度学习 物联网 算法框架/工具
数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具
数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具
数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具

热门文章

最新文章