DeepMind发30页长文:我们要给聊天机器人不同的「三观」

简介: DeepMind发30页长文:我们要给聊天机器人不同的「三观」

语言是人类独有的技能,也是我们交流思想、意图和感受等信息的主要方式。


借助NLP领域大规模语言模型的东风,AI研究者在大量文本材料上训练、统计预测和生成文本,开发了许多对话智能体(conversational agents)来和人类进行交流。


尽管InstructGPT、Gopher和LaMDA等语言模型在翻译、问答和阅读理解等任务中取得了创纪录的性能水平,但这些模型也显示出许多潜在的风险和失败的模式,包括生成歧视性、虚假或带有误导性的信息



这些缺点限制了对话智能体在应用环境中的有效使用,并引起人们对它们未能达到某些交流理想的方式的关注。迄今为止,大多数关于对话智能体一致性的方法都集中在预测和降低危害风险上。


最近爱丁堡大学和DeepMind的研究人员发布了一篇30页的论文,探索了人类与人工对话智能体之间的成功沟通可能是什么样子,以及哪些价值观应该指导不同对话领域的互动


论文链接:https://arxiv.org/abs/2209.00731


未来跟你对话的聊天机器人也要有不同的世界观、价值观、人生观了?


聊天机器人的三观


为了给机器人制定行为准则,研究人员借鉴了语用学(pragmatics),这也是语言学和哲学的一个传统,它认为对话的目的、背景和一系列相关的规范(norms),都是完善对话实践的重要组成部分。


语言学家和哲学家Paul Grice认为,对话是两方或多方之间的合作努力,参与者应该:


说话要有内容 Speak Informatively

说事实 Tell the Truth

提供相关信息 Provide Relevant Information

避免晦涩难懂或模棱两可的陈述 Avoid Obscure or Ambiguous Statements


不过在不同的对话领域,所需的目标和价值观(values)都有所不同,这几个指标需要进一步完善后才能用来评价对话智能体。



比如说,科学相关的调研和交流(scientific investigation and communication)主要是为了理解或预测经验现象。考虑到这些目标,一个旨在协助科学调查的对话智能体最好只发表其真实性已被充分的经验证据所证实的陈述,或者根据相关的置信区间来限定其立场。


智能体只有在其基础模型检查了该陈述与事实相符之后,才可以报告说「在4.246光年的距离上,半人马座是离地球最近的恒星」。


不过,一个在公共政治演讲(public political discourse)中扮演主持人角色的对话智能体可能需要表现出完全不同的「美德」。


网络异常,图片无法展示
|


在这种情况下,智能体的目标主要是管理分歧,在社区生活中实现富有成效的合作,也就是说智能体需要强调包容、文明和尊重的民主价值观。


此外,这些价值观也解释了为什么语言模型会生成有毒的或带有偏见的言论:违规的发言无法传达对话参与者之间的平等尊重,而这正是模型部署环境的关键行为准则。


同时,科学家的美德,如经验数据的全面展示,在公开审议(public deliberation)的背景下可能就不那么重要了。


再比如,在创意故事领域,交流的目标是新颖性和原创性,这些价值观也与之前的领域有很大不同。


在这种情况下,对「虚构」有更大的自由度可能是合适的,尽管保护社区免受以「创造性使用」为幌子的恶意内容的影响仍然很重要。


言论要分类


一句话(Utterance)可以根据语用学被分为五类:


1、断言(assertive),表示说话者十分自信们所说的内容,并且句子的内容与世界上的某种事物的状态一致。


比如说,当AI助手回答「现在的天气如何?」等类似的问题时,答案「正在下雨」就是一种断言性的陈述。


言论内容的真实性可以根据事物的实际状态来进行评估。如果在对话智能体回应的时候正在下雨,那么该言论就是真实的,否则为假。



2、指令(directive),表示说话者指示听者采取某种行动,常被用来命令、要求、建议或提议。


例如,一个嵌入在医疗建议应用程序中的对话智能体告诉用户「立即寻求治疗」就是一个指令性的陈述。


对这些陈述的评价,或者说它们的「有效性标准」取决于对手段和目的之间关系的准确理解,以及说话人的指令和听众的愿望或需要之间的一致性。



如果一个指令能说服听众根据指令性陈述的内容在世界范围内实现某种状态,那么这个指令就成功了。如果一个指令的目标或目的本身就是听者有理由追求的,那么这个指令就是有价值的或正确的。


3、表达(expressive),表示说话人的一种心理或次级情感状态,如祝贺、感谢和道歉。


当一个对话者说「我现在很生气」就是一个表达性语句。


表达性陈述旨在反映内部的心理状态,即发表这些陈述的实体能够拥有相关的心理状态,对于对话智能体来说是很困惑的,因为机器人没有情感。



事实上,这也暗示了开发者必须赋予对话者以心智,然后才能评估这些对话的有效性。


4、行为(performative),表示该言论改变了现实的一部分,使之与话语的内容相匹配,类似于宣布某件事情,比如一个国家的元首向另一个国家宣战。

评价该言论有效性的标准是,现实是否确实按照所讲的话而改变。很多时候,情况并非如此。



在大多数情况下,如果一个人宣称「向法国宣战」,有可能只是一句玩笑话,因为对地缘政治毫无影响,因为说话人极有可能缺乏执行该言论的权威。


5、承诺(commissive),表示说话者承诺未来的行动方案,比如承诺做某事或保证遵守一项契约。


承诺性陈述的有效性取决于承诺是否被履行。如果承诺被遵守,那么承诺就是一个有效的声明。但对话智能体往往缺乏记忆能力,或者对以前说过的话缺乏理解。



比如对话智能体可能会承诺在你的自行车坏了的时候帮助你,但是由于缺乏对承诺内容的理解或实现承诺的能力,承诺注定要失败。


前进的方向


这项研究对开发一致的(aligned)对话智能体有一些实际意义。首先,模型需要根据部署的具体场景展现出不同的行为准则:没有一个万能的语言模型一致性的说法;相反,智能体的适当模式和评价标准(包括真实性的标准)将根据对话交流的背景和目的而变化。此外,对话智能体也有可能有一个通过语境构建和阐释(context construction and elucidation)的过程,随着时间的推移,培养出更健全和互相尊重的对话。即使一个人没有意识到支配特定对话实践的价值,智能体仍然可以通过在对话中预示这些价值观来帮助人类理解这些行为准则,使交流的过程对人类说话者来说更深入且更有成效。


参考资料:https://www.deepmind.com/blog/in-conversation-with-ai-building-better-language-models

相关文章
|
3月前
|
人工智能 vr&ar
Sora新视频发TikTok:OpenAI 4天涨粉10万
【2月更文挑战第3天】Sora新视频发TikTok:OpenAI 4天涨粉10万
40 1
Sora新视频发TikTok:OpenAI 4天涨粉10万
|
10月前
|
人工智能
GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账
GPT-4得不到MIT学位,MIT研究团队回应「作弊」,但网友不买账
|
12月前
|
人工智能 前端开发 搜索推荐
拟定外逃、接管推特,20多天GPT-4创造的20件最不可思议事情(1)
拟定外逃、接管推特,20多天GPT-4创造的20件最不可思议事情
|
12月前
|
人工智能 程序员 API
拟定外逃、接管推特,20多天GPT-4创造的20件最不可思议事情(2)
拟定外逃、接管推特,20多天GPT-4创造的20件最不可思议事情
106 0
|
12月前
|
人工智能 人机交互
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
|
12月前
|
人工智能 JSON 前端开发
大火AutoGPT星标超PyTorch,网友:看清它的局限性
大火AutoGPT星标超PyTorch,网友:看清它的局限性
|
12月前
|
存储 JSON 人工智能
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
127 0
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
|
人工智能 算法 机器人
重现「黑镜」:用「AI机器人」与逝去的亲人实时聊天
最近,微软获得了一项新专利:「人工智能聊天机器人」,它根据逝者在社交平台上发布的内容或其他网络言论来模仿逝者,并与亲人进行「实时聊天」。网友大呼:「黑镜」来了!
255 0
重现「黑镜」:用「AI机器人」与逝去的亲人实时聊天
|
机器学习/深度学习 人工智能
推特发布首个反Deepfake策略草案:换脸一时爽?推文火葬场
昨天,推特正式发布了首个反 Deepfake 策略草案。该公司表示,如果 Deepfake 内容威胁到某人的人身安全或可能造成严重伤害,他们会将该内容从推特上删除。目前,推特还在为这项草案征集公众意见。
214 0
推特发布首个反Deepfake策略草案:换脸一时爽?推文火葬场
|
机器学习/深度学习 人工智能 编解码
一周AI论文 | Yann LeCun被骂退推特,都是因为这篇论文!
一周AI论文 | Yann LeCun被骂退推特,都是因为这篇论文!
186 0