2022 年的最后一个月,OpenAI 用一个爆款对话机器人 ——ChatGPT 回应了人们一整年的期待,尽管它并不是大家期盼已久的 GPT-4。
用过 ChatGPT 的人都能体会到,它是一个真正的「六边形战士」:不仅能拿来聊天、搜索、做翻译,还能写故事、写代码、debug,甚至开发小游戏、参加美国高考…… 有人戏称,从此以后人工智能模型只有两类 —— ChatGPT 和其他。
由于能力过于惊艳,ChatGPT 仅上线 5 天就吸引了 100 万用户。很多人大胆预测,照这个趋势发展下去,ChatGPT 很快就能取代 Google 等搜索引擎和 Stack Overflow 等编程问答社区了。
不过, ChatGPT 生成的答案有很多是错的,而且不仔细看都看不出来,这会造成问题回答鱼目混珠的情况。这种「很强大但也很容易出错」的属性给了外界很大的讨论空间,大家都想知道:
- ChatGPT 的这种强大能力是哪里来的?
- ChatGPT 还有哪些短板?
- 未来它会取代搜索引擎吗?
- 它的出现给我们的 AI 研究带来了哪些启发?
在小红书技术团队举办的第六期「REDtech 来了」技术直播中,NLP 领域专家、加州大学圣巴巴拉分校助理教授李磊与小红书技术副总裁张雷以及小红书社区部多媒体智能算法负责人张德兵展开了对谈,就 ChatGPT 的热门问题进行了交流和解答。
李磊,本科毕业于上海交通大学计算机系(ACM 班),博士毕业于卡耐基梅隆大学计算机系。曾先后任加州大学伯克利分校博士后研究员、百度美国深度学习实验室少帅科学家、字节跳动人工智能实验室高级总监。
2017 年,李磊在 AI 写作机器人 Xiaomingbot 上所做的工作获得了吴文俊人工智能技术发明二等奖。Xiaomingbot 也具有强大的内容理解和文本创作能力,能流畅地进行体育赛事的播报和财经新闻的写作。
李磊的主要研究方向是机器学习、数据挖掘和自然语言处理。在机器学习、数据挖掘和自然语言处理领域于国际顶级学术会议发表论文 100 余篇,拥有二十余项技术发明专利。曾获得过 2012 年美国计算机学会 SIGKDD 最佳博士论文第二名、2017 年 CCF 杰出演讲者、2019 年 CCF 青竹奖、以及 2021 ACL 最佳论文奖。
张雷,小红书技术副总裁,毕业于上海交通大学,曾担任欢聚时代技术副总裁和百度凤巢首席架构师,负责百度搜索广告 CTR 机器学习算法工作。曾任 IBM 深度问答(DeepQA)项目中国技术负责人。
张德兵,小红书社区部多媒体智能算法负责人,曾任格灵深瞳首席科学家,快手多模态智能创作负责人,在技术研究和业务落地方向都具有丰富的经验,带领团队获得包括国际权威人脸识别竞赛 FRVT 世界冠军在内的多项学术竞赛冠军,并推动 CV、多模态等技术在安防、零售、体育等 TO B 场景和短视频、广告等 C 端场景的多项业务落地。
三位嘉宾的讨论既关注到了 ChatGPT 当下的能力与问题,同时也就未来的趋势和前景进行了展望。在下文中,我们对交流的内容进行了梳理和总结。
ChatGPT 的强大能力来自于哪儿?
和试用 ChatGPT 的很多人一样,三位嘉宾也都对 ChatGPT 的强大能力印象深刻。
其中,张德兵举了一个让 ChatGPT 扮演 Linux Terminal 的例子:告诉 ChatGPT 大概的机器配置,然后在此基础上让它执行一些指令,结果发现,ChatGPT 能够记住很长的操作历史,前后逻辑关系非常一致(比如你往一个文件里面写入几行字符,之后让它显示这个文件里面到底被写入了哪些字符,它都能显示出来)。
这一结果让张德兵等人不禁怀疑,ChatGPT 是不是自己在后台开了一个 terminal 欺骗用户?于是他们进行了一些测试:让 ChatGPT 执行一些复杂度非常高的指令(比如两重 for 循环,每一个 for 循环都有 10 亿次),如果 ChatGPT 真的开了一个 terminal,它就会卡一段时间。结果出乎意料:ChatGPT 很快就跳过了这个过程,显示出了这个命令之后的下一个结果。这让张德兵等人意识到,ChatGPT 确实大概理解了整个 demo 的逻辑,它是有一定的「思考」能力的。
那么,这种强大的能力是从哪里来的呢?张雷提出了两种假设。一种假设认为,这种能力本身就是内置在大模型当中的,只是我们之前没有恰当地释放它;另一种假设认为,大模型的内置能力其实没有那么强,需要我们借助人类力量对它做出一些调整。
张德兵和李磊都赞同第一种假设。因为,我们可以直观地看到,训练和微调大模型所需的数据量存在着几个数量级的差异,在 GPT-3 及其之后的模型所用到的「预训练 + 提示(Prompting)」范式中,这种数据量的差异就更明显了。而且,它们所用到的 in-context learning 甚至不需要更新模型参数,仅需要把少量标注样本放在输入文本的上下文中即可诱导模型输出答案。这似乎可以说明,ChatGPT 的强大能力确实是内生的。
根据 OpenAI 官方公布的资料,这种训练方法可以分为三个阶段 [1]:
- 冷启动阶段的监督策略模型:从测试用户提交的 prompt 中随机抽取一批,靠专业的标注人员,给出指定 prompt 的高质量答案,然后用这些人工标注好的 < prompt,answer > 数据来 Fine-tune GPT 3.5 模型,从而让 GPT 3.5 初步具备理解指令中蕴含的意图的能力;
- 训练回报模型(Reward Model,RM):随机抽样一批用户提交的 prompt,然后使用第一阶段 Fine-tune 好的冷启动模型为每个 prompt 生成 K 个不同的回答,再让标注人员对 K 个结果进行排序,以此作为训练数据,通过 pair-wise learning to rank 模式来训练回报模型;
- 采用强化学习来增强预训练模型的能力:利用上一阶段学好的 RM 模型,靠 RM 打分结果来更新预训练模型参数。
这三个阶段的其中两个都用到了人工标注,也就是 RLHF 中所谓的「人类反馈」。
李磊表示,这一方法所产生的结果是出人意料的。在之前做机器翻译研究的时候,他们通常会用 BLEU 分数(一种快速、便宜且语言独立的自动机器翻译评价方法,与人类判断有很强的相关性)来指导模型,在模型较小的时候,这种方法效果显著,但随着模型越来越大,它的效果却在不断减弱。
因此,他们从中得到的经验是:借助反馈来训练 GPT-3 这种超大模型理论上不会得到太大提升。但是,ChatGPT 的惊艳效果却推翻了这一经验。李磊认为,这是 ChatGPT 所带给大家的震撼之处,提醒大家要改变研究观念。
ChatGPT 有哪些短板?
不过,震撼之余,三位嘉宾也指出了 ChatGPT 当前的一些短板。
首先,正如前面所说,它生成的答案有些还不够准确,「一本正经胡说八道」的情况还会时不时地出现,而且不太擅长逻辑推理。
其次,像 ChatGPT 这样的大模型要想实际应用,所需的部署成本是相当高的。而且目前没有明显的证据表明,把它们的规模缩小一两个数量级,模型还能保持如此强大的能力。「如果只能在一个很大规模体量下才能维持这样惊艳的能力,它离应用还比较远,」张德兵说到。
最后,ChatGPT 在一些特定任务(比如翻译)上可能并没有达到 SOTA。虽然 ChatGPT 的 API 还没有放出来,我们无法得知它在一些 benchmark 上的能力,但李磊的学生在测试 GPT-3 的过程中发现,虽然 GPT-3 能够出色地完成翻译任务,但它比现在单独训练的双语模型还是要差一些(BLEU 分数差 5 到 10 个点)。据此,李磊推测,ChatGPT 在某些 benchmark 上并不见得会达到 SOTA,甚至可能和 SOTA 还有一些距离。
ChatGPT 能否取代 Google 等搜索引擎?对 AI 研究有何启发?
在关于 ChatGPT 的各种讨论中,「能否取代搜索引擎」这个话题可能是最火的一个。近日,《纽约时报》报道称,ChatGPT 的火爆让谷歌如临大敌,他们担心,如果大家都去用 ChatGPT 这样的聊天机器人,就没有人会点击带有广告的谷歌链接了(2021 年,谷歌广告收入占总收入的 81.4%)。在《纽约时报》获得的一份备忘录和录音中,谷歌首席执行官 Sundar Pichai 一直在开会,以「确定谷歌的人工智能战略」,并「颠覆了公司内部众多团队的工作,以应对 ChatGPT 带来的威胁」[2]。
对此,李磊认为,现在就说取代可能还有点早。首先,新技术的火爆和商业成功之间往往有很深的 gap,早些年,Google Glass 也说自己将成为新一代的交互方式,但至今未能兑现承诺。其次,ChatGPT 在一些问答任务上的表现确实比搜索引擎好,但搜索引擎所承载的需求并不局限于这些任务。因此,他认为,我们应该根据 ChatGPT 本身的优势去做产品,而不一定要瞄准现有的成熟产品去取代它,后者是一件很困难的事情。
张德兵也持有类似的看法,认为 ChatGPT 短期内替代搜索引擎不太现实,毕竟它还有很多问题,比如不能访问互联网资源,会产生误导信息。此外,它的能力能否泛化到多模态的搜索场景至今还不明晰。
但不可否认,ChatGPT 的出现确实给了 AI 研究人员很多启发。
李磊指出,第一个值得注意的点是 in-context learning 的能力。在之前的很多研究中,大家都忽略了如何通过某种方式将既有模型的潜力挖掘出来(比如机器翻译模型就只是用来做翻译,而没有尝试给它一些提示看看能不能生成更好的翻译),但 GPT-3、ChatGPT 做到了。因此李磊就在想,我们能不能把以往所有的模型都改成这种 in-context learning 的形式,给它们一些文本、图像或者其他形式的提示,让它们把能力都发挥出来,这将是一个非常有潜力的研究方向。
第二个值得注意的点是在 ChatGPT 中发挥重要作用的人类反馈。李磊提到,谷歌搜索的成功实际上也很大程度上是因为它很容易获得人类反馈(对于搜出的结果是否点击)。ChatGPT 通过请人写答案、给模型生成的答案排序的方式获得了很多人类反馈,但这种获取方式比较昂贵(近来有一些研究已经指出了这一问题)。因此,李磊认为,未来我们要考虑的是如何低成本、高效地获取大量人类反馈。
对于在小红书从事多模态智能创作研究的张德兵来说,ChatGPT 也提供了很多启发。
首先,该模型直观地展示了 NLP 大模型相比小模型在复杂多轮对话、不同 query 的泛化性、思维链 (Chain of Thought) 等各个场景的大幅提升,且相关能力目前在小模型上是不具备的。
张德兵认为,NLP 大模型的这些相关能力或许也可以在跨模态生成中进行尝试和验证。目前,跨模态模型在模型规模上相比 GPT-3、ChatGPT 还有显著的差距,且在跨模态场景中也有很多工作展示了 NLP 分支表达能力的提升,会对视觉生成结果的精细程度有很大帮助。如果跨模态模型的规模能够进一步扩大,模型能力的「涌现」或许是一件值得期待的事情。
其次,像初代 GPT-3 一样,现在多模态的生成结果在挑选的情况下往往能看到很不错的惊艳结果,但生成可控性还有很大的提升空间。ChatGPT 似乎在一定程度上改善了这一问题,生成的东西更加符合人类心意。因此,张德兵指出,跨模态的生成或许可以参考 ChatGPT 的很多思路来进行尝试,比如基于优质数据的微调、强化学习等等。
这些研究成果将在小红书的多项业务中得到应用,包括电商等场景的智能客服,搜索场景下对用户 query、对用户笔记更精确的理解,智能创作场景下对用户素材进行智能配乐、文案生成、跨模态的转换和生成创作等。在各个场景中,应用的深度和广度也会随着模型大小的压缩、模型精度的持续提升而持续增强和扩展。
小红书作为一家有 2 亿月活用户的 UGC 社区,随着社区内容的丰富和多元,创造出了非常巨大的多模态数据集体量。在信息检索、信息推荐、信息理解,特别在智能创作相关技术,以及底层多模态学习、统一表征学习等方向上都积累了海量的真实数据,同时也为这些领域的实践创新提供了独特且广阔的落地场景。
小红书还是当下为数不多的依然保持强劲增长势头的互联网产品之一,得益于图文与视频内容并重的产品形态,小红书在多模态、音视频、搜广推领域将面临和创造许多前沿的应用问题。这也吸引了大量技术人才的加入,小红书技术团队中,很多成员都拥有谷歌、Facebook、BAT 等海内外一线大厂的工作经历。
这些技术挑战也将给予技术人们在新的领域完整参与乃至扮演重要角色的机会。未来小红书技术团队所能提供的人才成长空间,比以往任何时候都更加广阔,也正在等待更多优秀 AI 技术人才的加入。
同时,小红书也非常重视与业界的交流。「REDtech 来了」就是由小红书技术团队打造的一档面向行业前沿的技术直播栏目。今年以来,小红书技术团队已经与多模态、NLP、机器学习、推荐算法等领域的领军人物、专家学者展开深入的交流对话,力图从学界科研与小红书实战经验的双重视角探索和讨论有价值的技术问题。