解决自然语言歧义问题,斯坦福教授、IJCAI 卓越研究奖得主提出 SenseBERT 模型

简介: 自然语言理解和生成对于 AI 系统来说是一大难题,语言的复杂性和模糊性对 AI 系统提出了很大挑战。今天,斯坦福教授、IJCAI 卓越研究奖得主 Yoav Shoham 创办的公司 AI21 Labs 提出一种能够显著提升词汇消歧能力的新模型,并发布了可控性优于其他前沿文本生成系统的「HAIM」。AI21 Labs 的愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。

微信图片_20211201204146.jpg


给出一个包含同形异义词(homonym)的句子,如「He is a great bass player who hates eating bass」,人类可以相当自信地理解前一个「bass」是一种乐器贝斯,后一个「bass」是一种淡水鱼。而 AI 算法很可能无法解决如此简单的文本歧义问题。「威诺格拉德模式」(Winograd Schema,机器需要识别问题中的前指关系,即指出问题中某一代词的先行词)也能难倒 AI 系统。经典例子是「The trophy doesn』t fit in the suitcase because it is too big.」。这句话中,AI 系统很难确定「it」指「trophy」还是「suitcase」。


为了教会算法更好地理解人类语言的歧义现象,以色列研究公司 AI21 Labs 今日发布论文《SenseBERT: Driving Some Sense into BERT》,提出一种能够显著提升词汇消歧能力的新模型,该模型在复杂的 Word in Context (WiC) 语言任务中取得了当前最优结果。


这篇论文的重要创新是,SenseBERT 不仅能够预测遮蔽词汇(masked word),还能预测它们在给定语境下的实际含义。AI21 Labs 的研究人员使用英语词汇数据库 WordNet 作为标注参照系统,设计了一个网络来预测单词在语境中的实际含义。然后将该预训练网络嵌入 BERT。

微信图片_20211201204143.jpg

SenseBERT 论文是 AI21 Labs 的首批研究项目之一,在过去一年半的时间中秘密进行。AI21 Labs 创建于 2017 年,总部位于以色列特拉维夫,创始人为斯坦福大学计算机科学系荣誉退休教授、AI Index 发起人 Yoav Shoham 和以色列军事情报局 8200 部队前网络安全团队负责人 Ori Goshen。


正如位于伦敦的 DeepMind 和位于旧金山的 OpenAI,AI21 Labs 也运行着一家商业化 AI 公司,该公司遵循独特的研究方向:连接传统知识表示方法和深度神经网络。知识表示在 1980 年代非常流行,是一种从语言中提取语义预测的机器学习技术。

image.gif

微信图片_20211201204140.png


近年来神经网络显现出其局限性,因此符号主义和神经方法的结合成为趋势。尽管神经网络在很多 AI 领域中取得了显著进展,但它们仍然对语义束手无策。即使最聪明的自然语言理解 (NLU) 系统,在目标语言任务中也会被对抗数据样本轻易愚弄。2017 年,斯坦福研究人员发现,向 SQuAD 问答数据集添加对抗问题可将 16 个公开模型的平均 F1 分数从 75% 降到 36%(参见论文《Adversarial Examples for Evaluating Reading Comprehension Systems》)。


类似的问题也出现在文本生成系统中。今年早些时候,OpenAI 发布了语言模型 GPT-2,它可以生成逼真的文本段落。然而,斯坦福大学计算机科学系副教授、SQuAD 联合创建者 Percy Liang 泼了一盆冷水:「GPT-2 语言模型可以像人类一样写作,但它并不清楚自己写的是什么。」


「AI 仍然缺乏 5 岁孩童就拥有的常识,它们距离人类智能还很遥远。」Shoham 博士说道。


Shoham 博士因其在知识表示和博弈论领域的巨大贡献而闻名,他认为神经网络的改进需要知识表示的加持。


上周五,Shoham 博士获得 IJCAI 2019 卓越研究奖。他在大会现场表示:「我没有看到,神经网络在子进化时间尺度上学会算术、时空、因果关系、心理状态、言语行为等的证据。而知识表示准确聚焦于编码这些难以理解的概念:时间、动作、信念。」
微信图片_20211201204136.jpg

Yoav Shoham


2017 年,Shoham 博士在一个向弱势群体普及编程技能的以色列非营利项目中结识了 Ori Goshen。他们发现彼此志趣相投,于是决定创办 AI21 Labs(AI for the 21st century),其愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。


Shoham 博士的朋友 MobileEye CEO Amnon Shashua 是 AI21 Labs 的主要投资人和董事长。AI21 Labs 拥有一支 20 人的团队,从 Pitango Ventures、8VC 等机构获得了总计 950 万美元的投资。
微信图片_20211201204134.jpg

MobileEye CEO Amnon Shashua


和 SenseBERT 一同公开的还有其自研文本生成系统「HAIM」,其可控性优于其他前沿文本生成系统,如 OpenAI 的 GPT-2 和华盛顿大学的 Grover。大多数文本生成器基于人类写的前提合成文本,但是生成的文本常常会跑题、不连贯,或者与原始语境相悖。HAIM 的工作原理稍有不同:先为模型提供开头和结尾,然后模型使用切题的生成文本填补中间内容,连接开头和结尾。输出结果可以根据长度进行调整。


HAIM 的名字也是自己起的。研究人员输入开头「The team needed a name. The best suggestion...」(这个团队需要一个名字,最佳建议是……)和对应的结尾「...everybody agreed it was a great name for a state-of-the-art natural language generator.」(……每个人都认为这对当前最优的自然语言生成器而言是一个绝佳的名字)。然后模型提出了「HAIM」,研究者对这个缩略词进行了逆向工程,得到了「Halfway Acceptable Interpolating Machine」。(Shoham 博士称其为「玩笑式的事后合理化」。)


AI21 Labs 发布了 HAIM-Large 模型的 demo,该模型包含 3.45 亿参数,在 40GB OpenWebText 数据集上训练而成。


HAIM-Large demo 地址:https://www.ai21.com/haim


微信图片_20211201204130.jpg

GPT-2 和 HAIM 的可控性对比。


Shoham 博士此前创立的多家 AI 公司被高价收购,这位 63 岁的连续创业者无疑具备管理公司的能力。然而 AI21 Labs 面临着不一样的挑战:它更技术向,需要大量投资来支持商业化之前的科研活动(像 OpenAI 和 DeepMind 那样)。最重要的是,它的愿景是创建能够解决最令 AI「头痛」的问题之一(自然语言理解和生成)的系统。


当被问及 AI21 Labs 在这片未知领域的规划时,Shoham 博士告诉机器之心:「自然语言理解和生成是一个多方面问题,我们对它可能也只是部分理解。要想取得成功,你不需要全面理解,而是需要从富有成效的角度去理解。我们不认为自己是世界上最聪明的,但是我们也不认为还有什么人比我们聪明。我们有机会成功,但不必要是唯一的成功者。这不是零和游戏。」


相关文章
|
2月前
|
自然语言处理 索引
大模型开发: 解释自然语言处理(NLP)中的词嵌入。
**词嵌入技术在NLP中将文本转为数值表示,捕获词汇的语义和语法关系。过程包括:词汇索引、训练嵌入矩阵(如Word2Vec、GloVe、BERT)、文本向量化及向量输入到NLP模型(如情感分析、命名实体识别)。词嵌入是连接文本与机器理解的关键桥梁。**
32 2
|
14天前
|
JSON 自然语言处理 API
|
9月前
|
机器学习/深度学习 自然语言处理 达摩院
通义大模型:打造更智能、更灵活的自然语言处理技术
大家好,今天我想向大家介绍一款备受瞩目的自然语言处理技术——通义大模型。作为一种基于深度学习的人工智能技术,通义大模型能够模拟人类的思维方式,实现更智能、更灵活的自然语言处理,为我们的生活和工作带来了极大的便利。
413 1
通义大模型:打造更智能、更灵活的自然语言处理技术
|
4月前
|
人工智能 自然语言处理 运维
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
|
18天前
|
机器学习/深度学习 自然语言处理 数据可视化
【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析
【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析
|
19天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译
python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译
|
20天前
|
人工智能 自然语言处理 Python
使用Python实现自然语言处理模型
使用Python实现自然语言处理模型
17 1
|
5月前
|
自然语言处理 Python
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
305 0
|
3月前
|
机器学习/深度学习 自然语言处理 算法
大模型在自然语言处理中的应用
大模型在自然语言处理中的应用
99 1
|
3月前
|
人工智能 自然语言处理 机器人
自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人
如今,大模型层出不穷,这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。 但不能不承认的是,普通人使用大模型还是有一定门槛的,首先大模型通常需要大量的计算资源才能进行训练和推理。这包括高性能的图形处理单元(GPU)或者专用的张量处理单元(TPU),以及大内存和高速存储器。说白了,本地没N卡,就断了玩大模型的念想吧。 其次,大模型的性能往往受到模型调优和微调的影响。这需要对模型的超参数进行调整和优化,以适应特定任务或数据集。对大模型的调优需要一定的经验和专业知识,包括对深度学
自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人