《中国人工智能学会通讯》——1.32 词嵌入

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第1章,第1.32节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

1.32 词嵌入

自然语言由词构成。深度学习模型首先需要将词表示为稠密向量,也叫词嵌入。早期研究者并没有太多关注词嵌入的语言学解释,仅仅将其作为模型参数。因为词嵌入是一个稠密向量,这样不同词嵌入就存在了距离(或相似度)。一个好的词嵌入模型应该是:对于相似的词,它们对应的词嵌入也相近。因此很多研究者开始关注于如何得到高质量的词嵌入。Mikolov等[1]最早发现通过循环神经网络模型可以学习到词嵌入之间存在类比关系。比如 apple-apples ≈ car-cars、man-woman ≈ king-queen 等。Levy 等 人[2]在Skp-Gram 模型[3]的基础上,利用依存句法路径作为上下文来学习词嵌入。Pennington 等人[4]直接利用词和它的上下文的共现矩阵,加上一些正则化约束,通过加权最小二乘回归来获得词嵌入。和 Skip - Gram 等模型相比,该方法能更好地利用全局信息,在语义类比等任务上取得了更好的结果。总体来说,这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。

在此基础上,也有研究者关注如何利用已有的知识库来改进词嵌入模型。Wang 等人[5]结合知识图谱和未标注语料在同一语义空间中来联合学习知识和词的向量表示,这样可以更有效地实体词的嵌入。Rothe等人[6]直接利用 WordNet 知识库的词和语义集的关系来学习词嵌入,能更好地利用已有的知识库。该论文获得了 ACL2015 的最佳学生论文奖。

在上述研究中,一个词只有一个向量表示。但是在自然语言中,一词多义的现象经常存在。因此,如何表示一个词的多个义项也是词嵌入研究中的一个热点。Neelakantan 等人[7]在 Skip - Gram 模型的基础上将一个词的每个义项都用一个向量表示,在不同的上下文中选择一个最相关的义项进行更新。然后通过非参估计的方法来自动学习每个词的义项个数。Liu 等人[8]利用主题模型来建模一词多义的词嵌入。首先利用率主题模型来确定一个词在不同上下文中的主题,然后用联合建模词和主题的嵌入。通过结合不同的主题,
可以得到一个词不同义项的向量表示。

相关文章
|
2月前
|
人工智能 安全 Anolis
中兴通讯分论坛邀您探讨 AI 时代下 OS 的安全能力 | 2024 龙蜥大会
操作系统如何提供符合场景要求的安全能力,构建更加安全可信的计算环境。
|
5月前
|
人工智能 边缘计算 机器人
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
539 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
2073 0
与世界同行 2017中国人工智能大会有感
|
机器学习/深度学习 人工智能 自然语言处理
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
1855 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
|
数据采集 人工智能 智能设计
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
808 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
|
机器学习/深度学习 人工智能 监控
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
557 0
中国95后流行色是什么?人工智能给出的答案是它
|
机器学习/深度学习 人工智能 自然语言处理
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
682 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
|
机器学习/深度学习 人工智能 自然语言处理
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国