搜狗首席科学家柳超博士谈“字根嵌入”让机器更懂中文

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介:

近期,中国第二大搜索引擎——搜狗搜索在中文自然语言处理有了创新性进展,大幅推动机器对中文语言的理解。搜狗搜索柳超博士带领搜狗数据科学研究院发表的题为“字根嵌入(Radical Embedding)”的学术论文,被国际自然语言处理与计算语言学领域最高级别的学术会议ACL(Annual Meeting of the Association for Computational Linguistics)录取,此论文首次提出了基于字根的中文自然语言处理的深度学习技术,作为该领域前沿的创新研究成果,得到了全球相关领域专家的高度认可,并引发了广泛讨论。


深度学习的基础便是对自然语言的分析,而进行中文自然语言处理极为困难的主要原因在于,中文在文本和对话等各个层次上会存在各种各样的歧义或者多义,同一个字、词在不同语境中的涵义千差万别,不同断句方法让句子表意差异悬殊等各种问题,让中文自然语言处理成为行业挑战。


搜狗数据科学研究院首次提出了“字根嵌入”概念,这是世界上第一项基于字根的中文自然语言处理的深度学习技术,也就是将“字根作为中文语言处理的最小单位进行研究“。其基本原理是通过某种数学方式把汉语字根表示为多维空间中的向量,进而把汉字也表示为向量,作为基于深度学习的中文自然语言处理技术的基本单元,让中文更易被精准计算。这也意味着,中文千变万化的表述可以被机器进行处理,计算出其背后含义。


经过测试,采用“字根嵌入”新方式计算后,机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升,这也证实了“字根嵌入”可以作为统一中文自然语言处理的基本单位的可能。



[嘉宾采访]

搜狗在机器学习,特别是深度学习领域,有哪些成绩,比如在产品中运用的广泛程度以及对于产品性能改进做出的贡献,未来希望攻克的领域有哪些?

柳:首先,我们在搜狗搜索和广告方面,利用词根嵌入(类似英文的word embedding)、用户的点击数据,进行监督学习(supervised learning),相当于建立一个比较大的神经网络之后进行匹配,深度学习使得广告排序更合理。


其次,搜狗不断强化搜索技术,在中文信息处理、图像理解和语音识别等领域积极发展基于深度学习的人工智能技术,并成功应用于通用搜索排序优化、识图搜索、语音搜索等。仅在语音搜索领域,搜狗语音识别准确率在最近一年内提升40%,用户语音请求搜索数提升超过3倍。而搜狗识图搜索则成功将其应用于图像识别领域,通过模拟人认知图片的过程,多层次地模拟和学习,大幅提高了图片分类和识别的准确性。截至目前,搜狗深度学习技术已经积累千万量级的模拟训练数据,达到了行业领先水平。


那个时候还停留在字和词的层面上,现在这篇文章推进到了更小的以字根为单位?

柳:当时我们做的工作,引导我们进行了这样的思考:国内比较火的算法,很多都是用国外的英文的特点,用更多的机器进行的研究工作,但是并没有考虑中文语言的特点,中文和英文分属于不同的语系,我们认为可以用算法对此专门进行研究。此外,中文有几千年的悠久文明,我们也希望用这种方式对中文进行文化的传承。古代的说文解字,可以把文字分解成很深的渊源,我们团队也是出于对祖国文化的好奇,希望对中文文字进行研究。我们的研究动机一个方面就是探究仓颉造字的数学原理。


可以看到在您的文章中,像对“朝阳”的朝字进行的字根拆解,就是按照象形文字的方式进行的分解。这样的分解有考虑过用繁体字吗?

柳:这种分解方式我们认为用繁体字应该会更好,简体版我们在使用的时候发现了一些问题,但是training set 更易于获得,最终选用简体,先来看字根分解是否初步奏效。前段时间开会遇到新疆的老师,他们认为可能可以应用在维吾尔语上,因为字根的意思更明确。



从词根跨度到字根进行分析,有哪些优势?

柳:我们在论文中想做的事情并不是为了证明字根比词根更好,而是对于汉语,字根是最小不可分割的语义单位。我们的论文想传达的观点是探索一条分解中文的新途径,这些可以用词根解决的问题,同样可以用字根进行很好的处理,并且一些问题可以处理的更好,很多时候可能两者结合达到更好的效果。Deep learning就是将分析对象在特征表达方面分解成非常细小的单位,依靠数据和模型的能力,让他们自动交互、形成联系,最终解决任务。


您在做字根嵌入时是否主要用五笔字型的分解方式,尤其是对于古体字?

柳:是。这可能不是最优的分解方式。对这几万个字我们并没有找到更合理的方式去分解,但五笔字型分解可以直接从输入法那边拿过来,相对简单。并且五笔中还有字的结构,如左右结构、上下结构、包围结构等。



您的文章中将两种嵌入还有in-house的方法(STC和CWS)以及搜索排名进行试验比较,您为何要选择此三种进行实验比较呢?是否为标准方法?

柳:首先,分词的形式(segmentation)是汉语独有的,英语里面不牵扯分词的事情,所以一定要做测试。我们通过使用上面这些方法,希望可以对汉语特有的特性做一些提升。第二,字根也是表达语义,短文分类(text segmentation)也可以表征这种方法是否有效。第三进行大规模的工业型层面上的应用,来展示这个方法对工业界的一些影响。相比几十年前,学术界和工业界之间的隔阂是越来越小的。我们对每个任务的比较都起到这种在标准的benchmark上面去做测试。


在基于STC的试验里,在金融、体育和娱乐三个领域里对字根嵌入和词的结合比支持向量机和LR有更好的准确度。这个是否说明搜狗会基于不同的语类采用最优化的语义预测呢?比如休闲类话题用词与字根,体育类话题用文字与字根结合的方式?当数据量比较大的时候,会选择性的(如词与字根的结合、文字与字根的结合等)去训练一些特别的语类吗?

柳:我们当时挑选这三个类别是因为数据量比较多,并没有去专门选择这三种类别。因为做深度学习(deep learning),network比较深的话需要基于一定量的数据进行试验,否则就很容易过拟合(overfitting)。至于实际中是否会选择性的去训练特别的语类就不像论文写得这么简单了。实际中要看现在这种方法的准确率是多少,你需要给它提高到多少。有时候会对算法进行改变,有时候会给他增加新的数据,有时候再加上一些新的特征。好比加入新特征的话,字根嵌入就可以作为一个特征(extra features)来把模型做得更好。实际应用会有很多trade off(权衡),如果是做繁体字的语义分析,好比古文献里面,我们的这种预测、猜想应该会是更有意思的。因为很多字变成简体字之后其实看不到字本来的意思了。


在CWS的试验里,PSA和RDE两种方法不分伯仲,字根嵌入法跟PSA相比的优势在哪儿?

柳:优势在于当数据量再大时,我们把模型调的更深一些来利用更大量的数据,PSA相当于已经饱和了。深度学习中,只要你有足够多的计算资源,有足够量的训练集(training set),效果会上涨,相当于提供了一种可扩容式的学习方式。以前的方法相当于一个人只能吃一定量的东西,再来十个馒头就吃不下去了,但深度学习的方式是,再来十个馒头有方法让胃再扩大一倍,这个时候就可以变得更强壮。在Computational complexity(计算复杂性)和learning theory里,一个模型到底能学出多么复杂的function,也就是它的learning capacity(学习能力)。如果是linear function(线性方程)只能学习线性的,但non-linear(非线性)模型可以涵盖的东西比较多,这个相当于覆盖的learning capacity比linear要高。深度学习的Learning capacity非常大,如果模型调的好,数据量匹配,并且function正确,很多是看不到overfitting(过拟合)的。


字根搜索在算法速度上是否有一定优势?

柳:字根是最小的单位元,计算比较慢,模型在去中心的时候同时读写会比较多一些,这是一个速度上的瓶颈。以前单独使用字的时候,相当于每一个字上有一个参数。现在把字拆成字根之后,变成只有200多个字根。以前训练一个来回只需要更新这些出现的字,几万个里面可能有几十个或几百个参数需要改,不会出现同时都需要修改的东西。但在字根层面其实就需要更改这200多个地方,因而很多人需要去改同一个东西,这就导致“写”的累积,所以造成速度上的瓶颈。速度上在做并行式的,分布在不同的机器上,很大程度上减少“写”的冲突,速度上已经有很大的提高。


在搜索排名的试验中,可以看到词嵌入法在一半数据集中就已经趋于饱和了,但字根嵌入可以利用上样本的优势,随着样本量的增加准确度增高,这是否是字根嵌入法在大数据量上的预测优势?

柳:由于我们做更深一层(dive deeper),扩充了learning capacity,这就是为什么现在做deep learning的时候都试图去用最原始的东西,好比图像上面就抛弃了以前的feature selection(特征选择)的方法,而直接用pixel像素层级来做。以前的话有几十个上百个feature就不错了,现在的图片按像素做事很大的,靠神经网络来自组织,learning capacity就会上升很多。


目前的中文语义分析是只基于现代文学的语言习惯,是否涉及古文、方言?特别是不同方言在词、语法使用上会有很大的差异。

柳:主要是做普通话,因为我们考虑的是手写体,文字(text)。在语音处理上很多地方涉及方言,手写上很多方言的汉字不知怎么写,所以我们在处理text时只涉及汉语文字。


字根嵌入法的应用主要是希望提高搜索和广告投放的质量,这个技术应用起来如果增加产品的竞争力?

柳:在搜索上,把排名排对了,更是用户所想要的,为用户创造价值。对于搜索广告的广告商来说,也可以得到更加精准的匹配。这就是字根对客户、对搜索带来的影响。



原文发布时间为:2015-09-09

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
23天前
|
存储 人工智能 自然语言处理
OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具
OpenScholar是由华盛顿大学和艾伦AI研究所联合开发的开源学术搜索工具,旨在通过检索和综合科学文献中的相关论文来回答用户问题。该工具利用大规模科学论文数据库、定制的检索器和重排器,以及一个优化的8B参数语言模型,生成基于实际文献的准确回答。OpenScholar在提供事实性回答和准确引用方面超越了现有的专有和开源模型,所有相关代码和数据均已开源,支持并加速科学研究。
60 1
OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具
|
5月前
|
存储 人工智能
深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布
【7月更文挑战第27天】清华大学、西湖大学与香港中文大学联合发布的论文深入探讨了RAG(Retrieval-Augmented Generation)大模型在处理信息时遇到的知识冲突问题及其解决方案。RAG模型通过结合预训练语言模型与外部知识库生成准确内容,但会面临上下文记忆、上下文间及内部记忆冲突。研究提出了基于上下文感知的记忆管理、多上下文推理及知识选择权衡等方法来缓解这些问题。尽管取得了进展,但在计算资源需求、解决方案效果验证及模型鲁棒性等方面仍有挑战待克服。[论文](https://arxiv.org/abs/2403.08319)
144 3
|
机器学习/深度学习 编解码 人工智能
2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马
|
Web App开发 人工智能 测试技术
中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」
中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」
180 0
|
人工智能 自然语言处理 大数据
GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型
GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型
197 0
|
数据采集 机器学习/深度学习 人工智能
那个在国际翻译大赛上夺冠的模型,字节刚刚给开源了(附夺冠代码)
那个在国际翻译大赛上夺冠的模型,字节刚刚给开源了(附夺冠代码)
199 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
246 0
|
机器学习/深度学习 人工智能 自然语言处理
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼(2)
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼
534 0
|
机器学习/深度学习 人工智能 自然语言处理
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼(1)
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼
208 0
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:50-15:30吴玺宏教授《一种具身自监督学习框架:面向任何语种语音的音系构建任务》
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:50-15:30吴玺宏教授《一种具身自监督学习框架:面向任何语种语音的音系构建任务》
AI:2020年6月22日北京智源大会演讲分享之机器感知专题论坛—14:50-15:30吴玺宏教授《一种具身自监督学习框架:面向任何语种语音的音系构建任务》
下一篇
DataWorks