第一章 行业概况
自然语言处理定义
自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,自然语言处理技术使计算机具有识别、分析、理解和生成自然语言文本(包括字、词、句和篇章)的能力。
自然语言处理机制涉及自然语言理解和自然语言生成两个流程:(1)自然语言理解:计算机理解自然语言文本的思想和意图;(2)自然语言生成:计算机用自然语言文本表述思想和意图。
自然语言理解和分析是一个层次化过程,从词法分析、句法分析、语义分析到语用语境分析层层递进:(1)词法分析:分析词汇的各个词素,从中获得语言学信息;(2)句法分析:分析句子和短语的结构,识别各词语、短语在句中的作用以及相互间的关系;(3)语义分析:找出词义、结构意义及词与结构结合的意义,确定语言所表达的真正含义;(4)语用语境分析:分析语言所存在的外界环境对语言使用者所产生的影响。
自然语言处理环节
(1)词法分析
词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注是在给定句子中判断并标注各词的词性,而兼类词和未登录词的词性复杂难以确定,标注兼类词与未登录词的词性是词法分析的重要任务。词义标注是在具体语境中明确各词的词义,如多义词拥有多种意义,但在具体语境中表达的意义是可确定的。在不同的具体语境中解决多义词的义项问题是词义标注的重点。
(2)句法分析
句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系,包括确定语言的语法体系,明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关系推导句子的句法结构。
(3)语义分析
语义分析通过建立有效的模型使计算机系统能对各个语言单位(包括词汇、句子和篇章等)进行自动语义分析,从而理解自然语言文本的真实语义。根据理解对象的语言单位不同,可将语义分析分为词汇级语义分析、句子级语义分析以及篇章级语义分析。词汇级语义分析关注如何获取或区别单词的语义,句子级语义分析关注整个句子所表达的语义,篇章级语义分析研究篇章文本的内在结构以及理解篇章文本内语言单元(句子、从句或段落)间的语义关系。
(4)语用语境分析
语用指人对语言的具体运用,自然语言用语与语境、语言使用者的知识涵养、言语行为、想法和表达意图密切相关。语用分析是计算机在情景语境和文化语境中研究分析语言使用者的表达用意。
自然语言处理技术应用
随着人工智能的深入发展,自然语言处理需求不断提升,众多类型智能应用需要自然语言处理技术帮助其实现智能化,如(1)文本领域的搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用;(2)语音领域的语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用均需自然语言处理技术理解或生成自然语言。
① 自动问答
自动问答应用涉及自然语言的词法、句法、语义等分析问题,是自然语言理解与生成技术应用的集中体现。自动问答系统能自动回答用户提出的问题,反馈给用户基于自然语言表述的答案,不再是简单的基于关键词匹配排序的文档列表,系统在生成答案的操作中需要正确理解用户所提出的问题,抽取用户问题中的关键信息,进而检索语料库或知识库,将可匹配的最佳答案用自然语言的形式反馈给用户,完成自动问答任务。
② 信息检索
信息检索是计算机自主从文档集合中查找用户所需信息的过程。信息检索系统将信息标引、描述以及组织整理后存在于数据库中,将用户输入的检索关键词与数据库中信息的标引词匹配,实现用户的信息检索要求。信息检索要求计算机理解用户输入的自然语言信息,自动将自然语言信息与数据库中的标引信息进行比对,以达成检索任务。如谷歌搜索引擎可通过理解用户输入的自然语言关键词,反馈给用户一个检索目标页面列表,用户可在列表中选择能够满足自己信息需求的页面加以浏览。因为搜索引擎无法通过简单的关键词表达体会用户真正的查询意图,只能将所有可能满足用户需求的结果集合以列表的形式提供给用户。
③ 情感分析
情感分析(意见挖掘),是计算机系统自主对文本的情感倾向(如主观/客观,积极/消极,喜欢/讨厌等)进行挖掘和分析的过程。情感分析能帮助商家自动处理用户评论,将分析过的评论按照排序规则进行展示,帮助商家获得广告营销效果,如淘宝、天猫等电商平台、携程、爱彼迎等旅游住宿平台的商家在评论区可设置自动置顶反映积极情绪的用户评论,置后部分反映负面信息的用户评论,达到吸引用户眼球的效果。商家还可通过分析用户发布的信息了解用户喜好,实现精准营销,如新浪微博上的零售商可根据用户发表的微博,微话题等内容了解用户的个人喜好,为用户定制性的推送优惠及新品信息。
第二章 产业链与商业模式
2.1 产业链分析
自然语言处理产业链上游市场主体为基础资源提供商,包括硬件供应商(如芯片供应商、服务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等);中游市场由自然语言处理算法供应商、自然语言处理解决方案供应商以及自然语言处理应用供应商组成,负责为下游需求端提供服务;下游市场主体为各类型用户,包括企业用户和个人用户,企业用户涉及金融、医疗、教育、出行服务、互联网服务等领域,个人用户则为最终消费者。
图:中国自然语言处理产业链
资料来源:千际投行,资产信息网,头豹研究院
产业链上游
自然语言处理产业链上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要的资源支持。
(1)芯片供应商
现阶段,行业内尚未出现专门用于自然语言处理运算的芯片,核心数据处理芯片CPU无法执行自然语言处理结构化运算,目前适用于自然语言处理的芯片类型有GPU、FPGA、ASIC和DSP。
GPU解决浮点运算、数据并行计算问题优势明显,可提供高密度运算能力,解决大量数据元素并行问题。但GPU芯片功耗大,依托于X86架构服务器而运行,成本高昂,不适用于广泛的自然语言处理产品方案的开发,在自然语言处理与传统行业数字化进程结合加深的趋势下,采用GPU作为自然语言处理运算芯片的方案不具备成本优势,小型自然语言处理应用项目负担不起高昂成本。
FPGA具有可编程性,设计者可根据需要的逻辑功能对FPGA电路进行快速烧录,从而改变其出厂设计,灵活性强。但FPGA的设计布线相对固定,各种型号的FPGA芯片逻辑资源相对固定,选定了型号即决定了芯片的逻辑资源上限,无法随意增加运算能力。
ASIC芯片的运算能力强、规模量产成本低,全定制设计需要设计者完成所有电路的设计,开发周期长,时间成本高昂,主要适用于量大、对运算能力要求较高、开发周期较长的领域。
DSP内有控制单元、运算单元、各种寄存器以及存储单元,其外围还可以连接若干存储器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、速度快、体积小,而且采用软件编程具有高度的灵活性。但目前DSP的性能并未通过实践验证,也未生产出可以与GPU相匹敌的芯片器件,商业化应用仍在研发过程中。
为满足自然语言处理等人工智能的发展需求,部分针对深度学习的芯片,如TPU、NPU、DPU和BPU等相继面世,但受场景以及性能限制,专用的人工智能芯片发展尚未成熟。目前自然语言处理运算的最佳芯片方案仍以GPU为主导。
(2)云服务供应商
云服务供应商为自然语言处理研发企业提供基础设施平台,解决自然语言处理技术研发厂商的数据存储、运算以及调用问题。由于性价比、部署方式等因素,自然语言处理研发企业较多选用公有云服务。
目前,公有云服务供应商有:①通过云服务产业链资源优势拓展至公有云服务行业的企业,如电信运营商,网络设备制造商,IDC厂商等,此类企业拥有较强的资金实力,加上本身处在公有云产业链上游,基础设施方面优势明显;②大型互联网企业,如亚马逊,腾讯、阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备发展公有云业务的有利条件;③传统的软件企业,如Microsoft、Oracle、金蝶等,此类企业的软件产品的市场认可度高,技术积累丰厚,客户资源丰富,有利于向公有云市场拓展。除此之外,行业中存在不少新兴的创业公司,如青云、Ucloud、七牛云等。
(3)数据
数据是人工智能发展的基石,海量数据为训练人工智能提供原材料。近年来,由学术及研究机构承担建设的公共数据集不断丰富,数据质量不断提高,利于人工智能企业提高智能模型的准确度。例如,可运用于自然语言处理训练的数据集类型不断丰富,维基百科语料库、斯坦福大学问答数据集、亚马孙美食评论集、康奈尔电影对话语料库、经济新闻相关文章等语言集合相继建成,内容覆盖媒体用语、网络用语、电影用语、政府用语等众多自然语言应用场景,有助于自然语言处理研发企业优化用于处理不同领域自然语言的模型的准确度。
产业链中游
自然语言处理产业链中游市场主体主要有自然语言处理算法提供商、解决方案提供商以及应用产品开发商。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中,典型代表有百度、阿里巴巴和腾讯。
百度自然语言处理算法研究覆盖面广,涉及深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘等自然语言处理细分领域。百度积累了解决问句理解、答案抽取、观点分析与聚合等环节的一整套深度问答技术方案,目前已将该套技术方案应用于百度搜索引擎、百度手机浏览器、百度翻译、百度语音助手、小度机器人等多个产品中。百度在自然语言篇章理解方面,形成篇章结构分析、主体分析、内容标签、情感分析等关键技术,且该类关键技术已在百度搜索、百度信息流、糯米等产品中实现应用。阿里巴巴开展自然语言处理技术研究主要为旗下产品服务,如阿里巴巴在其电商平台中构建知识图谱实现智能导购,对电商用户进行兴趣挖掘实现精准营销,在蚂蚁金融、淘宝卖家等客服场景中实现机器人提供客服服务,在跨境电商业务中采用机器翻译服务进行商家商品信息翻译、广告词翻译以及买家采购需求翻译等。
产业链下游
自然语言处理产业链下游市场主体为各类型用户,包括企业用户和个人用户。企业用户主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升业务处理的智能化水平。目前的B端市场是自然语言处理厂商竞争的焦点,部分应用产品(如智能客服、舆情分析产品等)尝试了商业化运作,市场反馈良好,但众多细分领域市场发展并未成熟,市场空间仍待挖掘。个人用户主要使用手机语音助手、机器翻译软件、信息检索以及互联网搜索等服务。个人用户使用的自然语言处理技术应用产品较多是自然语言处理厂商免费提供的,自然语言处理厂商普遍未在C端市场开发清晰的商业模式。
2.2 商业模式分析
模式一:生态构建者——全产业链生态+场景应用作为突破口
以互联网公司为主,长期投资基础设施和技术,同时以场景应用作为流量入口,积累应用,成为主导的应用平台,将成为人工智能生态构建者(如Google、Amazon、Facebook、阿里云等)。
关键成功因素:大量计算能力投入,积累海量优质多维度数据,建立算法平台、通用技术平台和应用平台,以场景应用为入口,积累用户。
模式二:技术算法驱动者——技术层+场景应用作为突破口
以软件公司为主,深耕算法平台和通用技术平台,同时以场景应用作为流量入口,逐渐建立应用平台(如Microsoft、IBMWatson等)。
关键成功因素:深耕算法和通用技术,建立技术优势,同时以场景应用为入口,积累用户。
模式三:应用聚焦者——场景应用
以创业公司和传统行业公司为主,基于场景或行业数据,开发大量细分场景应用。
关键成功因素:掌握细分市场数据,选择合适的场景构建应用,建立大量多维度的场景应用,抓住用户;同时,与互联网公司合作,有效结合传统商业模式和人工智能。
模式四:垂直领域先行者——杀手级应用+逐渐构建垂直领域生态
以垂直领域先行者为主,在垂直领域依靠杀手级应用(如出行场景应用、面部识别应用等)积累大量用户和数据,并深耕该领域的通用技术和算法,成为垂直领域的颠覆者(如滴滴出行、旷视科技等)。
关键成功因素:在应用较广泛且有海量数据的场景能率先推出杀手级应用,从而积累用户,成为该垂直行业的主导者;通过积累海量数据,逐步向应用平台、通用技术、基础算法拓展。
模式五:基础设施提供者——从基础设施切入,并向产业链下游拓展
以芯片或硬件等基础设施公司为主,从基础设施切入,提高技术能力,向数据、算法等产业链上游拓展。
关键成功因素:开发具有智能计算能力的新型芯片,如图像、语音识别芯片等,拓展芯片的应用场景;在移动智能设备、大型服务器、无人机(车),机器人等设备、设施上广泛集成运用,提供更加高效、低成本的运算能力、服务,与相关行业进行深度整合。
2.3 政策监管
法律法规
我国在人工智能领域密集出台相关法律法规及政策,可以看出在世界主要大国纷纷在人工智能领域出台国家战略,抢占人工智能时代制高点的环境下,中国政府把人工智能上升到国家战略的决心。
图:中国人工智能行业最新政策
资料来源:千际投行,资产信息网,中商情报网
行业自律
国际化标准化组织(ISO)于2017年成立人工智能委员会,负责涵盖算法偏见、隐私保护等领域的标准研制工作。电气和电子工程师协会(IEEE)在2017年提出了“人权、福祉、问责、透明、慎用”的五项原则,已成为国际上最具影响的AI伦理原则之一。在学术界,牛津大学、剑桥大学和Open AI公司等7家机构于2018年共同发布《人工智能的恶意使用:预测、预防和缓解》,分析了人工智能可能带来的安全威胁并提出应对建议。在企业界,微软、谷歌、IBM等科技企业制定了人工智能开发的伦理原则,脸书也在2019年初联合慕尼黑工业大学建立了AI伦理研究所。
2019年2月,国家新一代人工智能治理专业委员会成立,并于6月发布了《新一代人工智能治理原则——发展负责任的人工智能》,旨在“更好地协调发展与治理的关系,确保人工智能安全可靠可控,推动经济、社会及生态可持续发展”。同年4月,国家人工智能标准化总体组发布了《人工智能伦理风险分析报告》,提出“人类根本利益原则”和“责任原则”。2019年5月,由科技部和北京市政府指导成立的北京智源人工智能研究院成立了人工智能伦理与安全研究中心,并联合北大、清华、中科院、新一代人工智能产业技术创新战略联盟(发起成员包括百度、阿里、腾讯、华为等)和其他学术机构及产业组织共同发布《人工智能北京共识》,提出了人工智能研发、使用和治理应遵循的“有益于人类命运共同体的构建和社会发展”的15条原则。2019年8月,深圳人工智能行业协会与旷视科技、科大讯飞等数十家企业联合发布《新一代人工智能行业自律公约》。百度、腾讯等主要科技企业也提出了企业自身的AI伦理准则;旷视科技还在制定准则的基础上,成立了人工智能道德委员会,以推动“可持续、负责任、有价值的人工智能生态”。
第三章 技术发展
表:自然语言处理重要科研进展
资料来源:千际投行,资产信息网,智谱AI
3.1 自然语言处理的范式迁移
范式是建模一类任务的通用框架。过去几年随着神经网络架构逐渐向Transformer统一以及大规模预训练模型的普及,大多数自然语言处理(NLP)任务的建模已经收敛到几种主流的范式。
任务定义和目标
NLP任务中广泛使用的范式归为以下7类,即分类(Class)、匹配(Matching)、序列标注(Seq Lab)、阅读理解(MRC)、序列到序列(Seq2Seq)、序列到动作序列(Seq2ASeq)和语言模型((M)LM)。
具体的范式描述如下:
分类范式(Class)为文本指定预定义的标签。文本分类通常将文本输入一个基于深度神经网络的编码器来提取特征,然后将其输入一个浅层分类器来预测标签,如𝒴=CLS(ENC(𝒳))。𝒴可以是独热编码,ENC(⋅)通常是卷积网络、循环网络或Transformers,CLS(⋅)常由一个简单的多层感知器和汇聚层实现。
匹配范式(Matching)是预测两个文本语义相关性的一种范式。Matching范式可以简单地表述为𝒴=CLS(ENC(𝒳𝑎,𝒳𝑏)),𝒳𝑎和𝒳𝑏是被预测的两段文本,𝒴可以是离散或连续的。
序列标注范式(Seq Lab)可用于模拟各种任务,如词性标注(POS)、命名实体识别(NER)和组块分析。传统的基于神经网络的序列标注模型由编码器和解码器组成,如𝑦1,⋯,𝑦𝑛=DEC(ENC(𝑥1,⋯,𝑥𝑛))。𝑦1,⋯,𝑦𝑛是𝑥1,⋯,𝑥𝑛对应的标签。
机器阅读理解范式(MRC)从输入序列中提取连续词元序列(span)来回答给定的问题。MRC范式可以描述为𝑦𝑘⋯𝑦𝑘+𝑙=DEC(ENC(𝒳𝑝,𝒳𝑞)),𝒳𝑝和𝒳𝑞表示篇章和问题,𝑦𝑘⋯𝑦𝑘+𝑙是从𝒳𝑝或𝒳𝑞中获得span。
序列到序列范式(Seq2Seq)是一种通用且功能强大的范式,可以处理各种NLP任务。Seq2Seq范式通常由编码器—解码器框架实现,如𝑦1,⋯,𝑦𝑚=DEC(ENC(𝑥1,⋯,𝑥𝑛))。与Seq Lab不同,这里输入和输出的长度不需要相同。
序列到动作序列范式(Seq2ASeq)是一种广泛使用的结构化预测范式。Seq2ASeq范式的例子通常被称为基于转移的模型,可规范为𝒜=CLS(ENC(𝒳),𝒞),𝒜=𝑎1,⋯,𝑎𝑛是动作序列,𝒞=𝑐1,⋯,𝑐𝑚−1是状态序列。
语言模型范式(LM)估计给定单词序列出现在句子中的概率。它可以被简单表示为𝑥𝑘=DEC(𝑥1,⋯,𝑥𝑘−1),DEC可以是任何自回归的模型。一种LM的变体ML可以被规范为:𝑥=DEC(ENC(𝑥̃)),𝑥̃由将𝑥的一些词元(token)替换为特殊词元[MASK]得到,𝑥表示待预测的词元。
图:自然语言处理中的七种主流范式
资料来源:千际投行,资产信息网,中国中文信息学会
技术方法与研究现状
传统的文本分类任务可以通过Class范式很好地解决。但其变体(如多标签分类)可能具有挑战性。为此,Yang et al.采用Seq2Seq范式,以更好地捕捉多标签分类任务中标签之间的相互作用。Sun et al.采用Matching范式预测输入对(𝒳,𝐿𝑦)是否匹配,𝒳是原文本,𝐿𝑦是类𝑦的描述。
自然语言推理(NLI)通常在Matching范式中进行建模,两个输入文本(𝒳𝑎,𝒳𝑏)被编码并互相作用,再连接分类器预测它们的关系。随着BERT等功能强大的编码器出现,NLI任务可以通过将两个文本连接为一个文本在Class范式中解决。
命名实体识别(NER)可以被分为3类:常规NER、嵌套NER和非连续NER。传统的方法基于Seq Lab、Class和Seq2ASeq来分别解决3个任务。Li et al.提出将常规NER和嵌套NER规范为MRC任务。Yan et al.使用一种基于Seq2Seq范式的统一模型来解决所有3种子任务。
方面级情感分析(ABSB)是一种细粒度的情感分析,可以分为7种子任务以被不同的范式处理。Mao et al.采用MRC范式处理所有的ABSB子任务。Yan et al.通过将任务的标签转化为词元序列,再使用Seq2Seq范式来处理。
关系抽取(RE)主要有两个子任务:关系预测和三元组抽取。前者主要通过Class范式解决,而后者常以流水线方式处理:首先使用Seq Lab范式提取实体,再使用Class范式预测实体间关系。Zeng et al.使用Seq2Seq范式处理三元组抽取任务,Levy et al.使用MRC范式处理RE任务。此外,三元组抽取也可以通过转化为多轮对话后用MRC范式处理。
解决文本摘要任务有两种不同的方法:抽取式摘要和生成式摘要。前者通常使用Seq Lab范式,而后者常通过Seq2Seq范式直接生成。Mc Cann et al.将其规范为一个问答任务,并使用Seq2Seq模型解决;Zhong et al.提出用Matching范式处理抽取式摘要。
语法分析在机器翻译和问答等应用中有重要作用。基于转移和基于图的方法是两种常用的手段。前者通常使用Seq2ASeq范式,而后者使用Class范式解决。通过将目标树结构线性化为一个序列,该任务可以通过Seq2Seq范式解决。此外,Gan et al.使用MRC范式来解决依存分析任务。
技术展望与发展趋势
一些范式已经显示出将各种NLP任务规范为统一框架的潜在能力,提供了将单个模型作为不同NLP任务的统一解决方案的可能性。单个统一模型的优势可以概括为:不再需要大量标注数据、泛化能力强以及部署便捷。
主要探讨以下4种可能统一不同NLP任务的范式:(M)LM、Matching、MRC和Seq2Seq。将下游任务规范为(M)LM任务是利用预训练语言模型的自然方式。(M)LM可使用无监督数据处理理解和生成任务。另一个可能的统一范式是Matching。Matching的优势在于只需要设计标签描述,工程量较小。但Matching需要大量NLI数据进一步训练,领域迁移受限,且无法做生成任务。MRC范式通过生成任务特定的问题并训练MRC模型,从输入文本中根据问题选择正确的span。MRC的框架模型十分通用,但难以发挥已有训练模型的能力。Seq2Seq是一个通用且灵活的范式,非常适用于复杂任务,但也受限于自回归生成导致较慢的推理速度。
最近,基于提示的微调(prompt-based tuning)迅速流行起来。相比之下,其他潜在的统一范式没有得到充分的探索。通过预训练或其他技术探索更强大的Matching、MRC或Seq2Seq模型或许应受到更多的重视。
3.2 词法、句法分析
任务简介、目标及意义
词法分析和句法分析是自然语言处理的基础任务,可以被应用到许多自然语言处理下游任务中去,例如机器翻译和文本摘要。
词法分析主要包括词性标注这一任务。词性标注指基于词性含义以及词的上下文来为输入文本中的每个词进行词性标注的过程,常见的词性标签有名词、动词、形容词等。词性标注一般没有直接应用场景,但它却能为许多下游任务提供帮助,例如,在词义消歧任务当中,词义和词性常常是相关联的,比如“翻译”一词既可指职业也可指行为,这两个词义的一大区别即为其词性不同:前者为名词而后者为动词。
句法分析旨在对输入的文本句子进行分析以得到句子的句法结构。常见的句法分析有依存句法分析和成分句法分析。依存句法分析识别句子中词与词之间的相互依存关系,而成分句法分析识别句子中的层次化短语语法结构。句法分析在诸多自然语言处理下游任务中都有应用,例如在嵌套命名实体识别任务中,由于实体间存在相互嵌套现象,因此非常适合和成分句法分析中的层次化短语语法结构共同建模。
技术方法和研究现状
词法分析:最简单的词性标注器是使用字典中最常见的词性作为当前词的词性,但这种简单的规则只可以解决大约85%的词性标注问题。为了解决词性歧义的问题,研究者们使用机器学习算法进行词性预测。在基于统计方法的时代,研究人员手动提取字词特征,例如字母大小写、前缀、后缀等特征,并使用隐马尔可夫、条件随机场等模型计算可能的标签序列的概率分布,并选择最佳标签序列作为输出。进入神经网络时代后,常见的做法是使用LSTM、Transformer等编码器对输入文本进行编码,并使用Softmax或者CRF进行解码预测,这种方法在基于《华尔街日报》的WSJ数据集上取得了超过97%的准确率。近几年以来,为了进一步提升性能和鲁棒性,研究人员尝试在词性标注模型上展开编码长距离标签依赖关系等工作。
句法分析:主流的句法分析方法主要分为两种:基于转移的方法和基于图的方法。基于转移的方法通过预测一系列转移操作来构建合法的句法树结构,这种方法需要同时建模缓存区(已经生成的部分树结构)、堆栈区(等待输入的文本序列)和已经预测出来的转移操作序列,其中常见的缓存区和堆栈区的建模方法为stack-LSTM,转移操作序列的建模方法常用LSTM;基于图的方法首先编码输入、给文本局部打分,而后采用动态规划等算法来恢复句法树结构,该种方法采用的主流编码器包括LSTM和Transformer,解码器一般基于最大生成树算法(依存句法分析)或CKY算法(成分句法分析)。近几年来,随着大规模预训练语言模型的出现,BERT、XLNET等预训练语言模型也常被用作句法分析器的编码器。当前最佳的依存句法分析器是基于图的方法,使用BERT后可以在基于《华尔街日报》来标注的宾夕法尼亚大学树库数据集上取得了超过96%的有标签F-1分数;最佳的成分句法分析器亦采用了基于图的方法,在使用BERT的情况下在宾大树库上取得了接近96%的F-1值。与此同时,句法分析领域也有新的模型架构、转移范式不断涌现,例如,Zhang et al.提出了一种可以批处理的基于CRF的成分句法分析器,Yang et al.提出一种基于连结(attach)和并列(juxtapose)的新转移范式。
联合建模:为了解决错误传播问题、进一步提高词法分析和句法分析模型的表现,一个常见方法是将词性标注和句法分析进行联合建模。具体来说,词性标注、依存句法分析和成分句法分析这三个任务中,任意两个任务或者全部三个任务均可组合起来进行联合建模。研究人员发现,联合建模可以有效提升参与建模的各个任务的准确率,例如,Zhou et al.在宾大树库上进行依存句法分析和成分句法分析的联合建模,在两个任务上的错误率分别比单独建模减少了16%和3%。
发展趋势
在词法和句法分析任务上,随着在新闻领域(宾大树库所基于的领域)内模型的表现接近理论上限,研究人员们将视线转向了更加具有实用性、同时也富有挑战性的跨领域和多语言场景中去,具体来说,研究人员们试图探究在低资源、零资源的情景下如何使得词法、句法分析器仍旧得以应用,沿着这个研究方向,近期工作包括了跨语言、跨领域词法分析器的设计、新领域树库的构建和跨领域、跨语言句法分析器的构建等工作。
3.3 语义分析
任务简介、目标及研究意义
语义分析(semantic analysis)是生成意义表示并将这些意义指派给语言输入的过程。根据语言输入的粒度不同,语义分析又可进一步分为词汇级语义分析、句子级语义分析和篇章级语义分析。通常,词汇级语义分析主要关注如何区分和获取单个词语的语义,经典任务是词义消歧(Word Sense Disambiguation, WSD),即在特定的语境中,识别出某个歧义词的正确词义;句子级语义分析主要关注解析由词语所组成的句子的语义,根据分析的深浅程度又分为浅层语义分析和深层语义分析,其中浅层语义分析的经典任务是语义角色标注(Semantic Role Labeling, SRL),即识别出给定句子的谓词及谓词的相应语义角色成分。深层语义分析,又称为语义解析,即将输入的句子转换为计算机可识别、可计算的语义表示,语义解析又根据应用情境的不同,可分为自然语言到结构化查询(language to query)、语言到代码(language to code)和语言到机器操作指令(language to instruction);篇章级语义分析主要关注由句子组成的篇章的内在结构并理解各个句子的语义以及句子与句子之间的语义关系,进而理解整个篇章的语义。词语级语义分析是句子、篇章语义分析的基础,句子级语义分析又是篇章语义分析的基础。
语义分析是自然语言处理的核心任务,其目标是实现对语言输入的语义理解,进而支撑后续的操作和处理。在理论上,语义分析涉及语言学、计算语言学、认知科学、神经科学等多个学科,语义分析的研究和进展可推动多个相关学科的发展。在应用上,语义分析对自然语言处理领域的其他任务都有一定的促进作用。如现代机器翻译,虽然目前的神经机器翻译系统已取得媲美人类甚至超过人类的翻译效果,但要真正达到“信、达、雅”的标准,还需要有语义分析的参与。如现代的语义搜索引擎,从以前的匹配查询与文档转变为了理解用户提交的查询的意图,能够更精准的向用户返回最符合需求的搜索结果。另外,知识获取方面,它与语义分析是相互促进的,一方面,语义分析需要知识的支撑,更大、更全、更准确的知识库对语义分析有着至关重要的作用;另一方面,为了从自由文本中获取更多结构化的知识,语义分析又是必不可少的技术。
目前,语义分析的研究吸引了国内外大批学者,但大部分都集中于句子级语义分析方向上,词汇级和篇章级的研究工作甚少。主要因为词汇级语义分析,如词义消歧,已发展多年,技术已趋成熟,研究的重心转向句子级的语义分析;而篇章级语义分析由于完全体的篇章理解过于困难,因此衍生了多个与之相关的任务,如篇章的结构分析、话语分割、指代消解、共指消解等,任务分散且偏边缘,导致得到的研究关注很少,进展也缓慢。整体来说,语义分析虽然已取得了一定的进展,但技术还远未成熟完美。
研究进展与影响
在深度神经网络模型崛起之前,语义分析领域基于文法和组合规则的模型占据主流。近5年来,随着神经网络模型的兴起,特别是序列到序列模型(Seq2Seq)在自然语言处理多个任务上的成功,如机器翻译,语义分析任务上也开始尝试将语义分析问题建模为序列到序列的问题。近2年,随着像BERT、GPT这样的大规模预训练语言模型的提出,并在自然语言处理的多个任务上面取得SOTA,整个NLP领域都转型采用预训练+精调的新研究范式。为了更好的利用大模型里面的知识,NLP领域还兴起了基于提示语(prompt)的方法浪潮。深度语义分析领域也紧跟整个NLP领域的大潮,与之对应的先后出现了基于序列到序列的语义分析方法面向语义分析的预训练方法和基于大模型受限生成的方法。
其中基于序列到序列的语义分析方法的核心在于将结构化的语义表示序列化,把语义表示看成一系列的语义单元。相比基于文法和组合规则的方法,Seq2Seq方法非常简单,是端到端的,不需要人工设计特征,也不需要学习文法和组合规则。然而,Seq2Seq的方法也忽略了一个问题,不同于机器翻译,语义分析的目标语言不是一种自然语言,而是一种形式化语言,它具有层次结构,Seq2Seq方法只是简单地将语义表示偏平序列化,忽略了语义表示的层次结构信息,基于此,Dong et al.提出了Seq2Tree的方法,其核心是一个层次化的解码器,解码时不再生成偏平化的语义表示序列,而是生成层次结构化的语义表示,简而言之,用一个层次树结构的形式来表征语义,序列化时,采用层次结构树的广度优先遍历的形式。考虑到Seq2Seq和Seq2Tree方法都忽略了语义表示token之间的紧密联系,Chen et al.提出了一种Seq2Action的方法,该方法采用语义图作为语义表示,然后将语义图进行原子级分解,用设计好的动作序列来表示语义图的构建,进而用编码器-解码器模型框架来生成动作序列,并利用到语义表示token之间存在严格的句法和语义约束,提出了一种受限的解码方法。基于序列到序列的语义分析方法由于其简单而有效的特点,成为了目前语义分析领域最常用的基线模型。
与其它面向特定任务的预训练模型方法类似,面向语义分析的预训练模型也包含两个关键:收集数据和设计自监督学习任务。针对text-to-sql的语义分析问题,典型的预训练模型是GraPPa,其采用了两种常用的用于text-to-sql问题的数据收集方法,一是从已有的跟表格有关的数据中抽取表格与自然语言对,二是利用同步文法在新采样的表格上自动生成(表格,自然语言,sql)数据对。预训练模型的输入不同于预训练语言模型的输入,这里的输入是将自然语言查询与表格的表头拼接起来的。自监督学习任务方面,为了在表示层面简历自然语言词语与表头的交互,设计掩码任务,即对输入进行随机的掩码,再进行复原,最后计算损失函数。为了进一步在表示层面学习表,通过预测表头的语义标签来实现。由于是预训练模型,使用方面可以像使用BERT一样方便,可适用于所有语义分析模型。
基于大模型的受限生成的方法启发于像T5在text-to-text任务上的成功,以及GPT在文本生成任务上的成功。考虑到语义分析任务与text-to-text问题的不同:语义分析生成的不是自然语言,而是形式化的语义表示,需要满足一定的文法约束,研究者们引入了一种中间语言:经典句式,它是一种介乎于自然语言与语义表示之间的一种语言,又与自然语言类似,但又符合确定性的文法,它与语义表示之间可以通过同步文法进行确定性的转换。基于经典句式,语义分析可以转换成一种受限的复述生成。即给定输入句子,大模型利用复述生成其经典句式,在解码生成过程中可以利用约束来减小解码空间。这类模型的关键在于解码过程中约束的确定,目前一般采用启发式的基于文法的形式引入约束条件。由于大模型,如T5、BART和GPT在few-shot和zero-shot问题上都表现出色,基于大模型的受限生成语义分析方法在few-shot和无监督的设定下也取得了很好的成绩。
技术展望和发展趋势
语义分析技术发展迅速,整体上,紧跟自然语言处理领域的发展大潮,一方面部分方法启发于其他任务的先进技术,如基于序列到序列的语义分析方法,另一方面部分方法也启发了其他领域,如基于受限解码的事件抽取方法。
基于对现有技术的分析和总结,语义分析后续的研究发展趋势主要包括:
(1)通用的面向自然语言理解的预训练模型
目前的面向语义分析的预训练模型由于高质量的标注数据难以获取的问题,预训练模型还只在text-to-sql和code generation等数据相对容易获取的问题上得以实现。接下来,可以尝试同时面向更加通用的语义分析情境,如面向开放域的问答,语言到机器执行指令等,一个预训练模型,适用所有的语义分析任务。
(2)自学习的控制生成
目前,研究者都已意识到大模型加受限解码在语义分析问题上的威力。但整个过程还需要人工参与,如约束条件需要人来参与设计,用于经典句式与语义表示之间互相转换的同步文法需要人工定义。如何将这些人工参与的部分交给模型自主学习,实现自学习的soft的同步文法和自学习的soft的条件约束是下一步可研究的点。
(3)状态感知的预训练模型
目前的大模型与世界没有太多交互。而语义分析任务中有些情境需要与世界进行交互,如基于对话执行查询,基于对话执行指令操作等。如何训练一个面向自然语言理解的能与世界进行交互的大模型,即当世界的状态因为当前的动作发生改变时,大模型能否及时的感知到状态的变化,并在理解下个输入的过程中是基于已更新过的世界状态的,也是一个可探究的点。
3.4 信息抽取
任务定义和目标
信息抽取(Information Extraction)的目标是从非结构化文本中抽取出结构化的信息,主要包括实体抽取、实体关系抽取(Relation Extraction,RE)、事件抽取(Event Extraction,EE)和事件关系抽取(Event Relation Extraction,ERE)等任务。实体主要是指文本中名词性的短语,比如人名、地名、机构名、时间、日期、数字等。实体抽取也称为命名实体识别(Named Entity Recognition,NER),包括实体的识别和分类。实体识别就是从文本中找出哪个片段是一个实体。实体的分类就是判断找出的实体属于什么类别,比如:人名、地名等。实体关系抽取则是判断两个实体之间的语义关系,比如“姚明”和“上海市”这两个实体之间是“出生于”的关系,而“北京”与“中国”则是“首都”的关系。事件抽取任务是识别特定类型的事件,并把事件中担任既定角色的要素找出来,该任务可进一步分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类任务。
信息抽取技术是中文信息处理和人工智能的核心技术,具有重要的科学意义。通过将文本所表述的信息结构化和语义化,信息抽取技术提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术。被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答系统、舆情分析系统)提供支撑。
技术方法和研究现状
信息抽取的核心是将自然语言表达映射到目标知识结构上,并转换为可供计算机处理的知识。然而,自然语言表达具有多样性、歧义性和结构性,其中蕴含的知识具有复杂性、开放性以及规模巨大的特点,进而导致信息抽取任务极具挑战性。自上世纪80年代被提出以来,信息抽取一直是自然语言处理的研究热点。
在早期,大部分信息抽取系统(如MUC评测中的信息抽取系统)都采用基于规则的方法,该类方法依靠人工制定规则,其优点是可预判和解释,但面临着移植性差,很多场景很难甚至无法总结有效的规则。自90年代以来,统计模型成为信息抽取的主流方法,通常将信息抽取任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数,经典的方法包括使用条件随机场(CRF)将实体识别问题转化为序列标注问题。近年来,随着深度学习时代来临,研究者主要聚焦于如何使用深度神经网络自动学习有区分性的特征,进而避免使用传统自然语言处理工具抽取特征时存在的错误累积问题。随着研究的深入,特别是大规模预训练语言模型的引入,基于深度神经网络的信息抽取模型在公开数据集上达到了不错的成绩,但是在实际应用场景效果还不尽人意。
理想设定与实际场景存在巨大鸿沟,近期越来越多的工作针对实际应用中的挑战展开。真实场景中实体、关系、事件具有长尾分布特点,许多关系和实体对的示例较少。对于金融、医疗等垂直领域,缺失标注数据现象更为明显,甚至数据的获取也很困难,而神经网络作为典型的“数据饥渴”模型,在训练样例过少时性能会受到极大影响。针对小样本任务,Ding等发布了包含8种粗粒度和66种细粒度实体类的少样本命名实体识别;Han等发布了小样本关系抽取数据集Few Rel,Gao等在Few Rel数据集的基础上提出了FewRel2.0,增加了领域迁移(domain adaptation)和“以上都不是”检测(noneof-the-above detection)。利用海量无监督数据得到的预训练模型得到有效的语义特征是少量样本快速学习知识的代表性方法,Baldini等使用BERT来对文本关系进行表示,并且提出了Matching the blanks的方法来预训练任务不可知(task agnostic)的关系抽取模型。
真实场景中的信息抽取还面临着复杂的语境,例如大量的实体间关系是通过多个句子表达的,同一个文档中的多个事件相互影响,文档级的信息抽取最近也收到广泛的关注,代表性的方法是使用图神经网络融合分布在文档中不同位置的实体的信息,并利用图算法进行信息的传递。Quirk等最早尝试构建文档级图,捕获相邻句子之间的关系。Christopoulou等构建以实体、实体提及(Mention)和句子为节点的文档图,并通过图上的迭代算法得到边的表示进行关系分类,之后有大量的研究者采用类似的方法对文档建模。除了使用图网络外,研究者也开始尝试直接使用大规模语言模型建模文档,Xu等将Mention是否在同一个句子中、是否指向同一个实体编码作为实体结构信息送入到BERT编码层。Zhou等提出自适应阈值代替用于多标签分类的全局阈值,并直接利用预训练模型的自注意力得分找到有助于确定关系的相关上下文特征。在大规模预训练语言模型的研究上,研究者也尝试着加入知识增强语义表示,例如ERNIE中字、短语和实体三个级别的遮罩(MASK)训练,Qin等通过对比学习的方式将实体判别、关系判别作为辅助任务帮助模型的训练。
发展趋势
信息抽取技术研究蓬勃发展,已经成为了自然语言处理和人工智能等领域的重要分支。这一方面得益于系列国际权威评测和会议的推动,如消息理解系列会议(MUC,Message Understanding Conference),自动内容抽取评测(ACE,Automatic Content Extraction)和文本分析会议系列评测(TAC,Text Analysis Conference)。另一方面也是因为信息抽取技术的重要性和实用性,使其同时得到了研究界和工业界的广泛关注。信息抽取技术自身的发展也大幅度推进了中文信息处理研究的发展,迫使研究人员面向实际应用需求,开始重视之前未被发现的研究难点和重点。
纵观信息抽取研究发展的态势和技术现状,信息抽取的发展方向如下:
(1) 高效的小样本学习能力
目前的小样本学习设定需要用一个巨大的训练集训练的,测试时只给出N-way Kshot,在这N*K个样本上学习并预测。真实场景下的小样本学习不存在巨大的训练集,从GPT3开始,预训练-提示(Prompt)学习范式受到研究者的关注,该范式将下游任务也建模成语言模型任务,在只给出几条或几十条样本作为训练集,借助与大规模预训练语言模型中蕴含的大量知识,取得了不错的小样本学习效果取得了。此外,相对于传统的Pretrain+Finetune范式,Prompt有得天独厚的,可以摆脱指数级的预训练参数量对巨大计算资源的需求,高效的利用预训练模型。基于上述分析,信息抽取的发展方向之一是利用预训练—提示学习范式进行高效的小样本学习。具体包括:1)提示学习中信息抽取任务模板的设计;2)模板的自动学习与挖掘;3)预训练-提示学习范式进行信息抽取的理论分析。
(2) 多模态信息融合
目前信息抽取主要针对的是纯文本数据,而常见的文档具有多样的布局且包含丰富的信息,以富文本文档的形式呈现包含大量的多模态信息,从认知科学的角度来说,人脑的感知和认知过程是跨越多种感官信息的融合处理,如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等,信息抽取技术的进一步发展也应该是针对多模态的富文档。基于上述分析,信息抽取的发展方向之一是多模态信息的融合。具体包括:1)多模态预训练模型的设计;2)多模态信息抽取框架中跨模态对齐任务设计;3)多模态信息的提取和表示。
(3) 数据驱动和知识驱动融合
现有的神经网络信息抽取方法依靠深度学习以数据驱动的方式得到各种语义关系的统计模式,其优势在于能从大量的原始数据中学习相关特征,比较容易利用证据和事实,但是忽略了怎样融合专家知识。单纯依靠神经网络进行信息抽取,到一定准确率之后,就很难再改进。从人类进行知识获取来看,很多决策的时候同时要使用先验知识以及证据。数据驱动和知识驱动结合是模拟人脑进行信息抽取的关键挑战。基于上述分析,信息抽取的发展方向之一是构建数据驱动和知识驱动融合抽取技术。具体包括:1)神经符号学习信息抽取框架的构建;2)学习神经网络到逻辑符号的对应关系;3)神经网络对于符号计算过程进行模拟。
3.5 基于知识的自然语言处理
任务定义和目标
基于知识的NLP,是指利用人类各类型结构化知识(如语言知识图谱、世界知识图谱、常识知识图谱等)提升NLP模型语言处理能力的相关处理方法。通过融合符号表示的人类结构化知识及其带来的认知推理能力,赋予语言深度学习模型更好的可解释性与认知推理能力,突破当前NLP领域中广泛使用的深度学习技术所面临的可解释性差、可扩展性差和鲁棒性差等瓶颈问题。
研究内容和技术现状
完成知识图谱到NLP深度学习模型的融合,涉及知识表示学习、融合知识的预训练语言模型等关键技术。
(1)面向NLP的知识表示学习(KRL)
离散符号表示的知识图谱,在计算上存在计算效率低下和数据稀疏等挑战问题。近年来,人们提出了基于深度学习的KRL的技术方案,并被广泛研究与应用。
语言知识图谱的KRL:语言知识图谱,描述的是以形式化和结构化语言表达的语言学知识,可以轻松植入各种NLP系统,代表性有How Net、WordNet等。词表示学习是许多NLP任务的基础步骤,代表性方法有Word2Vec、GloVe等,但这些方法都是将每个词映射成一个向量,不能够解决一词多义的问题。为解决该问题,许多学者提出利用语言知识图谱指导的词表示学习,通过其细粒度语言学知识增强词的语义表示。例如,1)基于How Net义原编码的词表示学习方法(SE-WRL),将每个词看成一组义原的组合,将词义消歧和融合义原、义项、词的Skip-gram词表示学习进行联合建模。2)将词向量改造为语义词典的Retrofitting方法,给出了通过鼓励链接词具有相似的向量表示来使用WordNet等语义词典中的关系信息来细化向量空间表示。近几年随着基于预训练模型的背景表示学习的兴起,相关研究开始聚焦于如何利用语言知识图谱增强词的上下文表示。
世界知识图谱的KRL:世界知识图谱,指以结构化符号表示的实体及其关系的知识库,代表性有Wiki Data、DBpedia等,其表示学习的核心问题是学习实体和关系的低维分布式表示。相关研究围绕的核心问题有:1)如何度量事实三元组的合理性;2)何种编码模型建模关系交互;3)如何融合异构信息。
度量函数,用于衡量事实的合理性。目前有两种典型的度量函数:1)基于距离的度量函数,通过计算实体之间的距离来衡量事实的合理性,其中𝒉+𝒓≈𝒕关系的上平移被广泛使用,代表方法有Trans E、Trans H、Trans R等。2)基于语义相似性的度量函数,通过语义匹配来衡量事实的合理性。它通常采用乘法公式𝒉⊤𝑀𝑟≈𝒕,代表方法有RESCAL、Dist Mult、ComplEx等。
编码模型,即对实体和关系的交互编码使用的具体模型架构,包括线性/双线性模型、分解模型和神经网络模型。线性模型通过将头部实体投影到靠近尾部实体的表示空间中,将关系表述为线性/双线性映射,代表方法有DistMult, ComplEx等。分解模型旨在将关系数据分解为低秩矩阵以进行表征学习,代表方法有RESCAL、Tuck ER等。神经网络模型通过用更复杂的网络结构对关系数据进行编码,如R-GCN、KG-BERT等,其中KG-BERT借鉴PLM思想,用BERT作为实体和关系的编码器。
异构信息,在知识图谱中除了实体和关系本身信息之外,还包含其他类型信息,如文本描述、实体属性、类别约束、关系路径、视觉信息等。利用这些额外信息增强实体和关系的知识语义表示,主要挑战在于异构信息编码和异构信息融合等问题。KEPLER给出了预训练语言表示和知识表示联合学习的统一模型,如图所示,其通过联合学习不仅能够将事实知识信息更好的嵌入到预训练语言模型中,同时通过预训练语言模型可以得到文本语义增强的知识表示。
图:KEPLER模型框架
资料来源:千际投行,资产信息网,中国中文信息学会
(2)融合知识的预训练语言模型(PLM)
目前PLM主要采用互联网获取的海量通用文本语料训练得到,实现了对文本丰富语义模式的编码,但由于没有自觉运用结构化知识,依然严重缺乏知识运用和推理能力,缺乏可解释性和鲁棒性。为此,许多学者研究了融合结构化知识的PLM及其学习框架,融合方法大致分为以下4种:
- 知识增广:从输入端增强模型,有两种主流的方法:一种方式是直接把知识加到输入,另一方法是设计特定模块来融合原输入和相关的知识化的输入表示。目前,基于知识增广的方法已经在不同任务上取得良好效果,如信息检索、问答系统和阅读理解。
- 知识支撑:关注于对带有知识的模型本身的处理流程进行优化。一种方式是在模型的底部引入知识指导层来处理特征,以便能得到更丰富的特征信息。例如,使用专门的知识记忆模块来从PLM底部注入丰富的记忆特征。另一方面,知识也可以作为专家在模型顶层构建后处理模块,以计算得到更准确和有效的输出。例如,利用知识库来改进语言生成质量。
- 知识约束:利用知识构建额外的预测目标和约束函数,来增强模型的原始目标函数。例如,远程监督学习利用知识图谱启发式标注语料作为新的目标,并广泛用于系列NLP任务,如实体识别、关系抽取和词义消歧。或者利用知识构建额外的预测目标,比如ERNIE, Co LAKE和KEPLER等工作,都是在原始的语言建模之外构建了相应额外的预训练目标。
- 知识迁移:则是从参数空间进行考量,获取一个知识指导的假设空间,从而让模型更有效。迁移学习和自监督学习分别关注从标注数据和无标注数据获取迁移学习和自监督学习分别关注从标注数据和无标注数据获取知识。作为一个迁移模型知识的典型范式,微调PLM在绝大多数NLP任务都可以取得良好的效果。在中文信息处理领域,一些中文PLM也相继被提出,如CPM-1、CPM-2、Pan Gu-𝛼等,也都在各种中文任务中展现了良好性能。
技术展望和发展趋势
结合国内外相关的研究工作,下面概括性地总结基于知识的NLP的技术趋势。一方面,面向NLP的深度学习技术能够自动学习语义的分布式表示,表达能力强,已在NLP多项重要任务中得到充分验证,为进一步融入知识指导信息的方法研究奠定了坚实基础。另一方面,知识表示与推理技术已经初步具备完整的方法体系,充分利用人类各类型结构化知识赋予了人工智能不同的能力,为提升模型的可扩展性和鲁棒性提供了支撑。
尽管相关研究进展显著,但部分工作还非常初步,仍然有很多关键问题亟待解决,以下研究问题值得关注:
- 更大规模的知识表示:虽然已经出现了Graph Vite、Open KE、DGL-KE等系统工具,但这些工具还主要针对小规模知识图谱,这限制了大规模知识图谱的应用潜力。目前知识图谱的规模越来越大,如Wiki data已经含有了超过9千万实体、14.7亿的关系,而且这种规模仍然呈现快速增长趋势。如何将现有知识表示学习方法适配到亿级实体规模的图谱上仍然是一个挑战。
- PLM的多元知识融合:目前在PLM中融合知识主要是围绕实体、实体关系等相关事实知识图谱,融合的知识类型和知识层次还比较单一,存在知识指导融合度低的问题。面向人类不同层次不同类型的丰富知识体系,探索融合这些多层次多类型知识的PLM框架和学习机制,是PLM技术未来研究的重要方向。
- PLM的持续知识增强:虽然PLM模型已经在多项任务上取得了超越人类的表现,但是现在PLM的模型通用智能水平增长仍遇到瓶颈。在可以预见的未来,PLM模型的性能将持续增长。如何持续学习新知识、新数据提升模型语言处理能力,建立高效的知识持续植入的PLM学习机制,是PLM的关键研究方向。
- PLM的可靠知识编辑:PLM在训练中需要事实知识并将其存储在模型参数中,以用于下游各种任务等,但大量事实知识存在时效性,随着时间推移可能会存在不准确或过时的问题。开发可靠的、无需重新训练的高效方法来修正模型中对应知识,是实现高质量可靠的PLM的关键问题。
第四章 行业发展与市场竞争
4.1 行业财务分析
图:行业综合财务分析
资料来源:千际投行,资产信息网,Wind
图:行业历史估值
资料来源:千际投行,资产信息网,Wind
图:指数市场表现
资料来源:千际投行,资产信息网,Wind
图:指数历史估值
资料来源:千际投行,资产信息网,Wind
估值方法可以选择市盈率估值法、PEG估值法、市净率估值法、市现率、P/S市销率估值法、EV/Sales市售率估值法、RNAV重估净资产估值法、EV/EBITDA估值法、DDM估值法、DCF现金流折现估值法、NAV净资产价值估值法等。
图:主要上市公司
资料来源:千际投行,资产信息网,Wind
图:机器人主营构成
资料来源:千际投行,资产信息网,Wind
图:科大讯飞主营构成
资料来源:千际投行,资产信息网,Wind
4.2 驱动因子
自然语言处理要素演进,行业迎来变更式发展
数据量、运算力和算法模型是影响自然语言处理行业发展的三大要素。2012年以来,数据量的上涨、运算力的提升和深度学习算法的出现促进了自然语言处理行业的快速发展。互联网、社交媒体、移动设备的普及,使产生并存储的数据量急剧增加,2020年全球将有超500亿的终端与设备联网,产生的数据总量将大于40泽字节,人均每天产生的数据量预计达1.5GB。中国2020年的数据总量将达到全球数据总量的20.0%,联网设备预计从2016年的8.4亿个增长至35.0亿个,连接设备数的快速增长产生了大量的应用数据。数据的爆发式增长有助于优化自然语言处理算法,海量优质的场景数据能够帮助算法模型完成高效精准的识别训练。
算法是计算机基于其所训练的数据集归纳出的识别逻辑,算法模型的优化可使自然语言处理技术更精准地理解与生成自然语言文本。深度学习算法通过使用复杂结构设计和各种梯度技术,将多重非线性结构变换成多个处理层,实现对大量数据样本的抽象计算,拟合出一个可处理新输入信息的函数模型,解决数据分类或预测问题。基于深层神经网络的深度学习方法从根本上改变了自然语言处理技术的面貌,改变了自然语言处理问题的定义,变更了自然语言处理所使用的数学工具,深度学习的出现突破了传统浅层学习算法的局限,重塑了自然语言处理算法的设计思路,极大地促进自然语言处理研究的发展。
运算力方面,GPU、FPGA,ASIC等专用芯片的出现,缓解了自然语言数据处理速度难题,解决传统的CPU芯片算力不足问题。新兴的GPU、FPGA、ASIC等具有良好的并行计算能力,芯片性能大幅优于CPU,算力比CPU芯片强数十倍甚至百倍,缩短了模型运算时间,使得自然语言运算模型的进步速度加快。
传统行业智能需求增长,带动语言处理需求上涨
金融、医疗、法律等传统行业的业务处理智能化水平要求上涨,加速自然语言处理技术在行业应用中的落地进程。例如,智能问答、资讯舆情分析、文档信息抽取、文档自动生成等应用逐渐在金融领域的智能投研、智能投顾、智能客服和智能运营等场景实现应用。在智能投研场景中,投研人员每天需要通过多渠道搜索大量金融资讯信息以掌握金融市场动态,而金融资讯信息极为丰富(如涉及标的公司重大新闻、公告、财务状况,金融产品信息、宏观经济状况、政策法规变化、社交媒体评论等),数据量庞大,单靠投研人员从浩如烟海的资讯库中搜索并阅读分析相关内容,时间精力耗费严重,工作效率难以提高,在此种情况下,具备资讯分类(按公司、产品、行业范围分类)、情感分析(分析新闻、公司或产品的正负面信息)、自动文摘(分析文章的主要内容)及资讯个性化推荐功能的资讯舆情分析应用逐步受到投研人士和金融机构的推崇,资讯舆情分析应用对海量定性数据自动摘要、归纳、缩简和抽取,为投研人员提供高效的信息展示,大幅缩短投研人员搜索以及摘取资讯的时间,提高其工作效率。
在法律领域,自然语言处理应用可帮助法律从业人员进行案例搜索、判决预测、法律文书自动生成、法律文本翻译等,实现事件预处理,减少从业人员相关案件处理耗费时间。在医疗领域,病历的辅助录入、医学资料的检索与分析、辅助诊断等医疗步骤可由相关自然语言处理应用辅助进行。现代医学资料浩如烟海,新的医学手段、方法发展迅猛,医生和专家无法及时完全掌握所有的医学发展动态,相关自然语言处理应用可帮助医生快速准确地寻找各种疑难病症的最新研究进展,为医生的诊断提供及时有效的参考。
随着自然语言处理技术的深入发展,自然语言处理应用有望与更多传统行业实现更深层次的结合,为人类带来更多人工智能效应。
4.3 制约因子
自然语言处理存在技术难题
自然语言处理与语音识别以及图像识别不同,自然语言处理不是单轮处理操作过程,算法模型对单一输入进行单轮分析无法输出结果,自然语言的语义与上下文或前后轮对话语境有关,需要对输入的自然语言进行多轮分析方可得到结果。而目前的深度学习技术,多轮建模发展并不成熟,与语音识别以及图像识别的单轮分析模型的成熟度无法相提并论。
此外,人类在语言交流过程中,使用的话语表达内容通常暗含常识性表示(如婴儿、小孩以及成人代表不同年龄段人群),话语表达风格反应用语者的个性化特征,不同的人对相同的内容可有不同的表达方式。现阶段的自然语言处理模型未能解决常识问题和个性化问题,如手机语音助手听到“查找附近的餐馆”指令时,可在地图上执行查找附近餐馆的任务,并显示附近餐馆信息,但若发号指令者说“我饿了”,手机语音助手则不会有任何反应,因为语音助手缺乏“饿了需要进食”的常识,而人类听了“我饿了”的话语,反应一定是“需要进食”。众多潜藏在人类意识中的常识,计算机并不具备且无法学习,模型开发者亦不知道将常识知识用在机器问答和机器搜索中的效果如何,业内尚待建立常识知识库,测试训练模型。
自然语言处理模型通用性不强
自然语言使用情况复杂,不同场景、不同语种、不同专业的自然用语差异较大,所需要的自然语言处理层次不同,基于某一领域语料库建立的自然语言处理模型不具通用性,应用于其他领域时处理结果明显较差,系统性能显著下降。自然语言模型不具通用性限制了自然语言产品在不同应用领域的推广,大幅减缓了自然语言处理行业的发展进程。
虽然近年来研究者们针对语言模型、语序模型、语调模型等问题对自然语言处理进行了众多领域自适应的调试,但每种调试方法只能解决单方面的自适应问题,通用性问题仍然无法解决。自然语言处理厂商无法用单一模型解决自然语言处理方面的所有问题,只能根据不同领域,开发相应的自然语言模型,运行相关领域的知识库,处理特定领域的自然语言问题。但在目前行业应用尚未普及,产品商业模式并不清晰的情况下,自然语言处理厂商缺乏动力为少数应用以及各种领域开发专用算法,导致自然语言处理技术难以大范围推广落地。
机器理解自然语言技术未有突破
自然语言理解结果不准确,限制自然语言处理应用推广。自然语言理解与生成是机器在人工智能、大数据等技术指引下产生的机器行为。机器由于难以拥有生活常识、文化背景和人类风俗习惯知识储备,对于作为文化载体的自然语言,无法结合具体的语言环境、风俗习惯等因素分析语言内容,只能通过系统设定的规则机械地分析源语的语法结构,语言逻辑无法处理,对于复杂句子结构或层层句式嵌套的情况,机器的自然语言理解准确度不高。机器对自然语言长句的理解能力以及全方位体会语用者的真实表达意图的能力无法在短期内得到明显提高,与人类的语言理解能力相比,差距仍然存在较大。自然语言处理应用暂时只能通过完善部分领域的知识库和语料库,优化部分领域内的自然语言处理应用的用户体验。
4.4 市场发展现状
早期的静态词向量预训练模型,以及后来的动态词向量预训练模型,特别2018年以来,以BERT、GPT为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点,帮助自然语言处理取得了一系列的突破,使得包括阅读理解在内的几乎所有自然语言处理任务性能都得到了大幅提高,在有些数据集上甚至达到或超过了人类水平。
所谓预训练模型(Pre-trained Models),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。本质上,这也是迁移学习(Transfer Learning)思想的一种应用。然而,由于同样需要人工标注,导致原任务标注数据的规模往往也是非常有限的。那么,如何获得更大规模的标注数据呢?
其实文本自身的顺序性就是一种天然的标注数据,通过若干连续出现的词语预测下一个词语(又称语言模型)就可以构成一项源任务。由于图书、网页等文本数据规模近乎无限,这样就可以非常容易地获得超大规模的预训练数据。有人将这种不需要人工标注数据的预训练学习方法称为无监督学习(Unsupervised Learning),其实这并不准确,因为学习的过程仍然是有监督的(Supervised),更准确的叫法应该是自监督学习(Selfsupervised Learning)。
为了能够刻画大规模数据中复杂的语言现象,还要求所使用的深度学习模型容量足够大。基于自注意力的Transformer模型显著地提升了对于自然语言的建模能力,是近30年来具有里程碑意义的进展之一。要想在可容忍的时间内,在如此大规模的数据上训练一个超大规模的Transformer模型,也离不开以GPU、TPU为代表的现代并行计算硬件。可以说,超大规模预训练语言模型完全依赖“蛮力”,在大数据、大模型和大计算资源的加持下,使自然语言处理取得了长足的进步。如Open AI推出的GPT-3,是一个具有1,750亿参数的巨大规模,无需接受任何特定任务的训练,便可以通过小样本学习完成十余种文本生成任务(如问答、风格迁移、网页生成、自动编曲等)。目前,预训练模型已经开启了自然语言处理的新时代。
综上,可以看出自然语言处理的发展历史呈现了一种明显的“同质化”趋势。早期的自然语言处理算法需要根据不同的任务编写特定的逻辑将输入文本转换为更高级别的特征,然后使用相对同质化的机器学习算法(如支持向量机)进行结果预测;此后,深度学习技术能够使用更加同质化的模型架构(如卷积神经网络),在输入文本上直接进行学习,并在学习的过程中自动“涌现”出用于预测的更高级别的特征;而预训练模型同质化的特性更加明显,目前几乎所有最新的自然语言处理模型都源自少数大规模预训练模型(如BERT、Ro BERTa、BART、T5等)。GPT-3模型更是能够做到一次预训练,即可直接(或仅使用极少量训练样本)完成特定的下游任务。
截至2020年,全球自然语言处理的市场规模为118亿2000万美元,预计将于2026年增长至530亿8000万美元。现阶段,我国自然语言处理技术商业化并不成熟,部分已实现商业化应用的自然语言处理技术相关产品(如智能客服、搜索引擎等)均无法将收益直接归因于自然语言处理技术,单独运用自然语言处理技术的产品应用(文档分类、舆情分析等)尚未产生明显受益,因此自然语言处理技术产生的市场营收规模仍然较小,2020年,我国人工智能核心产业及带动产业规模分别为1512.5亿元和5725.7亿元,预计至2021年将分别达到1898.1亿元和7442.1亿元,年均复合增长率分别为32%和19.5%。但自然语言处理技术是众多人工智能设备(如智能家居设备、智能机器人、智能助手等)不可或缺的核心技术,随着智能设备数量增长以及行业智能化业务处理水平要求的提高,自然语言处理市场有望得到进一步拓展,自然语言处理市场营收规模有望在2019-2023年间以48.2%的年复合增速实现快速增长。
图:2019-2022年中国人工智能市场规模预测趋势图
资料来源:千际投行,资产信息网,中商情报网
4.5 竞争格局
中国自然语言处理市场参与者可分为互联网巨头企业、自然语言处理技术研发企业以及自然语言处理创业企业,其中互联网巨头企业在自然语言处理行业占据约80%的市场份额,自然语言处理技术研发企业以及创业企业合计共占20%的市场份额。
互联网巨头企业通过资金、技术、数据资源等实力,实现自然语言处理的基础软、硬件层、技术层以及应用层全产业链布局,如百度开发了自然语言处理应用平台,为众多自然语言研发企业开源提供底层研发架构支持,同时百度自主研发自然语言处理基础算法、问答系统、阅读理解等核心技术,并将核心技术应用于百度搜索、百度新闻、百度翻译、百度助手等C端产品中,提升了自有产品的智能水平。
自然语言处理技术研发企业在自然语言处理技术方面积累深厚,拓展了稳定的B端业务市场,典型代表有搜狗和科大讯飞。例如,科大讯飞推出完善智能硬件语音交互解决方案,帮助企业用户解决语音交互、语义理解等技术研发难题。B端市场的定制化需求高,对自然语言处理厂商的研发能力以及资金投入要求高,导致缺乏资金、技术积累的自然语言处理创业企业难以大范围拓展B端市场。
自然语言创业企业多以具体的自然语言处理场景、垂直细分的应用场景切入自然语言处理市场,为下游用户提供单一类型的行业应用解决方案或消费级产品,如智齿科技为企业用户提供专门的智能客服解决方案。
互联网巨头有深厚的资源积累,技术研发实力雄厚,自然语言处理技术的迭代将长期由互联网巨头主导。然而互联网巨头的技术研发多以业务布局为导向,旗下产品生态不包含的领域,互联网巨头一般不会涉足,因此为自然语言处理技术研发企业以及创业企业留下市场空间,自然语言处理技术研发企业以及创业企业能从细分领域开拓市场,避开与互联网巨头企业的直接竞争。
4.6 中国主要参与者
中国参与者主要有:百度(09888)、科大讯飞(002230)、搜狗(00700)、云知声、新译信息、思必驰、智齿科技、达观数据、北京紫平方、追一科技、玻森数据、武汉烽火普天、北京嘿哈科技、拓尔思(300229)、智言科技、明略数据、今日头条、苏州驰声信息等。
新译信息科技(深圳)有限公司
企业简介
新译科技成立于2014年12月,是一家研发人工智能技术的科技公司,以机器翻译和语音识别等技术为基础,向用户提供在线机器翻译、在线辅助翻译平台和互联网语言服务平台等一系列关于翻译领域的产品和服务。新译科技以软、硬件智能翻译为承载体,服务于国家“一带一路”多语传播平台建设,为金融、专利、法律、医学等垂直领域提供全球化基础性多语沟通服务。
产品研发
(1)B端和G端产品:
新译科技的B端和G端产品包括软件和硬件产品,主要面向大型央企、军工企业、互联网媒体及政府机关等企业和政府机构提供服务。
①定制化机器翻译是一个混合神经网络翻译引擎,该服务能统一管理企业语料,给企业特定的数据和管理账号,满足企业个性化、精细化、专业性的需求,达到保护企业数据隐私和数据的效果。
②智能翻译插件包括办公翻译插件和网页翻译插件,办公翻译插件可以在WPS和Office两大办公系统上使用,满足多语言文档的快速转换和阅读;网页翻译插件支持各大浏览器网页翻译,一键转化母语阅读。
(2)C端产品:
新译科技主要向个人消费者提供在线文档翻译、PC端翻译、智译APP服务以及可穿戴式翻译产品。智译APP可实现语音和文本的多种语言智能翻译,适用于旅游、社交、住宿、商务等领域。在线文档翻译支持10种常用文档格式输入,可应用于通用或专业领域的文档翻译,翻译质量较高。
竞争优势
新译科技拥有较强的技术优势,同时拥有澳门大学自然语言处理与葡中智能翻译(NLP2CT)实验室、葡萄牙里斯本L2F语音实验室、美国卡耐基梅隆大学LTI实验室以及新译-澳大-清华人工智能研究院四所优质自然语言研究实验室提供的技术人才和原创技术支持,公司所研发的智能翻译产品于2017年通过国家科技成果认定,并获得深圳青年技术奖以及吴文俊人工智能科学技术奖。新译科技目前拥有近百人的团队,核心技术研发人员主要在清华大学自然语言处理研究中心,澳门团队主要开发机器翻译的各个衍生品,深圳团队做自然语言处理底层设计,北京团队负责前端、产品和销售。新译科技未来将会着力提升限定性神经网络翻译技术、增强交互式辅助翻译水平、提高语义翻译的技术、改进自动修正技术提高后编译能力水平。
苏州思必驰信息科技有限公司
企业简介
思必驰成立于2007年,是研发智能语音交互技术的智能语音服务商,为企业和开发者提供自然语言交互解决方案,包括DUI开放平台、企业级智能服务、人机对话操作系统、人工智能芯片模组等。思必驰已于2018年5月完成由元禾控股、中民投领投,深创投、富士康、联发科跟投的5亿元人民币D轮融资。
产品研发
(1)语音交互
思必驰为用户提供移动端的语音交互技术支持,适用于Android、iOS等系统,可应用于语音助手、智能客服、地图导航等领域,具备语音唤醒、识别、合成以及语义理解等多种能力。在智能车载场景中,思必驰为用户提供“云+端”解决方案,利用智能语音操作系统控制智能后视镜、智能车机、便携式导航仪等设施,实现双手解放。
(2)智能家居
思必驰拥有软硬一体化的智能家居解决方案,为智能家居产品提供高性能、低成本的声源定位、个性唤醒、语音识别、语义理解、对话交互等功能,使家居产品可适应近场、远场的语音交互,方便用户控制,提高家居产品的智能化水平。
竞争优势
思必驰拥有自主知识产权的人机对话、语音识别、语义理解、语音合成、声纹识别等综合语音技术,其智能人机对话技术突破了传统语音技术不能很好支持复杂语音交互功能的难题,使语音输入不再局限于呆板简单的句式,在复杂环境和自然口语交流的情况下,能保证优异的语音分析精度和稳健的人机对话性能。其智能人机对话技术能够提供基于不完整或不准确的语音识别结果进行智能语义推理,通过针对特定领域特定应用需求、对话目标、对话行为、对话状态和对话上下文的统计建模,解决传统系统设计中规则无法覆盖实际对话状态的问题,同时增强系统对于错误识别结果和错误推理结果的自适应性,大幅度提升用户的语音交互体验。
思必驰语音识别技术解决了大量的词典和语言模型的识别问题,采用了鲁棒特征提取的方法,能够有效降低噪声环境下的错误率,并用动态噪声自适应来使统一的模型适用于各种噪声环境,支持全国各地方不同口音普通话识别,在用户实际使用环境下,引擎的识别率能保持较高水准。
北京智齿博创科技有限公司
企业简介
智齿科技成立于2014年5月,是一家提供智能客服服务的互联网创业企业。智齿科技将自然语言理解、机器学习及大数据技术进行有效整合,构建了包括云呼叫中心、智能机器人客服、人工在线客服、工单系统、智齿360、智能外呼机器人在内的智能全客服平台和智能外呼平台,为企业用户提供多样化的智能客服服务,为用户解决移动时代、体验经济环境下传统客服所不能解决的企业客服痛点。智齿科技于2018年4月获得由云启资本领投,耀途资本、上海原龙投资和博雅盛景等机构跟投的1.5亿元人民币B+轮融资。
产品研发
智齿科技推出云呼叫中心、客服机器人、在线客服、工单系统、外呼机器人等SaaS客服产品,为金融、教育、电商、企服、生活消费、互娱、政企等领域的客户提供一站式客服解决方案,同时构建了多元丰富的统计分析报表,帮助企业用户分析顾客关注焦点、营销活动结果验收、客服人工工作量及效率,为客服主管提供数据支撑,辅助企业科学经营决策。
智齿客服产品支持桌面网站、移动网站、微信、微博、APP等接入方式,用户只需把代码复制到网站上即可将多平台顾客汇集于同一平台管理,操作简便。
竞争优势
智齿科技的智能客服业务行业服务经验丰富。智齿科技在26个行业构建知识图谱,其中16个行业构建了40个细分场景知识图谱,提供行业知识库及行业客服机器人问答,问答语料库内容覆盖面广,能为众多领域行业用户提供智能客服问答服务,目前智齿科技服务过的企业数量超5万家,覆盖电商、互联网金融、生活服务、企业服务、在线教育、互动娱乐等多个细分行业,包括用友、富士康、滴滴出行、趣分期、新东方、搜狐、销售易等知名企业用户。
智齿客服率先将自然语言处理技术及机器学习引入客服产品,实现精准理解用户问题并匹配最佳答案,反馈答案准确率高达98%。智齿客服支持的机器人客服与人工客服自由切换模式,可解决80%人工客服的同质化回复问题,同时机器人客服可自动组织标准答案,帮助客服人员大幅提升客服回复质量和效率。
北京搜狗科技发展有限公司
搜狗知音自然语言处理平台
凭借着搜狗互联网公司文字信息获取的天然优势以及多年来的数据和技术积累,搜狗从2012年开始布局自然语言处理领域,并于2016年推出搜狗知音自然语言处理平台。搜狗知音自然语言处理平台主要聚焦于提供模块化的产品服务以及解决方案。目前,该平台以囊括语音识别、语音合成、语音分析、机器翻译等通用模块,以便让平台用户进行自由组合,从而构建符合其行业以及业务场景的客制化解决方案。近几年,通过客户的反馈,搜狗知音自然语言平台已形成针对文体娱乐、企业服务、科研教育等领域的专有解决方案,并推出了搜狗分身,搜狗同传等泛化行业垂直领域性解决方案以加快平台用户落地脚步。目前,搜狗分身与搜狗同传在传媒、教育、金融等领域都有离散应用落地。
央视财经与搜狗合作利用搜狗知音的搜狗分身所推出的AI主播“姚小松”,是基于央视主持人姚雪松的形象和声音,用人工智能技术合成的仿真AI主播。AI主播的背后,是搜狗分身通过语音合成技术模仿真实主持人的声音,通过文本语音转化技术,实现真人般的主播发声,并结合平台上的模型优化,使唇形、面部表情等与真人完全吻合,实现主播的“克隆”。除了“姚小松”外,同样基于搜狗分身的虚拟主播不仅在传媒领域被广泛应用,还在教育、金融以及社会服务领域都有相关应用案例。
科大讯飞(002230)
科大讯飞股份有限公司成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞作为中国智能语音与人工智能产业领导者,在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。
讯飞开放自然语言处理平台
2010年科大讯飞率先对外发布讯飞开放平台,利用本身的技术及数据优势,搭建讯飞开放平台并提供相对完善的AI产品体系,提供语音识别、语音合成以及语义理解等AI技术接入。讯飞开放平台依托本身技术优势,针对不同行业以及服务场景都推出了丰富的技术模块产品与解决方案。平台不光有成熟的技术产品模块化服务(包括语音识别、语音合成、情感分析、关键字提取等),还可针对上述模块提供对应的管理软件以及硬件等一揽子服务。目前,科大讯飞不仅正在寻求通过自然语言处理平台构建覆盖该领域上、中、下游的全套解决方案,还希望该全套解决方案可以适应如健康医疗、文体娱乐、及企业服务等传统领域,从而进一步增强平台客户的粘着性。
科大讯飞利用讯飞开放平台开发语音电子病历输入系统落地上海瑞金医院,通过将自然语言处理技术与前端医生佩戴的麦克风硬件对接,在医生随身佩戴麦克风时能够分析来自医生和患者交流过程中的语音信息,自动过滤无关的闲聊语句,并将病情信息结构化的录入病例表格,正常情况下,医生问完诊,病历记录也基本完成了。基于讯飞开放平台的语音电子病历系统,总体上节省医生40%的病历书写时间。该系统输入高达1分钟400字,且系统内置百万级医学词汇,支持40种以上的标点符号的口述或自动生成。
腾讯(00700)
AI Lab是腾讯的人工智能实验室,研究领域包括计算机视觉、语音识别、自然语言处理、机器学习等。其研发的腾讯文智自然语言处理基于并行计算、分布式爬虫系统,结合独特的语义分析技术,可满足自然语言处理、转码、抽取、数据抓取等需求。
在机器翻译方面,2017年腾讯宣布翻译君上线“同声传译”新功能,用户边说边翻的需求得到满足,语音识别+NMT等技术的应用保证了边说边翻的速度与精准性。
腾讯知文自然语言处理平台
腾讯知文自然语言处理平台的初衷是试图打造服务于企业内部的智能问答平台,随着自然语言处理技术的逐步成熟,该平台也开始兼容更多模块。目前,腾讯知文平台具有三层架构,由下至上分别为:基础会话模块,分析用户闲聊、以及用户间的情感联系分析;问答系统模块,提供智能搜索以及所需的会话模型;任务导向型会话模块,包括词槽填充、多轮对话以及对话管理。上述模块与架构让腾讯知文具备了从基础到高级的智能文本处理能力,可广泛应用于多行业以及领域针对用户评论情感分析、资讯热点挖掘、电话投诉分析等场景的需求。该平台已被应用于,通讯、金融、文体娱乐等多个行业,并与多家全球500强企业展开合作。
中国银行利用腾讯知文平台构建了支持电子渠道和电话渠道全系列的智能客服系统。该系统由全媒体坐席平台、运营监控、多媒体接入与统一路由、智能工单、智能门户、智能知识库、客户之声等模块组成,将手机银行、电话银行等服务功能整合。基于腾讯知文平台本身的技术优势,对于语音、文本及视频信息进行智能处理等项服务,开发基于自然语言识别的服务机器人,并与平安金服提供的智能知识库结合,为打造下一代虚拟银行、远程银行打下基础。自动服务机器人在平安银行营业厅投产后,有效的替代了繁琐的人工服务,方便顾客自动办理。
云知声智能科技股份有限公司
云知声智能开放平台
云知声的智能开放平台,从物联网数据出发,逐步构建了符合自身用户群特点的自然语言处理开放平台。该平台高度集成语音识别、自然语言理解、语音合成等技术,以深度学习、超级计算和认知计算为基础,构建其完整的AI体系,并可有效服务物联网领域的多项应用。目前,云知声依靠其平台优势,打造基于智能开放平台的语音互动机器人服务于多个场景,包括智能医疗、智能车载、智能教育等。除此之外,云知声推出通用行业服务机器人,除依赖本身平台的自然语言处理技术外,结合仿生肢体及视觉图形技术,应用于零售营销、餐饮住宿、金融、交通出行等行业中更细化的垂直领域。对于不同行业用户更加客制化的要求,云知声开放平台借助其与计算平台的计算能力和移动互联网技术,能够实现用户与设备之间更紧密智能的人机交互,帮助传统行业实现的联网化。
云知声为儿童早教公司所开发的教育机器人“聪聪”整合了云知声智能开放平台云因识别模块以及人机交互技术。现阶段,聪聪可以实现声纹+人脸认主、声源定位+人脸跟随,情感分析等功能,实现更个性化的人机交互。同时,聪聪还依托平台的KEROS2.0系统可实现读书互动、识物互动、口语学习等高难度自然语言处理应用任务。
武汉烽火普天信息技术有限公司
武汉烽火普天Image Q大数据语义分析应用平台
烽火普天推出的Image Q互联网大数据语义分析应用平台专注中文自然语言处理和深度学习技术。其基于上述技术所构建的文本信息要素提取模块与数据挖掘模块,可适应多个行业的文本数据情报挖掘分析任务。由于武汉烽火普天的客户多为党政机关和国企,所以其Image Q平台的发展策略在注重自然语言处理模块构建的同时,更着重于信息安全与可靠性验证相关技术的发展。目前,Image Q平台的合作伙伴已覆盖中国超过半数的地区党媒,主要关注于舆情演练和媒体数据挖掘场景。与此同时,由于该平台的安全性,公共安全与安防领域的落地案例也与日俱增。
在安防领域,公安系统非结构化数据占比高且传统侦防工作高度依赖人工,案例由大量的文字描述构成,为了获取关键线索,不得不依靠人工检阅海量案卷数据。ImageQ通过挖掘业务过程中产生的非结构化文档数据中案件要素、特征及线索,从过去的案件语料中提取语义要素,然后进行语义关联,在进行深度挖掘便可应用在刑侦情报中,同时结合公安系统的大数据数据库,为侦查人员提供智能的分析手段。此类解决方案已经在湖北公安,湖南公安等多个省级公安系统得到了落地。
北京紫平方信息技术股份有限公司
紫平方语音交互智能机器人平台
紫平方自然语言处理平台的侧重点主要是在语音交互方向,并试图实现针对企业级用户的自动化解决方案。为了能够提高自身语音交互平台中对语义理解的准确度,紫平方同时也构建了不同细分行业的知识图谱,自主提升意图判断的学习能力。同时,紫平方平台还应用TTS文本转语音技术,实现全变量模拟真人发声,提升服为不同垂直场景中的合作方提供智能交互、情感问答的对话系统,有效的满足用户多元化对话的需求。目前,平台集成了完整的自然语言处理、机器学习、知识挖掘等技术,并覆盖了儿童教育、银行服务、市场营销等多个行业的众多垂直领域,以帮助用户通过前端与后台业务意图搭建客制化自然语言处理自动化解决方案。
中财讯智能科技股份有限公司基于紫平方语音交互智能机器人平台推出了智能财税机器人“i财”,是中国同类机器人中首台具有深度学习能力的人工智能财税机器人。“i财”机器人借助紫平方平台的自然语言处理模块,能够实现数据实时抓取,数据挖掘分析,基于其对文本数据的自动化处理,并可自主完成账务处理、财务状况分析、纳税风险评估、等多项人机交互任务。
阿里巴巴(09988)
阿里自然语言处理为其产品服务,在电商平台中构建知识图谱实现智能导购,同时进行全网用户兴趣挖掘,在客服场景中也运用自然语言处理技术打造机器人客服。例如蚂蚁金融智能小宝、淘宝卖家的辅助工具千牛插件等,同时进行语音识别以及后续分析。
阿里的机器翻译主要与其国家化电商的规划相联系,2017年初阿里正式上线了自主开发的神经网络翻译系统,进一步提升了其翻译质量。
图:阿里机器翻译
资料来源:千际投行,资产信息网,阿里巴巴
AliNLP自然语言处理平台
阿里巴巴为了适应自己复杂的电商生态推出了AliNLP自然语言处理平台。该平台框架可分为三层:底层是各种基础数据库;中间层包含基本的词法分析,句法分析,文档分析等基础自然语言处理技术;而上层则是针对不同行业垂直场景的大业务单元,例如智能交互,舆情监控等。同时,AliNLP自然语言处理平台还将着重发展服务于通用场景的应用服务模块,以便更好的切入传统行业领域。
淘宝网“阿里小蜜”是基于阿里巴巴的AliNLP自然语言处理平台所开发的人工智能客服。整个阿里小蜜系统由三个服务模块构成:助手服务、用户服务、聊天服务,并可根据数据与对应知识库有效自主服务于客户与商家之间。系统可通过知识图谱内容抽取以及形成开放域对话系统解决零售服务中近95%的客服用户请求。目前,阿里小蜜已替代大部分的淘宝人工客服,实现了从纯人力到智能+人力的客服场景转型。
4.7 全球主要参与者
全球参与者主要有:苹果Apple(AAPL)、谷歌Google(GOOG)、脸书Facebook(FB)、微软(MSFT)、亚马逊Amazon(AMZN)、英特尔Intel(INTC)、三星Samsung(005930.KS)、雅虎Yahoo(YHOO)、Beyond Verbal、EI Technology、Telegram(SAS)、Powerset、Inxight(SAP)、Systran(SYTN)、Autonomy(AUTN)、Metaweb、Language Weaver(SDL)等。
苹果APPLE(AAPL)
苹果公司(Apple Inc.)是美国一家高科技公司。苹果营收达到3658亿美元,由史蒂夫·乔布斯、斯蒂夫·盖瑞·沃兹尼亚克和罗纳德·杰拉尔德·韦恩(RonWayne)等人于1976年4月1日创立,并命名为美国苹果电脑公司(Apple Computer Inc.),2007年1月9日更名为苹果公司,总部位于加利福尼亚州的库比蒂诺。
苹果收购Siri、Novauris,组建基于神经网络算法的语音识别团队
2010年4月,苹果公司以1.5-2.5亿美元收购了Siri。在2013年,苹果收购了自动语音识别公司Novauris Technologies。Novauris是英国研究机构Dragon Systems旗下的附属公司,以语音听写识别著称,成立于2012年。
2014年7月,有消息称,苹果正在联系多位语音识别技术的专家,正在招聘经理、小组负责人、研究员,很可能将成立一支强大的语音识别团队,并最终取代现在的Siri技术服务商Nuance。过去几年中,苹果招聘了多名此前供职于Nuance的高层次语音技术研究员,包括前研究副总裁拉里·吉利克(Larry Gillick)、Siri的项目经理贡纳尔·艾弗曼(Gunnar Evermann)、微软语音识别项目高管亚历克斯·阿赛洛(Alex Acero)。
谷歌GOOGLE(GOOG)
谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎公司。谷歌是一家位于美国的跨国科技企业,业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。2017年12月13日,谷歌正式宣布谷歌AI中国中心(Google AI China Center)在北京成立。
2015年8月,Google联合创始人兼CEO拉里·佩奇宣布公司重组消息。他与另一位联合创始人谢尔盖·布林创办新控股公司Alphabet。Alphabet取代Google在纳斯达克上市,而Google则成为Alphabet的一部分。
Google收购多项语音识别技术专利、Say Now、Phonetic Arts
Google在2014年收购了SR Tech Group的多项语音识别相关的专利,其中包括“搜索引擎语音界面”和“修改、更新语音识别项目系统”的专利。Google一直致力于投资语音搜索技术,以期与苹果公司的Siri展开竞争。2011年,Google收购语音通信技术公司Say Now和语音合成技术Phonetic Arts。其中,Say Now创建于2005年,可以把语音通信、点对点对话、以及群组通话和社交应用整合在一起,支持的设备包括PC浏览器、智能手机乃至座机。被收购时,有1500万用户,旗下产品包括Say Now Phone,Say Now广播,Big Call以及Chit Chat等。
Google Dialogflow自然语言处理平台
DialogFlow是Google提供的自然语言处理服务平台,其前身为Api.ai,通过谷歌的深度学习技术以及谷歌云的支持,平台已构建可实现对文本语义理解,文字转化,以及文字处理等多项功能模块。目前,Dialogflow自然语言处理平台可适用于针对网站、移动应用、热门消息传递平台和物联网(IoT)设备创建对话界面的聊天机器人以及语音交互功能的开发。近几年,DialogFlow已被成为多个行业另有构建自有聊天机器人、对话个人助理等系统的自然语言处理服务供应商。
荷兰皇家航空公司利用Dialogflow自然语言处理服务平台的语音与文字文本处理推出了自己在Facebook Messenger上的首个预定机器人——Blue Bot。Blue Bot可基于Dialogflow的人机交互功能模块实现与潜在客户的文字聊天交流和客户需求梳理。Blue Bot还可利用文本处理模块实现信息归类,并将有价值信息直接发送至荷兰皇家航空的CRM系统。
脸书Facebook(FB)
Facebook(脸书)公司创立于2004年2月4日,总部位于美国加利福尼亚州门洛帕克。2012年3月6日发布Windows版桌面聊天软件Facebook Messenger。主要创始人马克·扎克伯格(Mark Zuckerberg)。Facebook是世界排名领先的照片分享站点,截至2013年11月每天上传约3.5亿张照片。
2021年10月,扎克伯格在Facebook的Connect开发者大会上宣布,将公司名称改为“Meta”。
Facebook收购Wit.ai和Mobile Technologies
语音交互解决方案服务商Wit.ai要做的就是重写互联网的语音层,简单地在第三方App中加入几行代码来为它生成一个语音交互界面,就能把语言转化成可以操作的数据。正如移动支付公司Stripe通过几行代码就为网站解决了线上支付问题一样。Wit.ai称,它比Siri更灵敏精确,不需要开发者先期投资,或训练数据集,而且可以应用在移动应用程序(iOS、Android等平台)、穿戴设备和机器人以及几乎任何你可以想到的智能设备。被收购时,Wit.ai成立才18个月,吸引了6000多名开发者,创建的应用超过了数百个。此次收购有助于提高Facebook整体对自然语言的理解能力。
除了Wit.ai,Facebook还在2013年收购了语音识别公司Mobile Technologies。MT创建于2001年,在2009年推出了Jibbigo应用,允许用户在25种语言中进行选择,使用一种语言进行语音片段录制或文本输入,然后将翻译显示在屏幕上,根据你选择的语言大声读出来。
亚马逊Amazon(AMZN)
亚马逊公司(Amazon,简称亚马逊;NASDAQ:AMZN),是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图。是网络上最早开始经营电子商务的公司之一,亚马逊成立于1994年,一开始只经营网络的书籍销售业务,现在则扩及了范围相当广的其他产品,已成为全球商品品种最多的网上零售商和全球第二大互联网企业,在公司名下,也包括了Alexa Internet、a9、lab126、和互联网电影数据库(Internet Movie Database,IMDB)等子公司。
Amazon收购语Yap、Evi、Ivona
2011年,Amazon收购语音识别公司Yap。Yap成立于2006年,主要提供语音转文本服务,代表应用是Yap语音邮件。利用Yap的技术亚马逊建立自己的语音技术平台,服务于亚马逊的网上搜索和客户服务等领域。
2012年,Amazon收购语音技术公司Evi。Evi是一家应该创业公司,原名True Knowledge,在获得了Nuance语音识别技术的授权后,基于自主的自然语言搜索引擎开发了一款与苹果Siri类似的应用。
2013年,Amazon收购语音技术公司Ivona Software。Ivona是一家波兰公司,是Nuance的竞争对手,主要做文本语音转换,被收购时支持17种语言44种声音。
Amazon Alexa自然语言处理平台
Alexa是亚马逊为了支持其智能音箱硬件推出的开放性自然语言处理平台,Alexa框架分为三部分:Alexa平台框架是亚马逊的语音服务框架,是整个Alexa最核心的部分;Alexa Skill Kit作为亚马逊提供给语音服务应用开发者的工具包,能够吸引个体开发者对Alexa的功能模块进行补充;Alexa Voice Service需要集成在物联网终端设备中,是亚马逊提供给终端设备的服务。Alexa通过自动会话识别和自然语言理解引擎,可以对语音请求及时识别和回应,目前,Alexa已经与多家通讯、电子消费产品厂商达成合作,将使用其自然语言处理平台进行相关产品开发。
利用Alexa平台及与其搭配的硬件设施,amazon推出了一系列语音处理相关的附属功能,针对多个行业的不同垂直领域。Alexa for business是Alexa在企业服务领域的一个典型应用,主要针对企业会议场景。Energy BBDO公司购买Alexa for business服务后,通过智能语音识别及人机交互系统实现了公司会议全场景自动化、智能化。系统能够更直接的预定会议室并启动电话会议,通过分析获取的环境声音信息自动取消已预订但无人参加的会议室。同时在企业会议期间,alexa for business还可以对会议内容进行记录整理。目前。这一系统已经在多家企业落地,例如Energy BBDO和Gildewell Dental等。
第五章 未来趋势
多模态语言处理融合
深度学习神经网络的引进使得语言模态、文字模态、图像模态、视频模态的编码和解码可在同一个深度学习框架下统一运行。不同模态的对象可被同一模式编码与解码,同一模式的编码与解码即可使不同模态对象随意融合,各种语言分析的结果可与语音分析、图像分析结果结合应用,产生更多的产品应用模式,如科大讯飞推出的语音交互系统AIUI,融合了语音技术和语义理解技术,使智能助手如同人类大脑能多功能区域协同工作,提升了应用的智能化水平以及人机交互效果。
机器的各方面智能不应是相互独立的,应像人类大脑般同时处理听觉、视觉以及触觉认知与感知信息,未来的自然语言处理技术必定与语音处理技术、图像处理技术等人工智能技术相互融合,赋予AI高度智能。
自然语言处理应用逐渐成熟
随着自然语言处理技术研究的不断深入,自然语言处理应用逐步得到推广,尤其在知识图谱、机器翻译、阅读理解和智能创作等方面开始产生较成熟的应用。
知识图谱已在科研、金融、医疗、互联网服务、汽车等领域得到广泛应用。2018年以来,百度搜索引擎构建知识图谱,为用户提供全面的智能搜索服务。阿里健康与国家级医疗健康大数据平台启动建立医学知识图谱“医知鹿”,并在医疗领域逐步推广。腾讯推出医疗AI引擎“腾讯睿知”,发力智能导诊。美团通过构建生活知识图谱为用户提供智能化的生活服务。汽车之家构建汽车领域的知识图谱帮助旗下APP“家家小秘”实现图谱问答。
智能创作应用方面,百度推出人工智能写作辅助平台“创作大脑”,其语义智能纠错功能识别准确率超95%,达到大学生写作纠错能力的平均水平,能为人类作者提供良好的纠错、提取信息等辅助写作服务,提高写作者的写作效率。微软的智能助手小冰开始向作词、作曲、演唱方面发展,能辅助音乐创作者进行音乐创作。IBM推出的智能辩手曾与以色列国际辩论协会主席以及以色列国家辩论冠军进行辩论比赛,IBM智能辩手通过处理大量文本,就特定主题构建出有良好结构的演讲,清晰明了地反驳了这两位辩论对手。智能创作应用需要运用到目前业内研发的各种自然语言处理技术,是业界自然语言处理技术水平的良好体现,智能创作应用的成熟表现,有效地反映了业内自然语言处理技术良好的发展成果。