「观潮」百度NLP十年:语言与知识全布局,重磅推出5款产品新发布、2大计划

简介: 深度学习潮起仿佛还在昨天,百度 NLP 已走过了十年。

人工智能是一门新兴学科吗?当然不是。但能让 AI 技术被上亿人每天使用到的,一定是走在最前端的公司。

在国内,百度就是这样一家公司。在人工智能最具挑战性的方向——自然语言处理(NLP)上,百度一直拥有着技术优势。8 月 25 日,在百度语言与知识技术峰会上,百度 CTO 王海峰向我们分享了这家公司在 NLP 领域的技术创新和产业实践,同时也展望了未来的发展趋势。

在这个七夕,百度还向我们发布了不少 NLP「爆款」。

「语言与知识技术是人工智能认知能力的核心。2010 年,百度成立自然语言处理部,十年间不断发展壮大,」王海峰表示,「在百度语言与知识技术的布局和发展中,我们始终注意把握两个趋势,即技术发展趋势和产业发展的趋势,并力争引领趋势。」

微信图片_20211204112131.jpg


随后,王海峰全面分享了百度语言与知识技术的完整布局和最新成果。

十年坚守,一路领先

经过了十余年的发展,百度已形成了完整的 NLP 技术布局,包括知识图谱、语言理解与生成技术,以及应用系统等。知识图谱包含概念图谱、实体图谱等不同类型的图谱,以及知识挖掘、索引、存储到知识推理计算的一整套知识相关的技术和平台。语言理解包括基础的词法分析和句法分析技术,也包括篇章理解、对话理解、情感分析和语义理解等技术。而语言生成则覆盖了从句子、摘要到篇章各种类型的生成技术,以及语言风格转换技术。

全球最大知识图谱

首先是知识图谱。知识图谱是以结构化的形式描述真实世界中的实体、属性、关系等,是机器认知世界的重要基础。百度很早看到了知识图谱蕴含的潜力,王海峰等人也在自然语言处理部成立之后不久就敲定了在知识图谱技术上的研发投入。2013 年,百度 NLP 就已经开发出了垂类知识图谱。

知识图谱的搭建依赖大量数据,而百度搜索引擎所蕴含的多源异构大规模数据为知识图谱的发展提供了天然土壤。此外,百度还创建了一整套构建知识图谱的方法,包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术以及融合多源异构数据的知识补全和知识挖掘技术。

基于这些技术,百度创建了世界上最大规模的知识图谱。这个知识图谱拥有超过 50 亿实体和 5500 亿个事实。

微信图片_20211204112135.jpg


除了在百度搜索等各类产品中的使用之外,百度的知识图谱还开放给金融、能源、媒体、政务、教育、司法等各行各业使用,每天的调用量已超过 400 亿次。

语言理解领跑全球 NLP 领域

有了知识之后,下一个问题就是如何基于知识实现语言理解的增强。

首先是基础的语义表示。百度提出的知识增强语义理解框架 ERNIE 以知识增强和持续学习为核心创新点,在深度学习的基础上融入了知识,通过持续学习技术不断吸收海量数据中的词汇、结构、语义等方面的知识。在最具影响力的 NLP 评测基准 GLUE 上,ERNIE 在 10 个任务中的平均得分首次突破 90,刷新了榜单最高分,超越了人类水平。

再来看持续学习的效果。在基线系统的基础上,百度通过持续学习机制为 ERNIE 系统增加了百科知识、对话知识、篇章结构知识等,使得模型性能得以持续提升。

微信图片_20211204112138.jpg


有了知识图谱和语义表示之后,下一步就可以做语言理解。以下图红框中一句话为例,如何利用这段话推断出「但使龙城飞将在,不教胡马度阴山」这首诗的作者?这段话包含两个名字(「李广」和「王昌龄」),如果随机选择一个作为答案,正确率只有 50%。为了找到正确答案,百度 NLP 将知识作为背景信息融入文本语义表示,增强了模型的语义推理能力。这项阅读理解技术在 EMNLP-MRQA 2019 评测中获得冠军,取得了 10 项任务的第一名。

微信图片_20211204112141.jpg


除了文本阅读理解之外,对话可能是更为常见的一种自然语言理解任务。如何做好对话理解呢?百度 NLP 提出的方法是:先从大规模跨任务对话知识中学习通用的语义表示,再利用小样本学习快速提高新任务的对话理解能力。小样本学习可以解决新领域语料数据不足的难题。

微信图片_20211204112144.jpg


人认知世界的时候不仅仅是用自然语言,往往是多模态的语音、视觉、语言,各种信号都会有输入。因此,百度 NLP 的研究也从自然语言扩展到跨模态的语义理解。突破跨模态语义理解技术面临两大难题:一是不同模态的信息相互独立,彼此缺乏关联;二是不同模态的信息异构,语义空间难以融合。

针对这些难题,百度 NLP 提出了知识增强的跨模态深度语义理解方法,一是从多源异构大数据中构建大规模知识图谱,作为关联跨模态信息的桥梁;二是语言可以描述不同模态信息的语义,通过知识增强的自然语言语义表示方法,解决不同模态语义空间的融合表示难题,从而突破跨模态语义理解的技术瓶颈。

这些技术突破为人们接触最多的百度搜索引擎带来了很多变化。「传统的搜索引擎通过关键词进行简单的需求理解,其核心是排序。而近年来,百度搜索已经完全进化成了智能搜索引擎。」王海峰说道。

现在,你的输入不仅可以是一个词、一句话,也可以是语音、图片。这涉及到语言理解和跨模态理解,还需要将互联网上大量的内容与其连接起来,而搜索结果的排序现在也是基于深度学习和语义表示融合的方法。

在结果的呈现上,很多时候搜索引擎给出的答案图文并茂,这背后则是知识图谱技术的支撑。

语义理解之外,最近 NLP 领域发展较快的方向是语言生成。基于预训练模型等技术,百度提出了基于多流机制的语言生成预训练方法,兼顾词、短语等不同粒度的语义信息,显著提升了生成效果。百度也探索了多文档摘要生成,通过图结构语义表示,引入篇章知识,新的模型解决了跨文档领域关系建模难题。在单文档和多文档摘要上,都取得了很大的效果提升。

微信图片_20211204112148.png


从内到外的 AI 技术渗透

有了知识、语言理解和生成,我们就可以实现自然的人机对话。在基于知识的对话框架下,基于知识,理解对话意图,规划对话路径。同时,基于用户的反馈,机器可以学习和积累知识,不断提高对话的体验和效率;百度提出了知识图谱驱动的对话控制技术,利用知识图谱提供的语义内容和关联信息,帮助对话系统自动规划话题路径,知识之间的关联使得话题可以自然切换,显著提高对话流畅度和逻辑性。

在对话生成方面,百度研发了首个基于隐空间的大规模开放域对话模型,借助隐空间建模不同的对话回复方式,在对话合理性、内容丰富度、吸引力等方面效果突出,中英文效果上都超越了业内最佳的模型和系统。

「在基于知识的对话框架里,我们实现了在线交互学习,通过主动向用户发起交互,机器可以利用用户的反馈学习新知识,持续优化对话效果,」王海峰说,「整合上述技术,我们研制了智能对话定制与服务平台,可以帮助开发者高效构建智能对话系统,实现规模化应用。」

人工智能和 NLP 的经典难题——翻译问题,百度也在不断打磨。

百度自 2010 年开始研发大规模互联网机器翻译,在大规模翻译知识获取、翻译模型、多语言翻译、同声传译等方面创新突破,研发了领先的互联网翻译系统,率先上线互联网神经网络机器翻译,实现了机器翻译的大规模产业化应用。在机器翻译技术方面,百度提出了多智能体联合学习等多项创新技术,效果领先,并在国际评测中获得第一。

AI 同声传译方面,百度首次提出了基于语义单元的同传模型,结合全局话题及上下文信息进行翻译,实现了高质量低延时的同声传译系统,达到了与人类翻译相当的水平。针对很多语种数据稀缺的问题,百度提出了稀缺语种分组混合训练算法和多语言联合编码框架,实现了 200 多种语言之间的翻译。截至目前,百度的翻译系统已支持 200 多种语言,每天响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用。

「复杂知识表示和快速构建技术,知识与深度学习进一步的融合,融合感知与认知的跨模态语义理解技术,模型可解释性和鲁棒性等方面,仍有很多技术难题需要研究和解决,」王海峰表示。「但我们对未来充满信心,百度会继续探索让机器掌握知识、理解语言、拥有智能的能力。」

5 款产品新发布、2 大计划

除了这些技术的总结和展望之外,在这次活动中,百度还一口气发布了文心、TextMind、AI 同传会议解决方案 3 款新产品,智能创作平台面向媒体的 3 个场景方案,智能对话定制与服务平台 UNIT 的 3 项全新升级以及数据共建和算力共享计划。

微信图片_20211204112152.jpg


语义理解技术与平台「文心」

首先是 NLP 的核心语义理解。目前使用机器做文本处理的需求广泛存在,通用算法 API 已无法满足一些场景,而传统深度学习处理特定任务的方法则需要专业人员花费大量时间打造。文心基于深度学习平台飞桨打造,其目标是帮助企业开发者更低成本、更方便地将最新的语义理解技术应用于自己的场景。

今天所说的「文心」,「是以刷新各项 NLP 任务记录的 ERNIE 核心技术为依托,集成优秀的预训练模型、全面的 NLP 算法集、端到端开发套件和平台,提供一站式 NLP 开发与服务。」百度集团副总裁吴甜表示。

使用这个工具有多方便?吴甜现场以一个情感分析任务为例,将标注好的 100 条商品评论倾向性数据导入到平台(文心也提供智能标注能力),随后选择预训练模型和算法,点击任务提交,模型开始训练。训练结束后,平台会对模型效果进行自动评估。最后,训练好的模型可一键发布,开发者可通过 API 服务直接进行调用。

微信图片_20211204112156.jpg


文心全面降低 NLP 定制开发成本,将减少开发者 90% 数据标注量、90% 算力投入、85% 模型开发时长。

百度表示,文心在各类真实场景中淬炼,已具备领先的工业级应用实力。目前,文心广泛用于百度产品中,累计支持业界开发者超过 2 万名,应用场景覆盖金融、通信、教育、电商等各行各业,显著提升企业 NLP 应用效果和效率。
智能文档分析平台 TextMind

有可供开发定制模型的平台,也有普通人直接可以上手的 AI 办公套件。百度发布的 TextMind 是一款企业文档分析平台,目前已提供包括文档解析、文档比对、文档审核在内的一站式解决方案。

微信图片_20211204112200.jpg


这款工具的特点简单说来就是「多快好省」:它支持多达 20 类文档、6 种格式;可以让之前需要 3-5 个工作日的工作 1 分钟完成;预置文档解析能力,企业开箱即用,实现零门槛定制;在文档规范化解析应用之后,公司相应的人力成本可以降低 80% 以上。

除了语言理解,还有可以生成内容的产品。2019 年初,百度智能创作平台上线,目前在媒体等行业已有很多应用。本次平台的升级面向媒体推出 3 个场景方案,可以让 AI 帮媒体人更好地进行创作。

智能创作平台

此前,百度的智能创作平台已具备丰富的辅助创作和自动创作能力,广泛服务于内容创作机构与个人。在上线之后的 4 个多月里,图文转视频功能已被 7000 多家用户使用,自动创作短视频超过 15 万条,相当于一个人 100 年的工作量。一年多以来,AI 的自动创作文章也已累计超过 200 万篇。

具体来说,百度的创作工具已得到了 20 多家媒体的应用,包括人民日报,央视网等。在合作的过程中,百度积累了更多经验,本次推出的新版本包含智能策划、智能采编和智能审校 3 大场景方案。

微信图片_20211204112204.jpg


智能对话定制与服务平台 UNIT

对话方面,智能对话定制与服务平台 UNIT 推出三大升级,进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。

微信图片_20211204112207.jpg


UNIT 任务式对话理解,通过升级了小样本意图理解能力,并新增了词槽值口语化同义词的自动推荐、词槽修饰关系的自动识别,数据标注成本进一步降低了 30% 以上。

表格问答能力,让开发者只需要上传业务数据表格,「只需 1 分钟的自动分析,UNIT 生成的问答机器人就可以准确回答大部分事实型问题。再进行 1 小时左右的人工调优,问答机器人可以达到以往至少通过 2 周人工整理 FAQ 建设才能达到的问答系统水平。」吴甜说道。UNIT 不仅集成了业界领先的通用对话技术 PLATO,还推出新一代融合任务式对话和通用对话的引擎,让对话系统不仅干练办事,还能顺畅交互。

AI 同传会议解决方案

与其他公司需要一些专业设备的方式不同,百度的 AI 同传可以让你只用一台电脑,一部手机,就快速搭建起一套同传服务。

「无论线上远程会议室还是线下会议,主题演讲还是多人讨论,使用百度的解决方案,每一场会议都能做到让人彼此听懂,」吴甜介绍道。「在邀测期间,这项技术已经支持了上百场会议,覆盖数十个领域,是一套经过了实践检验、成熟可靠的解决方案。」

在会议的每一个环节,百度的服务都不缺席。在会议开始前,百度同传可以根据会议涉及的特定领域进行术语定制,以应对专业议题中独有的释义,提高准确度。在会议中,百度的工具支持双语字幕投屏和手机边听边看。而且在正在进行的讲话中,人们也可以随时进行术语释义修改,结果实时生效。在会议结束后,系统还会自动生成会议记录,并保存到网盘中。

微信图片_20211204112210.jpg


百度不仅提供成型的工具,也欢迎开发者在算法等组件的基础上自行开发——AI 同传中使用的技术,已经同步面向所有人开放。

数据共建与算力共享计划
除产品新发布之外,百度技术委员会主席吴华在峰会上公布了千言数据共建计划和百度语言与知识算力共享计划。

微信图片_20211204112214.jpg


百度联合中国计算机学会、中国中文信息学会发起全球最大中文自然语言处理数据共建计划——千言,解决数据稀缺问题。千言一期由来自国内 11 家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等 7 大任务,20 余个中文开源数据集。百度技术委员会主席吴华表示,“我们计划在未来 3 年,面向 20 多个任务,收集和建设不少于 100 个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”

吴华还发布了百度语言与知识技术算力助力计划,通过百度 AI STUDIO 平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。

百度 NLP 强大的技术,离不开过硬的人才支撑。在这十多年的时间里,百度 NLP 聚集了一大批兼具扎实技术实力和实践经验的 AI 人才。在这次活动中,百度首次向业内介绍了这家公司 NLP 十年的「代表人物」。

百度 NLP 十年十人

2010 年 1 月,自然语言处理领域知名专家王海峰博士加盟百度,成立了「自然语言处理部」。「立足百度,扎根中国,胸怀世界,成为有丰富产出及广泛影响力的国际一流自然语言处理研发团队」是当时立下的愿景。

十年征程,百度语言与知识技术发展历程中培养、吸引了大量全球顶尖人才。会上,百度推出以王海峰为代表的百度 NLP“十年十人”,他们是:

  • 王海峰,百度首席技术官,ACL 主席(2013),AACL 创始主席,ACL Fellow,中国中文信息学会副理事长。
  • Kenneth Church,Baidu Research Fellow,ACL 主席(2012),ACL Fellow,EMNLP 创始人。
  • 吕雅娟,百度高级科学家知识图谱技术负责人、中国计算机学会中文信息技术专委会副主任(2015-2019)。
  • 吴华,百度技术委员会主席,ACL Program Chair(2014)。
  • 黄亮,百度杰出科学家、IDL(美国)主任,ACL Area Chair (2012, 2014, 2018, 2019)。
  • 吴甜,百度集团副总裁。
  • 赵世奇,百度 MEG 用户产品策略平台负责人,ACL 秘书长(2016-2020)。
  • 田浩,百度研究院首席架构师。
  • 何中军,百度人工智能技术委员会主席。
  • 于佃海,百度飞桨平台总架构师。


微信图片_20211204112219.jpg


十年坚守,他们坚持技术信仰,勇攀技术高峰,致力于让机器掌握知识、理解语言、拥有智能,更好地服务于人们的生产、生活。以他们为代表的百度语言与知识技术团队取得了丰硕的成果,获得包括国家科技进步奖在内的 20 多个奖项,30 多项国际竞赛冠军,发表学术论文超过 300 篇,申请专利 2000 多项。「十年来,我们始终如一,用技术上的持续突破创新和应用上的硕果累累,践行了我们的使命,实现了我们的愿景。」王海峰表示。

让我们期待百度大脑语言与知识能力带来更多惊喜,为技术和社会进步做出更大贡献。

相关文章
|
5月前
|
存储 Java
百度搜索:蓝易云【Java语言之float、double内存存储方式】
由于使用IEEE 754标准进行存储,float和double类型可以表示非常大或非常小的浮点数,并且具有一定的精度。然而,由于浮点数的特性,它们在进行精确计算时可能会存在舍入误差。在编写Java程序时,需要注意使
59 0
|
1月前
|
人工智能 自然语言处理
自然语言处理:电脑如何理解我们的语言?
自然语言处理:电脑如何理解我们的语言?
26 1
|
5月前
|
自然语言处理
对于NLP自学习平台的使用,你需要首先开通自然语言服务,然后才能购买和使用NLP自学习平台的各类产品
对于NLP自学习平台的使用,你需要首先开通自然语言服务,然后才能购买和使用NLP自学习平台的各类产品
85 1
|
5月前
|
存储 机器学习/深度学习 人工智能
5个优质免费自然语言处理学习资源 | 语言技术导航
5个优质免费自然语言处理学习资源 | 语言技术导航
92 1
|
5月前
|
开发工具
百度搜索:蓝易云【Debian12.0.0更换系统语言中文到英文教程。】
请注意,更改系统语言可能需要一些时间进行重新配置和下载语言相关的文件。在执行这些步骤之前,请确保已备份重要的数据和配置文件,以防万一需要恢复到先前的设置。
66 0
|
9月前
|
对象存储 ice Perl
50【软件基础】百度翻译的语言代码
阿拉伯语&ara 爱尔兰语&gle
55 0
|
10月前
|
自然语言处理 API 开发工具
百度语言处理应用技术API:NLP开发SDK的简单调用
百度语言处理应用技术API:NLP开发SDK的简单调用
64 0
|
12月前
|
机器学习/深度学习 自然语言处理 分布式计算
帮你卷赢同行!2023年顶级NLP技能、框架、平台和语言汇总
帮你卷赢同行!2023年顶级NLP技能、框架、平台和语言汇总
|
人工智能 自然语言处理 算法
NLP自学习平台产品评测详细版
NLP自学习平台产品评测详细版
NLP自学习平台产品评测详细版
|
机器学习/深度学习 人工智能 自然语言处理
AI:2020年6月22日北京智源大会演讲分享之《语音与自然语言处理》09:10-09:40 Christopher 教授《基于深度上下文词表征的语言结构的发现》
AI:2020年6月22日北京智源大会演讲分享之《语音与自然语言处理》09:10-09:40 Christopher 教授《基于深度上下文词表征的语言结构的发现》
AI:2020年6月22日北京智源大会演讲分享之《语音与自然语言处理》09:10-09:40 Christopher 教授《基于深度上下文词表征的语言结构的发现》