自然语言处理技术及行业应用案例

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 本文简单介绍了阿里云NLP技术平台中几个关键的点,如阿里目前正在做国际化,目前包含的语种从东南亚语种,西班牙语种,正扩展到欧洲语种。除此之外阿里NLP还在做行业级应用,包括在城市管理,医疗领域中已经推出了很多应用产品。
本文简单介绍了阿里云NLP技术平台中几个关键的点,如阿里目前正在做国际化,目前包含的语种从东南亚语种,西班牙语种,正扩展到欧洲语种。除此之外阿里NLP还在做行业级应用,包括在城市管理,医疗领域中已经推出了很多应用产品。

演讲嘉宾简介:
琳嫣,阿里云高级算法专家。博士毕业于德国萨尔大学,研究方向为词汇语义的歧义性,博士成果曾发表在Computational Linguistics期刊,以及ACL,EMNLP,NAACL,EACL,COLING等学术会议上。毕业后先后就职于微软奥斯陆,法国国立研究所LIMSI-CNRS,以及百度北京。入职阿里以来,主要做自然语言处理基础工作,包括分词、词性、实体、信息抽取以及知识库构建。同时也负责多语言处理基础的国际化工作。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、我们在干什么?
二、阿里云NLP技术平台
三、产品探索


一、我们在干什么?
人类语言非常丰富,NLP想做的就是在比较丰富的人类语言之中和机器语言做一个桥梁,让处理的信息成为机器能够理解的表示形式。这里介绍两个比较主流的流派,一个我们称作为统计表示,一个基于统计信息的表示方式。更传统一点的称为符号表示,更通俗讲就是早年做数据库时候有一些关键数据库,图谱信息,做的时候写一些推理,规则解释语言。统计表示就更black box一点,它有输入输出,那么中间具体是什么样的过程就比较难以控制。当然符号表示数据量比较大的时候会有一些问题,统计表示在大数据领域比较powerful一些。NLP应用有问答系统,对话系统,知识表示,推理,机器翻译。问答系统是目前比较火的技术,很多产品是基于这个技术研发的。在阿里做NLP更多是从业务场景出发解决问题,也想利用这个技术驱动场景带来实际价值。

二、阿里云NLP技术平台
目前比较复杂的生态有新零售,金融,物流还有娱乐。我们优先想的是用完整的解决方案去赋能阿里商业,同时我们也会做一些相对前沿的,和学术界,Research institute做一些合作,在技术本身的前沿发展做一些探索。
下图是阿里整个NLP平台的状态,我们想把NLP本身的基础技术集合集成起来,以后有一些场景的话不用重复不断的做类似的场景,即可以沉淀技术,也可以用通用的方式给上层的应用提供支持和服务。可以理解为在盖楼的时候,我们造了很多砖头,在用的时候从我们这边取几块垒一垒可能就能得到想要的效果。
836d956faa74a8a265bba872f749b51fc7e84f3c
目前这个平台大的几个点,一个是在做国际化。大家可能听过阿里今年年会的时候有一些东南亚电商的场景,早年有俄罗斯,西班牙都会有一些阿里电商平台的推出,另外还有金融支付,物流。我们做的除了东南亚,俄罗斯的语种,还有一些欧洲语系的工作。另外我们会做行业级的应用,一个是城市管理,一个是医疗。阿里的NLP平台从技术层面有两个比较特殊的点,我们经常想去用用户的行为数据驱动整个平台技术,在学术界研究一个模型,调节参数,设计逻辑结构,但是在工业实际场景会遇到很多现实的数据问题。比如数据量很大,数据类型不同,可能医疗数据和金融都混在一起,或者说数据不干净。在工业场景下需要解决很多这样的问题,必须使用到用户行为数据。第二个场景会有多任务的学习。

NLP技术的结构
下图是整个NLP技术的总体状况,下层有很多的数据,会有专门的部门做数据。现在在新的AI技术的发展下,需要巨大的数据支撑不同的场景。比如说结构化数据,半结构化数据,人工标注的数据,特定行业的数据。在数据基础上有一些NLP基础算法,其中包含词法,句法,语义,篇章等基本的语义模块。比如说,中文的汉子都连着写的,肯定比英文或者印度,拉丁语系的语言更难分词,那首先要找到句子里面哪个短语是一组词。那对机器来说,很多问题,很多歧义会造成应用方面的瓶颈。其它的如DL-NLP是比较新的模块,因为传统的是基于语法,或者早年学语法的时候单复数统一,过去式加ed这种典型的语法系统,在NLP中会基于规则做语法系统。大数据出来之后有更数据驱动的方式就是这里提到的DL-NLP,把NLP输入问题数据进行量化,依据深度学习的功能得到数据的拟合,得到效果。当然大家可能会认为数据驱动的下一阶段是认知科学的驱动,深度学习的模型更多的去拟合无形的数据。人类的行为肯定不是数据驱动的,比如意会人与人之间的意思。
8bc931d21ab606e22c9abd2ca3208a9d8056cb43
技术平台上层会有一些应用,比如问答系统,对话系统,还有语言的生成,知识表示推理等。上层有一些业务的支持,比如广告,翻译,金融,物流,商品搜索推荐等。

用户搜索行为数据
在做工业,做技术的时候跟你当前研究技术本身会从不同的另外的角度给你新的输入,有趣的idea。我们在做分词的时候,做这方面Research的话会有一些标注数据,然后对比别的,比依赖的资源更多还是更少。但在互联网场景下,用户搜索行为数据根本就没有成本。假设有个query在淘宝里搜,它可能给你推了一句17年春季新款,然后标题就出来,那三生三十桃花就是一个语义单元。我们得到了很多这种不需要任何标注成本的有用的信息。
cfee085e1143fbdedb25d96f09a5b0e37ae4706f

三、产品探索
地址识别
这个场景非常非常的现实,尤其在城市管理。假设110报案,首先要知道你的事发地在哪儿,找到对应的门牌号,街道,这样的话可以找到离你最近的派出所出警。所以接警系统首先要对地址进行一个抽取,其次在一段对话里面找到地址片段,把边界正确的抽出来,然后做结构化的解析,告诉它在哪个城市哪个街道哪个地方发生了什么事,如果有同义的表达还需要做正规化。简单来说基本流程就是对地址做边界的识别,做标准化归一,做层次解析,告诉它发生什么事,路况,是否是商业住宅的分类,邮政编码等信息。
一个特别现实的场景就是很多公司用的传统的ERP系统,ERP系统其实是关系数据库,那么现在有更多的关系比传统的关系更复杂,比如图状结构,做一些复杂的关联。在把原始的文本结构化之后以合理的方式进行存储,之后做一些简单推理。比如A和B在数据库里面有可能没有关系,但是经过简单的推理之后可以知道一些映射关系的存在或者它们潜在的关系。

医疗数据库
下面的一个例子是一个医疗数据库,它有个很有趣的落地场景。在中国如果入院的话,主治医生是每天都要检查病历,每天要把信息完整的填一遍,比如血压血糖,还有别的指标有没有降低或提升等。医生对这些事情是有很多很多concern,这会造成写病历的时候出现很多错误,如医生疲劳,没有注意到。所以现在很多医院会雇佣一些退休的护士和其他医护人员手动检查病历,如果有问题打回来重新填写。所以医院做智能化的Motivation是非常高的,在病历进来的时候做基本的判断,看病历和事实是否符合,或者跟过往病历有没有矛盾的地方,如果有及时提示当场修改。假如说抗生素过敏这件事情不可改变,那住了十天之后病历上写的无抗生素过敏那肯定是有问题的记录。
64f44806475ba0f68b4c5ae51b46c03a860fb8bb
在做病历的时候比较关键的点。病历查重,判断病历是否存在抄袭,还有对病历质量做评估,看关键指数填写的是否合理。
000b6eb33aad339f55c599b781976e5c39c1f879

文本纠错解决方案
另外我们还做了文本纠错的方案。它是一个需求很大的事情,因为非常底层,基础。比如写英文的时候word里面都会有一些检查,语法,拼写等。中文在这方面比较少,前段时间看外国人写中文作文的例子,我们做了作文的自动识别错字,多字,少字,次序错误等,然后进行纠正。
151df456a0de8bac2089520cff45e898db813f2c

NLP国际化业务
阿里用很多的语料数据做基本模块,上层搭一些应用,这些模块会被使用到上层应用中。拿搜索模块作为例子,
6a466300b293cdc670d0ad769fc3f75313e63512
从建索引,到上层做Retrieving,或者Matching,Ranking,包括上层展示都有很多的多次处理。中间都会用到NLP基础的工具,Segmentation,TermWeight等。
a2ac6677c61a94ba88c67a5deb86864bfa91ff40
在很多商品发布的标题和最后展示的标题需不需要做refinement,或者对展示的标题做审核。
34b0420977539508406ed0aaaca47a753b662ade
在国际化业务场景中现在已经有alibaba.com,Lazada,淘宝,天猫,天猫国际。另外在语种方面主要是东南亚语,西班牙语,后续会有欧洲语种进来进行语种扩展。
4c3b410e28d61f41e0f8dd48f91cc33a1885c988

本文由云栖志愿小组董黎明整理

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,包括机器翻译、情感分析和文本生成等方面。同时,讨论了数据质量、模型复杂性和伦理问题等挑战,并提出了未来的研究方向和解决方案。通过综合分析,本文旨在为NLP领域的研究人员和从业者提供有价值的参考。
|
12天前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
2月前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
50 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在自然语言处理中的创新应用
【10月更文挑战第7天】本文将深入探讨人工智能在自然语言处理领域的最新进展,揭示AI技术如何改变我们与机器的互动方式,并展示通过实际代码示例实现的具体应用。
39 1
|
16天前
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的自然语言处理技术
【10月更文挑战第38天】在本文中,我们将深入探讨自然语言处理(NLP)技术及其在机器学习领域的应用。通过浅显易懂的语言和生动的比喻,我们将揭示NLP技术的奥秘,包括其工作原理、主要任务以及面临的挑战。此外,我们还将分享一些实用的代码示例,帮助您更好地理解和掌握这一技术。无论您是初学者还是有经验的开发者,相信您都能从本文中获得宝贵的知识和启示。
26 3
|
16天前
|
机器学习/深度学习 自然语言处理 监控
探索深度学习在自然语言处理中的应用与挑战
本文深入分析了深度学习技术在自然语言处理(NLP)领域的应用,并探讨了当前面临的主要挑战。通过案例研究,展示了如何利用神经网络模型解决文本分类、情感分析、机器翻译等任务。同时,文章也指出了数据稀疏性、模型泛化能力以及计算资源消耗等问题,并对未来的发展趋势进行了展望。
|
20天前
|
人工智能 自然语言处理 API
探索AI在自然语言处理中的应用
【10月更文挑战第34天】本文将深入探讨人工智能(AI)在自然语言处理(NLP)领域的应用,包括语音识别、机器翻译和情感分析等方面。我们将通过代码示例展示如何使用Python和相关库进行文本处理和分析,并讨论AI在NLP中的优势和挑战。
|
26天前
|
机器学习/深度学习 自然语言处理 知识图谱
GraphRAG在自然语言处理中的应用:从问答系统到文本生成
【10月更文挑战第28天】作为一名自然语言处理(NLP)和图神经网络(GNN)的研究者,我一直在探索如何将GraphRAG(Graph Retrieval-Augmented Generation)模型应用于各种NLP任务。GraphRAG结合了图检索和序列生成技术,能够有效地处理复杂的语言理解和生成任务。本文将从个人角度出发,探讨GraphRAG在构建问答系统、文本摘要、情感分析和自动文本生成等任务中的具体方法和案例研究。
52 5
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
51 1