达摩院 NLP 团队及成果介绍|学习笔记

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 快速学习达摩院 NLP 团队及成果介绍

开发者学堂课程【达摩院自然语言处理 NLP 技术和应用:达摩院 NLP 团队及成果介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/41/detail/952


达摩院 NLP 团队及成果介绍


达摩院- NLP 团队介绍

在阿里有一句远景:让天下没有难做的生意。为了更好的实现这个远大的理想,阿里巴巴自然语言技术赋予了自己使命。

首先,构建阿里巴巴自然语言技术体系,支持阿里经济体(新零售、金融、物流、娱乐、旅行等)语言技术和应用;第二,创新自然语言技术,探索未来智能;第三,赋能阿里巴巴合作者,发展普惠自然语言技术。

目前与一些高校进行了合作,希望大家能够一起创新自然语言技术,在更多的行业里体现自然语言技术的能力。

1.团队与成果

·达摩院 NLP 技术团队目前大概有100+名研究人员,35%+博士学历(如 Berkeley , CMU , Princeton ),多名美国著名大学终身教授和国内外著名公司研究所研究员,分布在三个国家,六个地区

·全球化研究团队:杭州、北京、西雅图、硅谷、纽约、新加坡

在达摩院 NLP 技术团队成立开始到现在,我们在多个国际化平台的比赛中获得了不错的成绩,例如:

·2016年 ACM CIKM Cup 个性化电商搜索国际竞赛 No .1

·2017年中文语法错误自动诊断大赛三个 level 中全面夺得冠军

·2017年美国标准计量局信息抽取英文实体分类比赛 No .1

·2018年史上首次在著名 SQuAD 机器阅读理解评比中精确阅读超越人类结果

·2018年国际语义理解评测大会上,事件抽取、语义抽取、上下位词挖据等三个项目上 No .1

·2018年由中国司法大数据研究院举办的法研杯的刑期预测中获得第一名

·2018年 WMT 国际机器翻译大赛,5个语向世界第一

2.NLP 技术/产品

image.png

在底层有 NLP 基础的能力,上面是技术,最上层是 NLP 的应用。

首先看 NLP 的基础部分,分为词法分析、句法分析、语义分析、文本分析、深度模型。

词法分析:中英分词/词性、多领域分词/词性、小语种分词/词性、可定制实体关系发现;句法分析:依存句法分析、成分句法分析、语法纠错;

语义分析:词义消歧、语义角色标注、语义关系发现;文本分析:聚类/分类、事件分析/挖掘、多领域文本反垃圾、多视角情感分析;深度模型: Word2 Vec 、 ELMO 、 C-DSSM 。

在 NLP 技术上,我们覆盖了内容搜索、内容推荐、用户评价分析、问答、阅读理解、内容监控、社交媒体分析、对话系统、情感分析等等。

在 NLP 应用中,有搜索、推荐、客服、翻译、广告、舆情监控、物流、金融、智能人机交互等等。

基于我们支持这么多的业务,我们呈现了几个平台。

·AliNLP 平台:涵盖了多语言的 NLP 核心数据收集处理技术,词法、句法、语义、文本分析的多语言基础算法和基于深度学习的文本向量表示等。全面支持几乎所有阿里的重要业务线,每日活跃业务方600+,每日调用2万亿+次

·NLP 自学习平台:提供了规范的流程,面向低算法基础用户,提供 NLP 行业自适应的标注、训练和服务平台,仅需要标注和上传适当的文档数据,即可通过平台使用优质的 NLP 算法模型,灰度一个月,目前云上试用客户达到400+,模型使用超过200+

·文本反垃圾平台:拥有7个大类,21个小类的敏感信息识别能力,定制化了小说、通信、评论、论坛、游戏等场景化的垃圾识别的解决方案,目前完成了阿里通信、商品评论、商品鉴黄、阿里文学、云盾、咪咕阅读和趣头条等内外部的对接

·阿里翻译平台:服务于跨境电商和国际化社交两大业务场景,承接来自阿里巴巴国际站、全球速卖通、 Lazada 、天猫国际、淘宝海外、支付宝、阿里云、钉钉、飞猪等集团内外的翻译需求。

支持20+语言的自动识别,60+语种对的翻译,日均调用量10亿+次

除了通用翻译能力,还有创新翻译能力,包括语音翻译、图片翻译、多媒体翻译,在钉钉的翻译中可以做到实时沟通,实现语种的自动识别,实现了自动语料的获取,实现了全球化知识库、众包平台、质量自动检测等等。

image.png

目前我们已经支持了74个业务方,170多个场景,日均10亿的调用量,27个领域;我们有大规模无监督/半监督语料抓取平台,基于神经网络的机器翻译引擎,人机互助众包翻译/标注平台;支持了70+亿双语语料,800+亿单语语料,21个语种,64个语言方向;支持多领域的翻译能力:电商领域翻译最强,覆盖新闻、社交、科技、医疗、金融等多个方面;有工业级的高级性能引擎:日均调用10亿次,全球化部署,稳定性达到99.99%;还有创新技术:在多个大赛中获得了第一,在2019年浙江省科技进步二等奖。

除了阿里翻译,我们在其他场景也有不错的输出。

image.png

信息抽取,目前只是对内的一些赋能,例如合同抽取,抽取准确率提升超过10%。在舆情这块,目前支持集团内30+的业务场景,日评测调用量80亿次。

问答我们高效跨领域机器阅读理解:高效赋能店小蜜等场景,机器阅读理解+定制化干预:提供了客户干预的机制,提供了同意灵活问答产品形式,而且目前我们支持了国际化客服。

公共安全,地址信息管理做到了“一标三实”的基础,做文本地址的抽取、纠错、归一、映射,在人物事件关系图谱这块挖掘了重要的实体、关系,做自动化时间、推理等智能技术。

智能司法,我们做到自动审判、类案推送、司法信息的抽取/总结等等。

智能医疗,我们很好的做了医疗病历的自动质检,做医疗知识信息系统的构建,知识图谱的建立等等。

以上是对 NLP 团队做了一个大致介绍。

后面三部分会从技术线和技术在行业上的具体落地进行分别阐述。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
139 1
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
如何评价深度学习在自然语言处理、计算机视觉等领域的应用成果?
【5月更文挑战第3天】如何评价深度学习在自然语言处理、计算机视觉等领域的应用成果?
113 6
|
自然语言处理
NLP学习笔记(七) BERT简明介绍 下
NLP学习笔记(七) BERT简明介绍
188 0
NLP学习笔记(七) BERT简明介绍 下
|
机器学习/深度学习 自然语言处理 资源调度
NLP学习笔记(二) LSTM基本介绍
NLP学习笔记(二) LSTM基本介绍
201 0
NLP学习笔记(二) LSTM基本介绍
|
自然语言处理 算法
NLP学习笔记(十) 分词(下)
NLP学习笔记(十) 分词(下)
172 0
|
机器学习/深度学习 自然语言处理 算法
NLP学习笔记(九) 分词(上)
NLP学习笔记(九) 分词(上)
80 0
|
机器学习/深度学习 自然语言处理
NLP学习笔记(八) GPT简明介绍 下
NLP学习笔记(八) GPT简明介绍
162 0
|
自然语言处理
NLP学习笔记(八) GPT简明介绍 上
NLP学习笔记(八) GPT简明介绍
154 0
|
机器学习/深度学习 自然语言处理
NLP学习笔记(七) BERT简明介绍 上
NLP学习笔记(七) BERT简明介绍
143 0
|
机器学习/深度学习 自然语言处理 计算机视觉
NLP学习笔记(六) Transformer简明介绍
NLP学习笔记(六) Transformer简明介绍
190 0
下一篇
DataWorks