AWS与埃默里大学合作开发基于云的NLP研究平台ELIT

简介:
本文来自AI新媒体量子位(QbitAI)

自然语言处理(NLP)的研究很多,但埃默里大学语言与信息技术发展(ELIT)团队想做的事不太一样,他们想支持大数据分析扩展的端到端NLP pipeline。

近日,埃默里NLP研究团队和AWS MXNet团队合作开发了一个基于AWS云的NLP研究平台。和其他的NLP框架不同,ELIT提供一个网页API将平台独立,研究人员可以随时随地开始大规模计算。

这篇AWS的官博将详细介绍ELIT平台,并且提供网页API的演示及NLP的可视化。

ELIT研究平台

随着机器学习应用范围的扩大,基于机器学习的NLP模型开始对计算能力有要求。虽然AWS这样的云端计算平台给研究人员提供了不受限的资源运行模型,但对云端不熟悉的研究者仍会觉得云端计算使用起来过于繁琐。

ELIT平台就是想提供NLP网页服务,让任何人通过网络连接请求使用这项服务,而无需本地安装或云计算的专业知识。

一起看看用ELIT平台做NLP任务情感分析的例子。

情感分析

在这个例子中,我们需要将每个document归类到消极、中立和积极情绪中的一种。ELIT用CNN模型分析社交媒体和影评中的数据。

CNN模型先通过叠加每个词的向量表示创建输入矩阵,之后,输入矩阵被送入卷积层和池化层,将输出与attention矩阵匹配,测量输入文档中每个n-gram的强度(本例中n=[1…5])。最后,模型将attention输出反馈给softmax层,softmax层判断文本中词语消极、中立和积极的概率。

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

演示

我们将从ELIT演示页面的屏幕截图开始:

演示页面地址为:

http://demo.elit.cloud/

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

左上角的文本框中的输入文本是:“我昨晚看了《音乐之声》,虽然这是我最喜欢的电影,但它的结局还可以更好。”

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

在右上角,有一些帮助我们单词化、分割和情感分析来自影评和Twitter的可选项。我们以影评的单词化、分割和情感分析举个例子:

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

点击“Analyze”,输入文本被发送到所选的运行NLP pipeline的ELIT服务器,并返回以下输出:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

ELIT情感可视化工具将每个句子的情绪编码成一种颜色,红色、绿色和蓝色分别代表消极、中立和积极情绪。此外,不同透明度的词代表情感含义的强烈程度:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

可以将强度等级可视化。在下面的图中,圆圈越大,表示的情感越强烈:

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

将上述两种可视化效果叠加,我们可以得到更清晰明显的图:

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

网页API

NLP的输出可被用任何语言编程的web API检索到。这是一段简单的Python代码,请求NLP输出我们示例中的输入文本。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

根据请求,ELIT需要输入原始文本并且运行的NLP pipeline、分割和电影模型的情感分析,并将输出HTTP返回。最后一行将以JSON格式输出:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

JSON输出遵循以下格式:

  • 一些文件:文件清单→[文件,…,文件]
  • 一个文件:句子列表→[语句,…,句子]
  • 一句话:一本字典的关键词是{token,offset,情感}
  • token:句子中的token列表。
  • offset:指相应的token在原始文本指示位置offset的列表。每个offset由一对(开始,结束)表示,每个文档开头offset均设置为0。
  • 情感:指(消极、中性、积极)情感指数。

这一部分的具体细节可参照ELIT官网:

https://elit.cloud/tutorial/decode/

解码框架

解码请求通过弹性负载平衡器(Elastic Load Balancer)确保其可伸缩性。一旦web API服务器接收到请求,就会将请求发送到生成的NLP输出文本的NLP服务器。

如果所请求的文本大于10 MB,NLP服务器就将输出保存到Amazon S3存储。最后,输出被发送回web API服务器,将信息存储到数据库并将NLP输出发送给用户。

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

路线图

目前,ELIT持三个NLP任务:单词化、分割和情感分析。

展望未来,在2018年第二季度,ELIT将计划支持大多数的核心NLP任务,如词性标注、形态分析、命名实体识别、依存关系语法分析、语义角色标注和指代消解。ELIT将提供一个接口训练自定义模型,项目进展的预计时间线如下:

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

参考资料

项目介绍:

https://elit.cloud/

代码地址:

https://github.com/elitcloud/elit

AWS官方博客介绍地址:

https://amazonaws-china.com/cn/blogs/ai/aws-collaborates-with-emory-university-to-develop-cloud-based-nlp-research-platform-using-apache-mxnet/

关于埃默里大学NLP研究小组:

http://nlp.mathcs.emory.edu

更多Apache MXNet信息:

https://aws.amazon.com/mxnet

本文作者:安妮 
原文发布时间:2017-11-07
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 算法
NLP(自然语言处理)自学习平台可能是一个很好的选
NLP(自然语言处理)自学习平台可能是一个很好的选
89 3
|
10月前
|
机器学习/深度学习 人工智能 编解码
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。
|
12月前
|
机器学习/深度学习 数据采集 存储
一年一总结的NLP年度进展,2021年有哪些研究热点?
一年一总结的NLP年度进展,2021年有哪些研究热点?
|
12月前
|
机器学习/深度学习 自然语言处理 分布式计算
帮你卷赢同行!2023年顶级NLP技能、框架、平台和语言汇总
帮你卷赢同行!2023年顶级NLP技能、框架、平台和语言汇总
|
机器学习/深度学习 人工智能 编解码
2023计算机领域顶会(A类)以及ACL 2023自然语言处理(NLP)研究子方向领域汇总
2023年的计算语言学协会年会(ACL 2023)共包含26个领域,代表着当前前计算语言学和自然语言处理研究的不同方面。每个领域都有一组相关联的关键字来描述其潜在的子领域, 这些子领域并非排他性的,它们只描述了最受关注的子领域,并希望能够对该领域包含的相关类型的工作提供一些更好的想法。
2023计算机领域顶会(A类)以及ACL 2023自然语言处理(NLP)研究子方向领域汇总
|
自然语言处理 达摩院 算法
面向算法小白的 NLP 自学习平台介绍|学习笔记
快速学习面向算法小白的 NLP 自学习平台介绍
209 0
面向算法小白的 NLP 自学习平台介绍|学习笔记
|
机器学习/深度学习 数据采集 存储
一年一总结的NLP年度进展,2021年有哪些研究热点?
一年一总结的NLP年度进展,2021年有哪些研究热点?
111 0
一年一总结的NLP年度进展,2021年有哪些研究热点?
|
自然语言处理 算法 测试技术
基于阿里云自然语言处理自学习平台实现商品评价解析功能
面向算法小白用户的NLP行业自适应标注、训练和服务平台。该产品支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、短文本匹配、商品评价解析等 NLP 定制化算法能力,用户无需拥有丰富的算法背景,仅需标注或上传适量文档数据,即可通过平台获得优质的 NLP 算法模型。此篇文章将简单介绍自学习平台的操作流程以及实现商品评价解析功能
309 0
基于阿里云自然语言处理自学习平台实现商品评价解析功能
|
机器学习/深度学习 人工智能 自然语言处理
解决自然语言歧义问题,斯坦福教授、IJCAI 卓越研究奖得主提出 SenseBERT 模型
自然语言理解和生成对于 AI 系统来说是一大难题,语言的复杂性和模糊性对 AI 系统提出了很大挑战。今天,斯坦福教授、IJCAI 卓越研究奖得主 Yoav Shoham 创办的公司 AI21 Labs 提出一种能够显著提升词汇消歧能力的新模型,并发布了可控性优于其他前沿文本生成系统的「HAIM」。AI21 Labs 的愿景是构建「具备前所未有的优秀自然语言理解和生成能力」的 AI 系统。
226 0
解决自然语言歧义问题,斯坦福教授、IJCAI 卓越研究奖得主提出 SenseBERT 模型
|
弹性计算 自然语言处理 Ubuntu
ECS服务器使用体验之搭建brat平台,实现文本文件的简单标注,助力NLP实验
放假在家,由于疫情无法返校,实验室的服务器又无法实验外网web访问。使用ECS服务器解决了外网访问的麻烦。轻轻松松随时随地任意网络访问IP,实现brat标注顺利进行。
ECS服务器使用体验之搭建brat平台,实现文本文件的简单标注,助力NLP实验