【首发】阿里巴巴夺中文语法大赛全球冠军,iDST自然语言处理团队解读技术细节

简介: 11月24日消息,阿里巴巴iDST在中文语法错误自动诊断大赛三个level中全面夺得冠军。本文带来分析解读。

11月24日消息,阿里巴巴iDST在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军。即便是最难的level,核心指标F1(综合考虑准确率与召回率)依旧达到了 0.2693,比其他参赛机构高出一倍。

4e962eeae8ab0e619c9f1a103b54361056a719d8

参赛机构比赛成绩公布

CGED是自然语言处理领域的权威赛事,由IJCNLP联办,今年已是第四届。比赛的背景是:学习中文的外国人数不断增加,由于中文的博大精深,外国友人在中文写作中会出现各式错误。主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。

因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,是对研究机构综合技术实力的全面考验。

f0fff45b0f9e07302b7cb94c5d3290cb12403fee

CGED官网

阿里巴巴iDST自然语言处理首席科学家司罗介绍,中文语法诊断的挑战性在于,中文语言知识丰富、语法多样;人在判断一句话是否有错误的时候,会用到长期积累的知识体系(比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等)。相比之下,比赛提供的训练数据非常有限,仅通过训练数据来识别错误是很困难的。

赛题中包含的错误分为四种类型:多词(Redundant)、缺词(Missing)、错词(Selection)和词序错误(Word Order)。系统性能的评估也由易到难分为3个level:detection level(识别句子有没有错误)、identification level(识别错误句子的具体错误类型)和position level(识别错误的位置和对应类型)

096b633d77f39a2cbf2bf704c1411668fc4eadbc

比赛要求诊断的四种错误类型

比如,“我要送給你一个庆祝礼物。要是两、三天晚了,请别生气”这句话,在第3个Level,AI需要明确指出“两、三天晚了”存在错误才能得分(正确用法应该是“晚了两、三天”)。

根据组委会公开的结果,司罗团队在所有的3个level的正确率都以较大优势位居第一,获取2017 CGED比赛的冠军。他们通过在深度学习中引入无监督的语法知识,同时结合了集成学习等方法。

技术细节上,IDST团队在bilstm-crf模型的基础上,结合了分词、词性、依存句法等特征,同时将language model等无监督的知识embedding到神经网络。依靠RNN结构以及词性、依存等特征,不光能识别短程的语法错误,比如“一头牛”好于“一只牛”;也能识别比较长程的语法错误,比如“虽然父母很辛苦,而且对孩子照顾得很好”中“虽然”和“而且“不搭配。此外,他们针对比赛的3个不同level,设计了不同的基于神经网络的snapshot emsembles方法。

cb709dcacac4809d6475e1f9587e8cc2f1a5a60f


具体请见论文:Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

透视司罗以及iDST自然语言处理团队:

2a491dcee45b42e3a099c3c8ffc573cf66c21bb5

司罗是全球权威机器智能学者,曾担任美国普渡大学计算机系终身教授,主持的20余个项目得到美国政府、工业界资助,先后获得美国国家科学基金会成就奖、雅虎、谷歌研究奖等。

在阿里巴巴,司罗领导了iDST自然语言处理团队,除了支持阿里巴巴大生态(新零售、金融、物流、娱乐、旅行等)的自然语言处理需求,也通过阿里云技术输出给开发者。

这场比赛中使用的分词、词性标注和句法分析等基础NLP工具都是由该团队自主研发的AliNLP 平台。这个平台支持阿里大生态的每天多达600亿次的自然语言处理需求。

司罗团队横跨中国(杭州,北京)和美国(硅谷,西雅图),普遍拥有10年以上自然语言处理研发经验,30%以上有博士学历(如CMU,伯克利,普林斯顿,清华,北大等)。 团队多次在国际自然语言技术竞赛中取得冠军成绩。


原文发布时间为:2017-11-24

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【首发】阿里巴巴夺中文语法大赛全球冠军,iDST自然语言处理团队解读技术细节

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术在自然语言处理领域中实现情感分析。通过介绍情感分析的背景和原理,结合深度学习模型如LSTM、BERT等的应用,帮助读者了解情感分析的重要性以及如何利用最新技术实现更准确的情感识别。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习中的自然语言处理技术
【2月更文挑战第16天】 在数字化和智能化的浪潮中,自然语言处理(NLP)技术已成为连接人类与机器沟通的重要桥梁。本文深入探讨了机器学习在自然语言处理中的应用,包括最新的模型架构、算法优化技巧及实际场景中的挑战和解决方案。通过逻辑严密的分析,我们将揭示如何有效利用机器学习提升NLP系统的性能,同时对未来发展趋势进行预测。
23 0
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术,特别是神经网络模型,来实现自然语言处理领域中的情感分析任务。通过结合深度学习算法和大规模文本数据集,可以实现更准确和高效的情感分析,为情感识别和情感推断提供更好的解决方案。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【2月更文挑战第31天】 随着人工智能的飞速发展,自然语言处理(NLP)技术在机器学习领域扮演着越来越重要的角色。本文旨在深入探讨NLP的关键技术,包括语言模型、词嵌入和深度学习方法,并分析这些技术如何相互协作,以实现更高效的文本分析和理解。通过案例研究和最新研究成果的介绍,我们展示了NLP在实际应用中的强大潜力,以及它如何推动人机交互和信息检索系统的革新。
21 0
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
48 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术进步:自然语言处理领域的演变与创新
技术进步:自然语言处理领域的演变与创新
43 0
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【4月更文挑战第24天】本文深入探讨了自然语言处理(NLP)在机器学习领域中的应用与进展。通过分析最新的技术动态,阐释了深度学习如何增强NLP的能力,并讨论了当前面临的挑战及未来的发展趋势。文中不仅总结了NLP的核心概念和关键技术,还通过案例研究展示了其在实际应用中的潜力。
7 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索前沿技术:基于深度学习的自然语言处理应用与挑战
本文将深入探讨基于深度学习的自然语言处理(NLP)技术在当今应用中的重要性以及所面临的挑战。通过分析NLP的基本原理、应用场景和未来发展趋势,帮助读者更好地了解NLP技术的前沿领域和发展方向。
|
1月前
|
机器学习/深度学习 自然语言处理
基于深度学习的自然语言处理技术在智能客服系统中的应用
【2月更文挑战第21天】随着人工智能技术的不断发展,自然语言处理(NLP)技术在各个领域得到了广泛应用。本文主要探讨了基于深度学习的自然语言处理技术在智能客服系统中的应用。首先介绍了深度学习和自然语言处理的基本概念,然后分析了智能客服系统的工作原理和技术要求,接着详细阐述了基于深度学习的自然语言处理技术在智能客服系统中的具体应用,包括语义理解、情感分析和问答系统等。最后对基于深度学习的自然语言处理技术在智能客服系统中的优势和挑战进行了总结。
48 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理技术的发展与应用
自然语言处理技术的发展与应用