燃!阿里技术又破世界纪录:机器阅读理解力首次超过人类!

简介:

2018年伊始,人工智能取得重大突破!1月11日,由斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD刷新排名,令业界振奋的是人工智能的阅读能力历史上首次超越人类。阿里巴巴凭借82.440的精准率打破了世界纪录,并且超越了人类82.304的成绩。

1


SQuAD的负责人Pranav Rajpurkar难掩兴奋之情。他在社交媒体上表示,2018年一个强劲的开始,第一个模型(阿里巴巴iDST团队提交的SLQA +)在精准度匹配上超越人类表现!下一个挑战:模糊匹配,人类仍然领先2.5分!

2


SQuAD比赛构建了一个大规模的机器阅读理解数据集(包含10万个问题),文章来源于500多篇维基百科文章。人工智能在阅读完数据集中的一篇短文之后,需要回答若干个基于文章内容的问题,然后与标准答案进行比对,得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。

SQuAD是行业内公认的机器阅读理解顶级赛事,吸引了包括谷歌、卡内基·梅隆大学、斯坦福大学、微软亚洲研究院、艾伦研究院、IBM、Facebook等知名企业研究机构和高校的深度参与。

此次技术的重大突破源于阿里巴巴研究团队提出的“基于分层融合注意力机制”的深度神经网络模型。该模型能够模拟人类在做阅读理解问题时的一些行为,包括结合篇章内容审题,带着问题反复阅读文章,避免阅读中遗忘而进行相关标注等。

模型可以在捕捉问题和文章中特定区域关联的同时,借助分层策略,逐步集中注意力,使答案边界清晰;另一方面,为避免过于关注细节,采用融合方式将全局信息加入注意力机制,进行适度纠正,确保关注点正确。

3


阿里巴巴自然语言处理首席科学家司罗

阿里巴巴自然语言处理首席科学家司罗表示,对于解决wiki类客观知识问答,机器已经取得非常好的结果,我们将继续向对通用内容的“能理解会思考”的终极目标迈进。今后,研发的重点在于把这项技术真正应用在广大实际场景,让机器智能普惠生活。

实事上,这项技术已经在阿里巴巴内部被广泛使用。比如,每年双11都会有大量的顾客对活动规则进行咨询。阿里小蜜团队通过使用司罗团队的技术,让机器直接对规则进行阅读,为用户提供规则解读服务,是最自然的交互方式。

再比如,顾客还会针对单个商品询问大量的基础问题,而这些问题其实在商品详情页都是有答案的。现在通过机器阅读理解技术,能够让机器对详情页中的商品描述文本进行更为智能地阅读和回答,降低服务成本的同时提高购买转化率。

原文发布时间为:2018-01-14
本文作者:了不起的
本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”微信公众号

相关文章
|
7月前
|
Kubernetes Java Go
Cloud Naive最佳开发实践
经过多年的工作,我们的精神导师John领悟了java那一套docker in docker的艺术并带到golang项目架构设计中。
541 49
|
前端开发 Java 关系型数据库
记录:Failed to validate connection com.mysql.cj.jdbc.ConnectionImpl...解决方案【亲测有效】
记录:Failed to validate connection com.mysql.cj.jdbc.ConnectionImpl...解决方案【亲测有效】
7090 0
|
数据挖掘 OLAP 云计算
[直播预约]StarRocks 2025 Roadmap 全面解读
2月19日19:00-20:30,StarRocks TSC Member赵恒、康凯森将解读2025 Roadmap,并邀请多位专家分享最新进展。欢迎参与交流!
|
人工智能 自然语言处理 算法
HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定
HippoRAG 2 是俄亥俄州立大学推出的检索增强生成框架,通过个性化PageRank算法和知识图谱技术,显著提升了RAG系统在复杂问答任务中的表现。
1911 2
HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定
|
消息中间件 监控 Java
Java一分钟之-Spring Integration:企业级集成
【6月更文挑战第11天】Spring Integration是Spring框架的一部分,用于简化企业应用的集成,基于EIP设计,采用消息传递连接不同服务。核心概念包括通道(Channel)、端点(Endpoint)和适配器(Adapter)。常见问题涉及过度设计、消息丢失与重复处理、性能瓶颈。解决策略包括遵循YAGNI原则、使用幂等性和事务管理、优化线程配置。通过添加依赖并创建简单消息处理链,可以开始使用Spring Integration。注意实践中要关注消息可靠性、系统性能,逐步探索高级特性以提升集成解决方案的质量和可维护性。
607 3
Java一分钟之-Spring Integration:企业级集成
|
存储 人工智能 搜索推荐
RAG系统的7个检索指标:信息检索任务准确性评估指南
大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。
8520 2
RAG系统的7个检索指标:信息检索任务准确性评估指南
|
JSON JavaScript 前端开发
技术心得:利用JsonSchema校验json数据内容的合规性
技术心得:利用JsonSchema校验json数据内容的合规性
1286 0
|
Oracle Java 关系型数据库
Elastic Stack 兼容性之 ES 与 JDK:JDK版本兼容性及版本推荐
Elastic Stack 兼容性之 ES 与 JDK:JDK版本兼容性及版本推荐
|
Java 编译器 Android开发
IDEA-设置-Java编译器对常量字符串过长的处理之适用于JDK17版本eclipse编译解决方案
IDEA-设置-Java编译器对常量字符串过长的处理之适用于JDK17版本eclipse编译解决方案
2018 0
IDEA-设置-Java编译器对常量字符串过长的处理之适用于JDK17版本eclipse编译解决方案
|
开发框架 自然语言处理 开发者
多端/跨端/融合的桌面应用之Electron
Electron作为一种跨平台桌面应用开发框架,以其出色的用户体验和丰富的功能,深受广大开发者的喜爱。
728 1

热门文章

最新文章