多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)

本文涉及的产品
文本翻译,文本翻译 100万字符
图片翻译,图片翻译 100张
语种识别,语种识别 100万字符
简介: 多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾

以下文章来源于机器之心SOTA模型,作者机器之心SOTA模型

在机器之心 SOTA!模型启动「虎卷er行动」的第五天,我们解锁最后一套「年度回顾」复习资料「刷爆基准的 SOTA 工作」,帮助老伙计们回顾12个在过去的2021年在国际上引起普遍反响的 SOTA 工作。


1、阿里达摩院提出半监督视频目标分割新算法 LCM,在 DAVIS 和 Youtube-VOS 基准实现最优性能

收录时间:2021/4/9任务:视频目标分割方法:LCM基准:DAVIS 2017( 83.5% )、DAVIS 2016( 90.7 %)、Youtube-VOS ( 82.0 %)

视频目标分割 (Video Object Segmentation,VOS) 是计算机视觉的基础任务,广泛应用于视频编辑、内容生产、自动驾驶等领域。其中,半监督视频目标分割,是指给定一段视频和第一帧的目标物体,在视频的所有剩余帧中分割出该物体。在一个视频序列中,目标物体往往会因为连续运动和视角变化发生很大的外观改变,包括形变和遮挡。同时视频中往往会有和目标相似的其他物体存在,使得分辨目标更加困难。因此,视频目标分割是一个比较有挑战性的问题,至今还没有很好的解决。
从最近的研究成果来看,Memory-based 的方法是目前 VOS 领域性能表现最佳的一类方法。
为了进一步提升 Memory-based 的 VOS 方法,该研究提出从两个方面去改进:
一、位置一致性。目标物体在视频帧间的运动是遵循一定轨迹的,如果在某一帧的一些位置出现和目标物体相似的同类物体,如果其位置不合理,那么该物体是目标物体的可能性就会降低,不应该被分割。
二、目标一致性。视频目标分割本质上也可以理解为是一个像素级别的物体跟踪。虽然分割是像素级的任务,但 VOS 的处理对象是物体(object),需要有一个类似图像实例分割中对于物体级别的约束。显然那些错误的碎块分割结果是不满足一个目标物体整体的概念的。阿里巴巴达摩院在此基础进行改进,提出的LCM在 DAVIS 2017( 83.5% )、DAVIS 2016( 90.7 %)、Youtube-VOS ( 82.0 %)数据集上取得了 SOTA 结果。
文献地址:https://arxiv.org/pdf/2104.04329.pdf

2、字节跳动提出 GLAT(Glancing Transformer),获 WMT 2021 大语种德英自动评估第一

收录时间:2021/5/13任务:德语-英语翻译方法:GLAT基准/数据集:WMT14 EN-DE/DE-EN and WMT16 EN-RO/RO-EN
作为世界顶级的机器翻译比赛,WMT 大赛自 2006 年以来已经举办了 16 届,每年都会吸引来自世界各地的顶级企业、高校和科研机构参赛。历年参赛队伍来自微软、脸书、腾讯、阿里巴巴、百度、华为等。在 WMT 的各个翻译任务中,火山翻译团队挑战的德英翻译更是参赛队伍角逐的核心项目。
在德语-英语翻译方向上,火山翻译团队仅使用了官方提供的数据(受限资源),成功摘得桂冠。
在本次大赛中,火山翻译团队使用的并行生成技术完全基于自研的 Glancing Transformer 模型(GLAT)。GLAT 提出了一种为并行生成建模词之间依赖关系的有效训练方式,大幅提升了并行生成的效果。GLAT 的 paper 被 ACL2021 接收。
文献地址:https://arxiv.org/pdf/2008.07905.pdf

3、DeepMind 开源 AlphaFold2,预测出 98.5% 的人类蛋白质结构

收录时间:2021/7/15任务:蛋白质结构预测方法:Transformer基准/数据集:AlhaFold Protein Structure 数据集, CAID, CAMEO
DeepMind 开源 AlphaFold2,预测出 98.5% 的人类蛋白质结构。同时,AlphaFold 2 在去年入选 Science 年度十大突破,被称作结构生物学“革命性”的突破、蛋白质研究领域的里程碑。
2018 年的 AlphaFold 使用的神经网络是类似 ResNet 的残差卷积网络,到了 AlphaFold2 则借鉴了 Transformer 架构。
AlphaFold2 利用多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。它的出现,能更好地预判蛋白质与分子结合的概率,从而极大地加速新药研发的效率。
文献地址:https://www.nature.com/articles/s41586-021-03828-1
4、谷歌大脑提出全新图神经网络 GKATs,比 9 种 SOTA GNN 更强


收录时间:2021/7/17任务与基准/数据集:Combinatorial Classification; ERDOS-RENYI RANDOM GRAPH WITH MOTIFS

  • 生物信息

D&D (Dobson & Doig, 2003), PROTEINS (Borgwardt et al., 2005), NCI1 (Wale et al., 2008) and ENZYMES,

  • 社交网络

IMDB-BINARY, IMDBMULTI, REDDIT-BINARY, REDDIT-5K and COLLAB
从社交网络到生物信息学,再到机器人学中的导航和规划问题,图在各种现实世界的数据集中普遍存在。人们对专门用于处理图结构数据的图神经网络(GNN)产生了极大的兴趣。
尽管现代GNN在理解图形数据方面取得了巨大的成功,但在有效处理图形数据方面仍然存在一些挑战。例如,当所考虑的图较大时,计算复杂性就成为一个问题。相反,在空间域工作的算法避免了昂贵的频谱计算,但为了模拟较长距离的依赖关系,不得不依靠深度GNN架构来实现信号从远处节点的传播,因为单个层只模拟局部的相互作用。
为解决这些问题,谷歌大脑、哥伦比亚大学和牛津大学的研究团队提出了一类新的图神经网络:Graph Kernel Attention Transformers(GKATs)。其结合了图核、基于注意力的网络和结构先验,以及最近的通过低秩分解技术应用小内存占用隐式注意方法的Transformer架构。
该团队证明GKAT比SOTA GNN(Erdős-Rényi随机图、检测长诱导循环和深度与密度注意力测试、生物信息学任务和社交网络数据测试等)具有更强的表达能力,同时还减少了计算负担。

文献地址:https://arxiv.org/pdf/2107.07999.pdf
5、Facebook 推出有史以来第一个赢得 WMT 的多语言模型,并击败了双语模型

收录时间:2021/8/7任务:多语种翻译方法:通用机器翻译模型基准:WMT
在机器翻译(MT)研究领域中,构建一个通用的翻译系统来帮助每个人更好的获取信息和交流是其研究的终极目标。如今,大多数MT系统使用双语模型,这通常需要为每个语言对和任务提供大量标记示例。但是这种方法对于许多冷门的语言训练是有挑战的,例如冰岛语的语言数据集就比较少,从而训练出来的结果也不好,除此之外,即使所有语言的模型都训练出来了,全球有好几百种语言就有好几百个模型,单单考虑模型运行资源来说,这也是不小的成本。
为此Facebook就目前遇到的多语种翻译的问题,提出要构建出通用机器翻译模型。MT 领域应该从双语模型转向多语言翻译——其中一个模型可以同时翻译许多语言对,包括低资源(例如,冰岛语到英语)和高资源 (例如,英语到德语)。多语言翻译是一种特别好的方法——它更简单、更具可扩展性,并且更适合低资源语言。
此次研究成果取得了突破性的进展:在 14 个语言翻译方向:英语往返捷克语、德语、豪萨语、冰岛语、日语、俄语和中文,有10中往返语言翻译,单个多语言模型的表现首次超过了经过专门训练的最佳双语模型,赢得了著名的 MT 竞赛 WMT。Facebook单一多语言模型为低资源和高资源语言提供了最佳翻译,表明多语言方法确实是 MT 的未来。
此次获胜的关键点是,通过大规模数据挖掘、扩展模型容量和更高效的基础设置方面的新进步——多语言模型有可能在高低级别上实现高性能资源语言。它使我们更接近于构建一个通用翻译器,无论存在多少翻译数据,都可以连接世界各地所有语言的人。
文献地址:https://arxiv.org/pdf/2108.03265.pdf
6、百度提出跨模态文档理解模型 ERNIE-Layout,登顶 DocVQA 榜首
收录时间:2021/9/24任务:文档理解方法:跨模态通用文档预训练模型 ERNIE-Layout基准:DocVQA
对文档理解来说,文档中的文字阅读顺序至关重要,目前主流的基于 OCR(Optical Character Recognition,文字识别)技术的模型大多遵循「从左到右、从上到下」的原则,然而对于文档中分栏、文本图片表格混杂的复杂布局,根据 OCR 结果获取的阅读顺序多数情况下都是错误的,从而导致模型无法准确地进行文档内容的理解。
人类通常会根据文档结构和布局进行层次化分块阅读,受此启发,百度研究者提出在文档预训模型中对阅读顺序进行校正的布局知识增强创新思路。业界领先的文档解析工具能够准确识别文档中的分块信息,产出正确的文档阅读顺序,将阅读顺序信号融合到模型的训练中,从而增强对布局信息的有效利用,提升模型对于复杂文档的理解能力。
基于布局知识增强技术,同时依托文心 ERNIE,百度研究者提出了融合文本、图像、布局等信息进行联合建模的跨模态通用文档预训练模型 ERNIE-Layout。
ERNIE-Layout 创新性地提出了阅读顺序预测和细粒度图文匹配两个自监督预训练任务,有效提升模型在文档任务上跨模态语义对齐能力和布局理解能力,在 4 项文档理解任务上刷新世界最好效果,登顶 DocVQA 榜首。。
文献地址:https://openreview.net/pdf?id=NHECrvMz1LL

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
188 0
|
17天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
74 3
|
26天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
102 2
|
2月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
2月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
24天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
2月前
|
人工智能 自然语言处理 数据挖掘
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于阿里云的文档智能解析与检索增强生成技术,实现非结构化文档向结构化信息的转化,提升AI在特定领域问答的能力。方案提供了详尽的部署指南,包括文档处理、知识库构建等步骤,确保新手也能轻松上手。部署体验良好,未遇重大问题,但建议增加故障排除指南。体验中,LLM知识库展现出高准确率和响应速度,尤其适合处理专业查询。该方案适用于客户服务、知识管理和数据分析等场景,满足生产环境需求,但对于小型企业需考虑成本效益。建议阿里云提供多规模解决方案及定制化选项,以适应不同需求。
77 10
|
2月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
文档智能 & RAG让AI大模型更懂业务
|
2月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
报告概述了阿里云在企业文档处理与问答系统中的应用。通过高效的文档清洗、向量化及RAG技术,实现了快速、准确的问答召回,提升了知识库利用率。系统表现出高自动化、灵活性和语义保留能力,但仍需优化冷启动、多语言支持及复杂查询处理等方面。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG让AI大模型更懂业务
本次体验活动聚焦于文档智能与检索增强生成(RAG)技术结合构建的LLM知识库,重点测试了文档内容清洗、向量化、问答召回及Prompt上下文提供等环节。系统在自动化处理、处理效率和准确性方面表现出色,但在特定行业术语识别、自定义向量化选项、复杂问题处理及Prompt模板丰富度等方面仍有提升空间。
59 4