一周AI最火论文 | 万物皆可预训练,NLP和CV皆获巨大性能提升

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 一周AI最火论文 | 万物皆可预训练,NLP和CV皆获巨大性能提升

开源软件(OSS)开发人员专业知识一览

涉及开源软件的项目个数和开发人员人数现在越来越多了。GitHub报告称,仅在2019年,新加入的开发人员就超过1000万,而新创建的项目超过4400万个。

OSS生态系统以其数以千万计的项目和开发人员而焕发生机,同时也颇具威慑力。它存储着最关键的基础结构的源代码,并拥有最杰出的开发人员作为后盾。然而,低质量、甚至恶意软件,以及新手开发人员也比比皆是。因此,虽然外部捐款对于OSS项目至关重要,但是捐款是否被接受(甚至被考虑)都取决于开发人员和捐款人之间互相信任与否。

本文定义了API、开发人员和项目的技能栈。与通过汇总活动数相比,这项定义能更准确地反映开发人员的知识;与关注开发人员过去修改的代码文件相比,这项定义更为广泛。

原文:
https://arxiv.org/abs/2005.10176v1

开源BiT:探索用于计算机视觉的大规模预训练

计算机视觉研究人员普遍认为,当前的深度神经网络总是渴求更多的带标签数据。比如训练当前最新的CNN时需要诸如OpenImages或Places等的大数据集,它们包含了超过1M的带标签图像。但很多时候,普通从业人员难以收集如此多的带标签数据。

类比BERT和T5在语言领域取得的进步,Google AI研究人员认为,大规模预训练也可以提高计算机视觉模型的性能。

在本文中,研究人员表明,在对大量通用数据进行预训练的情况下,简单的传输策略就能在大型数据集和数据量少(最少每类只有一张图像)的任务上都得到好的结果。他们现在发布了BiT-M模型,在ImageNet-21k上进行了预训练的R152x4,以及为在Jax、TensorFlow2和PyTorch间的传输提供支持的协同实验室。他们希望该模型能替代常用的ImageNet预训练模型为从业者和研究人员所用。

Github传送门:
https://github.com/google-research/big_transfer
原文:
https://arxiv.org/abs/1912.11370

用于Web规模推荐系统的多视图多任务图表示学习框架

将图表示学习与多视图数据相结合来进行推荐是业界一大趋势。现有方法大多可以被归类为多视图表示融合。它们首先构建一张图,然后将图中每个节点的多视图集成到单个紧凑表示中。这些方法近来在工程和算法方面都引起了人们的担忧。

为了应对这一挑战,本文研究人员提出了M2GRL。这是一种用于Web级推荐系统的新型多视图多任务图表示学习框架。它为每个单视图数据构造了一个图形,从每个图形中学习单独的表示形式,最后对多个表示形式进行对齐以建立交叉视图关系。M2GRL支持不限数量的数据视图,并且可以分布式部署处理数十亿规模的数据样本。

M2GRL在淘宝网上的评估、离线实验和在线A / B测试都显示,M2GRL优于其他竞争基准。

原文:
https://arxiv.org/abs/2005.10110v1

电子游戏中的异常检测

为了设计自动化的游戏质量检验工具,一组研究人员提出了将游戏中的错误识别为异常检测(AD)问题。他们开发了State-State Siamese Networks(S3N),这是在这种情况下针对AD的有效深度学习指标,并探索了如何将其用作自动化测试工具的一部分。

研究人员通过对一系列Atari游戏的评估进一步表明,S3N能够构建有意义的“嵌入”,并且能够成功识别许多常见类型的游戏漏洞。

数据集链接:
https://www.kaggle.com/benedictwilkinsai/atari-anomaly-dataset-aad
代码与训练好的模型:
https://github.com/BenedictWilkinsAI/S3N
原文:
https://arxiv.org/abs/2005.10211v1

英语推文的预训练语言模型

澳大利亚eHealth研究中心与VinAI Research合作的研究人员最近提出了BERTweet这一模型,这是第一个针对英文推文的公共、大规模预训练语言模型。BERTweet使用RoBERTa预训练过程进行训练,并且模型配置与BERT-base相同。

研究人员通过证明BERTweet优于其基准RoBERTabase和XLMRbase并帮助产生比以前SOTA模型更好的性能来证明BERTweet的优势。该模型在POS标记、NER和文本分类的三个下游Tweet NLP任务中均得到了体现。BERTweet发行版还旨在促进Tweet分析任务的未来研究和应用。

相关文章
|
21小时前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
9天前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第7天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
29 1
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
|
5天前
|
人工智能 供应链 安全
BSI 第七届万物互联智慧高峰论坛:主题:拥抱AI时代,标准赋能组织实现可持续发展
BSI 第七届万物互联智慧高峰论坛:主题:拥抱AI时代,标准赋能组织实现可持续发展
12 0
|
1月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
16天前
|
人工智能 自然语言处理
【NLP自然语言处理】NLP中的常用预训练AI模型
【NLP自然语言处理】NLP中的常用预训练AI模型
|
1月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
1月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
42 4
|
2月前
|
人工智能 异构计算
就AI 基础设施的演进与挑战问题之使用阿里云DeepGPU能带来性能提升的问题如何解决
就AI 基础设施的演进与挑战问题之使用阿里云DeepGPU能带来性能提升的问题如何解决
|
2月前
|
机器学习/深度学习 自然语言处理 PyTorch
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--6 提分方案
在讯飞英文学术论文分类挑战赛中的提分技巧和实现方法,包括数据增强、投票融合、伪标签等策略,以及加快模型训练的技巧,如混合精度训练和使用AdamW优化器等。
37 0
|
2月前
|
数据采集 机器学习/深度学习 存储
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
在讯飞英文学术论文分类挑战赛中使用BERT模型进行文本分类的方法,包括数据预处理、模型微调技巧、长文本处理策略以及通过不同模型和数据增强技术提高准确率的过程。
33 0