一周AI最火论文 | 万物皆可预训练,NLP和CV皆获巨大性能提升

简介: 一周AI最火论文 | 万物皆可预训练,NLP和CV皆获巨大性能提升

开源软件(OSS)开发人员专业知识一览

涉及开源软件的项目个数和开发人员人数现在越来越多了。GitHub报告称,仅在2019年,新加入的开发人员就超过1000万,而新创建的项目超过4400万个。

OSS生态系统以其数以千万计的项目和开发人员而焕发生机,同时也颇具威慑力。它存储着最关键的基础结构的源代码,并拥有最杰出的开发人员作为后盾。然而,低质量、甚至恶意软件,以及新手开发人员也比比皆是。因此,虽然外部捐款对于OSS项目至关重要,但是捐款是否被接受(甚至被考虑)都取决于开发人员和捐款人之间互相信任与否。

本文定义了API、开发人员和项目的技能栈。与通过汇总活动数相比,这项定义能更准确地反映开发人员的知识;与关注开发人员过去修改的代码文件相比,这项定义更为广泛。

原文:
https://arxiv.org/abs/2005.10176v1

开源BiT:探索用于计算机视觉的大规模预训练

计算机视觉研究人员普遍认为,当前的深度神经网络总是渴求更多的带标签数据。比如训练当前最新的CNN时需要诸如OpenImages或Places等的大数据集,它们包含了超过1M的带标签图像。但很多时候,普通从业人员难以收集如此多的带标签数据。

类比BERT和T5在语言领域取得的进步,Google AI研究人员认为,大规模预训练也可以提高计算机视觉模型的性能。

在本文中,研究人员表明,在对大量通用数据进行预训练的情况下,简单的传输策略就能在大型数据集和数据量少(最少每类只有一张图像)的任务上都得到好的结果。他们现在发布了BiT-M模型,在ImageNet-21k上进行了预训练的R152x4,以及为在Jax、TensorFlow2和PyTorch间的传输提供支持的协同实验室。他们希望该模型能替代常用的ImageNet预训练模型为从业者和研究人员所用。

Github传送门:
https://github.com/google-research/big_transfer
原文:
https://arxiv.org/abs/1912.11370

用于Web规模推荐系统的多视图多任务图表示学习框架

将图表示学习与多视图数据相结合来进行推荐是业界一大趋势。现有方法大多可以被归类为多视图表示融合。它们首先构建一张图,然后将图中每个节点的多视图集成到单个紧凑表示中。这些方法近来在工程和算法方面都引起了人们的担忧。

为了应对这一挑战,本文研究人员提出了M2GRL。这是一种用于Web级推荐系统的新型多视图多任务图表示学习框架。它为每个单视图数据构造了一个图形,从每个图形中学习单独的表示形式,最后对多个表示形式进行对齐以建立交叉视图关系。M2GRL支持不限数量的数据视图,并且可以分布式部署处理数十亿规模的数据样本。

M2GRL在淘宝网上的评估、离线实验和在线A / B测试都显示,M2GRL优于其他竞争基准。

原文:
https://arxiv.org/abs/2005.10110v1

电子游戏中的异常检测

为了设计自动化的游戏质量检验工具,一组研究人员提出了将游戏中的错误识别为异常检测(AD)问题。他们开发了State-State Siamese Networks(S3N),这是在这种情况下针对AD的有效深度学习指标,并探索了如何将其用作自动化测试工具的一部分。

研究人员通过对一系列Atari游戏的评估进一步表明,S3N能够构建有意义的“嵌入”,并且能够成功识别许多常见类型的游戏漏洞。

数据集链接:
https://www.kaggle.com/benedictwilkinsai/atari-anomaly-dataset-aad
代码与训练好的模型:
https://github.com/BenedictWilkinsAI/S3N
原文:
https://arxiv.org/abs/2005.10211v1

英语推文的预训练语言模型

澳大利亚eHealth研究中心与VinAI Research合作的研究人员最近提出了BERTweet这一模型,这是第一个针对英文推文的公共、大规模预训练语言模型。BERTweet使用RoBERTa预训练过程进行训练,并且模型配置与BERT-base相同。

研究人员通过证明BERTweet优于其基准RoBERTabase和XLMRbase并帮助产生比以前SOTA模型更好的性能来证明BERTweet的优势。该模型在POS标记、NER和文本分类的三个下游Tweet NLP任务中均得到了体现。BERTweet发行版还旨在促进Tweet分析任务的未来研究和应用。

相关文章
|
4月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
886 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
5月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
403 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
5月前
|
机器学习/深度学习 存储 自然语言处理
NLP参数高效迁移学习:Adapter方法——论文简读
本研究深入探讨了自然语言处理中参数高效的迁移学习方法——Adapter。通过在预训练模型中引入小型可训练模块,仅调整少量额外参数即可完成模型适配。理论分析表明,该方法在初始化时保持网络行为稳定,并通过瓶颈结构大幅压缩参数规模。实验结果显示,Adapter在GLUE基准上仅用3.6%的参数便达到接近全微调的性能,且对学习率具有更强的鲁棒性。相比传统微调和其他参数高效方法,Adapter在多任务场景下展现出更优的存储效率与泛化能力,为大规模模型的实际部署提供了高效可行的解决方案。
371 7
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
322 10
|
5月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
538 1
|
10月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1343 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1106 50
|
5月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1195 62
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
601 30
|
4月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
587 1

热门文章

最新文章