今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。

v2-55ac1631fa64ba3d35b4fb276a3fe9d1_1440w.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。来看看机智流和modelscope社区今日推荐的热门论文吧。


RuCCoD: Towards Automated ICD Coding in Russian

论文链接:

https://modelscope.cn/papers/121670

简要介绍:

由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。


Unified Reward Model for Multimodal Understanding and Generation

论文链接:

https://modelscope.cn/papers/124332

简要介绍:

由复旦大学、上海AI实验室等机构联手打造的UnifiedReward,提出了首个统一的多模态理解与生成评估奖励模型。针对现有任务特定模型的局限性,该模型通过联合学习图像和视频任务,利用大规模人类偏好数据集,实现了成对排序和逐点评分。实验证明,其通过直接偏好优化(DPO)显著提升了视觉模型性能,展现了跨任务协同增益的潜力。

核心图片:

  image.png


EuroBERT: Scaling Multilingual Encoders for European Languages

论文链接:

https://modelscope.cn/papers/124319  

简要介绍:

由CentraleSupélec、里斯本大学等机构研发的EuroBERT,重新审视了多语言编码器的发展,推出了一组覆盖欧洲及全球广泛使用语言的模型。EuroBERT在检索、分类和回归任务中超越现有模型,支持高达8192 token的序列,且无需位置嵌入。团队公开了模型及训练框架,为多语言研究注入新活力。

核心图片:

image.png  


S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information

论文链接:

https://modelscope.cn/papers/124126  

简要介绍:

由香港中文大学(深圳)提出的S2S-Arena,是首个关注语音到语音(S2S)指令遵循能力并融入副语言信息的基准测试。包含154个样本,覆盖4个领域21个任务,该研究揭示了现有语音模型在理解输入副语言信息上的潜力,但生成相应音频仍具挑战性,为未来多模态语音模型设计提供了方向。

核心图片:

image.png


Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

论文链接:

https://modelscope.cn/papers/124263  

简要介绍:

由KAIST和DeepAuto.ai提出的Sketch-of-Thought(SoT),通过认知启发的推理范式优化大语言模型的推理效率。SoT引入三种自适应范式减少76%的token使用,同时保持甚至提升数学和多跳推理的准确性。其代码已开源,展示了高效推理的巨大潜力。

核心图片:

image.png


R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

论文链接:

https://modelscope.cn/papers/124102  

简要介绍:

由加州大学洛杉矶分校等机构提出的R1-Zero,在2B非SFT模型上首次复现了多模态推理中的“顿悟时刻”。基于Qwen2-VL-2B,通过强化学习,该模型在CVBench上提升约30%准确率,超越SFT设置,揭示了非监督模型在视觉推理中的潜力。

核心图片:

image.png


Forgetting Transformer: Softmax Attention with a Forget Gate

论文链接:

https://modelscope.cn/papers/122938

简要介绍:

由Mila及蒙特利尔大学提出的Forgetting Transformer(FoX),通过在softmax注意力中引入遗忘门,增强了Transformer的长上下文建模能力。FoX在语言建模和下游任务中表现出色,且兼容FlashAttention,开源代码进一步推动了研究。


R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

论文链接:

https://modelscope.cn/papers/124030  

简要介绍:

由中国人民大学提出的R1-Searcher,通过两阶段强化学习框架提升大语言模型的搜索能力。无需预训练或蒸馏,该方法使模型自主调用外部搜索系统,显著超越传统RAG方法,甚至挑战GPT-4o-mini,展现了强大的泛化性。

核心图片:

image.png


SafeArena: Evaluating the Safety of Autonomous Web Agents

论文链接:

https://modelscope.cn/papers/124153  

简要介绍:

SafeArena由多机构合作推出,是首个评估网络代理恶意使用的基准测试。包含250个安全和250个有害任务,覆盖五大危害类别。测试显示GPT-4o等模型对恶意请求的遵从率高达34.7%,凸显了网络代理安全对齐的迫切需求。

核心图片:

image.png


VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

论文链接:

https://modelscope.cn/papers/124052  

简要介绍:

由香港中文大学、腾讯ARC Lab等提出的VideoPainter,推出了双流架构实现任意长度视频修复和编辑。通过轻量级上下文编码器和ID重采样技术,该模型在390K+片段的VPData上训练,展现了卓越的视频质量和一致性。

核心图片:

image.png


结语:

今天的热点论文推荐到此结束!从俄语编码自动化到视频修复创新,每一篇论文都为AI领域带来了新的火花。🔥 您最看好哪项研究?欢迎留言讨论,一起期待AI的更多突破!🚀

-- 完 --

欢迎访问 https://chat.intern-ai.org.cn/

和书生·浦语一起读论文

目录
相关文章
|
JavaScript 前端开发
Vue实现模糊查询
Vue实现模糊查询
306 1
|
5月前
|
人工智能 编解码 芯片
告别低效沟通|让技术提问不再头疼-这套高效AI提问模板来帮你
不会向ai提问,不知道怎么提问的 可以看看
209 1
告别低效沟通|让技术提问不再头疼-这套高效AI提问模板来帮你
|
7月前
|
机器学习/深度学习 存储 人工智能
SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架
SEARCH-R1是一种创新的强化学习框架,使大型语言模型(LLM)具备多轮搜索与推理能力。它通过强化学习自主生成查询并优化基于检索结果的推理,无需人工标注数据。相比传统RAG或工具使用方法,SEARCH-R1显著提升问答性能,在多个数据集上实现26%以上的相对性能提升。其核心优势在于强化学习与搜索的深度融合、交错式多轮推理机制及令牌级损失屏蔽技术,推动了LLM在复杂推理和实时知识获取方面的边界。尽管存在奖励函数设计简化等局限性,SEARCH-R1为构建更智能的交互系统提供了重要参考。
558 7
SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架
|
5月前
|
网络协议 Ubuntu Docker
Docker Compose--命令说明
Docker Compose--命令说明
840 30
|
7月前
|
人工智能 自然语言处理 算法
DeepSeek大模型在客服系统中的应用场景解析
在数字化浪潮下,客户服务领域正经历深刻变革,AI技术成为提升服务效能与体验的关键。DeepSeek大模型凭借自然语言处理、语音交互及多模态技术,显著优化客服流程,提升用户满意度。它通过智能问答、多轮对话引导、多模态语音客服和情绪监测等功能,革新服务模式,实现高效应答与精准分析,推动人机协作,为企业和客户创造更大价值。
615 5
|
12月前
|
弹性计算 监控 JavaScript
云效Flow:打造高效、稳定的CI/CD流程实战指南
【10月更文挑战第7天】本文介绍了“云效Flow”这一CI/CD工具,通过实际案例展示了其在Node.js项目中的应用,包括自动化构建、测试及部署流程。云效Flow支持多种开发语言与框架,集成第三方服务,提供详尽的新手引导,简化了CI/CD流程的搭建,提升了开发效率与软件质量,特别适合初创团队和大型企业使用。
398 4
|
7月前
|
人工智能 自然语言处理 语音技术
PodAgent:港中文、微软、小红书联合推出的播客生成框架
PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架,基于多智能体协作系统,自动生成高质量对话内容,支持声音角色匹配和语音合成,适用于媒体、教育、企业推广等多个场景。
345 5
PodAgent:港中文、微软、小红书联合推出的播客生成框架
|
7月前
|
机器学习/深度学习 人工智能 自动驾驶
今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench
由Skolkovo科技学院等机构提出的这项研究,聚焦于人工智能文本检测(ATD)的可解释性提升。利用Sparse Autoencoders(SAE)从Gemma-2-2b模型中提取特征,该工作揭示了现代大语言模型(LLM)与人类文本的差异,尤其是在信息密集领域,展现了独特的写作风格,为ATD提供了新的见解和方法。
100 14

热门文章

最新文章