今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 由Cohere、SEACrowd等机构联手打造,SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集,填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像,结合本地贡献者确保数据的高质量和多样性,推动了更具包容性的AI发展。

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

论文链接:https://modelscope.cn/papers/125634

简要介绍:由Cohere、SEACrowd等机构联手打造,SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集,填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像,结合本地贡献者确保数据的高质量和多样性,推动了更具包容性的AI发展。

核心图片:


LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

论文链接:https://modelscope.cn/papers/125170

简要介绍:由东南大学等机构提出的LMM-R1,通过两阶段规则强化学习(RL)框架增强了3B参数多模态大模型的推理能力。该方法先通过文本数据强化基础推理,再推广至多模态任务,在Qwen2.5-VL-Instruct-3B上实现多模态和文本基准提升4.83%和4.5%,为数据高效的推理优化提供了新思路。

核心图片:


YuE: Scaling Open Foundation Models for Long-Form Music Generation

论文链接:https://huggingface.co/papers/2503.08638

简要介绍:HKUST和MAP团队推出了YuE,一种基于LLaMA2架构的开源音乐生成模型,专注于长篇歌词到歌曲生成。YuE能生成长达5分钟的音乐,保持歌词对齐和音乐连贯性,支持风格迁移和多语言扩展,在音乐性和声乐敏捷性上媲美甚至超越部分专有系统。

核心图片:


MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

论文链接:https://modelscope.cn/papers/124803

简要介绍:由Hedra Inc.和北京大学等合作开发的MagicInfinite,是一种基于扩散Transformer的框架,可生成无限长度的说话视频,支持多种角色风格和多模态控制。该工作通过3D全注意力机制和两阶段学习策略,实现高效推理和高保真动画,已公开上线供体验。

核心图片:


UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

论文链接:https://modelscope.cn/papers/125793

简要介绍:由北京大学等机构提出的UniF^2ace,是首个专为细粒度人脸理解和生成设计的统一多模态模型。基于自建的130K人脸数据集,该模型结合扩散技术和混合专家架构,在理解和生成任务中均超越现有模型,推动了人脸领域的AGI研究。

核心图片:


Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

论文链接:https://modelscope.cn/papers/125042

简要介绍:由CMU和Hugging Face团队开发的MRT(Meta Reinforcement Fine-Tuning),将测试时计算优化形式化为元强化学习问题,通过最小化累积遗憾提升LLM推理性能。在数学推理任务中,MRT比传统RL方法性能提升2-3倍,token效率提高1.5倍。

核心图片:


Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

论文链接:https://modelscope.cn/papers/125511

简要介绍:字节跳动Seed Vision团队推出的Seedream 2.0,是一款中英双语图像生成模型,解决现有模型在中文文化理解和文本渲染上的不足。集成自研LLM和多阶段优化,该模型在提示跟随、美学和结构正确性上达到SOTA,已应用于多个平台。

核心图片:


SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

论文链接:https://modelscope.cn/papers/125357

简要介绍:由浙江大学和蚂蚁集团合作的SegAgent,通过模仿人类标注轨迹探索MLLM的像素级理解能力。提出HLMAT任务,将分割建模为多步决策过程,SegAgent在无需额外解码器的情况下实现高精度分割,支持掩码精炼等扩展任务。


Gemini Embedding: Generalizable Embeddings from Gemini

论文链接:https://modelscope.cn/papers/125362

简要介绍:谷歌Gemini Embedding团队基于Gemini LLM开发了一种通用嵌入模型,支持多语言和代码任务。在MMTEB基准上,该模型大幅超越前SOTA,展示了对250+语言的强大适应性,适用于分类、检索等多种下游任务。


结语:今天的盘点涵盖了从文化数据集到多模态推理、音乐生成等多个领域的突破性研究,每篇论文都展现了AI技术的最新进展。你最看好哪篇?欢迎留言讨论!🌟 下期见!

-- 完 --

目录
相关文章
|
6月前
|
人工智能 自然语言处理 并行计算
Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架
Chitu(赤兔)是清华大学与清程极智联合开源的高性能大模型推理引擎,支持多硬件适配,显著提升推理效率,适用于金融、医疗、交通等多个领域。
651 10
Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架
|
6月前
|
前端开发 搜索推荐
使用DeepSeek快速创建的个人网站
这是一份使用DeepSeek快速创建个人网站的10分钟指南。内容分为四个步骤:搭建基础架构(HTML框架)、设计核心内容区块(关于我、作品展示等)、快速配置样式(CSS美化页面)以及添加联系表单并部署到GitHub Pages。通过简单的代码和DeepSeek的智能辅助功能,用户可以轻松实现个性化调整,如更换主题色、增加模块或优化响应式设计。虽然整体流程简单高效,但可能因功能有限或美观度不足而需进一步扩展与改进。
581 11
|
7月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
5269 80
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
6月前
|
存储 缓存 负载均衡
阿里云服务器实例选择指南:热门实例性能、适用场景解析对比参考
2025年,在阿里云的活动中,主售的云服务器实例规格除了轻量应用服务器之外,还有经济型e、通用算力型u1、计算型c8i、通用型g8i、计算型c7、计算型c8y、通用型g7、通用型g8y、内存型r7、内存型r8y等,以满足不同用户的需求。然而,面对众多实例规格,用户往往感到困惑,不知道如何选择。本文旨在全面解析阿里云服务器实例的各种类型,包括经济型、通用算力型、计算型、通用型和内存型等,以供参考和选择。
|
7月前
|
人工智能 安全 API
大模型推理主战场:通信协议的标配
DeepSeek加速了模型平权,大模型推理需求激增,性能提升主战场从训练转向推理。SSE(Server-Sent Events)和WebSocket成为大模型应用的标配网络通信协议。SSE适合服务器单向推送实时数据,如一问一答场景;WebSocket支持双向实时通信,适用于在线游戏、多人协作等高实时性场景。两者相比传统HTTPS协议,能更好地支持流式输出、长时任务处理和多轮交互,满足大模型应用的需求。随着用户体量扩大,网关层面临软件变更、带宽成本及恶意攻击等挑战,需通过无损上下线、客户端重连机制、压缩算法及安全防护措施应对。
1006 176
大模型推理主战场:通信协议的标配
|
6月前
|
人工智能 搜索推荐 物联网
线上共学 | Mac本地玩转大模型
本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
1261 8
|
6月前
|
存储 人工智能 API
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化,支持角色分配、任务分解和记忆功能,适用于代码生成、文档撰写、数据分析等多种场景。
1480 13
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
|
6月前
|
人工智能 自然语言处理 算法
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具,基于大型语言模型(LLM)代理,支持从研究想法到论文发表的全流程自动化,涵盖文献综述、算法设计、实验验证和论文撰写等功能。
488 8
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
|
6月前
|
机器学习/深度学习 人工智能 测试技术
IMAGPose:南理工突破性人体生成框架!多姿态适配+细节语义融合,刷新图像生成范式
IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架,解决了传统方法在姿态引导的人物图像生成中的局限性,支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。
150 0

热门文章

最新文章