阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!

01.前言

上周阶跃星辰团队刚发布了音跃模型 ACE-Step,本周阶跃星辰联合光影焕像,在多模态方向上再迈坚实一步,正式发布并开源 3D 大模型——Step1X-3D!这是继图像、视频、语音、音乐等模态后,阶跃星辰在多模态方向的最新成果。

光影焕像是一家专注于3D AIGC和空间智能技术的人工智能初创公司,致力于通过AI解放3D内容生产力。光影焕像自设立之后,迅速建立了算法研发和产品落地并重的海内外人才梯队,拥有一批3D AIGC领域顶尖人才,汇集了来自港科大博士、字节、美团等具有顶级研发能力和丰富技术产品化经验的同学。迄今为止已发表多个3D AIGC代表性工作,目前持续重点投入3D和空间智能相关的AI底层模型的研发,打造3D空间智能大脑,同时也在积极推进3D内容商业化落地。

阶跃星辰联合光影焕像发布并开源Step1X-3D 模型,旨在为 3D 内容创作提供强大而可靠的技术引擎。Step1X-3D总参数量达 4.8B(几何模块 1.3B,纹理模块 3.5B),凭借坚实的数据基础与先进的 3D 原生架构,可生成高保真、可控的 3D 内容。Step1X-3D 不止于视觉“好看”,更追求实现“好用”与“可控”。

 https://live.csdn.net/v/477666

阶跃星辰团队公布了完整的数据清洗策略,数据预处理策略,以及 800K 高质量的 3D 资产,3D VAE、3D geometry Diffusion 以及 texture Diffusion 的全链路训练代码开源,助力 3D 生成社区发展。

开源链接与体验地址:

GitHub:

https://github.com/stepfun-ai/Step1X-3D

Project:

https://stepfun-ai.github.io/Step1X-3D/

ModelScope:

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D

Tech Report:

https://arxiv.org/pdf/2505.07747

02.核心特性与技术支撑

Step1X-3D 尝试解决 3D 内容生成的关键挑战,在数据、生成质量与可控性上进行了创新实践。

1、数据驱动与算法协同优化

好数据是好模型的基础。Step1X-3D 对超 500 万原始数据进行严格筛选与处理后,建立了包含 200 万高质量、标准化的训练样本库,有效克服了行业数据稀缺与质量参差的瓶颈。

image.gif 编辑

数据处理流程示意图

此外,Step1X-3D 通过增强型网格-SDF 转换技术等方法,从源头保障了模型学习的精准性与最终生成的高效性,让水密几何转换成功率提升了 20%,也让 Step1X-3D 拥有了强大的泛化能力与细节捕捉力。

image.gif 编辑

Step1X-3D 数据筛选与 SDF 转换流程示意图

2、3D 原生生成:结构清晰、细节生动

Step1X-3D 采用先进的 3D 原生两阶段架构,解耦几何与纹理表征,确保生成的不仅是视觉“皮囊”,更是结构可靠、可供下游应用的“骨架”,有效规避几何失真,保证生成的准确性、真实感与一致性。

image.gif 编辑

Step1X-3D 的原生 3D 架构

image.gif 编辑

几何生成模型基于 FLUX MMDiT 结构和 Rectified flow 算法直接对 3D 表示生成进行建模

image.gif 编辑

纹理生成模型基于预训练的 Diffusion model,通过单视图和 3D 几何信息指导,生成多视角一致的纹理信息

  • 几何塑形更精准

几何生成的核心在于采用为 3D 特性深度优化的创新混合 VAE-DiT 架构。该架构负责生成 TSDF 内部表示,确保产出的 3D 模型结构完整、无破面漏点;同时通过引入锐利边缘采样(Sharp Edge Sampling)等技术,精准捕捉并还原物体的丰富几何细节。

image.gif 编辑

几何示例:覆盖硬边与曲面结构

  • 纹理细节更生动

纹理生成则基于强大的 SD-XL 模型进行深度定制与优化。通过几何条件(利用法线与位置信息)的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同。确保生成的纹理不仅色彩饱满、质感生动逼真,更能跨越多视图保持高度一致,与复杂三维表面精密贴合,有效避免常见的扭曲与接缝瑕疵。

image.gif 编辑

纹理示例:呈现清晰一致的表面纹理

3、控制简单、效果可调

Step1X-3D 显著提升了 3D 内容生成的可控性与易用性。其关键在于,VAE-Diffusion 整体架构在设计上与主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的 2D 控制技术(如轻量化的 LoRA 微调)。

因此用户可以对生成 3D 资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作更精准地符合用户意图。

image.gif 编辑

对比图 1:对称性控制效果

image.gif 编辑

对比图 2:表面细节控制效果(锋利/平滑)

03.性能评估

为了客观评估 Step1X-3D 的实际效果,我们通过一个自建的综合测试(包含 110 个多样化测试用例),对 Step1X-3D 进行了严格的定量与定性评估,同时与多款主流模型进行全面对比。

结果显示:在自动评估中,Step1X-3D 在多项关键维度上均表现出色。

image.gif 编辑

在与主流 3D 模型的对比评测中,特别是在衡量内容与输入语义一致性的核心指标 CLIP-Score 上,Step1X-3D 取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的 3D 生成方案。

image.gif 编辑

不同 3D 模型测评对比数据

点击链接, 即可跳转模型连接~

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D


目录
相关文章
|
15天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
111 2
|
2月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
235 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
314 2
|
26天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1694 89
|
27天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
770 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
559 29
|
1月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
386 21
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率
阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。
185 10
|
2月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
2月前
|
人工智能 JSON API
Kimi K2,开源万亿参数大模型
Kimi K2是由月之暗面推出的全球首个开源万亿参数MoE模型,具备强大的工具调用、复杂推理与自主决策能力。该模型可通过MaaS平台快速调用,无需编码,最快5分钟即可部署,体验成本低至0元。通过Cherry Studio客户端,用户可便捷配置API密钥并调用模型,同时支持MCP功能,实现网页内容抓取等扩展能力。操作简单、功能强大,适合企业与开发者高效应用。

热门文章

最新文章