实测腾讯混元HY-World 1.5:虚拟世界的推理实战

简介: 腾讯混元HY-World 1.5发布,全球首个开源、实时交互且具长时几何一致性的3D世界模型。支持24帧/秒流式生成,适用于虚拟拍摄、仿真合成等场景。提供双向、自回归及蒸馏模型,兼顾质量与速度。现已开放GitHub、Hugging Face及Lab4AI一键体验平台,助力创作者构建沉浸式虚拟世界。

实测腾讯混元HY-World 1.5:虚拟世界的推理实战

```

2025年12月17日,腾讯混元发布并开源了HY-World 1.5(WorldPlay),这款模型不仅是首个开源、实时交互并具备长期几何一致性的世界模型,更标志着3D世界生成技术的全新突破。

HY-World 1.5采用Next-Frames-Prediction的视觉自回归任务进行训练,成功破解了同时满足实时性与几何一致性的难题,实现了长时几何一致性的实时世界交互。

除此之外,混元团队构建了自动化3D场景渲染流程,可以获得大量高质量的渲染数据,进一步激发核心算法的潜力。HY-World 1.5可支持24帧 / 秒的长时流式生成,一致性与泛化能力适用于多样化场景。

相关链接:

👉直达Lab4AI一键推理体验

效果展示

为了帮助大家更好地理解HY-World 1.5的强大功能,我们在腾讯混元的官网和Lab4AI平台分别进行了实测体验

以下是我们测试中的实际效果和体验总结。

提示词:春雨连绵的江南水乡,青石板路被雨水打湿反光,白墙黑瓦的民居错落有致,河道上漂浮着乌篷船,岸边茶馆传来评弹声。

通过这个提示词,我们体验了HY-World 1.5的实时交互场景,操作非常直观。在官网上,你可以通过WASD键控制视角,享受完全沉浸感的虚拟世界体验。

同时,我们也在大模型实验室Lab4AI部署了推理环节,该推理为图生视频形式,以下是基于不同模型的推理结果展示:

1.双向模型(Bidirectional Model)

该模型适合场景生成、虚拟拍摄等要求稳定性的任务,视频内容非常符合预期。

效果展示:双向模型主要侧重于一致性和稳定性。生成的视频表现出极高的细节保真度,视觉效果非常精细,适合那些需要长时间稳定生成和高度一致性的应用场景。

小编在大模型实验室Lab4AI测试时,选择了4张H800的卡,耗时大约20-25分钟。

2. 自回归模型(Autoregressive Model)

该模型适合快速生成任务,比如游戏场景或实时互动,速度明显提升,但在稳定性和一致性方面有所牺牲。

效果展示:自回归模型相比双向模型更注重推理速度,优化了生成过程的效率。它保持了视觉质量的同时,提高了推理的迭代速度,非常适合实时生成和互动场景。然而,相较于双向模型,其在细节保真度和一致性上略有降低。

小编在大模型实验室Lab4AI测试时,选择了4张H800的卡,耗时大约10分钟。

3. 自回归蒸馏模型(Autoregressive Distilled Model)

该模型适合仿真数据合成、智能制造等应用场景,能够迅速生成大规模的虚拟环境数据,极大提升了任务效率。

效果展示:在自回归模型的基础上进行进一步优化,蒸馏模型专注于推理速度,尤其适用于大规模实时生成任务。它显著加快了生成过程,适用于需要快速迭代和实时反馈的虚拟仿真和数据合成任务。

小编在大模型实验室Lab4AI测试时,选择了4张H800的卡,耗时大约5-6分钟。

一键体验

Step 1 进入项目

在Lab4AI平台上,搜索腾讯混元世界模型1.5,即可找到项目。

Step 2 激活环境

进入项目页面后,打开code文件夹下的推理.ipynb文件。在终端中激活所需环境,执行命令conda activate worldplay,出现下图即成功激活。

Step 3 运行体验

所有模型已经部署完成,运行bash run.sh后,即可开始体验HY-World 1.5的强大推理能力,快速生成虚拟世界的视频内容。

Step 4 部分参数说明

1.替换输入图片

默认示例图片路径为 IMAGE_PATH=./assets/img/test.png,可以把自己的图片放到 ./assets/img/ 下,然后直接修改 IMAGE_PATH 指向新图片即可。需要注意:当前开源推理示例以 I2V(image-to-video) 为主,因此 --image_path 不能为 None。

2.修改提示词PROMPT

用来描述你希望生成的“世界/场景”与“风格倾向”。建议写法:先写场景主体(地形、建筑、道路、水体等),再写氛围与光照(清晨/黄昏/雾气/逆光),最后写镜头语言(静谧、电影感、写实/卡通、景深等)。

3.使用REWRITE优化提示词

如果希望自动润色/扩写 prompt,可将 REWRITE=true,并按官网要求配置重写服务,需要设置对应的_REWRITE_BASE_URL_REWRITE_MODEL_NAME 环境变量。若不想引入额外依赖,保持REWRITE=false即可。

4.自定义相机轨迹

推理命令已默认示例为 ./assets/pose/test_forward_32_latents.json。如果想实现环绕、推拉、平移等镜头运动,建议使用 generate_custom_trajectory.py 来生成自定义轨迹 JSON,然后把生成的 JSON 路径填回run.sh中的 POSE_JSON_PATH

项目总结

HY-World 1.5(WorldPlay)是一款开创性的新型世界模型,它突破了传统视频生成的瓶颈,不仅在视频质量与一致性上取得了巨大的进展,还为未来的虚拟世界构建和数据生成提供了更多可能。

结合腾讯混元提供的实时推理能力,HY-World 1.5为创作者、研究人员以及开发者提供了一个强大的工具平台,推动了下一代沉浸式数字体验的发展。

无论是虚拟拍摄、仿真数据合成,还是多视角任务驱动数据生成,HY-World 1.5都能提供高效且一致的解决方案。

随着该技术的不断发展,可以预见,HY-World 1.5将成为未来虚拟世界生成领域的关键技术之一,助力更多行业和领域的创新与突破。

快来大模型实验室Lab4AI体验HY-World 1.5的强大功能,带领你进入全新的虚拟世界!

相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 机器人
阿里云百炼大模型赋能|打造企业级电话智能体与智能呼叫中心完整方案
畅信达基于阿里云百炼大模型推出MVB2000V5智能呼叫中心方案,融合LLM与MRCP+WebSocket技术,实现语音识别率超95%、低延迟交互。通过电话智能体与座席助手协同,自动化处理80%咨询,降本增效显著,适配金融、电商、医疗等多行业场景。
797 155
|
20天前
|
自然语言处理 安全
Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents(论文解读)
本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。
101 2
|
21天前
|
监控 测试技术 决策智能
EvolveRouter: Co-Evolving Routing and Prompt for Multi-Agent Question Answering
本文提出了 EvolveRouter,一个通过闭环协同进化联合优化路由与智能体配置的创新框架,有效解决了多智能体问答中智能体质量静态化和协作规模僵化的两大核心问题。实验结果充分验证了其相对于现有 SOTA 方法的优越性。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
构建AI智能体:十三、大数据下的“搭积木”:N-Gram 如何实现更智能的语义搜索
N-gram是一种基于上下文的统计语言模型,通过前N-1个词预测当前词的概率,广泛应用于文本生成、输入法预测、语音识别等领域,具有简单高效、可解释性强的优点,是自然语言处理的基础技术之一。
674 10
|
17天前
|
机器学习/深度学习 编解码 机器人
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
本文提出的HY-Embodied-0.5模型家族,通过创新的MoT架构、亿级具身专项数据、迭代自进化训练与在线策略蒸馏方案,有效解决了通用VLM在具身智能场景的感知与推理短板,实现了边缘高效版与大型高性能版的协同设计,在多项基准测试与真实机器人任务中验证了技术有效性,为现实世界具身智能体提供了强大的基础模型支撑。
|
2月前
|
自然语言处理 测试技术 Python
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
1011 6
|
10月前
|
算法 开发者 Python
MindIE DeepSeek MTP特性定位策略
最近MindIE开始支持DeepSeek MTP(multi token prediction)特性了,用于推理加速。但是有些开发者打开MTP开关后,没有发现明显的性能提升。这篇文章提供一种定位策略。
264 1
|
4月前
|
人工智能 数据可视化 数据处理
JBoltAI V4开启“软件定义AI”新范式,国产框架以新质生产力引领智能革命
JBoltAI V4发布,首创“软件定义AI”架构,通过AI资源中心、智能数据操作系统与可视化编排工具,实现AI能力的池化调度、数据融合与业务人员直驱开发。支持多模态统一处理,推动AI从项目制迈向标准化批量生产,助力企业智能化转型进入新阶段。(239字)
132 0
|
存储 弹性计算 调度
基于Knative的LLM推理场景弹性伸缩方案
Knative的基于请求弹性配置与大语言模型(LLM)的推理场景高度契合。此外,它的资源降配特性可以显著帮助用户降低成本。本文详细介绍基于 Knative 的 LLM 推理场景弹性伸缩方案。