实测腾讯混元HY-World 1.5:虚拟世界的推理实战

简介: 腾讯混元HY-World 1.5发布,全球首个开源、实时交互且具长时几何一致性的3D世界模型。支持24帧/秒流式生成,适用于虚拟拍摄、仿真合成等场景。提供双向、自回归及蒸馏模型,兼顾质量与速度。现已开放GitHub、Hugging Face及Lab4AI一键体验平台,助力创作者构建沉浸式虚拟世界。

实测腾讯混元HY-World 1.5:虚拟世界的推理实战

```

2025年12月17日,腾讯混元发布并开源了HY-World 1.5(WorldPlay),这款模型不仅是首个开源、实时交互并具备长期几何一致性的世界模型,更标志着3D世界生成技术的全新突破。

HY-World 1.5采用Next-Frames-Prediction的视觉自回归任务进行训练,成功破解了同时满足实时性与几何一致性的难题,实现了长时几何一致性的实时世界交互。

除此之外,混元团队构建了自动化3D场景渲染流程,可以获得大量高质量的渲染数据,进一步激发核心算法的潜力。HY-World 1.5可支持24帧 / 秒的长时流式生成,一致性与泛化能力适用于多样化场景。

相关链接:

👉直达Lab4AI一键推理体验

效果展示

为了帮助大家更好地理解HY-World 1.5的强大功能,我们在腾讯混元的官网和Lab4AI平台分别进行了实测体验

以下是我们测试中的实际效果和体验总结。

提示词:春雨连绵的江南水乡,青石板路被雨水打湿反光,白墙黑瓦的民居错落有致,河道上漂浮着乌篷船,岸边茶馆传来评弹声。

通过这个提示词,我们体验了HY-World 1.5的实时交互场景,操作非常直观。在官网上,你可以通过WASD键控制视角,享受完全沉浸感的虚拟世界体验。

同时,我们也在大模型实验室Lab4AI部署了推理环节,该推理为图生视频形式,以下是基于不同模型的推理结果展示:

1.双向模型(Bidirectional Model)

该模型适合场景生成、虚拟拍摄等要求稳定性的任务,视频内容非常符合预期。

效果展示:双向模型主要侧重于一致性和稳定性。生成的视频表现出极高的细节保真度,视觉效果非常精细,适合那些需要长时间稳定生成和高度一致性的应用场景。

小编在大模型实验室Lab4AI测试时,选择了4张H800的卡,耗时大约20-25分钟。

2. 自回归模型(Autoregressive Model)

该模型适合快速生成任务,比如游戏场景或实时互动,速度明显提升,但在稳定性和一致性方面有所牺牲。

效果展示:自回归模型相比双向模型更注重推理速度,优化了生成过程的效率。它保持了视觉质量的同时,提高了推理的迭代速度,非常适合实时生成和互动场景。然而,相较于双向模型,其在细节保真度和一致性上略有降低。

小编在大模型实验室Lab4AI测试时,选择了4张H800的卡,耗时大约10分钟。

3. 自回归蒸馏模型(Autoregressive Distilled Model)

该模型适合仿真数据合成、智能制造等应用场景,能够迅速生成大规模的虚拟环境数据,极大提升了任务效率。

效果展示:在自回归模型的基础上进行进一步优化,蒸馏模型专注于推理速度,尤其适用于大规模实时生成任务。它显著加快了生成过程,适用于需要快速迭代和实时反馈的虚拟仿真和数据合成任务。

小编在大模型实验室Lab4AI测试时,选择了4张H800的卡,耗时大约5-6分钟。

一键体验

Step 1 进入项目

在Lab4AI平台上,搜索腾讯混元世界模型1.5,即可找到项目。

Step 2 激活环境

进入项目页面后,打开code文件夹下的推理.ipynb文件。在终端中激活所需环境,执行命令conda activate worldplay,出现下图即成功激活。

Step 3 运行体验

所有模型已经部署完成,运行bash run.sh后,即可开始体验HY-World 1.5的强大推理能力,快速生成虚拟世界的视频内容。

Step 4 部分参数说明

1.替换输入图片

默认示例图片路径为 IMAGE_PATH=./assets/img/test.png,可以把自己的图片放到 ./assets/img/ 下,然后直接修改 IMAGE_PATH 指向新图片即可。需要注意:当前开源推理示例以 I2V(image-to-video) 为主,因此 --image_path 不能为 None。

2.修改提示词PROMPT

用来描述你希望生成的“世界/场景”与“风格倾向”。建议写法:先写场景主体(地形、建筑、道路、水体等),再写氛围与光照(清晨/黄昏/雾气/逆光),最后写镜头语言(静谧、电影感、写实/卡通、景深等)。

3.使用REWRITE优化提示词

如果希望自动润色/扩写 prompt,可将 REWRITE=true,并按官网要求配置重写服务,需要设置对应的_REWRITE_BASE_URL_REWRITE_MODEL_NAME 环境变量。若不想引入额外依赖,保持REWRITE=false即可。

4.自定义相机轨迹

推理命令已默认示例为 ./assets/pose/test_forward_32_latents.json。如果想实现环绕、推拉、平移等镜头运动,建议使用 generate_custom_trajectory.py 来生成自定义轨迹 JSON,然后把生成的 JSON 路径填回run.sh中的 POSE_JSON_PATH

项目总结

HY-World 1.5(WorldPlay)是一款开创性的新型世界模型,它突破了传统视频生成的瓶颈,不仅在视频质量与一致性上取得了巨大的进展,还为未来的虚拟世界构建和数据生成提供了更多可能。

结合腾讯混元提供的实时推理能力,HY-World 1.5为创作者、研究人员以及开发者提供了一个强大的工具平台,推动了下一代沉浸式数字体验的发展。

无论是虚拟拍摄、仿真数据合成,还是多视角任务驱动数据生成,HY-World 1.5都能提供高效且一致的解决方案。

随着该技术的不断发展,可以预见,HY-World 1.5将成为未来虚拟世界生成领域的关键技术之一,助力更多行业和领域的创新与突破。

快来大模型实验室Lab4AI体验HY-World 1.5的强大功能,带领你进入全新的虚拟世界!

相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 机器人
阿里云百炼大模型赋能|打造企业级电话智能体与智能呼叫中心完整方案
畅信达基于阿里云百炼大模型推出MVB2000V5智能呼叫中心方案,融合LLM与MRCP+WebSocket技术,实现语音识别率超95%、低延迟交互。通过电话智能体与座席助手协同,自动化处理80%咨询,降本增效显著,适配金融、电商、医疗等多行业场景。
653 155
|
计算机视觉
OpenCV(二十三):中值滤波
OpenCV(二十三):中值滤波
439 0
|
3月前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
1672 89
|
8月前
|
SQL 分布式计算 DataWorks
破界·融合·进化:解码DataWorks与Hologres的湖仓一体实践
基于阿里云DataWorks与实时数仓Hologres,提供统一的大数据开发治理平台与全链路实时分析能力。DataWorks支持多行业数据集成与管理,Hologres实现海量数据的实时写入与高性能查询分析,二者深度融合,助力企业构建高效、实时的数据驱动决策体系,加速数字化升级。
|
9月前
|
存储 人工智能 云计算
挑战杯专属支持资源|阿里云-AI大模型算力及实验资源丨云工开物
阿里云发起的“云工开物”高校支持计划,助力AI时代人才培养与科研创新。为“挑战杯”参赛选手提供专属算力资源、AI模型平台及学习训练资源,包括300元免费算力券、百炼大模型服务、PAI-ArtLab设计平台等,帮助学生快速掌握AI技能并构建优秀作品,推动产学研融合发展。访问链接领取资源:https://university.aliyun.com/action/tiaozhanbei。
|
3月前
|
人工智能 数据可视化 数据处理
JBoltAI V4开启“软件定义AI”新范式,国产框架以新质生产力引领智能革命
JBoltAI V4发布,首创“软件定义AI”架构,通过AI资源中心、智能数据操作系统与可视化编排工具,实现AI能力的池化调度、数据融合与业务人员直驱开发。支持多模态统一处理,推动AI从项目制迈向标准化批量生产,助力企业智能化转型进入新阶段。(239字)
107 0
|
9月前
|
机器学习/深度学习 人工智能 编解码
十连冠!阿里云蝉联中国音视频整体市场第一!
阿里云视频云以24.17%市场份额连续十次蝉联IDC音视频市场第一。AI+视频云成为增长核心驱动力,“AI实时互动”与“智能媒体生产”等赛道实现商业化突破。阿里云推出三大解决方案:AI实时互动助力企业快速构建沉浸式体验;智能媒体服务通过大模型提升内容生产效率;超高清与超低延时技术双突破,为客户提供高品质直播及点播服务。未来,阿里云将持续定义音视频新体验,与伙伴共创行业未来。
390 1
|
9月前
|
关系型数据库 分布式数据库 数据库
再获殊荣,阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
内存池化技术新突破,阿里云PolarDB蝉联SIGMOD最佳论文奖
|
8月前
|
存储 人工智能 前端开发
全球首个搭载Kimi-K2&Qwen3-Coder的Serverless架构VibeCoding解决方案重磅来袭!
Kimi-K2模型近期表现抢眼,编程能力尤为突出,成功挑战了DeepSeek的开源模型榜首地位。其代码生成效果惊艳,配合Qwen3-Coder,展现强大开发潜力。本文介绍基于Serverless架构的VibeCoding方案,依托Function AI,实现从创意到上线的完整编码智能体解决方案,适用于个人、泛开发者及企业用户。方案支持普通与专家两种模式,AI可自主开发小游戏并构建游戏平台,具备数据库交互、多智能体协作、自动化部署等能力。部署简便,访问阿里云Function AI控制台即可快速搭建。
全球首个搭载Kimi-K2&Qwen3-Coder的Serverless架构VibeCoding解决方案重磅来袭!

热门文章

最新文章