从“脸盲”到“火眼金睛”:我用Qwen3.5教会AI看懂春晚同款机器人

简介: 春晚人形机器人刷屏,你的 AI 能认出几个?基于 LlamaFactory Online 微调 Qwen3.5-35B-A3B,数百条数据一键训练,模型可精准识别宇树 H1 及应用场景,准确率大幅提升,彰显平台化工具垂直落地价值。

2026年开年,春晚舞台上,一群中国自主研发的人形机器人成为全场焦点。它们灵活起舞、精准互动,不仅引爆了国内社交媒体,更在全球科技圈掀起热议。这背后,正是人工智能的下一站——具身智能

所谓具身智能,本质是让智慧的“大脑”与物理世界的“身体”深度融合,让算法真正具备改造现实的能力。而人形机器人,正是这一理念最直观的载体。

那么问题来了:当一张人形机器人图片摆在面前,大模型能准确识别它的型号、生产商和应用场景吗?

今天,我们通过一次完整实战,展示如何在LlamaFactory Online平台上,微调Qwen3.5-35B-A3B 多模态大模型,让它从“这是机器人”的泛泛而谈,进阶为能准确说出“这是宇树H1”的“机器人识别专家”。


为什么要选Qwen3.5-35B-A3B?


面对人形机器人识别这个任务,我们需要一个既看得懂图像、又理解专业知识的“多面手”。Qwen3.5系列恰好具备这样的基因:


               视觉语言深度融合:在多模态Token上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际达到与 Qwen3 相当的水平,并超越Qwen3-VL模型。

               高效架构极速推理:门控Delta 网络结合稀疏混合专家(Mixture-of-Experts)机制,在极低延迟和成本开销下实现高吞吐推理。

               强化学习泛化适应:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而实现强大的现实世界适应能力。

               全球语言文化覆盖:支持扩展至201种语言和方言,实现包容性的全球部署,并具备细致入微的文化与区域理解能力。

               训练设施效率跃升:相比纯文本训练,多模态训练效率接近100%,并采用异步


强化学习框架,支持大规模智能体脚手架和环境编排。

这些特性,让它成为微调机器人识别任务的理想基座。


数据准备:让模型认识“真机器人”


任何微调的第一步,都是准备高质量的“教材”。我们提供了一份机器人多轮对话数据集,每条样本由用户指令和模型回答组成,微调过程中模型不断学习样本中的回答风格,逐步掌握机器人识别的专业能力。

数据样例:


[
  {
    "messages": [
      {
        "role": "user",
        "content": "<image>请识别并描述图片中的机器人及其特征,特别注意其型号、生产商及应用场景。"
      },
      {
        "role": "assistant",
        "content": "图片展示了由宇树科技生产的Unitree G1 (EDU)机器人。这款高性价比人形机器人以其卓越的运动性能和紧凑设计脱颖而出。它不仅支持灵活的折叠存放,极大节省空间,还能完成原地跳跃等复杂动作,展现了其先进的动力学控制能力。G1 (EDU)旨在为科研和教育领域提供一个开放且功能强大的平台,助力机器人技术的发展和创新人才的培养。"
      }
    ],
    "images": [
      "images/unitree_g1_1.png"
    ]
  }
]

第一步:数据格式转换


LlamaFactory Online平台左侧选择“实例空间”,配置CPU资源即可开始处理。平台提供了VSCode和Jupyter两种工具,将原始数据转换为图文对的ShareGPT格式。



第二步:进行数据上传


LlamaFactory Online提供了JupyterLab上传、SFTP上传下载两种方式


方式1(大数据量推荐):


使用SFTP工具(如Cyberduck),通过加密连接安全传输SFTP (SSH File Transfer Protocol) 是一种安全的文件传输协议,通过加密的 SSH 连接传输文件可以通过“文件管理”的SFTP上传/下载功能,传输数据集、模型或您的其他文件到文件管理中。



方式2(小数据量可选):

直接在JupyterLab中拖拽上传,简单快捷JupyterLab具有直观的图形化界面,支持并排编辑多个文档和多种文件类型(Notebook(.ipynb)、脚本(.py)、Markdown、CSV 等)可以通过JupyterLab传输模型、数据集或其他文件。



第三步:数据集注册

在/workspace/llamafactory/data/dataset_info.json配置文件配置如下内容,确保平台能正确识别数据格式和字段映射

注册数据集alpaca_robot_en1 .json


"alpaca_robot_en": {
        "file_name": "/workspace/user-data/datasets/alpaca_robot_en.json",
        "formatting": "sharegpt",
        "columns": {
            "messages": "conversations",
            "images": "images"
        },
        "tags": {
            "role_tag": "from",
            "content_tag": "value",
            "user_tag": "user",
            "assistant_tag": "assistant"
        },
        "customized_status": 8,
        "total_tokens": "57242",
        "num_samples": "405",
        "avg_tokens": "141.34"
    }


注册数据集alpaca_robot_val_en .json


"alpaca_robot": {
        "file_name": "/workspace/user-data/datasets/alpaca_robot.json",
        "formatting": "sharegpt",
        "columns": {
            "messages": "conversations",
            "images": "images"
        },
        "tags": {
            "role_tag": "from",
            "content_tag": "value",
            "user_tag": "user",
            "assistant_tag": "assistant"
        },
        "customized_status": 8,
        "total_tokens": "49205",
        "num_samples": "367",
        "avg_tokens": "134.07"
    }


在/workspace/llamafactory/data/dataset_info.json中追加数据集



第四步:数据集检测

返回LlamaFactory Online控制台进入“文件管理”,进行数据集检测,若“数据集格式检测”结果显示“符合”,则表示数据集符合格式要求,检测通过后可在“训练数据-文件管理”选择该数据集进行微调、评估。



💡注意:

alpaca_robot数据集已在LlamaFactory Online平台预置,可在模型微调、模型评估页面训练数据-公共数据选择使用该数据集。



模型训练:一键启动,全程可视

LlamaFactory Online平台提供开箱即用的训练环境在这里微调过程被简化到极致您只需通过‘三步走’即可完成选择模型与数据集、配置参数,一键发起微调

           1.    选择模型与数据集:基模型选Qwen3.5-35B-A3B,数据集选预置的alpaca_robot和alpaca_robot_en

           2.    配置参数:采用LoRA微调方法,系统将根据所需资源及其相关参数,动态预估任务运行时长及微调费用

           3.    一键启动:点击“开始训练”,任务提交成功



通过任务中心,可以实时查看训练进度、超参数和日志。更强大的是,平台集成了 SwanLab训练追踪,可以直观监控Loss曲线、系统资源等关键信息,让整个训练过程“透明可见”。



训练完成后,模型自动保存在文件管理中,路径清晰可查。



成果验收:它能认出机器人吗?


为了验证微调后的效果,我们进行了一场“面对面”测试:


测试点

原始 Qwen3.5 模型

微调后 Qwen3.5-Robot 专家

识别准确度

识别模糊,无法给出具体品牌和型号

精准识别出Unitree H1,并详述其运动性能

行业深度

描述偏通用(如:这是一个银色机器人)

具备行业专业度(如:提及科研教育应用场景)

幻觉控制

面对国产新型机器人易产生信息张冠李戴

信息准确,与微调数据集高度对齐


微调后模型:准确识别


随机上传一张机器人图片,提问:“请识别并描述图片中的机器人及其特征。”


微调模型回答



模型能够正确识别出图片中的机器人图片展示了由宇树科技 (Unitree Robotics) 生产的 Unitree H1 机器人 ,证明了微调的有效性。


原生模型:力不从心


同样的图片,同样的提问,未经过微调的模型表现如何?


原生模型回答



它只能认出“这是机器人”,却无法给出具体的型号、厂商和应用场景——这正是通用模型与垂直领域专家的差距。


总结:让大模型真正“看懂”具身智能


通过本次实战,我们成功验证了:

           1.    LoRA微调的高效性:在LlamaFactory Online平台上,仅需简单几步,即可让通用大模型快速掌握垂直领域知识

           2.    Qwen3.5的视觉理解能力:其统一的视觉-语言基础,让人形机器人识别任务表现优异

           3.    平台化工具的价值:从数据处理、模型训练到效果验证,全流程可视化、可追踪,大幅降低技术门槛

未来,LlamaFactory Online可以进一步利用真实业务数据集对模型进行针对性优化,让它在更复杂的场景中发挥作用——比如识别不同型号机器人的动作意图、理解特定工业场景的操作指令。

当大模型真正“看懂”人形机器人,具身智能的想象空间才刚刚打开。

 

目录
相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32714 80
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17766 21
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36697 21
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24772 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36678 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29850 52

热门文章

最新文章

下一篇
开通oss服务