近期,中国科学院国家天文台、中国科学院青藏高原研究所、中国科学院南海海洋研究所等多个中国科学院研究机构的科研项目已相继接入通义千问开源模型QwQ-32B。
其中,天文观测助手“星语4.0”的底层模型已从Qwen2.0升级至QwQ-32B。从1.0到4.0,“星语”基于通义开源的新模型不断版本迭代。目前,基于“星语4.0”打造的望远镜观测系统已接入由10台望远镜组成的近邻星系巡天项目(NGSS)。目前该项目已成功探测到SN2024xin、AT2025pk等瞬变源。
图|星语4.0已接入近邻星系巡天项目
中国科学院青藏所于近日发布的全球首个水能粮大模型——洛书,集成了科学模型“思源”(Hydro Trace)和千问推理模型QwQ-32B以及多模态模型Qwen2.5-VL,可对特定区域在不同时间尺度的来水量和来源进行精准分析和预测。目前洛书大模型已在青藏高原及部分能源企业开展测试工作。
图|“洛书”大模型监测水文时空变化
此外,中国科学院南海所珊瑚礁多模态大模型“瑶华”也已接入QwQ-32B。
图|“瑶华”大模型识别南海珊瑚
因此,我们邀请到了两位青年科学家为我们揭秘中国顶尖科研机构如何拥抱推理模型。
李瑀旸,中国科学院大学天文与空间科学学院博士生,国科大他山交叉学科创新协会联合创始人,天文大模型“星语”项目组核心技术成员。
夏萃慧,中科院青藏高原研究所助理研究员,水能粮大模型“洛书”及《面向地球系统过程集成的注意力驱动多模态大模型及其水能粮应用》科研项目负责人。
对谈节选
以QwQ-32B为代表的推理模型对科研的价值是什么?
李瑀旸:我觉得主要概括为三个方面,提高输出质量、让推理过程可解释、提高工作流的执行能力。
在科研场景中,像QwQ-32B这类推理模型的核心价值在于模拟人类专家的复杂推理过程。科学问题通常需要深入分析与逐步推导,而非简单的问答形式,传统快思考模型难以胜任。过去,我们只能通过提示词工程让模型逐步论证、“三思而后行”,从而生成高质量回答。
现在,QwQ-32B具备清晰的推理链条,不仅提升了输出内容的质量,还使科研人员能够直观理解模型的思考路径,从而评估结论的可靠性。这既降低了对“幻觉”问题的核查成本,也揭示了推理过程中的潜在不足,为模型的持续优化提供依据。
在科研工作流中常用的“规划(Planning)——行动(Action)——反思(Reflection)”模式中,QwQ-32B能够对任务进行全面拆解与规划,对问题进行深度反思与排查,并将成功或失败的经验总结存入记忆模块,从而提升工作流的稳定性与能力。此外,QwQ针对指令遵循能力进行了强化,在部分时效性要求较低的行动(Action)场景,可直接调用工具完成任务,进一步提升了执行效率。
夏萃慧:我非常赞同李老师的观点,大模型的可解释性对科研应用十分关键。很多科学问题本质就是利用模型去解释现象,再基于这一解释预测未来。如果没有可解释性,大模型在科研应用中的价值就会非常受限,难以在更为核心的科学发现中发挥作用。QwQ-32B的推理链条实际上提供了可解释性,当我们把QwQ-32B用于科学任务如数据分析时,可以清晰了解它的分析逻辑,并结合领域知识判断分析结果的可靠性。
为什么在众多推理模型中选择了QwQ-32B?
李瑀旸:我们首先关注模型的基础能力,包括上下文长度、输出格式稳定性以及预训练数据的丰富性,这些决定了模型在科学应用中的基础水平。
其次,指令遵循能力或对Agent的适配程度决定了模型的能力上限。科研以科学数据为核心,而大模型缺乏类似的训练数据。因此我们需要通过工具调用与已有科学模型对接,来获取科学数据。基于标准化协议(如MCP),我们为 QwQ 接入领域插件,为其自主规划解决路径提供工具支持,以打造天文领域的 “Manus” 。在推理模型中,QwQ全面开源且在工具调用上具有较强的能力,32B量级也能在天文观测站本地部署,是目前最合适的选择。
夏萃慧:我想补充的一点是“生态”。大模型的部署看似很简单,实际在与科学模型的对接和数据处理上,有非常多细碎具体的问题,需要懂大模型的人来支持。我们选择通义千问作为底层模型,很大程度上是因为它的生态好。阿里云和国科大“他山”学科交叉创新协会有深度合作,经常会联合举办相关的培训和学术交流活动。“洛书”开发过程中的很多问题都是通过阿里云与“他山”协会解决的,极大提升了研发效率。
既然谈到了开源,那么从科研角度来看,大模型开源的价值是什么?
李瑀旸:大模型开源能够进一步推动AI4Science的发展,让科学家能够更专注于模型的应用,而不是花精力在模型训练上。从假设生成,到基于科学仪器或软件的实验,再到数据处理分析、产生新的假设,整个科研过程,大模型贯穿始终。在海量文献处理、实验操作等方面,大模型可以发挥重要作用。
夏萃慧:从纯粹的科研角度来看,现在国际上都在提倡开放科学(Open Science)。好的期刊会要求研究者公开代码和数据,以确保研究的可重复性和可信度。当我们使用大模型进行研究时,如果使用的是闭源模型,我们无法解释其内部的工作机制。而开源的大模型,例如通义千问,其代码和模型结构是公开的,我们可以清楚地阐述其原理,这对于保证科研的透明度和可信度至关重要。
目前基于QwQ-32B,国家天文台、中国科学院青藏所取得了哪些成果?
李瑀旸:接入QwQ-32B后的“星语”,在望远镜观测系统中可实现对观测目标的自动排序、望远镜调度和生成数据报告,将观测中的人工干预减少了 90%。
我们正在尝试将这种智能模式推广到多望远镜的协同观测上:相比过去基于协议的协同模式,现在每个望远镜通过智能体进行组网。组网后的望远镜可基于多智能体博弈进行观测规划,这不仅降低了望远镜组网的难度,还增强了系统应对复杂场景的能力。
同时我们基于QwQ-32B升级了“星语”的科教应用,尤其在天文科教平台上新增了多项功能,例如多智能体的跨学科圆桌等项目,旨在为20万所中小学和广大天文爱好者提供丰富的科教内容。目前这些功能即将开放测试。
夏萃慧:“洛书”关注的核心问题是气候变化加剧水资源供给、能源供需以及粮食生产之间的不确定性。而科学模型能描绘和预测这一复杂关系的变化,从而辅助水电站等产业用户作出决策。鉴于“洛书”的最终目的是产业应用,所以我们要攻克的最核心问题就是可解释性。
科学模型方面,我们创新设计了时空特征注意力算法,通过时空定量溯源还原青藏高原的水文过程,解决了底层可解释问题。但这中间涉及的数据量庞大且复杂,人工处理的专业门槛和时间成本都很高。此前我们尝试使用非推理大模型进行分析,发现存在幻觉问题,且分析过程不透明,缺乏可解释性。而QwQ-32B帮助我们突破了这个瓶颈。
我们把数据结构和时空特征注意力算法教给QwQ-32B后,它能描绘不同时空尺度的气候环境变化对关键水资源的影响。有了这个能力,用户只需对“洛书”提问,就能获得定制的科学数据分析报告。
以水电站为例,“洛书”可以在几十秒内,量化回答任意某年、某月甚至某日,对其来水量影响最大的气候环境变量是什么,影响作用的地点在哪里,并据此分析气候变化带来的潜在影响。所有这些分析,QwQ的推理过程是全程透明可见的,这对我们科研成果的转化和实际应用至关重要,能够让产业用户真正信任采纳我们的研究结论。
/ END /
“云工开物”是由阿里云发起的高校用云支持计划,支持AI时代的高校人才培养和科研创新。“云工开物”高校专属资源申请可至官网(https://university.aliyun.com/)进行申请。