通义千问开源的QwQ模型,一个会思考的AI,阿里云百炼邀您第一时间体验

简介: Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。

思考、质疑、理解,是人类探索未知的永恒追求。


今天,我们向大家正式介绍 Qwen家族的新成员——QwQ-32B-Preview


QwQ(QwQ 的发音为 /kwju:/ ,与单词 “quill” 的读音近似)模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。


通过深入的探索和无数的试验,我们发现了一个深刻的道理:当模型有足够的时间思考、质疑和反思时,它对数学和编程的理解就会深化。就像学生通过认真地检查自己的工作并从错误中学习变得更加聪明一样,我们的模型也通过耐心和深思熟虑的分析获得了更深入的见解。这种细致的反思和自我质疑的过程,使得 QwQ 模型能够取得解决复杂问题的突破性进展


然而,正如所有智慧的追求者一样,QwQ 也有其局限性。当前的版本标志着这一漫长探索之旅的起点——它仍在学习如何在理性的道路上稳步前行。尽管其思绪偶尔飘散,提供的解答可能尚待完善,但智慧仍在不断积累之中。这正是学习过程的迷人之处:QwQ 既展现出能力,又保持着谦逊;既积累知识,又永远对未知充满好奇。


现在,我们邀请你一起,共同踏上这无尽的理解之旅。


目前QwQ-32B-Preview已上线至阿里云百炼大模型服务平台可直接在阿里云百炼上进行体验,免费赠送100万Token,目前正在限时免费中,抓紧来体验吧!

体验入口:阿里云百炼控制台

image.png

QwQ-32B-Preview模型规格:模型规格

image.png

详细使用方法可参考:模型调用方式参考文档进行调用。


模型局限性

作为预览版本,QwQ-32B-Preview 展现了令人期待的分析能力,同时也存在以下局限:

1.语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。

2.推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。

3.安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。

4.能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。目前正通过持续优化,努力提升模型的综合能力。

模型表现

在数学和编程领域,QwQ-32B-Preview 解决了一些最具挑战性的问题的卓越能力,包括:

GPQA:一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。

AIME:涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。

MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力。

LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。

image.png

具体表现如下:

GPQA:65.2%,展示了研究生水平的科学推理能力;

AIME:50.0%,证明了强大的数学问题解决技能;

MATH-500:90.6%,体现了在各类数学主题上的全面理解;

LiveCodeBench:50.0%,验证了在实际编程场景中的出色表现。

这些成果充分体现了QwQ在分析和问题解决能力方面的显著进步,尤其是在需要深度推理的技术领域。


展示样例

下列样例展示了QwQ深度自省的能力——质疑自身假设、进行深思熟虑的自我对话,并仔细审视其推理过程的每一步。

Example1: Logical Reasoning

User

S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉 P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q 先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:

P先生:我不知道这张牌。

Q先生:我知道你不知道这张牌。

P先生:现在我知道这张牌了。

Q先生:我也知道了。

请问:这张牌是什么牌?


QwQ-32B-Preview

这道题是逻辑推理题,涉及到信息的逐步披露和推理。题目中有一副16张扑克牌,分别是:

红桃:A、Q、4

黑桃:J、8、4、2、7、3

草花:K、Q、5、4、6

方块:A、5

约翰教授选了一张牌,把点数告诉了P先生,把花色告诉了Q先生。然后通过他们的对话,我们要推断出是哪张牌。


首先,让我们来梳理一下对话的内容:

P先生说:“我不知道这张牌。”

这意味着点数是重复的,因为如果点数唯一,P先生就能确定是哪张牌。例如,如果点数是K,只有草花K,那P先生就能确定是草花K。但P先生说不知道,所以点数必须在多个花色中出现。看看哪些点数是重复的:

A:红桃和方块

Q:红桃和草花

4:红桃、黑桃和草花

5:草花和方块

其他点数都是唯一的在某个花色中。

所以,可能的点数是A、Q、4、5。


Q先生说:“我知道你不知道这张牌。”

红桃:A、Q、4

黑桃:J、8、4、2、7、3

草花:K、Q、5、4、6

方块:A、5

A:红桃和方块

Q:红桃和草花

4:红桃、黑桃、草花

所以,红桃花色中的所有点数都是重复的。

4:黑桃、红桃、草花

其他点数在黑桃中是唯一的。

但Q先生说他知道P先生不知道,所以花色中的所有点数都必须是重复的。但在黑桃中,除了4,其他点数都是唯一的。所以,如果花色是黑桃,且点数是J、8、2、7、3,那么P先生就能知道,这与Q先生的说法矛盾。因此,花色不能是黑桃。

Q:草花和红桃

4:草花、红桃、黑桃

5:草花和方块

K和6是唯一的。

所以,如果花色是草花,点数是K或6,P先生就能知道,这又与Q先生的说法矛盾。因此,花色不能是草花。

A:方块和红桃

5:方块和草花

所以,方块中的点数都是重复的。

这句话有点 tricky。Q先生知道花色,而且他说他知道P先生不知道。这意味着,根据Q先生知道的花色,可以确定点数一定是重复的。因为如果花色中的点数是唯一的,那么P先生就能知道是哪张牌。但Q先生肯定地说他知道P先生不知道,所以花色中的点数必须是重复的。


让我们看看每个花色中的点数情况:

综上所述,Q先生知道花色,且确定所有可能的点数都是重复的,所以花色只能是红桃或方块。

P先生说:“现在我知道这张牌了。”

A:红桃和方块

Q:只有红桃

4:红桃

5:方块

P先生原来不知道,但现在知道了。这意味着,在Q先生发言后,P先生通过点数和花色的可能组合,确定了是哪张牌。

我们已经知道花色只能是红桃或方块,点数是A、Q、4、5。

但P先生现在知道牌了,说明点数加上花色的限制,使得只有唯一一个可能性。


让我们看看点数在红桃和方块中的分布:

等一下,Q先生说花色只能是红桃或方块,但根据之前的分析,花色是红桃或方块。

但是,点数Q只有红桃,4只有红桃,A有红桃和方块,5只有方块。

P先生原来不知道,说明点数是重复的,即A或5。

如果点数是Q或4,只有红桃,那么P先生知道点数后,结合花色是红桃,就能知道是哪张牌,这与P先生第一句“我不知道这张牌”矛盾。

所以,点数不能是Q或4,只能是A或5。

现在,P先生说他知道牌了,说明在A或5中,结合花色,只有唯一可能性。

但A在红桃和方块都有,5只有方块有。


等一下,如果点数是5,只有方块5,那么P先生知道点数是5,结合花色是方块,就可以确定是方块5。

如果点数是A,花色可以是红桃或方块,那么P先生还是不能确定是哪一张。

但是,P先生说现在知道这张牌了,所以点数不能是A,因为A在红桃和方块都有,除非花色是方块,但P先生只有点数信息。

等一下,也许我需要更仔细地思考。

Q先生说花色是红桃或方块,因为只有这些花色的点数都是重复的。

P先生知道点数,现在他说知道了,说明在花色是红桃或方块的限制下,点数唯一确定了牌。

对于点数A,花色可以是红桃或方块,所以P先生不能确定是哪一张。

对于点数5,只有方块5,所以P先生知道是方块5。

因此,只有当点数是5时,P先生才能确定是方块5。

所以,牌是方块5。


Q先生说:“我也知道了。”

Q先生原来只知道花色,但不知道是哪张牌,现在他也知道了。

如果花色是方块,点数是A或5。

但P先生刚才已经确定是方块5,所以Q先生现在也知道了是方块5。

如果花色是红桃,点数是A、Q、4。

但是,根据之前的推理,点数Q和4只有红桃,点数A有红桃和方块。

但P先生原来不知道,所以点数不能是Q或4,只能是A。

但是,如果花色是红桃,点数是A,P先生不能确定是红桃A还是方块A。

但P先生说现在知道了,所以只有当点数是5,花色是方块时,P先生才能确定。

因此,Q先生现在也确定是方块5。

综上所述,这张牌是方块5。


最终答案

方块5

Example: Math

User

有个人想买几套餐具,到了店里发现,自己的钱可以买21把叉子和21个勺子,也够买28个小刀,但是,他想三样东西都买,而且要配成一套,并且把钱刚好花完,如果你是这个人,你会怎么买呢?


QwQ-32B-Preview

这个问题挺有意思的。我得好好想想。题目说,我有多少钱可以买21把叉子和21个勺子,或者可以买28个小刀。但是我想三样都买,而且要配成一套,还要把钱正好花完。我要怎么安排呢?


首先,我需要理解一下这里的“一套”是什么意思。

我想应该是买一把叉子、一个勺子和一个小刀作为一个组合,也就是一套包括这三种餐具各一件。对吧?

所以,我的目标是买若干套这样的餐具,每套包含一把叉子、一个勺子和一个小刀,而且要把所有的钱都花完。

但是,题目中给出的信息是,我的钱可以买21把叉子和21个勺子,或者可以买28个小刀。

这说明,叉子和勺子的价格是相同的,因为用同样的钱可以买到相同数量的叉子和勺子,而小刀的价格不同,因为同样的钱可以买更多的小刀。


让我设一下变量,方便计算。

假设叉子的价格是x,勺子的价格也是x,小刀的价格是y。

那么,根据题意:21x + 21x = 42x,这是我的总预算。

另外,这个总预算也可以买28个小刀,也就是28y。

所以,42x = 28y。从这个等式,我可以得出x和y之间的关系。

42x = 28y两边都除以14,得到:3x = 2y

所以,y = (3/2)x

好了,现在我知道小刀的价格是叉子价格的1.5倍。

现在,我想要买若干套餐具,每套包括一把叉子、一个勺子和一个小刀,而且要把钱正好花完。

设我买n套,那么总成本是:n(x + x + y) = n(2x + y)

但是,y = (3/2)x,所以代入得:n(2x + (3/2)x) = n((7/2)x)

所以,总成本是n*(7/2)x

而我的总预算是42x,所以:n*(7/2)x = 42x

两边都除以x(假设x不为零),得到:n*(7/2) = 42

然后,解n:n = 42 / (7/2) = 42 * (2/7) = 12

所以,我可以买12套餐具,每套包含一把叉子、一个勺子和一个小刀,而且把钱正好花完。


但是,我感觉这个答案有点简单,可能哪里想错了。让我再检查一下。

首先,根据题意,钱可以买21叉子和21勺子,或者28小刀。

我设叉子和勺子各为x,小刀为y,然后得到42x = 28y,从而y = (3/2)x

然后,每套餐具是x + x + y = 2x + (3/2)x = (7/2)x

总预算42x,除以每套的成本(7/2)x,得到12套。看起来逻辑是对的。

但是,也许还有其他考虑。

比如,是否必须买整数套?

还是可以单独购买餐具?

题目说要配成一套,并且把钱刚好花完。

所以,应该是买整数套,而且钱要正好花完。

我的计算中,n=12,是整数,符合要求。

或者,可能有其他组合,比如不完全配成套,但题目明确说要配成一套,并且把钱花完,所以应该按照套来买。

所以,我认为答案是买12套餐具,每套包括一把叉子、一个勺子和一个小刀。


最终答案

12

探索之路的反思

大型语言模型的推理过程是一个复杂而多面的课题,我们的Qwen 研究团队在多个领域进行了深入的探索。从 Process Reward Model 到 LLM Critique,从多步推理到强化学习,一步步地推进着对智能的理解。虽然尚未明确最终的目标,但每一步的努力都使我们更接近真理、更接近智能。我们坚信,通过不懈的努力和探索,奇迹终将发生。


欢迎大家在评论区交流探讨调用QwQ-32B-Preview模型的体验与经验 。如果您在体验过程中有遇到什么问题需要我们解答,可以在评论区中留言探讨或是加入我们的官方钉钉支持群(群号:77600022533)进行交流反馈!

1732159465607 (1).png


阿里云百炼官网网址

阿里云百炼控制台

相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
相关文章
|
16天前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
62 6
|
1月前
|
人工智能 IDE 开发工具
|
1月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
24天前
|
机器学习/深度学习 人工智能 API
基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是由Meta AI团队开发的一种基于深度学习的高效蛋白质结构预测模型,其核心目标是利用大规模蛋白质语言模型(ESM)直接从氨基酸序列快速推断蛋白质的三维结构。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。该模型在蛋白质从头预测(de novo prediction)、功能位点解析、突变效应模拟等领域具有重要价值,以高效的推理性能,推动结构预测技术的普惠化应用。
|
1月前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
通义灵码AI IDE现已正式上线,用户可免费下载使用。作为AI原生开发环境工具,它深度适配千问3大模型,集成通义灵码插件能力,支持编程智能体、行间建议预测和行间会话等功能。其核心亮点包括:支持最强开源模型千问3,具备MCP工具调用能力;开箱即用的智能编码助手;自带编程智能体模式,端到端完成编码任务;长期记忆、NES行间预测及Inline Chat功能,大幅提升编程效率。目前,通义灵码插件下载量超1500万,生成代码超30亿行,广泛应用于企业开发场景。
AI IDE正式上线!通义灵码开箱即用
|
1月前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
418 10
|
1月前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
287 9
|
1月前
|
人工智能 自然语言处理 测试技术
🧠 用 AI 提升你的编程效率 —— 在 PyCharm 中体验通义灵码
通义灵码是一款基于大模型的智能编程辅助工具,现已上线PyCharm插件V2.5+版本。它能根据自然语言描述、注释或上下文生成高质量代码,支持多语言(Python、Java等),提供代码补全、优化建议、单元测试生成及异常排查等功能。集成魔搭MCP市场3000+服务,具备编程智能体模式与长期记忆能力,助开发者提升效率。适用初学者、资深开发者及团队协作场景。小红书、B站、抖音、微博均有相关资源分享。 小红书: http://xhslink.com/a/SvabuxSObf3db bilibili:https://b23.tv/1HJAdIx 抖音: https://v.douyin.com/1DAG
395 3

相关产品

  • 大模型服务平台百炼