千问团队开源会思考的QwQ模型,这模型成精了!

简介: QwQ是由Qwen团队开发的大型语言模型,专注于增强AI的推理能力。此预览版本在数学和编程领域表现出色,但在其他领域仍有提升空间。模型具备深度自省和自我质疑的能力,通过逐步推理和假设检验,能够在复杂问题上取得突破性进展。QwQ不仅支持本地推理和Ollama直接运行,还提供了详细的微调指南,助力开发者根据特定需求定制模型。尽管QwQ在推理过程中存在语言切换和安全性等方面的局限性,Qwen团队仍致力于不断优化,推动模型向更高层次的智能迈进。[了解更多](https://modelscope.cn/studios/Qwen/QwQ-32B-preview)

注意:QwQ 的发音为 /kwju:/ ,与单词 “quill” 的读音近似。

思考、质疑、理解,是人类探索未知的永恒追求。在这条探索之路上,QwQ犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。QwQ体现了古老的哲学精神:它深知自己一无所知,而这种认知正是其好奇心的源泉。在探寻答案的过程中,它始终保持自省,以理性之光审视每一个假设,在不同的思维维度中穿行,追寻更深层的真理。

然而,正如所有智慧的追求者一样,QwQ也有其局限性。这个版本只是漫长旅程中的一个初步阶段——它仍在学习如何行走于理性之路。它的思绪偶尔飘散,答案或许未尽完善,智慧仍在积淀。但这就是学习的美妙之处:既有能力又保持谦逊,既有知识又永远充满疑问。Qwen团队邀请您与QwQ一同探索,接纳它的洞见与不完美,共同踏上这无尽的理解之旅。

模型链接:https://modelscope.cn/models/Qwen/QwQ-32B-Preview

体验链接:https://modelscope.cn/studios/Qwen/QwQ-32B-preview

中文博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/

01.模型局限性

QwQ-32B-Preview 是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力。作为预览版本,它展现了令人期待的分析能力,同时也存在以下局限:

语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。

推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。

安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。

能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。Qwen团队正通过持续优化,努力提升模型的综合能力。

02.模型表现

通过深入的探索和无数的试验,Qwen团队发现了一个深刻的道理:当模型有足够的时间思考、质疑和反思时,它对数学和编程的理解就会深化。就像学生通过认真地检查自己的工作并从错误中学习变得更加聪明一样,模型也通过耐心和深思熟虑的分析获得了更深入的见解。这种细致的反思和自我质疑的过程使得模型能够取得解决复杂问题的突破性进展,本次探索之旅揭示了模型在数学和编程领域解决一些最具挑战性的问题的卓越能力,包括:

GPQA:一个通过小学级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。

AIME:涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。

MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力。

LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。

image.png

具体表现如下:

GPQA:65.2%,展示了研究生水平的科学推理能力;

AIME:50.0%,证明了强大的数学问题解决技能;

MATH-500:90.6%,体现了在各类数学主题上的全面理解;

LiveCodeBench:50.0%,验证了在实际编程场景中的出色表现。

这些成果充分体现了QwQ在分析和问题解决能力方面的显著进步,尤其是在需要深度推理的技术领域。

样例

下列样例展示了QwQ深度自省的能力——质疑自身假设、进行深思熟虑的自我对话,并仔细审视其推理过程的每一步。

User:
S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉 P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q 先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:
P先生:我不知道这张牌。
Q先生:我知道你不知道这张牌。
P先生:现在我知道这张牌了。
Q先生:我也知道了。
请问:这张牌是什么牌?"
QwQ-32B-Preview:
这道题是逻辑推理题,涉及到信息的逐步披露和推理。题目中有一副16张扑克牌,分别是:
- 红桃:A、Q、4
- 黑桃:J、8、4、2、7、3
- 草花:K、Q、5、4、6
- 方块:A、5
约翰教授选了一张牌,把点数告诉了P先生,把花色告诉了Q先生。然后通过他们的对话,我们要推断出是哪张牌。
首先,让我们来梳理一下对话的内容:
1. P先生说:“我不知道这张牌。”   - 这意味着点数是重复的,因为如果点数唯一,P先生就能确定是哪张牌。例如,如果点数是K,只有草花K,那P先生就能确定是草花K。但P先生说不知道,所以点数必须在多个花色中出现。看看哪些点数是重复的:
- A:红桃和方块
- Q:红桃和草花
- 4:红桃、黑桃和草花
- 5:草花和方块
- 其他点数都是唯一的在某个花色中。
所以,可能的点数是A、Q、4、5。
2. Q先生说:“我知道你不知道这张牌。”
- 这句话有点 tricky。Q先生知道花色,而且他说他知道P先生不知道。这意味着,根据Q先生知道的花色,可以确定点数一定是重复的。因为如果花色中的点数是唯一的,那么P先生就能知道是哪张牌。但Q先生肯定地说他知道P先生不知道,所以花色中的点数必须是重复的。
- 让我们看看每个花色中的点数情况:
- 红桃:A、Q、4
- A:红桃和方块
- Q:红桃和草花
- 4:红桃、黑桃、草花
- 所以,红桃花色中的所有点数都是重复的。
- 黑桃:J、8、4、2、7、3
- 4:黑桃、红桃、草花
- 其他点数在黑桃中是唯一的。
- 但Q先生说他知道P先生不知道,所以花色中的所有点数都必须是重复的。但在黑桃中,除了4,其他点数都是唯一的。所以,如果花色是黑桃,且点数是J、8、2、7、3,那么P先生就能知道,这与Q先生的说法矛盾。因此,花色不能是黑桃。
- 草花:K、Q、5、4、6
- Q:草花和红桃
- 4:草花、红桃、黑桃
- 5:草花和方块
- K和6是唯一的。
- 所以,如果花色是草花,点数是K或6,P先生就能知道,这又与Q先生的说法矛盾。因此,花色不能是草花。
- 方块:A、5
- A:方块和红桃
- 5:方块和草花
- 所以,方块中的点数都是重复的。
- 综上所述,Q先生知道花色,且确定所有可能的点数都是重复的,所以花色只能是红桃或方块。
3. P先生说:“现在我知道这张牌了。” 
- P先生原来不知道,但现在知道了。这意味着,在Q先生发言后,P先生通过点数和花色的可能组合,确定了是哪张牌。
- 我们已经知道花色只能是红桃或方块,点数是A、Q、4、5。
- 但P先生现在知道牌了,说明点数加上花色的限制,使得只有唯一一个可能性。
- 让我们看看点数在红桃和方块中的分布:
- A:红桃和方块
- Q:只有红桃    
- 4:红桃     
- 5:方块   
- 等一下,Q先生说花色只能是红桃或方块,但根据之前的分析,花色是红桃或方块。   
- 但是,点数Q只有红桃,4只有红桃,A有红桃和方块,5只有方块。
- P先生原来不知道,说明点数是重复的,即A或5。
- 如果点数是Q或4,只有红桃,那么P先生知道点数后,结合花色是红桃,就能知道是哪张牌,这与P先生第一句“我不知道这张牌”矛盾。
- 所以,点数不能是Q或4,只能是A或5。
- 现在,P先生说他知道牌了,说明在A或5中,结合花色,只有唯一可能性。   
- 但A在红桃和方块都有,5只有方块有。   
- 等一下,如果点数是5,只有方块5,那么P先生知道点数是5,结合花色是方块,就可以确定是方块5。   
- 如果点数是A,花色可以是红桃或方块,那么P先生还是不能确定是哪一张。
- 但是,P先生说现在知道这张牌了,所以点数不能是A,因为A在红桃和方块都有,除非花色是方块,但P先生只有点数信息。   
- 等一下,也许我需要更仔细地思考。\n\n   - Q先生说花色是红桃或方块,因为只有这些花色的点数都是重复的。  
- P先生知道点数,现在他说知道了,说明在花色是红桃或方块的限制下,点数唯一确定了牌。
- 对于点数A,花色可以是红桃或方块,所以P先生不能确定是哪一张。
- 对于点数5,只有方块5,所以P先生知道是方块5。
- 因此,只有当点数是5时,P先生才能确定是方块5。   
- 所以,牌是方块5。\n\n4. Q先生说:“我也知道了。”   
- Q先生原来只知道花色,但不知道是哪张牌,现在他也知道了。   
- 如果花色是方块,点数是A或5。
- 但P先生刚才已经确定是方块5,所以Q先生现在也知道了是方块5。   
- 如果花色是红桃,点数是A、Q、4。
- 但是,根据之前的推理,点数Q和4只有红桃,点数A有红桃和方块。   
- 但P先生原来不知道,所以点数不能是Q或4,只能是A。
- 但是,如果花色是红桃,点数是A,P先生不能确定是红桃A还是方块A。   
- 但P先生说现在知道了,所以只有当点数是5,花色是方块时,P先生才能确定。   
- 因此,Q先生现在也确定是方块5。
综上所述,这张牌是方块5。
**最终答案**
$$ \\boxed{\\text{方块5}} $$
user:
有个人想买几套餐具,到了店里发现,自己的钱可以买21把叉子和21个勺子,也够买28个小刀,但是,他想三样东西都买,而且要配成一套,并且把钱刚好花完,如果你是这个人,你会怎么买呢?
QwQ-32B-Preview:
这个问题挺有意思的。我得好好想想。题目说,我有多少钱可以买21把叉子和21个勺子,或者可以买28个小刀。但是我想三样都买,而且要配成一套,还要把钱正好花完。我要怎么安排呢?
首先,我需要理解一下这里的“一套”是什么意思。
我想应该是买一把叉子、一个勺子和一个小刀作为一个组合,也就是一套包括这三种餐具各一件。对吧?
所以,我的目标是买若干套这样的餐具,每套包含一把叉子、一个勺子和一个小刀,而且要把所有的钱都花完。
但是,题目中给出的信息是,我的钱可以买21把叉子和21个勺子,或者可以买28个小刀。
这说明,叉子和勺子的价格是相同的,因为用同样的钱可以买到相同数量的叉子和勺子,而小刀的价格不同,因为同样的钱可以买更多的小刀。
让我设一下变量,方便计算。
假设叉子的价格是x,勺子的价格也是x,小刀的价格是y。
那么,根据题意:21x + 21x = 42x,这是我的总预算。
另外,这个总预算也可以买28个小刀,也就是28y。
所以,42x = 28y。从这个等式,我可以得出x和y之间的关系。
42x = 28y两边都除以14,得到:3x = 2y
所以,y = (3/2)x
好了,现在我知道小刀的价格是叉子价格的1.5倍。
现在,我想要买若干套餐具,每套包括一把叉子、一个勺子和一个小刀,而且要把钱正好花完。
设我买n套,那么总成本是:n(x + x + y) = n(2x + y)
但是,y = (3/2)x,所以代入得:n(2x + (3/2)x) = n((7/2)x)
所以,总成本是n*(7/2)x
而我的总预算是42x,所以:n*(7/2)x = 42x
两边都除以x(假设x不为零),得到:n*(7/2) = 42
然后,解n:n = 42 / (7/2) = 42 * (2/7) = 12
所以,我可以买12套餐具,每套包含一把叉子、一个勺子和一个小刀,而且把钱正好花完。
但是,我感觉这个答案有点简单,可能哪里想错了。让我再检查一下。
首先,根据题意,钱可以买21叉子和21勺子,或者28小刀。
我设叉子和勺子各为x,小刀为y,然后得到42x = 28y,从而y = (3/2)x
然后,每套餐具是x + x + y = 2x + (3/2)x = (7/2)x
总预算42x,除以每套的成本(7/2)x,得到12套。看起来逻辑是对的。
但是,也许还有其他考虑。
比如,是否必须买整数套?
还是可以单独购买餐具?
题目说要配成一套,并且把钱刚好花完。
所以,应该是买整数套,而且钱要正好花完。
我的计算中,n=12,是整数,符合要求。
或者,可能有其他组合,比如不完全配成套,但题目明确说要配成一套,并且把钱花完,所以应该按照套来买。
所以,我认为答案是买12套餐具,每套包括一把叉子、一个勺子和一个小刀。
**最终答案**
$$ \\boxed{12} $$

03.最佳实践

推理代码

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry."
messages = [
    {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

本地推理速度

使用EvalScope的Speed Benchmark工具测试QwQ-32B-Preview模型基于transformers的推理速度,测试生成2048 tokens时的速度与显存占用,输入长度分别为1、6144、14336、30720:

EvalScope 开源地址:

https://github.com/modelscope/evalscope

Speed Benchmark工具使用说明:

https://evalscope.readthedocs.io/zh-cn/latest/user_guides/stress_test/speed_benchmark.html

测试环境:

-NVIDIA A100 80GB

-CUDA 12.1

-Pytorch 2.3.1

-Flash Attention 2.5.8

-Transformers 4.46.0

压测命令:

CUDA_VISIBLE_DEVICES=0 evalscope perf \
 --parallel 1 \
 --model Qwen/QwQ-32B-Preview \
 --attn-implementation flash_attention_2 \
 --log-every-n-query 1 \
 --connect-timeout 60000 \
 --read-timeout 60000\
 --max-tokens 2048 \
 --min-tokens 2048 \
 --api local \
 --dataset speed_benchmark

测试结果:

image.png

Ollama直接运行

该模型也可以通过Ollama,基于ModelScope上不同量化精度的GGUF版本直接运行

  1. 设置ollama下启用
ollama serve
  1. 通过 ollama run命令直接运行QwQ-32B-Preview模型的GGUF版本
ollama run modelscope.cn/AI-ModelScope/QwQ-32B-Preview-GGUF

运行结果如下:

image.png

更多通过Ollama直接运行ModelScope上任意GGUF模型的方法,可参考文档:https://www.modelscope.cn/docs/models/advanced-usage/ollama-integration

模型微调

本文介绍使用ms-swift对qwq-32b-preview进行微调。swift是魔搭社区官方提供的LLM与MLLM微调框架,支持400+大语言模型和100+多模态大模型的微调到部署。

swift开源地址:

https://github.com/modelscope/ms-swift

在开始微调之前,请确保您的环境已正确安装ms-swift

git clone https://github.com/modelscope/ms-swift.git
cd swift
pip install -e .[llm]

我们使用open-o1作为微调的数据集:

https://modelscope.cn/datasets/AI-ModelScope/OpenO1-SFT

运行以下微调脚本,即可开启微调。

# Experimental environment: 4 * A100
# 4 * 60GB GPU memory
NPROC_PER_NODE=4 \
CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
    --model_type qwq-32b-preview \
    --model_id_or_path Qwen/QwQ-32B-Preview \
    --dataset open-o1#20000 \
    --logging_steps 5 \
    --max_length 8192 \
    --learning_rate 1e-4 \
    --output_dir output \
    --lora_target_modules ALL \
    --num_train_epochs 5 \
    --deepspeed default-zero3

显存占用:

image.png

微调后推理脚本如下,这里的ckpt_dir需要修改为训练生成的last checkpoint文件夹。

# 直接推理
CUDA_VISIBLE_DEVICES=0 swift infer \
    --ckpt_dir output/qwq-32b-preview/vx-xxx/checkpoint-xxx \
    --load_dataset_config true --show_dataset_sample 10
# 使用vllm推理
CUDA_VISIBLE_DEVICES=0 swift infer \
    --ckpt_dir output/qwq-32b-preview/vx-xxx/checkpoint-xxx \
    --infer_backend vllm --max_model_len 8192 \
    --load_dataset_config true --show_dataset_sample 10

微调效果展示(以下为微调了200个steps的效果)

image.png

image.png

image.png

04.探索之路的反思

大型语言模型的推理过程是一个复杂而多面的课题,Qwen研究团队在多个领域进行了深入的探索。从 Process Reward Model 到 LLM Critique,从多步推理到强化学习,一步步地推进着对智能的理解。虽然尚未明确最终的目标,但每一步的努力都使Qwen团队更接近真理、更接近智能。Qwen团队坚信,通过不懈的努力和探索,奇迹终将发生。

点击链接阅读原文: https://modelscope.cn/studios/Qwen/QwQ-32B-preview/?from=alizishequ__text

相关文章
|
7月前
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
7月前
|
机器学习/深度学习 自然语言处理 机器人
【RAG实践】基于LlamaIndex和Qwen1.5搭建基于本地知识库的问答机器人
LLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。
|
3月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】LLM主流开源大模型介绍
【AI大模型】LLM主流开源大模型介绍
|
2月前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
7月前
|
安全 测试技术 Swift
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
Meta发布了 Meta Llama 3系列,是LLama系列开源大型语言模型的下一代。在接下来的几个月,Meta预计将推出新功能、更长的上下文窗口、额外的模型大小和增强的性能,并会分享 Llama 3 研究论文。
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
|
6月前
|
人工智能 小程序 机器人
开源一个RAG大模型本地知识库问答机器人-ChatWiki
准备工作 再安装ChatWiki之前,您需要准备一台具有联网功能的linux服务器,并确保服务器满足最低系统要求 • Cpu:最低需要2 Core • RAM:最低需要4GB 开始安装 ChatWiki社区版基于Docker部署,请先确保服务器已经安装好Docker。如果没有安装,可以通过以下命令安装:
311 0
|
7月前
|
人工智能 IDE Devops
通义灵码技术解析,打造 AI 原生开发新范式
本文第一部分先介绍 AIGC 对软件研发的根本性影响,从宏观上介绍当下的趋势;第二部分将介绍 Copilot 模式,第三部分是未来软件研发 Agent 产品的进展。
72772 7
|
7月前
|
数据可视化 物联网 Swift
澜舟科技开源孟子3-13B大模型,魔搭社区推理训练最佳实践!
4月1日,澜舟科技宣布开源Mengzi3-13B大模型,对学术研究完全开放,同时支持免费商用。
|
7月前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。