QwQ-32B-Preview(Qwen-with-Questions)是阿里巴巴于 2024 年 11 月发布的开源推理模型,旨在与 OpenAI 的 o1-preview 竞争。仅使用 32B 参数,QwQ-32B 就能达到与 DeepSeek-R1(671B 参数,37B 激活)相媲美的性能,堪称推理模型领域的效率奇迹。
核心优势
超高效率推理
- 参数量:32B(相比 DeepSeek-R1 的 671B)
- VRAM 需求:仅需 24GB(DeepSeek-R1 需要 1500GB+)
- 性能:可与最先进的推理模型(DeepSeek-R1、o1-mini)竞争
QwQ-32B 证明了小模型通过强化学习也能达到顶级推理能力。
击败 OpenAI o1-preview
根据阿里巴巴的测试,QwQ-32B-Preview 在以下基准测试中超越 OpenAI 的 o1-preview:
- AIME 测试(美国数学邀请赛)
- MATH 测试(数学问题集)
这标志着开源推理模型在性能上首次超越闭源商业模型。
技术方法
强化学习训练
类似于 OpenAI o1,QwQ-32B-Preview 通过任务推理、提前规划并执行一系列帮助模型得出答案的动作。
基于结果的奖励:
- 模型自主推理并产生结果
- 使用验证器(代码解释器或数学求解器)检查结果
- 模型审查并重新制定响应,直到获得正确答案
这种训练方法让模型学会自我纠错和深度推理。
推理链可视化
与 o1 类似,QwQ-32B 在推理过程中会展示其思考过程,用户可以看到模型如何逐步解决复杂问题。
开源优势
Apache 2.0 许可证
QwQ-32B-Preview 采用 Apache 2.0 许可证"开放"发布,意味着可用于商业应用,企业可以:
- 自由下载和部署
- 修改和优化模型
- 集成到商业产品中
多平台可用
- Hugging Face:国际用户主要下载源
- ModelScope:中国用户的 Hugging Face 等效平台
性能对比
| 模型 | 参数量 | VRAM 需求 | AIME | MATH |
|---|---|---|---|---|
| QwQ-32B | 32B | ~24GB | ✅ 优于 o1-preview | ✅ 优于 o1-preview |
| DeepSeek-R1 | 671B (37B 激活) | 1500GB+ | ✅ 顶级 | ✅ 顶级 |
| OpenAI o1-preview | 未知 | 云端 | 参考基准 | 参考基准 |
| o1-mini | 未知 | 云端 | ⚡ 快速但性能较低 | ⚡ 快速但性能较低 |
适用场景
- 数学问题求解:复杂数学推理和证明
- 科学研究:需要深度逻辑推理的科学问题
- 代码调试:复杂的编程问题和算法设计
- 教育辅导:数学和逻辑辅导,展示推理过程
- 资源受限环境:在有限 GPU 上运行先进推理模型
部署要求
硬件需求
- 最低配置:24GB VRAM(如 RTX 4090、A5000)
- 推荐配置:40GB VRAM(如 A100 40GB、A6000)
- 量化版本:可在 16GB VRAM 上运行(需要 INT8 或 INT4 量化)
推理框架
支持主流推理框架:
- vLLM
- TGI (Text Generation Inference)
- SGLang
- Ollama(便捷本地部署)
优缺点
优点:
- 超高效率:32B 达到 671B 模型的性能
- 低硬件要求:仅需 24GB VRAM
- 开源免费:Apache 2.0 许可证
- 超越 o1-preview:在数学推理测试中胜出
- 推理过程可视化:展示思考链
缺点:
- Preview 版本:仍在优化中,非最终版本
- 推理速度:深度推理需要更多时间
- 专注数学推理:在其他领域可能不如通用模型
- 中文推理:对中文推理的优化可能不如英文
与 o1 系列对比
| 特性 | QwQ-32B | OpenAI o1 |
|---|---|---|
| 开源 | ✅ 是 | ❌ 否 |
| 可自部署 | ✅ 是 | ❌ 否 |
| 成本 | 💰 免费(自托管硬件成本) | 💰💰 API 调用费用 |
| VRAM | 24GB | N/A(云端) |
| 数学性能 | ✅ 超越 o1-preview | 参考基准 |
总结
QwQ-32B-Preview 是推理模型领域的重大突破,证明了小模型通过强化学习可以达到甚至超越大型闭源模型的推理能力。
最适合:
- 需要高级数学推理能力的应用
- 资源受限但需要推理能力的场景
- 希望自主部署推理模型的企业
- 研究强化学习和推理的 AI 研究人员
不适合:
- 需要极快响应时间的实时应用
- 通用对话和知识问答(使用 Qwen2.5-72B 更好)
- 多模态推理(使用 Qwen2.5-VL)
对于追求开源、高效推理的团队,QwQ-32B 是 OpenAI o1 的最佳开源替代方案。
评论
还没有评论。成为第一个评论的人!
相关工具
Qwen2.5-72B
qwenlm.github.io
阿里巴巴通义千问旗舰大模型,在 18 万亿 tokens 上预训练,性能媲美 Llama-3-405B(体积仅为其 1/5),在知识、推理、数学和编程等多项基准测试中表现顶尖。
Qwen2.5-Coder-32B
qwenlm.github.io/blog/qwen2.5-coder-family
阿里巴巴千问代码专用模型,在 5.5 万亿 tokens 上训练支持 92 种编程语言,HumanEval 得分 85%,在代码生成和修复上媲美 GPT-4o。
BGE-M3
huggingface.co/BAAI/bge-m3
BAAI 开发的顶级开源多语言 embedding 模型,支持 100+ 种语言、8192 tokens 输入长度,同时支持密集检索、多向量检索和稀疏检索三种检索方式。
相关洞察

Anthropic Subagent:多智能体时代的架构革命
深入解析 Anthropic 的多智能体架构设计。了解如何通过 Subagent 突破上下文窗口限制,实现性能提升 90%,以及多智能体系统在 Claude Code 中的实际应用。
Skills + Hooks + Plugins:Anthropic 如何重新定义 AI 编程工具的扩展性
深入解析 Claude Code 的 Skills、Hooks 和 Plugins 三位一体架构,探讨为什么这种设计比 GitHub Copilot 和 Cursor 更先进,以及它如何通过开放标准重新定义 AI 编程工具的扩展性。
Claudesidian:让 Obsidian 变成 AI 驱动的第二大脑
通过 Claudesidian 这个开源项目,将 Obsidian 笔记系统与 Claude Code 完美结合。内置 PARA 方法、自定义命令、自动化工作流,从想法到实现的完整解决方案。