Qwen2.5-72B icon

Qwen2.5-72B

打开

阿里巴巴通义千问旗舰大模型,在 18 万亿 tokens 上预训练,性能媲美 Llama-3-405B(体积仅为其 1/5),在知识、推理、数学和编程等多项基准测试中表现顶尖。

分享:

Qwen2.5-72B 是阿里巴巴通义千问团队于 2024 年 9 月发布的旗舰级大语言模型,代表了 Qwen 系列的最高水平。该模型在 18 万亿 tokens 上进行预训练(相比 Qwen2 的 7 万亿 tokens 扩展了 2.5 倍),在语言理解、推理、数学、编程和人类偏好对齐等广泛基准测试中展现出顶尖性能。

核心优势

性能媲美 Llama-3-405B

Qwen2.5-72B-Instruct 的性能可与 Llama-3-405B-Instruct 相媲美,而参数量仅为其 1/5(72B vs 405B),在多项开源和商业模型对比中表现出色。

超大规模预训练

  • 预训练数据:18 万亿 tokens(相比 Qwen2 的 7 万亿扩展 2.5 倍)
  • 多语言支持:涵盖多语言文本数据
  • 领域专业性:包含科学文献、代码等领域特定语料

后训练优化

实施了超过 100 万样本的精细监督微调和多阶段强化学习,显著增强:

  • 人类偏好对齐
  • 长文本生成能力
  • 结构化数据分析
  • 指令遵循能力

技术亮点

长上下文支持

  • Qwen2.5-Turbo 通过渐进式上下文长度扩展策略,经历四个阶段:
    • 32,768 tokens
    • 65,536 tokens
    • 131,072 tokens
    • 最终达到 262,144 tokens

Qwen2.5-1M 超长上下文

通过 Dual Chunk Attention 机制,无需额外训练即可将上下文长度从 4K 扩展到 256K,最终达到 100 万 tokens

性能表现

综合基准测试

Qwen2.5-72B-Instruct 在以下领域表现顶尖:

  • 知识:MMLU-Pro 等知识密集型任务
  • 推理:逻辑推理和常识推理
  • 数学:数学问题解决
  • 编程:代码生成和理解
  • 人类偏好对齐:Arena-Hard 等基准

API 模型性能

  • Qwen2.5-Turbo:性价比优于 GPT-4o-mini
  • Qwen2.5-Plus:与 GPT-4o 竞争力相当
  • Qwen2.5-Max:在知识(MMLU-Pro)、编程(LiveCodeBench)、综合评估(LiveBench)和人类偏好对齐(Arena-Hard)等基准上表现强劲

模型家族

Qwen2.5 系列包含多个专业模型:

  • Qwen2.5-Math:数学专用模型
  • Qwen2.5-Coder:代码生成专用
  • QwQ:推理专用模型
  • Qwen2.5-VL:多模态视觉语言模型

市场影响

到 2025 年,Qwen 在总下载量上超越 Llama,成为最常用的微调基础模型。

使用场景

  • 企业知识问答:强大的知识理解和长文本处理能力
  • 内容创作:长文本生成、文章写作、创意内容
  • 代码开发:编程辅助、代码解释、算法设计
  • 教育培训:知识传授、答疑解惑、个性化学习
  • 数据分析:结构化数据理解和分析
  • 多语言应用:支持多种语言的理解和生成

部署方式

开源部署

  • 完全开源,可在 Hugging Face 和 ModelScope 下载
  • 支持 vLLM、TGI、SGLang 等推理框架
  • 可在本地 GPU 或云端部署

API 服务

阿里云提供托管 API 服务:

  • Qwen2.5-Turbo(高性价比)
  • Qwen2.5-Plus(高性能)
  • Qwen2.5-Max(旗舰性能)

优缺点

优点

  • 开源免费:Apache 2.0 许可证,商业友好
  • 顶尖性能:媲美 Llama-3-405B,参数量仅 1/5
  • 超长上下文:支持高达 100 万 tokens
  • 中文优化:阿里巴巴开发,中文理解和生成能力强
  • 丰富生态:有完整的模型家族和工具链

缺点

  • 显存需求:72B 模型需要较大显存(完整精度约 144GB)
  • 推理速度:相比小模型推理速度较慢
  • 国际知名度:相比 GPT/Claude 在国际市场知名度较低

成本对比

对于自托管部署:

  • Qwen2.5-72B:需要 A100 80GB x 2 或 H100 80GB x 2
  • Llama-3-405B:需要 A100 80GB x 8 或更多

Qwen2.5-72B 在达到相似性能的同时,硬件成本降低约 75%

总结

Qwen2.5-72B 是开源社区最强的 70B 级别模型之一,特别适合:

  • 需要中文优化的应用
  • 寻求 Llama-3-405B 性能但硬件预算有限的团队
  • 需要长上下文能力的场景
  • 希望完全开源、可自主部署的企业

对于国内用户,Qwen2.5 结合阿里云生态,提供了完整的从模型到部署的解决方案。对于国际用户,它是性价比最高的开源大模型选择之一。

评论

还没有评论。成为第一个评论的人!