阿里巴巴通义千问旗舰大模型,在 18 万亿 tokens 上预训练,性能媲美 Llama-3-405B(体积仅为其 1/5),在知识、推理、数学和编程等多项基准测试中表现顶尖。
阿里巴巴千问代码专用模型,在 5.5 万亿 tokens 上训练支持 92 种编程语言,HumanEval 得分 85%,在代码生成和修复上媲美 GPT-4o。
阿里巴巴千问推理模型,仅 32B 参数即可媲美 DeepSeek-R1(671B),在 AIME 和 MATH 测试中击败 OpenAI o1-preview,VRAM 需求仅为 24GB。