QwQ-32B-Preview icon

QwQ-32B-Preview

開く

アリババの推論モデル。32BパラメータのみでDeepSeek-R1(671B)と同等の性能を実現し、AIME/MATHテストでOpenAI o1-previewを上回り、VRAM要件はわずか24GB。

共有:

QwQ-32B-Preview(Qwen-with-Questions)は、アリババが2024年11月にリリースしたオープンソース推論モデルで、OpenAIのo1-previewと競合することを目的としています。わずか32Bパラメータで、QwQ-32BはDeepSeek-R1(671Bパラメータ、37B活性化)と同等の性能を達成し、推論モデル効率の画期的な成果を表しています。

核心的優位性

超効率的推論

  • パラメータ: 32B(DeepSeek-R1の671Bと比較)
  • VRAM: わずか24GB(DeepSeek-R1の1500GB以上と比較)
  • 性能: SOTA推論モデル(DeepSeek-R1、o1-mini)と競争力

QwQ-32Bは、小型モデルでも強化学習を通じてトップティア推論を達成できることを証明しています。

OpenAI o1-previewを上回る

アリババのテストによると、QwQ-32B-PreviewはOpenAIのo1-previewを以下で上回ります:

  • AIME(米国数学招待試験)
  • MATH(数学問題セット)

オープンソース推論モデルがクローズドソース商用モデルを初めて超えました。

技術的アプローチ

「結果ベース報酬」での強化学習トレーニング:

  1. モデルが自律的に推論し結果を生成
  2. コードインタープリタまたは数学ソルバーで結果を検証
  3. 正解が得られるまでモデルが見直しと再定式化を実施

自己修正と深い推論を学習します。

オープンソースの利点

  • Apache 2.0ライセンス: 商用利用可
  • 利用可能: Hugging Face、ModelScope
  • 自己デプロイ可能: APIベンダーロックインなし

性能比較

モデル パラメータ VRAM AIME MATH
QwQ-32B 32B ~24GB ✅ o1-previewを上回る ✅ o1-previewを上回る
DeepSeek-R1 671B (37B活性) 1500GB+ ✅ トップティア ✅ トップティア
o1-preview 不明 クラウド ベースライン ベースライン

使用シーン

  • 数学問題解決
  • 論理的推論を必要とする科学研究
  • コードデバッグとアルゴリズム設計
  • 推論チェーンを表示する教育
  • 高度な推論を必要とするリソース制約環境

デプロイ

ハードウェア: 24GB VRAM最小(RTX 4090、A5000) フレームワーク: vLLM、TGI、SGLang、Ollama

長所と短所

長所:

  • 671Bモデル性能を32Bで達成
  • 低ハードウェア要件(24GB VRAM)
  • オープンソース(Apache 2.0)
  • 数学推論でo1-previewを上回る
  • 可視化された推論チェーン

短所:

  • プレビュー版、最適化中
  • 推論速度が遅い
  • 数学に特化、一般タスクで性能が劣る可能性

まとめ

QwQ-32B-Previewは推論モデルの大きな突破口で、小型モデルが強化学習を通じて大型クローズドソースモデルと同等以上の推論能力を達成できることを証明しています。

最適: 高度な数学推論、リソース制約シナリオ、自己デプロイ可能な推論ニーズ

コメント

まだコメントがありません。最初のコメントを投稿してください!