按对话、图像、视频三类展示主流模型的综合分与扩展指标,支持切换排序维度。排名由站点运营维护,仅供参考。
| 排名 | 模型 | 厂商 | 综合分运营维护的综合排名分,越高越靠前 | 上下文 (K)上下文窗口长度(千 tokens) | 输入价输入 tokens 单价(美元/百万 tokens) | 输出价输出 tokens 单价(美元/百万 tokens) | MMLU大规模多任务语言理解基准准确率(%),越高越好 | HumanEval代码生成能力评测 HumanEval(%),越高越好 | Elo竞技场人类偏好对战 Elo 分,越高表示实战表现越强 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | G GPT-5.5 | — | 98.0 | 1050 | 5 | 30 | 91.50 | 91.40 | 1420 |
| 2 | C Claude Fable 5 Anthropic 最强模型,定位高于 Opus 层级。Mythos 级别公开版,1M 上下文,SWE-Bench 等多项基准超越 Opus 4.8 超过 10%。支持自适应思维模式。 | Anthropic | 97.0 | 1000 | 10 | 50 | — | — | — |
| 3 | G Gemini 3.5 Pro | Google DeepMind | 96.0 | 1000 | 1.50 | 9 | 91 | 89.50 | 1400 |
| 4 | C Claude Opus 4.8 Anthropic 最新旗舰推理模型 | Anthropic | 95.0 | 1000 | 5 | 25 | 0 | — | 0 |
| 5 | C Claude Opus 4.7 | — | 93.0 | 1000 | 5 | 25 | 91 | 92.50 | 1400 |
| 6 | G GLM-5.2 开源推理模型新标杆,MIT 许可,AA Intelligence Index 51 分位居开源模型榜首。MoE 架构 753B 总参数/40B 活跃参数,1M 上下文。GDPval-AA v2 得分 1524,与 GPT-5.5(1514)持平。科学推理能力突出:GPQA Diamond 89%,HLE 40%。 | 智谱AI / Z.ai | 91.0 | 1000 | 1.40 | 4.40 | — | — | — |
| 7 | C Claude Opus 4.6 Anthropic 1M 上下文推理模型,标准版 $5/$25,快速版 $30/$150 | Anthropic | 90.0 | 1000 | 5 | 25 | 0 | — | 0 |
| 8 | G GPT-5.4 Pro OpenAI最强推理模型,1M+上下文,已解决前沿数学难题(Ramsey超图、Erdős问题) | OpenAI | 90.0 | 1050 | 30 | 180 | — | — | — |
| 9 | G Gemini 3.5 Flash Google 轻量级旗舰模型,支持 Computer Use 屏幕操控、函数调用、Search/Maps Grounding,适合 Agent 场景 | Google DeepMind | 90.0 | 1049 | 1.50 | 9 | 92.30 | 86.80 | 1370 |
| 10 | G GPT-5.5 Instant | OpenAI | 88.0 | 922 | 0.75 | 3 | 89.50 | 88.20 | 1350 |
| 11 | V VibeThinker-3B 3B参数稠密推理模型,AIME26得分94.3,基于Qwen2.5,采用Spectrum-to-Signal后训练范式。不支持工具调用,专注数学和代码推理。 | Weibo AI | 88.0 | 32 | — | — | — | — | — |
| 12 | D DeepSeek V4 Pro 深度推理模型,MIT 开源许可,1M 上下文窗口,MoE 架构 1.6T 总参数/49B 活跃参数。AA Intelligence Index 44 分,仅次于 GLM-5.2 的开源模型第二名。缓存命中价格极低($0.004/M tokens)。 | DeepSeek (深度求索) | 87.0 | 1000 | 0.43 | 0.87 | — | — | — |
| 13 | K Kimi K2.7 Code 1T MoE 编程专用模型,256K 上下文,Modified MIT 开源,推理 token 消耗降低 30% | 月之暗面 / Moonshot AI | 85.0 | 256 | 0.74 | 3.50 | — | — | — |
| 14 | Q Qwen3.7 Max | — | 85.0 | 1000 | 1.25 | 3.75 | 87 | 87 | 1300 |
| 15 | G Gemini 3.1 Pro | — | 85.0 | 1049 | 2 | 12 | 87.50 | 85 | 1300 |
| 16 | D DeepSeek V4 Flash 高性价比推理模型,MIT 开源许可,1M 上下文窗口,MoE 架构 284B 总参数/13B 活跃参数。AA Intelligence Index 40 分,输出价格仅 $0.28/M tokens,缓存命中 $0.003/M tokens,极致性价比。 | DeepSeek (深度求索) | 83.0 | 1000 | 0.14 | 0.28 | — | — | — |
| 17 | G Grok 4.20 Multi-Agent xAI 多智能体推理模型,基于 Grok 4.20 构建,支持多 Agent 协作编排,2M 上下文,适合复杂任务分解与并行执行 | xAI | 82.0 | 2000 | 1.25 | 2.50 | 86 | 85 | 1275 |
| 18 | C Cursor Composer 2.5 | Cursor | 82.0 | 256 | 0 | 0 | 85 | 86 | 1260 |
| 19 | K Kimi K2.6 | — | 82.0 | 262 | 0.68 | 3.42 | 85.50 | 84.50 | 1280 |
| 20 | G GPT-5.4 | — | 82.0 | 1050 | 2.50 | 15 | 88.20 | 87.50 | 1320 |
| 21 | G Grok 4.20 xAI推理模型,2M上下文,最低幻觉率,支持Agent工具调用 | xAI | 81.0 | 2000 | 1.25 | 2.50 | — | — | — |
| 22 | C Claude Sonnet 4.6 | Anthropic | 80.0 | 1000 | 3 | 15 | 86.50 | 88 | 1280 |
| 23 | M MiniMax M3 首个开源权重模型同时具备前沿编码、1M 上下文和原生多模态能力。MSA 稀疏注意力架构,SWE-Bench Pro 59.0%,TerminalBench 66.0%。定价极具竞争力。 | MiniMax (稀宇科技) | 80.0 | 1000 | 0.30 | 1.20 | — | — | — |
| 24 | W Windsurf SWE-1.6 | Windsurf (Codeium) | 80.0 | 200 | 0 | 0 | 0 | 0 | 0 |
| 25 | G Grok 4.3 | — | 80.0 | 1000 | 1.25 | 2.50 | 86 | 85 | 1270 |
| 26 | M MiMo-V2.5 Pro | Xiaomi | 78.0 | 1000 | 0.44 | 0.88 | 85 | 84 | 1260 |
| 27 | Q Qwen3.6 Plus | — | 76.0 | 1000 | 0.33 | 1.95 | 84 | 84 | 1250 |
| 28 | G GPT-4o | OpenAI | 75.0 | 128 | 2.50 | 10 | 88.70 | 90.20 | 1287 |
| 29 | Q Qwen3.7 Plus 阿里通义千问3.7系列性价比模型,1M上下文,支持多模态Agent | Alibaba (Qwen) | 75.0 | 1000 | 0.32 | 1.28 | — | — | — |
| 30 | G GLM-5.1 | 智谱AI (Zhipu) | 75.0 | 200 | 0.40 | 1.20 | 83 | 82 | 1240 |
| 31 | C Cursor Composer 2 | Cursor | 72.0 | 256 | 0 | 0 | 82 | 82 | 1220 |
| 32 | M MiMo-V2.5 | — | 72.0 | 1049 | 0.15 | 0.29 | — | — | — |
| 33 | M MiniMax-M2.7 | — | 72.0 | 205 | 0.28 | 1.20 | 82 | 81 | 1220 |
| 34 | K Kimi K2.5 | — | 72.0 | 262 | 0.40 | 1.90 | 82 | 82 | 1220 |
| 35 | G Gemini 3 Flash | Google DeepMind | 70.0 | 1000 | 0.15 | 0.60 | 82 | 80.50 | 1220 |
| 36 | G GLM-5 | 智谱AI (Zhipu) | 70.0 | 200 | 0.30 | 0.90 | 81 | 79 | 1210 |
| 37 | Q Qwen3.5 397B | Alibaba (Qwen) | 68.0 | 262 | 0.45 | 1.35 | 80.50 | 80.50 | 1200 |
| 38 | G GPT-5.4 Mini GPT-5.4高效变体,400K上下文,优化高吞吐场景 | OpenAI | 67.0 | 400 | 0.75 | 4.50 | — | — | — |
| 39 | Q Qwen3 Coder 480B Qwen 最强开源编码模型,480B MoE 架构(35B 激活),原生 256K 上下文(YaRN 可扩展至 1M)。SWE-Bench 表现优异,Apache 2.0 开源。配套 Qwen Code CLI 工具。 | Alibaba (Qwen) | 66.0 | 256 | 0.22 | 1.80 | — | — | — |
| 40 | G Gemini 2.5 Pro | Google DeepMind | 65.0 | 1000 | 0.35 | 1.40 | 80.50 | 78 | 1180 |
| 41 | G Grok 3 | xAI | 65.0 | 1000 | 0.15 | 0.60 | 80 | 80 | 1180 |
| 42 | 混 混元 Hy3 Preview | 腾讯混元 | 65.0 | 256 | 0.06 | 0.18 | 79 | 78 | 1180 |
| 43 | D DeepSeek V3.2 DeepSeek V3 系列最新版,131K 上下文,高性价比 | DeepSeek (深度求索) | 63.0 | 131 | 0.23 | 0.34 | 0 | — | 0 |
| 44 | C Claude 4.5 Haiku | Anthropic | 60.0 | 200 | 0.80 | 4 | 78 | 75 | 1150 |
| 45 | G Gemini 3.1 Flash Lite Google 超低价 1M 上下文模型,适合大批量处理 | Google DeepMind | 60.0 | 1049 | 0.25 | 1.50 | 0 | — | 0 |
| 46 | C Codestral 2508 Mistral 代码专用模型,256K上下文,低定价 | Mistral AI | 60.0 | 256 | 0.30 | 0.90 | 0 | — | 0 |
| 47 | S Step 3.7 Flash StepFun 最新多模态 MoE 模型,196B 参数语言骨干 + 视觉编码器,原生支持图像和视频理解 | StepFun (阶跃星辰) | 60.0 | 256 | 0.20 | 1.15 | 78 | 75 | — |
| 48 | G GPT-5.4 Nano GPT-5.4最轻量变体,400K上下文,极速低成本 | OpenAI | 58.0 | 400 | 0.20 | 1.25 | — | — | — |
| 49 | C Cursor Composer 1.5 | Cursor | 58.0 | 200 | 0 | 0 | 76 | 74 | 1150 |
| 50 | D DeepSeek R1 | DeepSeek | 55.0 | 128 | 0.55 | 2.19 | 78.50 | 78.50 | 1100 |
| 51 | N Nova 2.0 Pro | Amazon | 55.0 | 256 | 0.80 | 3.20 | 76 | 72 | 1120 |
| 52 | N Nemotron 3 Super | NVIDIA | 55.0 | 1000 | 0.14 | 0.42 | 76 | 74 | 1120 |
| 53 | M Mistral Large 2512 Mistral Large 2025年12月更新版,262K上下文,定价大幅下降 | Mistral AI | 55.0 | 262 | 0.50 | 1.50 | 0 | — | 0 |
| 54 | M Mistral Medium 3.5 Mistral 中端模型,262K上下文 | Mistral AI | 55.0 | 262 | 1.50 | 7.50 | 0 | — | 0 |
| 55 | S Step 3.5 Flash | StepFun (阶跃星辰) | 55.0 | 256 | 0.03 | 0.09 | 75 | 72 | 1100 |
| 56 | 豆 豆包 Seed Code | 字节跳动 (ByteDance) | 55.0 | 256 | 0.10 | 0.30 | 76 | 74 | 1120 |
| 57 | M Mistral Large 3 | Mistral AI | 50.0 | 256 | 0.30 | 0.90 | 75 | 70 | 1100 |
| 58 | G Grok Build 0.1 xAI 编程专用模型,专为代理式软件工程工作流优化,支持文本和图像输入 | xAI | 50.0 | 256 | 1 | 2 | — | — | — |
| 59 | C Command A+ | Cohere | 48.0 | 128 | 0 | 0 | 0 | — | 0 |
| 60 | L Llama 4 Maverick | Meta | 45.0 | 1000 | 0.17 | 0.50 | 72 | 72 | 1080 |
| 61 | E ERNIE 5.0 Thinking | 百度 (Baidu) | 45.0 | 128 | 0.25 | 0.75 | 70 | 68 | 1050 |
| 62 | L Llama 4 Scout | Meta | 35.0 | 10000 | 0.11 | 0.33 | 65 | 65 | 1000 |
| 63 | M Mistral Small 4 | Mistral AI | 35.0 | 256 | 0.10 | 0.30 | 65 | 62 | 980 |
| 64 | C Command A | Cohere | 35.0 | 256 | 1.50 | 4.50 | 62 | 60 | 970 |
| 65 | P Phi-4 | Microsoft | 30.0 | 16 | 0.08 | 0.24 | 60 | 65 | 950 |
| 66 | J Jamba 1.7 Large | AI21 Labs | 30.0 | 256 | 1.30 | 3.90 | 58 | 60 | 930 |