AI 模型排行榜 · 链世界

按对话、图像、视频三类展示主流模型的综合分与扩展指标，支持切换排序维度。排名由站点运营维护，仅供参考。

排序

排名	模型	厂商	综合分运营维护的综合排名分，越高越靠前	上下文 (K)上下文窗口长度（千 tokens）	输入价输入 tokens 单价（美元/百万 tokens）	输出价输出 tokens 单价（美元/百万 tokens）	MMLU大规模多任务语言理解基准准确率（%），越高越好	HumanEval代码生成能力评测 HumanEval（%），越高越好	Elo竞技场人类偏好对战 Elo 分，越高表示实战表现越强
1	G GPT-5.5	—	98.0	1050	5	30	91.50	91.40	1420
2	C Claude Fable 5 Anthropic 最强模型，定位高于 Opus 层级。Mythos 级别公开版，1M 上下文，SWE-Bench 等多项基准超越 Opus 4.8 超过 10%。支持自适应思维模式。	Anthropic	97.0	1000	10	50	—	—	—
3	G Gemini 3.5 Pro	Google DeepMind	96.0	1000	1.50	9	91	89.50	1400
4	C Claude Opus 4.8 Anthropic 最新旗舰推理模型	Anthropic	95.0	1000	5	25	0	—	0
5	C Claude Opus 4.7	—	93.0	1000	5	25	91	92.50	1400
6	G GLM-5.2 开源推理模型新标杆，MIT 许可，AA Intelligence Index 51 分位居开源模型榜首。MoE 架构 753B 总参数/40B 活跃参数，1M 上下文。GDPval-AA v2 得分 1524，与 GPT-5.5（1514）持平。科学推理能力突出：GPQA Diamond 89%，HLE 40%。	智谱AI / Z.ai	91.0	1000	1.40	4.40	—	—	—
7	C Claude Opus 4.6 Anthropic 1M 上下文推理模型，标准版 $5/$25，快速版 $30/$150	Anthropic	90.0	1000	5	25	0	—	0
8	G GPT-5.4 Pro OpenAI最强推理模型，1M+上下文，已解决前沿数学难题（Ramsey超图、Erdős问题）	OpenAI	90.0	1050	30	180	—	—	—
9	G Gemini 3.5 Flash Google 轻量级旗舰模型，支持 Computer Use 屏幕操控、函数调用、Search/Maps Grounding，适合 Agent 场景	Google DeepMind	90.0	1049	1.50	9	92.30	86.80	1370
10	G GPT-5.5 Instant	OpenAI	88.0	922	0.75	3	89.50	88.20	1350
11	V VibeThinker-3B 3B参数稠密推理模型，AIME26得分94.3，基于Qwen2.5，采用Spectrum-to-Signal后训练范式。不支持工具调用，专注数学和代码推理。	Weibo AI	88.0	32	—	—	—	—	—
12	D DeepSeek V4 Pro 深度推理模型，MIT 开源许可，1M 上下文窗口，MoE 架构 1.6T 总参数/49B 活跃参数。AA Intelligence Index 44 分，仅次于 GLM-5.2 的开源模型第二名。缓存命中价格极低（$0.004/M tokens）。	DeepSeek (深度求索)	87.0	1000	0.43	0.87	—	—	—
13	K Kimi K2.7 Code 1T MoE 编程专用模型，256K 上下文，Modified MIT 开源，推理 token 消耗降低 30%	月之暗面 / Moonshot AI	85.0	256	0.74	3.50	—	—	—
14	Q Qwen3.7 Max	—	85.0	1000	1.25	3.75	87	87	1300
15	G Gemini 3.1 Pro	—	85.0	1049	2	12	87.50	85	1300
16	D DeepSeek V4 Flash 高性价比推理模型，MIT 开源许可，1M 上下文窗口，MoE 架构 284B 总参数/13B 活跃参数。AA Intelligence Index 40 分，输出价格仅 $0.28/M tokens，缓存命中 $0.003/M tokens，极致性价比。	DeepSeek (深度求索)	83.0	1000	0.14	0.28	—	—	—
17	G Grok 4.20 Multi-Agent xAI 多智能体推理模型，基于 Grok 4.20 构建，支持多 Agent 协作编排，2M 上下文，适合复杂任务分解与并行执行	xAI	82.0	2000	1.25	2.50	86	85	1275
18	C Cursor Composer 2.5	Cursor	82.0	256	0	0	85	86	1260
19	K Kimi K2.6	—	82.0	262	0.68	3.42	85.50	84.50	1280
20	G GPT-5.4	—	82.0	1050	2.50	15	88.20	87.50	1320
21	G Grok 4.20 xAI推理模型，2M上下文，最低幻觉率，支持Agent工具调用	xAI	81.0	2000	1.25	2.50	—	—	—
22	C Claude Sonnet 4.6	Anthropic	80.0	1000	3	15	86.50	88	1280
23	M MiniMax M3 首个开源权重模型同时具备前沿编码、1M 上下文和原生多模态能力。MSA 稀疏注意力架构，SWE-Bench Pro 59.0%，TerminalBench 66.0%。定价极具竞争力。	MiniMax (稀宇科技)	80.0	1000	0.30	1.20	—	—	—
24	W Windsurf SWE-1.6	Windsurf (Codeium)	80.0	200	0	0	0	0	0
25	G Grok 4.3	—	80.0	1000	1.25	2.50	86	85	1270
26	M MiMo-V2.5 Pro	Xiaomi	78.0	1000	0.44	0.88	85	84	1260
27	Q Qwen3.6 Plus	—	76.0	1000	0.33	1.95	84	84	1250
28	G GPT-4o	OpenAI	75.0	128	2.50	10	88.70	90.20	1287
29	Q Qwen3.7 Plus 阿里通义千问3.7系列性价比模型，1M上下文，支持多模态Agent	Alibaba (Qwen)	75.0	1000	0.32	1.28	—	—	—
30	G GLM-5.1	智谱AI (Zhipu)	75.0	200	0.40	1.20	83	82	1240
31	C Cursor Composer 2	Cursor	72.0	256	0	0	82	82	1220
32	M MiMo-V2.5	—	72.0	1049	0.15	0.29	—	—	—
33	M MiniMax-M2.7	—	72.0	205	0.28	1.20	82	81	1220
34	K Kimi K2.5	—	72.0	262	0.40	1.90	82	82	1220
35	G Gemini 3 Flash	Google DeepMind	70.0	1000	0.15	0.60	82	80.50	1220
36	G GLM-5	智谱AI (Zhipu)	70.0	200	0.30	0.90	81	79	1210
37	Q Qwen3.5 397B	Alibaba (Qwen)	68.0	262	0.45	1.35	80.50	80.50	1200
38	G GPT-5.4 Mini GPT-5.4高效变体，400K上下文，优化高吞吐场景	OpenAI	67.0	400	0.75	4.50	—	—	—
39	Q Qwen3 Coder 480B Qwen 最强开源编码模型，480B MoE 架构（35B 激活），原生 256K 上下文（YaRN 可扩展至 1M）。SWE-Bench 表现优异，Apache 2.0 开源。配套 Qwen Code CLI 工具。	Alibaba (Qwen)	66.0	256	0.22	1.80	—	—	—
40	G Gemini 2.5 Pro	Google DeepMind	65.0	1000	0.35	1.40	80.50	78	1180
41	G Grok 3	xAI	65.0	1000	0.15	0.60	80	80	1180
42	混混元 Hy3 Preview	腾讯混元	65.0	256	0.06	0.18	79	78	1180
43	D DeepSeek V3.2 DeepSeek V3 系列最新版，131K 上下文，高性价比	DeepSeek (深度求索)	63.0	131	0.23	0.34	0	—	0
44	C Claude 4.5 Haiku	Anthropic	60.0	200	0.80	4	78	75	1150
45	G Gemini 3.1 Flash Lite Google 超低价 1M 上下文模型，适合大批量处理	Google DeepMind	60.0	1049	0.25	1.50	0	—	0
46	C Codestral 2508 Mistral 代码专用模型，256K上下文，低定价	Mistral AI	60.0	256	0.30	0.90	0	—	0
47	S Step 3.7 Flash StepFun 最新多模态 MoE 模型，196B 参数语言骨干 + 视觉编码器，原生支持图像和视频理解	StepFun (阶跃星辰)	60.0	256	0.20	1.15	78	75	—
48	G GPT-5.4 Nano GPT-5.4最轻量变体，400K上下文，极速低成本	OpenAI	58.0	400	0.20	1.25	—	—	—
49	C Cursor Composer 1.5	Cursor	58.0	200	0	0	76	74	1150
50	D DeepSeek R1	DeepSeek	55.0	128	0.55	2.19	78.50	78.50	1100
51	N Nova 2.0 Pro	Amazon	55.0	256	0.80	3.20	76	72	1120
52	N Nemotron 3 Super	NVIDIA	55.0	1000	0.14	0.42	76	74	1120
53	M Mistral Large 2512 Mistral Large 2025年12月更新版，262K上下文，定价大幅下降	Mistral AI	55.0	262	0.50	1.50	0	—	0
54	M Mistral Medium 3.5 Mistral 中端模型，262K上下文	Mistral AI	55.0	262	1.50	7.50	0	—	0
55	S Step 3.5 Flash	StepFun (阶跃星辰)	55.0	256	0.03	0.09	75	72	1100
56	豆豆包 Seed Code	字节跳动 (ByteDance)	55.0	256	0.10	0.30	76	74	1120
57	M Mistral Large 3	Mistral AI	50.0	256	0.30	0.90	75	70	1100
58	G Grok Build 0.1 xAI 编程专用模型，专为代理式软件工程工作流优化，支持文本和图像输入	xAI	50.0	256	1	2	—	—	—
59	C Command A+	Cohere	48.0	128	0	0	0	—	0
60	L Llama 4 Maverick	Meta	45.0	1000	0.17	0.50	72	72	1080
61	E ERNIE 5.0 Thinking	百度 (Baidu)	45.0	128	0.25	0.75	70	68	1050
62	L Llama 4 Scout	Meta	35.0	10000	0.11	0.33	65	65	1000
63	M Mistral Small 4	Mistral AI	35.0	256	0.10	0.30	65	62	980
64	C Command A	Cohere	35.0	256	1.50	4.50	62	60	970
65	P Phi-4	Microsoft	30.0	16	0.08	0.24	60	65	950
66	J Jamba 1.7 Large	AI21 Labs	30.0	256	1.30	3.90	58	60	930

返回首页

AI 模型排行榜 · 链世界

按对话、图像、视频三类展示主流模型的综合分与扩展指标，支持切换排序维度。排名由站点运营维护，仅供参考。

排序

排名	模型	厂商	综合分运营维护的综合排名分，越高越靠前	上下文 (K)上下文窗口长度（千 tokens）	输入价输入 tokens 单价（美元/百万 tokens）	输出价输出 tokens 单价（美元/百万 tokens）	MMLU大规模多任务语言理解基准准确率（%），越高越好	HumanEval代码生成能力评测 HumanEval（%），越高越好	Elo竞技场人类偏好对战 Elo 分，越高表示实战表现越强
1	G GPT-5.5	—	98.0	1050	5	30	91.50	91.40	1420
2	C Claude Fable 5 Anthropic 最强模型，定位高于 Opus 层级。Mythos 级别公开版，1M 上下文，SWE-Bench 等多项基准超越 Opus 4.8 超过 10%。支持自适应思维模式。	Anthropic	97.0	1000	10	50	—	—	—
3	G Gemini 3.5 Pro	Google DeepMind	96.0	1000	1.50	9	91	89.50	1400
4	C Claude Opus 4.8 Anthropic 最新旗舰推理模型	Anthropic	95.0	1000	5	25	0	—	0
5	C Claude Opus 4.7	—	93.0	1000	5	25	91	92.50	1400
6	G GLM-5.2 开源推理模型新标杆，MIT 许可，AA Intelligence Index 51 分位居开源模型榜首。MoE 架构 753B 总参数/40B 活跃参数，1M 上下文。GDPval-AA v2 得分 1524，与 GPT-5.5（1514）持平。科学推理能力突出：GPQA Diamond 89%，HLE 40%。	智谱AI / Z.ai	91.0	1000	1.40	4.40	—	—	—
7	C Claude Opus 4.6 Anthropic 1M 上下文推理模型，标准版 $5/$25，快速版 $30/$150	Anthropic	90.0	1000	5	25	0	—	0
8	G GPT-5.4 Pro OpenAI最强推理模型，1M+上下文，已解决前沿数学难题（Ramsey超图、Erdős问题）	OpenAI	90.0	1050	30	180	—	—	—
9	G Gemini 3.5 Flash Google 轻量级旗舰模型，支持 Computer Use 屏幕操控、函数调用、Search/Maps Grounding，适合 Agent 场景	Google DeepMind	90.0	1049	1.50	9	92.30	86.80	1370
10	G GPT-5.5 Instant	OpenAI	88.0	922	0.75	3	89.50	88.20	1350
11	V VibeThinker-3B 3B参数稠密推理模型，AIME26得分94.3，基于Qwen2.5，采用Spectrum-to-Signal后训练范式。不支持工具调用，专注数学和代码推理。	Weibo AI	88.0	32	—	—	—	—	—
12	D DeepSeek V4 Pro 深度推理模型，MIT 开源许可，1M 上下文窗口，MoE 架构 1.6T 总参数/49B 活跃参数。AA Intelligence Index 44 分，仅次于 GLM-5.2 的开源模型第二名。缓存命中价格极低（$0.004/M tokens）。	DeepSeek (深度求索)	87.0	1000	0.43	0.87	—	—	—
13	K Kimi K2.7 Code 1T MoE 编程专用模型，256K 上下文，Modified MIT 开源，推理 token 消耗降低 30%	月之暗面 / Moonshot AI	85.0	256	0.74	3.50	—	—	—
14	Q Qwen3.7 Max	—	85.0	1000	1.25	3.75	87	87	1300
15	G Gemini 3.1 Pro	—	85.0	1049	2	12	87.50	85	1300
16	D DeepSeek V4 Flash 高性价比推理模型，MIT 开源许可，1M 上下文窗口，MoE 架构 284B 总参数/13B 活跃参数。AA Intelligence Index 40 分，输出价格仅 $0.28/M tokens，缓存命中 $0.003/M tokens，极致性价比。	DeepSeek (深度求索)	83.0	1000	0.14	0.28	—	—	—
17	G Grok 4.20 Multi-Agent xAI 多智能体推理模型，基于 Grok 4.20 构建，支持多 Agent 协作编排，2M 上下文，适合复杂任务分解与并行执行	xAI	82.0	2000	1.25	2.50	86	85	1275
18	C Cursor Composer 2.5	Cursor	82.0	256	0	0	85	86	1260
19	K Kimi K2.6	—	82.0	262	0.68	3.42	85.50	84.50	1280
20	G GPT-5.4	—	82.0	1050	2.50	15	88.20	87.50	1320
21	G Grok 4.20 xAI推理模型，2M上下文，最低幻觉率，支持Agent工具调用	xAI	81.0	2000	1.25	2.50	—	—	—
22	C Claude Sonnet 4.6	Anthropic	80.0	1000	3	15	86.50	88	1280
23	M MiniMax M3 首个开源权重模型同时具备前沿编码、1M 上下文和原生多模态能力。MSA 稀疏注意力架构，SWE-Bench Pro 59.0%，TerminalBench 66.0%。定价极具竞争力。	MiniMax (稀宇科技)	80.0	1000	0.30	1.20	—	—	—
24	W Windsurf SWE-1.6	Windsurf (Codeium)	80.0	200	0	0	0	0	0
25	G Grok 4.3	—	80.0	1000	1.25	2.50	86	85	1270
26	M MiMo-V2.5 Pro	Xiaomi	78.0	1000	0.44	0.88	85	84	1260
27	Q Qwen3.6 Plus	—	76.0	1000	0.33	1.95	84	84	1250
28	G GPT-4o	OpenAI	75.0	128	2.50	10	88.70	90.20	1287
29	Q Qwen3.7 Plus 阿里通义千问3.7系列性价比模型，1M上下文，支持多模态Agent	Alibaba (Qwen)	75.0	1000	0.32	1.28	—	—	—
30	G GLM-5.1	智谱AI (Zhipu)	75.0	200	0.40	1.20	83	82	1240
31	C Cursor Composer 2	Cursor	72.0	256	0	0	82	82	1220
32	M MiMo-V2.5	—	72.0	1049	0.15	0.29	—	—	—
33	M MiniMax-M2.7	—	72.0	205	0.28	1.20	82	81	1220
34	K Kimi K2.5	—	72.0	262	0.40	1.90	82	82	1220
35	G Gemini 3 Flash	Google DeepMind	70.0	1000	0.15	0.60	82	80.50	1220
36	G GLM-5	智谱AI (Zhipu)	70.0	200	0.30	0.90	81	79	1210
37	Q Qwen3.5 397B	Alibaba (Qwen)	68.0	262	0.45	1.35	80.50	80.50	1200
38	G GPT-5.4 Mini GPT-5.4高效变体，400K上下文，优化高吞吐场景	OpenAI	67.0	400	0.75	4.50	—	—	—
39	Q Qwen3 Coder 480B Qwen 最强开源编码模型，480B MoE 架构（35B 激活），原生 256K 上下文（YaRN 可扩展至 1M）。SWE-Bench 表现优异，Apache 2.0 开源。配套 Qwen Code CLI 工具。	Alibaba (Qwen)	66.0	256	0.22	1.80	—	—	—
40	G Gemini 2.5 Pro	Google DeepMind	65.0	1000	0.35	1.40	80.50	78	1180
41	G Grok 3	xAI	65.0	1000	0.15	0.60	80	80	1180
42	混混元 Hy3 Preview	腾讯混元	65.0	256	0.06	0.18	79	78	1180
43	D DeepSeek V3.2 DeepSeek V3 系列最新版，131K 上下文，高性价比	DeepSeek (深度求索)	63.0	131	0.23	0.34	0	—	0
44	C Claude 4.5 Haiku	Anthropic	60.0	200	0.80	4	78	75	1150
45	G Gemini 3.1 Flash Lite Google 超低价 1M 上下文模型，适合大批量处理	Google DeepMind	60.0	1049	0.25	1.50	0	—	0
46	C Codestral 2508 Mistral 代码专用模型，256K上下文，低定价	Mistral AI	60.0	256	0.30	0.90	0	—	0
47	S Step 3.7 Flash StepFun 最新多模态 MoE 模型，196B 参数语言骨干 + 视觉编码器，原生支持图像和视频理解	StepFun (阶跃星辰)	60.0	256	0.20	1.15	78	75	—
48	G GPT-5.4 Nano GPT-5.4最轻量变体，400K上下文，极速低成本	OpenAI	58.0	400	0.20	1.25	—	—	—
49	C Cursor Composer 1.5	Cursor	58.0	200	0	0	76	74	1150
50	D DeepSeek R1	DeepSeek	55.0	128	0.55	2.19	78.50	78.50	1100
51	N Nova 2.0 Pro	Amazon	55.0	256	0.80	3.20	76	72	1120
52	N Nemotron 3 Super	NVIDIA	55.0	1000	0.14	0.42	76	74	1120
53	M Mistral Large 2512 Mistral Large 2025年12月更新版，262K上下文，定价大幅下降	Mistral AI	55.0	262	0.50	1.50	0	—	0
54	M Mistral Medium 3.5 Mistral 中端模型，262K上下文	Mistral AI	55.0	262	1.50	7.50	0	—	0
55	S Step 3.5 Flash	StepFun (阶跃星辰)	55.0	256	0.03	0.09	75	72	1100
56	豆豆包 Seed Code	字节跳动 (ByteDance)	55.0	256	0.10	0.30	76	74	1120
57	M Mistral Large 3	Mistral AI	50.0	256	0.30	0.90	75	70	1100
58	G Grok Build 0.1 xAI 编程专用模型，专为代理式软件工程工作流优化，支持文本和图像输入	xAI	50.0	256	1	2	—	—	—
59	C Command A+	Cohere	48.0	128	0	0	0	—	0
60	L Llama 4 Maverick	Meta	45.0	1000	0.17	0.50	72	72	1080
61	E ERNIE 5.0 Thinking	百度 (Baidu)	45.0	128	0.25	0.75	70	68	1050
62	L Llama 4 Scout	Meta	35.0	10000	0.11	0.33	65	65	1000
63	M Mistral Small 4	Mistral AI	35.0	256	0.10	0.30	65	62	980
64	C Command A	Cohere	35.0	256	1.50	4.50	62	60	970
65	P Phi-4	Microsoft	30.0	16	0.08	0.24	60	65	950
66	J Jamba 1.7 Large	AI21 Labs	30.0	256	1.30	3.90	58	60	930