GLM-5.2 开源权重发布：753B MoE 模型编程能力逼近 Claude Opus 4.8

智谱 AI（Z.ai）在 6 月 13 日面向 GLM Coding Plan 用户开放 GLM-5.2 后，6 月 17 日正式在 HuggingFace 和 ModelScope 上放出完整模型权重，采用 MIT 协议。这次发布的还有此前一直没公布的官方 benchmark 表——数字比 5 月的 5.1 提升了一大截。

模型规格

GLM-5.2 是一个 753B 参数的混合专家（MoE）模型，每次推理激活 44B 参数。上下文窗口从 5.1 的 200K 拉到了 1M token，输出上限 128K。架构上的主要创新是 IndexShare：每 4 层 Transformer 共享一个轻量级索引器，在 1M 上下文长度下把单 token FLOPs 降了 2.9 倍。另外 MTP（多 token 预测）层也有改进，投机解码的接受长度提升了 20%。

推理方面新增了三级 effort 控制：Lite、Pro、Max。Lite 快速响应适合简单任务，Max 给复杂编程任务分配更多算力。这比之前的思考/标准双模式更灵活。

Benchmark：开源模型新天花板

智谱这次放出的 benchmark 表覆盖了三个长程编程评测和四个标准编程评测：

长程编程（数小时级别）

评测	GLM-5.2	Claude Opus 4.8	GPT-5.5
FrontierSWE	74.4	75.1	73.4
PostTrainBench	34.3	第一	低于 GLM-5.2
SWE-Marathon	13.0	第一	—

FrontierSWE 衡量的是模型在数小时级别的开放式技术项目上的完成能力。GLM-5.2 只比 Opus 4.8 低 1 个百分点，比 GPT-5.5 高了 1 个点，比 Opus 4.7 高了 11 个点。PostTrainBench 上 GLM-5.2 排第二，超过 Opus 4.7 和 GPT-5.5。SWE-Marathon 差距大一些，落后 Opus 4.8 约 13 个点，但仍然是开源模型里最高的。

标准编程

评测	GLM-5.2	GLM-5.1	Claude Opus 4.8
Terminal-Bench 2.1	81.0	63.5	85.0
SWE-bench Pro	62.1	58.4	69.2
FrontierSWE	74.4	30.5	75.1
MCP-Atlas	76.8	71.8	77.8

Terminal-Bench 2.1 上 81.0 对 85.0，差 4 个点。SWE-bench Pro 差 7 个点。MCP-Atlas 只差 1 个点。考虑到这是 MIT 协议开源的模型，这个水平已经相当能打了。

匿名测试：Pony Alpha 事件

GLM-5.2 在正式发布前，智谱用 Pony Alpha 的代号匿名放到了 OpenRouter 上。社区盲测结果：25% 的人猜它是 Claude Sonnet 5，20% 认为是 Grok 的新版本，只有少数人猜到了 GLM-5。这次测试基本证明了去掉品牌标签后，用户对 GLM-5.2 的能力评价和闭源前沿模型在同一档。

API 定价

GLM-5 的定价是 $0.60（约 ¥4.08）/百万输入 token，$1.92（约 ¥13.06）/百万输出 token。GLM-5.2 的 API 定价预计相近。作为对比，Claude Opus 4.8 的输入价格约 $15（约 ¥102）/百万 token——差了 25 倍。

智谱还同步推出了 ZCode 3.0，每天给 GLM Coding Plan 用户提供 300 万 token 免费额度。

开源部署

权重已上传到 HuggingFace（zai-org/GLM-5.2）和 ModelScope。全精度模型需要约 1.5TB GPU 显存，量化后门槛会低不少。推理框架支持 SGLang、vLLM、xLLM。

竞品格局

模型	参数量	上下文	FrontierSWE	Terminal-Bench	开源
GLM-5.2	753B MoE	1M	74.4	81.0	MIT
Claude Opus 4.8	未公开	1M	75.1	85.0	否
GPT-5.5	未公开	未公开	73.4	—	否
Kimi K2.7 Code	未公开	256K	—	—	开源

GLM-5.2 现在是开源编程模型的天花板。它没超过 Opus 4.8，但在 FrontierSWE 上已经赢了 GPT-5.5，而且是 MIT 协议。对需要本地部署的企业来说，这是目前能拿到的最强开源选项。

模型规格

推理方面新增了三级 effort 控制：Lite、Pro、Max。Lite 快速响应适合简单任务，Max 给复杂编程任务分配更多算力。这比之前的思考/标准双模式更灵活。

Benchmark：开源模型新天花板

智谱这次放出的 benchmark 表覆盖了三个长程编程评测和四个标准编程评测：

长程编程（数小时级别）

评测

GLM-5.2

Claude Opus 4.8

GPT-5.5

FrontierSWE

74.4

75.1

73.4

PostTrainBench

34.3

第一

低于 GLM-5.2

SWE-Marathon

13.0

第一

—

标准编程

评测

GLM-5.2

GLM-5.1

Claude Opus 4.8

Terminal-Bench 2.1

81.0

63.5

85.0

SWE-bench Pro

62.1

58.4

69.2

FrontierSWE

74.4

30.5

75.1

MCP-Atlas

76.8

71.8

77.8

Terminal-Bench 2.1 上 81.0 对 85.0，差 4 个点。SWE-bench Pro 差 7 个点。MCP-Atlas 只差 1 个点。考虑到这是 MIT 协议开源的模型，这个水平已经相当能打了。

匿名测试：Pony Alpha 事件

API 定价

智谱还同步推出了 ZCode 3.0，每天给 GLM Coding Plan 用户提供 300 万 token 免费额度。

竞品格局

模型

参数量

上下文

FrontierSWE

Terminal-Bench

开源

GLM-5.2

753B MoE

74.4

81.0

MIT

Claude Opus 4.8

未公开

75.1

85.0

否

GPT-5.5

未公开

73.4

—

否

Kimi K2.7 Code

未公开

256K

—

开源

GLM-5.2 开源权重发布：753B MoE 模型编程能力逼近 Claude Opus 4.8 | 2026-06-17

推荐阅读

HackerNews Trends、Un-0、Y 三款开发者工具推荐 | 2026-06-26

Nub、LookAway、Apposters 三款实用工具推荐 | 2026-06-25

Gemini 3.5 Flash 内置 Computer Use：谷歌把屏幕操控能力塞进了主力模型 | 2026-06-25

字节跳动发布 Seedance 2.5：单段视频 30 秒，不用拼接 | 2026-06-23

GLM-5.2 开源权重发布：753B MoE 模型编程能力逼近 Claude Opus 4.8 | 2026-06-17