GLM-5.2 开源权重发布:753B MoE 模型编程能力逼近 Claude Opus 4.8

智谱 AI(Z.ai)在 6 月 13 日面向 GLM Coding Plan 用户开放 GLM-5.2 后,6 月 17 日正式在 HuggingFace 和 ModelScope 上放出完整模型权重,采用 MIT 协议。这次发布的还有此前一直没公布的官方 benchmark 表——数字比 5 月的 5.1 提升了一大截。

模型规格

GLM-5.2 是一个 753B 参数的混合专家(MoE)模型,每次推理激活 44B 参数。上下文窗口从 5.1 的 200K 拉到了 1M token,输出上限 128K。架构上的主要创新是 IndexShare:每 4 层 Transformer 共享一个轻量级索引器,在 1M 上下文长度下把单 token FLOPs 降了 2.9 倍。另外 MTP(多 token 预测)层也有改进,投机解码的接受长度提升了 20%。

推理方面新增了三级 effort 控制:Lite、Pro、Max。Lite 快速响应适合简单任务,Max 给复杂编程任务分配更多算力。这比之前的思考/标准双模式更灵活。

Benchmark:开源模型新天花板

智谱这次放出的 benchmark 表覆盖了三个长程编程评测和四个标准编程评测:

长程编程(数小时级别)

评测GLM-5.2Claude Opus 4.8GPT-5.5
FrontierSWE74.475.173.4
PostTrainBench34.3第一低于 GLM-5.2
SWE-Marathon13.0第一

FrontierSWE 衡量的是模型在数小时级别的开放式技术项目上的完成能力。GLM-5.2 只比 Opus 4.8 低 1 个百分点,比 GPT-5.5 高了 1 个点,比 Opus 4.7 高了 11 个点。PostTrainBench 上 GLM-5.2 排第二,超过 Opus 4.7 和 GPT-5.5。SWE-Marathon 差距大一些,落后 Opus 4.8 约 13 个点,但仍然是开源模型里最高的。

标准编程

评测GLM-5.2GLM-5.1Claude Opus 4.8
Terminal-Bench 2.181.063.585.0
SWE-bench Pro62.158.469.2
FrontierSWE74.430.575.1
MCP-Atlas76.871.877.8

Terminal-Bench 2.1 上 81.0 对 85.0,差 4 个点。SWE-bench Pro 差 7 个点。MCP-Atlas 只差 1 个点。考虑到这是 MIT 协议开源的模型,这个水平已经相当能打了。

匿名测试:Pony Alpha 事件

GLM-5.2 在正式发布前,智谱用 Pony Alpha 的代号匿名放到了 OpenRouter 上。社区盲测结果:25% 的人猜它是 Claude Sonnet 5,20% 认为是 Grok 的新版本,只有少数人猜到了 GLM-5。这次测试基本证明了去掉品牌标签后,用户对 GLM-5.2 的能力评价和闭源前沿模型在同一档。

API 定价

GLM-5 的定价是 $0.60(约 ¥4.08)/百万输入 token,$1.92(约 ¥13.06)/百万输出 token。GLM-5.2 的 API 定价预计相近。作为对比,Claude Opus 4.8 的输入价格约 $15(约 ¥102)/百万 token——差了 25 倍。

智谱还同步推出了 ZCode 3.0,每天给 GLM Coding Plan 用户提供 300 万 token 免费额度。

开源部署

权重已上传到 HuggingFace(zai-org/GLM-5.2)和 ModelScope。全精度模型需要约 1.5TB GPU 显存,量化后门槛会低不少。推理框架支持 SGLang、vLLM、xLLM。

竞品格局

模型参数量上下文FrontierSWETerminal-Bench开源
GLM-5.2753B MoE1M74.481.0MIT
Claude Opus 4.8未公开1M75.185.0
GPT-5.5未公开未公开73.4
Kimi K2.7 Code未公开256K开源

GLM-5.2 现在是开源编程模型的天花板。它没超过 Opus 4.8,但在 FrontierSWE 上已经赢了 GPT-5.5,而且是 MIT 协议。对需要本地部署的企业来说,这是目前能拿到的最强开源选项。