跑出全球最快速度,智谱的GLM-5.1开始喷代码了_

GLM 5.1 高速版

旗舰模型 · 全球最快 API

050100150200250300350400tok/s~7x 提速

TTFT < 1s · 旗舰级能力

智谱上线了 GLM-5.1 高速版 API，输出速度达到 400 tok/s。

人类眨一次眼，大约要 0.3 秒。而在这个时间里，它已经写下了 120 个 token。

过去一年，「快」几乎就等于「小」。高速模型通常都是轻量级的，速度上去了，能力多少打点折，大家也都习惯了。

但 GLM 高速版不走这条路。

在 WebDev Arena 排行榜上，GLM 5.1 分数 1532，排第 5 名，比 Sonnet 4.6 的 1524 还高了一点。

这是一个旗舰级模型，而旗舰通常代表着没那么快。但现在，它也跑出了目前全球最快的 API 速度。

旗舰能力加极致速度，这次的鱼和熊掌，终于可以兼得了。

先看效果

400 tok/s 到底有多快呢？来看演示：

演示 1

同一个任务，左右并排跑

左边 400 tok/s（高速版），右边 50 tok/s（普通版）。任务是生成一个完整的个人博客页面「Life by Design」。

30 秒后，左边已经输出了完整的博客页面，包括导航栏、文章卡片、习惯追踪仪表盘，页面在浏览器里已经渲染出来了。

右边呢？……还在吐代码，连一半都没写完。

最终结果：左边 1 分钟完成，右边跑了 7 分钟。同样的模型能力，8 倍的时间差距。

演示 2

实时 Shader 创作

输入「tunnel through black hole」，模型实时生成 GLSL 代码，右侧的 WebGL 窗口同步渲染。

70 秒内，从一句提示词，迭代到了一个物理正确的 3D 黑洞：吸积盘、引力透镜、粒子效果，全都到位。

每次用自然语言下一条指令，代码会立刻改完且画面几乎同步生效，言出法随。输出速度在 200-390 tok/s 之间。

这种体验，就像模型和你一起对着同一块画布在做实时创作。以前得等十几秒才能看到改动，现在是边说边改，边改边看。

演示 3

手绘草图 → 完整页面

把手绘线框图扔给高速版，几十秒后输出完整的前端页面——HTML、CSS、交互逻辑全部到位。

演示 4

实时改变游戏世界

输入「冰淇淋」，游戏世界的主题和视觉实时变化——配色、元素、整个场景都跟着切换。

官方还给出了一个更为极端的演示：让 50 个 AI 角色同时回答同一个问题，聚合吞吐量达到 1013 tok/s。

交互上的思考是：

速度一旦快过某个临界点，之前因为延迟而做不了的产品形态，现在可能就可以了。

四屏竞速

官方演示看完了，接下来该我自己上手来测一下了。

我用 iTerm2 split 了 4 个 pane，分别启动 4 个模型的 Claude Code 实例。

这里我还捎带上了 DeepSeek 和 Sonnet 两个模型，所以一共是 GLM 高速版、GLM 普通版、DeepSeek V4 和 Sonnet 4.6 四个模型，同样的思考强度。

另外我还用到了 Cmd+Shift+I 的广播模式（没用过的可以试一下，尤其在类似这样的批量操作时，会非常方便），同一条指令便可以同时发给所有 pane，对比起来极其真实，无法作弊。

测试 1

讲一个 2000 字的故事

我先是给 4 个模型发了同一句话：「请讲个 2000 字的故事」。

高速版 14 秒率先交出了一篇完整故事，相比之下 GLM 普通版确实就慢了不少。

另两个模型则是：DeepSeek 31 秒完成，Sonnet 50 秒。

测试 2

考虑到前一个 case 的输入比较小（就一句话），所以我又测了个输入较大的来对比：总结三国演义。

我拷贝了三国演义的部分原文（约几万字），并用 Cmd+V 同步贴进了所有 pane 中，然后让模型用 1000 字总结。

GLM 5.1 高速版再次领先，4 秒完成。

4 秒……

贴完文本、模型读完、生成完整总结，整个过程就 4 秒。

DeepSeek 18 秒，GLM 普通版 26 秒。而 Sonnet……在我录屏结束时还没写完，超过了 108 秒。

编程实测

上一次，我让 Claude Code 当裁判，对比了 GLM 5.1 和 DeepSeek V4 在 4 个编程场景下的表现。这次我找来了同样的 case，跑了一遍高速版。

4 个 case 覆盖并发 bug 修复、从零写代码、数据分析报告、可视化仪表盘。

Case	GLM 高速版	DeepSeek V4 Pro	GLM 5.1	Sonnet 4.6
并发 Bug	338	119	46	61
从零写代码	379	144	58	68
数据分析	391	138	60	62
仪表盘	481	143	67	71
平均	~397	136	58	65

单位：tok/s

质量方面，4 个模型在这 4 个 case 里全部 16/16 通过，产出质量基本持平。高速版并没有因为快而缩水。

速度方面，平均约 397 tok/s，是普通版的近 7 倍。最快的一个 case（仪表盘生成）跑出了 481 tok/s。

~7x

比普通版快

~3x

比 DeepSeek 快

16/16

全部通过

另外，上下文从 1 万 token 翻到 10 万，高速版的输出速度只掉了不到 20%。长文档场景依然能跑。

推理引擎

那么，400 tok/s 的神速……是怎么做到的呢？

GLM-5.1 高速版由智谱和 TileRT 团队联合打造，在三个层面做了优化。

推理引擎层

针对 GLM-5.1 架构重写核心推理路径，提升单卡吞吐

调度系统层

动态批处理、KV 缓存调度优化，高并发尾延迟显著降低

基础设施层

集群部署 + 网络链路 + 负载均衡，400 tok/s 是稳定生产水平

其中最核心的是 TileRT 推理引擎，我们先来说说它要解决的问题。

模型推理速度的理论上限由硬件决定，但实际系统往往远没跑满。差距在于推理框架的调度方式：主流框架以 operator/kernel 为调度单元，每个算子都要走完「host 启动 → 读权重 → 计算 → 写回 → 同步」五步。

1host 启动2读权重3计算4写回5同步1host 启动2读权重3计算4写回5同步

就像一条流水线上的工人，每做完一道工序，都要跑回主管那里报到，等批准了才能做下一步。

当推理进入小 batch、多卡并行的场景，每个算子被切到微秒级，这些报到的开销就被急剧放大了。

TileRT 的做法是：把整条流水线直接烧在车间里，主管都不需要了。

具体来说，TileRT 在编译期（AOT）就把整个计算图静态编排为一个常驻 GPU 的 persistent kernel。

整个推理过程只 Launch 一次。算子间的中间结果不再写回全局内存，而是通过 Register、Shared Memory、L2 Cache 直接传递。host 不参与调度，跨算子同步也省了。

多卡层面的做法则更进一步：不同的 GPU 被特化成不同角色。以 GLM-5.1 为例，GPU 0 专职做 Sparse Indexer，GPU 1-7 负责 MLA 注意力主干，跨卡通信被压缩进同一个通信原语。

关键信息：

400 tok/s 是稳定的生产可用水平，不只是峰值数字。完整 benchmark 数据和对比测试代码会在开发者文档中开放。

写在最后

GLM 5.1 高速版，让旗舰模型第一次跑出了「即问即答」的速度。

一份 2000字的报告，5 秒即可生成完毕；Agent 多轮调用的整体耗时大幅压缩，数十轮调用串联的复杂工作流，也终于有了即时反馈的可能。

GLM 5.1 高速版非常适合 AI 编程、实时交互、Agent 多轮调用等对响应延迟有要求的场景，目前已面向智谱 Maas 平台企业客户开放。

智能不应该成为需要排队领取的资源。

智能不应该成为需要排队领取的资源，而如果说模型将成为未来的水和电，那前提可能是：

它得拥有 400 tok/s 级别的速度，快如闪电。

相关阅读

模型已经够强了, 真正值钱的变成了Harness_

2025-2026年设计素材平台推荐:新媒体内容创作高性价比选择与用户

我是如何只做“老词”,用笨办法获取稳定流量,把日活做到700+的

AI的“火”,烧到了模拟芯片_