首页 / 作品展示 / 作品详情
跑出全球最快速度,智谱的GLM-5.1开始喷代码了_

跑出全球最快速度,智谱的GLM-5.1开始喷代码了_

发布日期:2026-06-04 02:35 张文娟主页
跑出全球最快速度,智谱的GLM-5.1开始喷代码了_
GLM 5.1 高速版
旗舰模型 · 全球最快 API
050100150200250300350400tok/s~7x 提速
TTFT < 1s · 旗舰级能力

智谱上线了 GLM-5.1 高速版 API,输出速度达到 400 tok/s

人类眨一次眼,大约要 0.3 秒。而在这个时间里,它已经写下了 120 个 token。

过去一年,「快」几乎就等于「小」。高速模型通常都是轻量级的,速度上去了,能力多少打点折,大家也都习惯了。

但 GLM 高速版不走这条路。

WebDev Arena 排行榜上,GLM 5.1 分数 1532,排第 5 名,比 Sonnet 4.6 的 1524 还高了一点。

图片

这是一个旗舰级模型,而旗舰通常代表着没那么快。但现在,它也跑出了目前全球最快的 API 速度。

旗舰能力加极致速度,这次的鱼和熊掌,终于可以兼得了。
先看效果

400 tok/s 到底有多快呢?来看演示:

演示 1
同一个任务,左右并排跑

左边 400 tok/s(高速版),右边 50 tok/s(普通版)。任务是生成一个完整的个人博客页面「Life by Design」。

图片

30 秒后,左边已经输出了完整的博客页面,包括导航栏、文章卡片、习惯追踪仪表盘,页面在浏览器里已经渲染出来了。

右边呢?……还在吐代码,连一半都没写完。

最终结果:左边 1 分钟完成,右边跑了 7 分钟。同样的模型能力,8 倍的时间差距。

演示 2
实时 Shader 创作

输入「tunnel through black hole」,模型实时生成 GLSL 代码,右侧的 WebGL 窗口同步渲染。

图片

70 秒内,从一句提示词,迭代到了一个物理正确的 3D 黑洞:吸积盘、引力透镜、粒子效果,全都到位。

每次用自然语言下一条指令,代码会立刻改完且画面几乎同步生效,言出法随。输出速度在 200-390 tok/s 之间。

这种体验,就像模型和你一起对着同一块画布在做实时创作。以前得等十几秒才能看到改动,现在是边说边改,边改边看

演示 3
手绘草图 → 完整页面

把手绘线框图扔给高速版,几十秒后输出完整的前端页面——HTML、CSS、交互逻辑全部到位。

图片
演示 4
实时改变游戏世界

输入「冰淇淋」,游戏世界的主题和视觉实时变化——配色、元素、整个场景都跟着切换。

图片

官方还给出了一个更为极端的演示:让 50 个 AI 角色同时回答同一个问题,聚合吞吐量达到 1013 tok/s

交互上的思考是:

速度一旦快过某个临界点,之前因为延迟而做不了的产品形态,现在可能就可以了。
四屏竞速

官方演示看完了,接下来该我自己上手来测一下了。

我用 iTerm2 split 了 4 个 pane,分别启动 4 个模型的 Claude Code 实例。

图片

这里我还捎带上了 DeepSeek 和 Sonnet 两个模型,所以一共是 GLM 高速版、GLM 普通版、DeepSeek V4 和 Sonnet 4.6 四个模型,同样的思考强度。

图片

另外我还用到了 Cmd+Shift+I 的广播模式(没用过的可以试一下,尤其在类似这样的批量操作时,会非常方便),同一条指令便可以同时发给所有 pane,对比起来极其真实,无法作弊。

测试 1
讲一个 2000 字的故事

我先是给 4 个模型发了同一句话:「请讲个 2000 字的故事」。

图片

高速版 14 秒率先交出了一篇完整故事,相比之下 GLM 普通版确实就慢了不少。

另两个模型则是:DeepSeek 31 秒完成,Sonnet 50 秒。

测试 2

考虑到前一个 case 的输入比较小(就一句话),所以我又测了个输入较大的来对比: 总结三国演义

我拷贝了三国演义的部分原文(约几万字),并用 Cmd+V 同步贴进了所有 pane 中,然后让模型用 1000 字总结。

图片

GLM 5.1 高速版再次领先,4 秒完成。

4 秒……

贴完文本、模型读完、生成完整总结,整个过程就 4 秒。

DeepSeek 18 秒,GLM 普通版 26 秒。而 Sonnet……在我录屏结束时还没写完,超过了 108 秒。

图片
编程实测

上一次,我让 Claude Code 当裁判,对比了 GLM 5.1 和 DeepSeek V4 在 4 个编程场景下的表现。这次我找来了同样的 case,跑了一遍高速版。

4 个 case 覆盖并发 bug 修复、从零写代码、数据分析报告、可视化仪表盘。

CaseGLM 高速版DeepSeek V4 ProGLM 5.1Sonnet 4.6
并发 Bug3381194661
从零写代码3791445868
数据分析3911386062
仪表盘4811436771
平均~3971365865

单位:tok/s

图片

质量方面,4 个模型在这 4 个 case 里全部 16/16 通过,产出质量基本持平。高速版并没有因为快而缩水。

速度方面,平均约 397 tok/s,是普通版的近 7 倍。最快的一个 case(仪表盘生成)跑出了 481 tok/s。

~7x
比普通版快
~3x
比 DeepSeek 快
16/16
全部通过

另外,上下文从 1 万 token 翻到 10 万,高速版的输出速度只掉了不到 20%。长文档场景依然能跑。

推理引擎

那么,400 tok/s 的神速……是怎么做到的呢?

GLM-5.1 高速版由智谱和 TileRT 团队联合打造,在三个层面做了优化。

推理引擎层
针对 GLM-5.1 架构重写核心推理路径,提升单卡吞吐
调度系统层
动态批处理、KV 缓存调度优化,高并发尾延迟显著降低
基础设施层
集群部署 + 网络链路 + 负载均衡,400 tok/s 是稳定生产水平

其中最核心的是 TileRT 推理引擎,我们先来说说它要解决的问题。

模型推理速度的理论上限由硬件决定,但实际系统往往远没跑满。差距在于推理框架的调度方式:主流框架以 operator/kernel 为调度单元,每个算子都要走完「host 启动 → 读权重 → 计算 → 写回 → 同步」五步。

1host 启动2读权重3计算4写回5同步1host 启动2读权重3计算4写回5同步

就像一条流水线上的工人,每做完一道工序,都要跑回主管那里报到,等批准了才能做下一步。

当推理进入小 batch、多卡并行的场景,每个算子被切到微秒级,这些报到的开销就被急剧放大了。

TileRT 的做法是:把整条流水线直接烧在车间里,主管都不需要了。

图片

具体来说,TileRT 在编译期(AOT)就把整个计算图静态编排为一个常驻 GPU 的 persistent kernel

整个推理过程只 Launch 一次。算子间的中间结果不再写回全局内存,而是通过 Register、Shared Memory、L2 Cache 直接传递。host 不参与调度,跨算子同步也省了。

多卡层面的做法则更进一步:不同的 GPU 被特化成不同角色。以 GLM-5.1 为例,GPU 0 专职做 Sparse Indexer,GPU 1-7 负责 MLA 注意力主干,跨卡通信被压缩进同一个通信原语。

关键信息:

400 tok/s 是稳定的生产可用水平,不只是峰值数字。完整 benchmark 数据和对比测试代码会在开发者文档中开放。

写在最后

GLM 5.1 高速版,让旗舰模型第一次跑出了「即问即答」的速度。

一份 2000字的报告,5 秒即可生成完毕;Agent 多轮调用的整体耗时大幅压缩,数十轮调用串联的复杂工作流,也终于有了即时反馈的可能。

GLM 5.1 高速版非常适合 AI 编程、实时交互、Agent 多轮调用等对响应延迟有要求的场景,目前已面向智谱 Maas 平台企业客户开放。

智能不应该成为需要排队领取的资源。

智能不应该成为需要排队领取的资源,而如果说模型将成为未来的水和电,那前提可能是:

它得拥有 400 tok/s 级别的速度,快如闪电。

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。
标签: 个人博客
« 上一篇:IT之家学院:使用Hexo搭建独立博客并托管到Github和Coding上 - IT... 下一篇:通过生活细节分享美好与正能量 »