跑出全球最快速度,智谱的GLM-5.1开始喷代码了_
智谱上线了 GLM-5.1 高速版 API,输出速度达到 400 tok/s。
人类眨一次眼,大约要 0.3 秒。而在这个时间里,它已经写下了 120 个 token。
过去一年,「快」几乎就等于「小」。高速模型通常都是轻量级的,速度上去了,能力多少打点折,大家也都习惯了。
但 GLM 高速版不走这条路。
在 WebDev Arena 排行榜上,GLM 5.1 分数 1532,排第 5 名,比 Sonnet 4.6 的 1524 还高了一点。
这是一个旗舰级模型,而旗舰通常代表着没那么快。但现在,它也跑出了目前全球最快的 API 速度。
400 tok/s 到底有多快呢?来看演示:
左边 400 tok/s(高速版),右边 50 tok/s(普通版)。任务是生成一个完整的个人博客页面「Life by Design」。
30 秒后,左边已经输出了完整的博客页面,包括导航栏、文章卡片、习惯追踪仪表盘,页面在浏览器里已经渲染出来了。
右边呢?……还在吐代码,连一半都没写完。
最终结果:左边 1 分钟完成,右边跑了 7 分钟。同样的模型能力,8 倍的时间差距。
输入「tunnel through black hole」,模型实时生成 GLSL 代码,右侧的 WebGL 窗口同步渲染。
70 秒内,从一句提示词,迭代到了一个物理正确的 3D 黑洞:吸积盘、引力透镜、粒子效果,全都到位。
每次用自然语言下一条指令,代码会立刻改完且画面几乎同步生效,言出法随。输出速度在 200-390 tok/s 之间。
这种体验,就像模型和你一起对着同一块画布在做实时创作。以前得等十几秒才能看到改动,现在是边说边改,边改边看。
把手绘线框图扔给高速版,几十秒后输出完整的前端页面——HTML、CSS、交互逻辑全部到位。
输入「冰淇淋」,游戏世界的主题和视觉实时变化——配色、元素、整个场景都跟着切换。
官方还给出了一个更为极端的演示:让 50 个 AI 角色同时回答同一个问题,聚合吞吐量达到 1013 tok/s。
交互上的思考是:
官方演示看完了,接下来该我自己上手来测一下了。
我用 iTerm2 split 了 4 个 pane,分别启动 4 个模型的 Claude Code 实例。
这里我还捎带上了 DeepSeek 和 Sonnet 两个模型,所以一共是 GLM 高速版、GLM 普通版、DeepSeek V4 和 Sonnet 4.6 四个模型,同样的思考强度。
另外我还用到了 Cmd+Shift+I 的广播模式(没用过的可以试一下,尤其在类似这样的批量操作时,会非常方便),同一条指令便可以同时发给所有 pane,对比起来极其真实,无法作弊。
我先是给 4 个模型发了同一句话:「请讲个 2000 字的故事」。
高速版 14 秒率先交出了一篇完整故事,相比之下 GLM 普通版确实就慢了不少。
另两个模型则是:DeepSeek 31 秒完成,Sonnet 50 秒。
考虑到前一个 case 的输入比较小(就一句话),所以我又测了个输入较大的来对比: 总结三国演义。
我拷贝了三国演义的部分原文(约几万字),并用 Cmd+V 同步贴进了所有 pane 中,然后让模型用 1000 字总结。
GLM 5.1 高速版再次领先,4 秒完成。
4 秒……
贴完文本、模型读完、生成完整总结,整个过程就 4 秒。
DeepSeek 18 秒,GLM 普通版 26 秒。而 Sonnet……在我录屏结束时还没写完,超过了 108 秒。
上一次,我让 Claude Code 当裁判,对比了 GLM 5.1 和 DeepSeek V4 在 4 个编程场景下的表现。这次我找来了同样的 case,跑了一遍高速版。
4 个 case 覆盖并发 bug 修复、从零写代码、数据分析报告、可视化仪表盘。
| Case | GLM 高速版 | DeepSeek V4 Pro | GLM 5.1 | Sonnet 4.6 |
|---|---|---|---|---|
| 并发 Bug | 338 | 119 | 46 | 61 |
| 从零写代码 | 379 | 144 | 58 | 68 |
| 数据分析 | 391 | 138 | 60 | 62 |
| 仪表盘 | 481 | 143 | 67 | 71 |
| 平均 | ~397 | 136 | 58 | 65 |
单位:tok/s
质量方面,4 个模型在这 4 个 case 里全部 16/16 通过,产出质量基本持平。高速版并没有因为快而缩水。
速度方面,平均约 397 tok/s,是普通版的近 7 倍。最快的一个 case(仪表盘生成)跑出了 481 tok/s。
另外,上下文从 1 万 token 翻到 10 万,高速版的输出速度只掉了不到 20%。长文档场景依然能跑。
那么,400 tok/s 的神速……是怎么做到的呢?
GLM-5.1 高速版由智谱和 TileRT 团队联合打造,在三个层面做了优化。
其中最核心的是 TileRT 推理引擎,我们先来说说它要解决的问题。
模型推理速度的理论上限由硬件决定,但实际系统往往远没跑满。差距在于推理框架的调度方式:主流框架以 operator/kernel 为调度单元,每个算子都要走完「host 启动 → 读权重 → 计算 → 写回 → 同步」五步。
就像一条流水线上的工人,每做完一道工序,都要跑回主管那里报到,等批准了才能做下一步。
当推理进入小 batch、多卡并行的场景,每个算子被切到微秒级,这些报到的开销就被急剧放大了。
TileRT 的做法是:把整条流水线直接烧在车间里,主管都不需要了。
具体来说,TileRT 在编译期(AOT)就把整个计算图静态编排为一个常驻 GPU 的 persistent kernel。
整个推理过程只 Launch 一次。算子间的中间结果不再写回全局内存,而是通过 Register、Shared Memory、L2 Cache 直接传递。host 不参与调度,跨算子同步也省了。
多卡层面的做法则更进一步:不同的 GPU 被特化成不同角色。以 GLM-5.1 为例,GPU 0 专职做 Sparse Indexer,GPU 1-7 负责 MLA 注意力主干,跨卡通信被压缩进同一个通信原语。
关键信息:
400 tok/s 是稳定的生产可用水平,不只是峰值数字。完整 benchmark 数据和对比测试代码会在开发者文档中开放。
GLM 5.1 高速版,让旗舰模型第一次跑出了「即问即答」的速度。
一份 2000字的报告,5 秒即可生成完毕;Agent 多轮调用的整体耗时大幅压缩,数十轮调用串联的复杂工作流,也终于有了即时反馈的可能。
GLM 5.1 高速版非常适合 AI 编程、实时交互、Agent 多轮调用等对响应延迟有要求的场景,目前已面向智谱 Maas 平台企业客户开放。
智能不应该成为需要排队领取的资源。
智能不应该成为需要排队领取的资源,而如果说模型将成为未来的水和电,那前提可能是:
它得拥有 400 tok/s 级别的速度,快如闪电。
相关作品
- 你有没有注意到一个反常识的现象:2026 年 5 月的大模型排行榜,Kimi K2.6 跑分 94.3,DeepSeek V4 跑 93.8,GPT-5 跑 93.5——前三名差距不到 1 分。模型军备竞赛,已经从"碾压级差距"变成了"微厘之分"。但与此同时,另一条赛道正在悄悄决定胜负:Claude Code 和 Codex 用的模型水平差不多,但大多数人选 Claude Code。OpenAI 2026-06-17
- 在数字内容创作成为商业与传播核心的今天,设计师、市场人员及内容创作者普遍面临寻找高质量、可商用、且能提升工作效率的视觉素材的挑战。根据Forrester的研究,企业内容创作效率与素材质量直接关联,而素材版权不清导致的合规风险已成为决策者的主要焦虑点。当前,设计素材平台市场呈现多元化格局,国际巨头与本土专业服务商并存,资源库规模、授权模式、技术工具及定价策略差异显著,导致用户在选型时面临信息过载与匹 2026-06-17
- 在正式开始分享前,想先聊聊我的背景,或许能给同样在迷茫中的你一点共鸣。今年5月之前,我还是一名普通的内容运营。离职后,我决定开始做 web 出海这个陌生领域,尝试学习独立开发。说实话,起步阶段简直是噩梦。作为一个纯文科生,面对满屏的代码,我感到前所未有的无力。那些对程序员来说习以为常的逻辑,对我来说就像天书。无数个深夜,我盯着报错的屏幕,一度想放弃,觉得自己这辈子都学不会写代码了。好在,AI 能力 2026-06-17
- 导语人类用了大约100 年时间,把庞大的电力网络微缩进电子管和集成电路里,开启了数字时代;但大模型时代,电的问题又把数字系统重新拽回到物理世界。算力越强,系统越复杂,模拟越重要。5月20日,英伟达公布截至2026年4月26日的2027财年第一季度业绩,单季收入达到816亿美元,同比增长85%;其中数据中心收入达到 752 亿美元,同比增长 92%。存储侧亦是如此。SK海力士在 2025年二季度表示 2026-06-17