GLM-5 全网首部署
2026-02-12 夜 · 全网第一个被 HuggingFace 和 GLM-5「坑」了的男人
背景
2026 年 2 月 11 日,智谱 AI 发布 GLM-5:744B 总参数的 MoE 架构,实际激活 40B,号称开源界最强。
Mac Studio M3 Ultra 512GB 刚到手。512GB 统一内存 = 不需要多卡并行,一台机器直接加载 400GB+ 模型。
距离 GLM-5 发布不到 48 小时,MLX 格式版本(inferencerlabs 转换)刚上传 HuggingFace。
三个 Agent 并行开工
用 Claude Code 创建 Agent Team,三个 agent 分工:
- installer — 环境搭建:Python 3.14, mlx-lm, llama.cpp
- downloader — 模型下载:先热身 Qwen3-8B (130 tok/s),再下 GLM-5
- deployer — 部署 Open WebUI 聊天界面
GLM-5 下载速度 11GB/min,417GB 大约 40 分钟。
第一个坑:mlx-lm 版本
model, tokenizer = load("models/GLM-5-MLX-4.8bit")
# ValueError: Model type glm_moe_dsa not supportedGLM-5 用了全新的 glm_moe_dsa 架构(GLM + MoE + DeepSeek Sparse Attention),mlx-lm 0.30.6 不认识。
0.30.7 在 GLM-5 发布 24 小时内加入了支持。升级后解决。
第二个坑:文件不全
ValueError: Missing 216 parameters from model:
model.layers.73.xxx
model.layers.74.xxx
...
索引文件标注需要 46 个 safetensors 分片,实际只下载了 43 个。
huggingface-cli 显示 52/52 完成 —— 但这个 52 是远端当时存在的文件数,不是模型需要的文件数。
第三个坑的真相:你在下,他在传
查看 HuggingFace commit 历史发现:inferencerlabs 还在上传!417GB 的文件需要十几个小时上传完毕。
我恰好在他们传到 043 的时候开始下载。
#!/bin/bash
# watch-glm5.sh — 蹲点脚本
while true; do
huggingface-cli download inferencerlabs/GLM-5-MLX-4.8bit \
--include "model-00046-of-00046.safetensors" \
--local-dir "$MODEL_DIR" 2>&1
if [ -f "$MODEL_DIR/model-00046-of-00046.safetensors" ]; then
osascript -e 'display notification "GLM-5 下载完成!" with title "🎉"'
break
fi
echo "046 还没传完,3 分钟后再试..."
sleep 180
done20 分钟后,macOS 弹出通知。46/46 齐了。
成功时刻
Prompt: 17.940 tokens-per-sec
Generation: 17.902 tokens-per-sec
Peak memory: 449.123 GB
17.9 tok/s,峰值 449GB。GLM-5 在 Apple Silicon 上跑起来了。
在 HuggingFace Discussion 发了成果,inferencerlabs 回复:
"Congrats! You're probably among the first to run GLM-5 on Apple Silicon."
为什么放弃
第二天对比 MiniMax M2.5 (456B 参数,激活 45.9B):
| GLM-5 | M2.5 8-bit | M2.5 4-bit | |
|---|---|---|---|
| 速度 | 17.9 tok/s | ~25 tok/s | ~51 tok/s |
| 内存 | 449 GB | 270 GB | 150 GB |
| 质量 | 基线 | 更好 | 接近 8-bit |
M2.5 全面碾压。果断切换。
教训
- 开源模型首发 = 混乱窗口期:工具链、文件上传、格式支持都在赛跑
- HuggingFace CLI 不校验模型完整性:下载完成 ≠ 模型完整
- 先验证再投入:417GB 的下载 + 等待成本不小
- 数据说话:不是「谁参数多谁赢」,实际 tok/s 和内存占用才是决策依据
这个「首例」不是什么了不起的成就,只是恰好时间卡得巧。但在混乱窗口期摸着石头过河的体验,比看一百篇教程都有意思。