4月30日|今日凌晨,智譜發佈技術博客《Scaling Pain:超大規模Coding Agent推理實踐》,首次系統披露GLM-5系列模型在超大規模Coding Agent調用場景下的底層推理技術突破。包括兩個關鍵Bug的定位及修復、一項性能優化創新、以及一個意外的監控機制突破。
針對Context Parallel策略中的KV Cache宂餘存儲問題,智譜設計實現了KV Cache分層存儲方案 LayerSplit —— 每張GPU僅持有部分層的KV Cache,通過廣播機制完成協同計算。在Cache命中率90%條件下,40K至120K請求長度區間內,系統吞吐量提升10%至132%,且上下文越長收益越顯著。這一優化直接大幅提升智譜在Coding場景下的服務能力上限。
智譜本次披露的工程突破具備明確的技術深度——團隊不僅在自有推理鏈路中定位並修復了PD分離架構下的KV Cache跨節點複用競態,更進一步在主流開源推理框架SGLang的源代碼層面發現並修復了HiCache模塊的加載時序缺失(read-before-ready)問題,修復方案被SGLang開源社區採納,其底層基礎設施能力不僅服務於自身模型,也正在成為大模型行業的公共基礎設施之一。
智譜推理優化還在進一步加速,大幅提升單位算力token吞吐效率,降低推理成本。
新聞來源 (不包括新聞圖片): 格隆匯