我們如何將 LLM 推理成本削減 60%

一家物流客戶每月在 LLM 推理上支出 4.8 萬美元。經過六週最佳化，這一數字降至 1.92 萬美元，其中三個用例的質量指標還有所提升。

技術一：按複雜度路由

不是每個查詢都需要 GPT-4o。我們構建了一個輕量級分類器，將簡單、結構化的查詢路由到較小的模型，將複雜推理保留給前沿模型。68% 的查詢使用了更便宜的模型。

節省約：1.4 萬美元/月

系統提示隨時間增長到 2,400 個 Token。去除冗餘指令、壓縮示例後，有效系統提示縮短至 780 個 Token——在評測集上輸出質量沒有下降。

節省約：0.42 萬美元/月

很多使用者查詢是近似重複的。我們構建了一個語義快取：對查詢進行嵌入，檢查是否有相似查詢（餘弦相似度 > 0.94）最近已被回答，若有則返回快取響應。快取命中率：31%。

節省約：0.68 萬美元/月

每日報告生成、文件摘要等批次任務原本在高峰時段全價執行。將其移至 Batch API 後，這部分 22% 的 Token 量成本降低了 50%。

節省約：0.21 萬美元/月

模型為僅需 150 個 Token 的查詢生成了 600 個 Token 的響應。在系統提示中加入明確的長度約束後，平均輸出 Token 數減少 55%。

節省約：0.37 萬美元/月

成本最佳化和質量提升並不對立。將簡單查詢路由到更簡單的模型，不是質量妥協——而是讓工具匹配任務。