企業知識庫架構最佳實踐
2025-12-18 · James Liu
企業知識庫架構最佳實踐
大多數企業知識庫的失敗不是模型問題,而是分塊問題、檢索問題或訪問控制問題,讓模型看起來表現欠佳。
分塊策略決定一切
預設方法——按 512 個 Token 分塊、50 個 Token 重疊——在結構化企業文件上表現較差。更好的方式:
語義分塊:按段落和章節邊界分割,而非固定 Token 數。一個覆蓋完整概念的 200 Token 段落,比跨越三個概念的 512 Token 視窗檢索效果更好。
層次分塊:同時索引摘要和完整章節。用摘要做初始評分,用完整章節填充最終上下文視窗。
嵌入模型選擇
對於英文技術內容,OpenAI 的 text-embedding-3-large 優於較小模型。對於多語言語料庫,multilingual-e5-large 值得額外的延遲代價。切勿混用嵌入模型——否則必須重建全部索引。
檢索時的訪問控制
對於企業部署,文件級訪問控制必須在向量資料庫層實現,不能在後處理階段。事後過濾可能讓模型接觸到不該看到的文件,即使最終響應被攔截。
正確模式:將文件的訪問組作為後設資料儲存,在向量查詢過濾條件中包含它。如果使用者沒有許可權,該文件永遠不會進入上下文視窗。
混合搜尋不可省略
純向量搜尋會漏掉精確匹配查詢。使用者搜尋"發票 #INV-2024-04892"需要 BM25,而非餘弦相似度。生產知識庫需要帶可配置權重的混合檢索。