企業知識庫架構最佳實踐

大多數企業知識庫的失敗不是模型問題，而是分塊問題、檢索問題或訪問控制問題，讓模型看起來表現欠佳。

分塊策略決定一切

預設方法——按 512 個 Token 分塊、50 個 Token 重疊——在結構化企業文件上表現較差。更好的方式：

語義分塊：按段落和章節邊界分割，而非固定 Token 數。一個覆蓋完整概念的 200 Token 段落，比跨越三個概念的 512 Token 視窗檢索效果更好。

層次分塊：同時索引摘要和完整章節。用摘要做初始評分，用完整章節填充最終上下文視窗。

對於英文技術內容，OpenAI 的 text-embedding-3-large 優於較小模型。對於多語言語料庫，multilingual-e5-large 值得額外的延遲代價。切勿混用嵌入模型——否則必須重建全部索引。

對於企業部署，文件級訪問控制必須在向量資料庫層實現，不能在後處理階段。事後過濾可能讓模型接觸到不該看到的文件，即使最終響應被攔截。

正確模式：將文件的訪問組作為後設資料儲存，在向量查詢過濾條件中包含它。如果使用者沒有許可權，該文件永遠不會進入上下文視窗。

純向量搜尋會漏掉精確匹配查詢。使用者搜尋"發票 #INV-2024-04892"需要 BM25，而非餘弦相似度。生產知識庫需要帶可配置權重的混合檢索。

大多數企業知識庫的失敗不是模型問題，而是分塊問題、檢索問題或訪問控制問題，讓模型看起來表現欠佳。

預設方法——按 512 個 Token 分塊、50 個 Token 重疊——在結構化企業文件上表現較差。更好的方式：

語義分塊：按段落和章節邊界分割，而非固定 Token 數。一個覆蓋完整概念的 200 Token 段落，比跨越三個概念的 512 Token 視窗檢索效果更好。

層次分塊：同時索引摘要和完整章節。用摘要做初始評分，用完整章節填充最終上下文視窗。

對於企業部署，文件級訪問控制必須在向量資料庫層實現，不能在後處理階段。事後過濾可能讓模型接觸到不該看到的文件，即使最終響應被攔截。

正確模式：將文件的訪問組作為後設資料儲存，在向量查詢過濾條件中包含它。如果使用者沒有許可權，該文件永遠不會進入上下文視窗。

純向量搜尋會漏掉精確匹配查詢。使用者搜尋"發票 #INV-2024-04892"需要 BM25，而非餘弦相似度。生產知識庫需要帶可配置權重的混合檢索。