AI 工作負載的資料治理
2025-10-15 · Yuki Tanaka
AI 工作負載的資料治理
AI 工作負載幾乎顛覆了傳統資料治理的每一個假設。適用於 SQL 查詢和 BI 儀表盤的策略需要重新思考。
AI 如何打破傳統治理
傳統模型:使用者查詢特定表的特定列。訪問控制、審計日誌和資料血緣都有成熟方案。
AI 模型:使用者提出自然語言問題。系統從多個來源檢索文件,將其輸入 LLM,並綜合出響應。訪問了哪些資料?哪些部分影響了答案?審計線索變得模糊。
你真正需要的四項控制
1. 輸入日誌:記錄每個進入上下文視窗的文件分塊,附時間戳和使用者身份。對於受監管行業,這是不可協商的。
2. 查詢時訪問過濾:訪問控制必須在向量檢索層實現,而非後處理階段。
3. 帶保留策略的輸出日誌:所有 LLM 輸出應按資料保留計劃記錄和儲存。這既是審計要求,也是質量基線。
4. 攝入前 PII 檢測:在索引前掃描所有文件中的 PII。將 PII 嵌入向量儲存會造成難以審計、更難清理的檢索風險面。
監管合規注意事項
對於金融服務,監管機構的核心問題是:"你能解釋系統為何給出這個建議嗎?"這不僅需要輸出日誌,還需要檢索日誌——每次響應所依賴的具體文件。
對於醫療健康,HIPAA 適用於進入 AI 流水線的任何受保護健康資訊(PHI)。攝入前匿名化是必選項,不是加分項。