AI 工作負載的資料治理

AI 工作負載幾乎顛覆了傳統資料治理的每一個假設。適用於 SQL 查詢和 BI 儀表盤的策略需要重新思考。

AI 如何打破傳統治理

傳統模型：使用者查詢特定表的特定列。訪問控制、審計日誌和資料血緣都有成熟方案。

AI 模型：使用者提出自然語言問題。系統從多個來源檢索文件，將其輸入 LLM，並綜合出響應。訪問了哪些資料？哪些部分影響了答案？審計線索變得模糊。

1. 輸入日誌：記錄每個進入上下文視窗的文件分塊，附時間戳和使用者身份。對於受監管行業，這是不可協商的。

2. 查詢時訪問過濾：訪問控制必須在向量檢索層實現，而非後處理階段。

3. 帶保留策略的輸出日誌：所有 LLM 輸出應按資料保留計劃記錄和儲存。這既是審計要求，也是質量基線。

4. 攝入前 PII 檢測：在索引前掃描所有文件中的 PII。將 PII 嵌入向量儲存會造成難以審計、更難清理的檢索風險面。

對於金融服務，監管機構的核心問題是："你能解釋系統為何給出這個建議嗎？"這不僅需要輸出日誌，還需要檢索日誌——每次響應所依賴的具體文件。

對於醫療健康，HIPAA 適用於進入 AI 流水線的任何受保護健康資訊（PHI）。攝入前匿名化是必選項，不是加分項。

AI 工作負載幾乎顛覆了傳統資料治理的每一個假設。適用於 SQL 查詢和 BI 儀表盤的策略需要重新思考。

傳統模型：使用者查詢特定表的特定列。訪問控制、審計日誌和資料血緣都有成熟方案。

1. 輸入日誌：記錄每個進入上下文視窗的文件分塊，附時間戳和使用者身份。對於受監管行業，這是不可協商的。

2. 查詢時訪問過濾：訪問控制必須在向量檢索層實現，而非後處理階段。

3. 帶保留策略的輸出日誌：所有 LLM 輸出應按資料保留計劃記錄和儲存。這既是審計要求，也是質量基線。

4. 攝入前 PII 檢測：在索引前掃描所有文件中的 PII。將 PII 嵌入向量儲存會造成難以審計、更難清理的檢索風險面。

對於金融服務，監管機構的核心問題是："你能解釋系統為何給出這個建議嗎？"這不僅需要輸出日誌，還需要檢索日誌——每次響應所依賴的具體文件。

對於醫療健康，HIPAA 適用於進入 AI 流水線的任何受保護健康資訊（PHI）。攝入前匿名化是必選項，不是加分項。