Baiyuan RAG Knowledge Platform Whitepaper

Chapter 11 — 真實租戶觀察（匿名）

數字不會說謊。但會選擇性沉默。本章把好看與難看的都寫出來。

11.1 資料收集原則與去識別化

本章所有數字取自百原 Pilot 租戶，2026 Q1 共 12 家租戶、月總查詢量約 120 萬次。遵循以下原則：

聚合呈現：單一租戶不揭露絕對數字，改用相對值或範圍
產業去識別：「電商客服」不指向特定品牌
避免可反推：同一案例的多指標不能組合反推出租戶
顆粒度控制：細節到能讓同業工程師借鑑即可，不細到可直接抄架構

11.2 案例 A：電商客服（AI 客服 SaaS）

背景：年營收 > USD 5M 的品牌電商，台灣市場，品類 3C 周邊。導入 widget + LINE 雙通路。

關鍵指標：

指標	上線前	上線後（3 個月）
客服單日工單	120	38（−68%）
首次回應時間	18 min（人工）	0.8 s（AI）
L1 Wiki 命中率	—	52%
Cache 命中率	—	31%
月 LLM Token 費	—	USD 680
CSAT（客戶滿意度）	4.1 / 5	4.3 / 5
Handoff 率	100%	11%

觀察：

L1 命中率超高：電商 FAQ 重複度極高（運費、退貨、保固），刻意維護 slug 清單後命中率從 28% 提升到 52%
Handoff 11% 集中在特殊請求：客製化、大量採購、破損申訴 — 這些都是人類擅長的場景
CSAT 略升：關鍵不是 AI 答得更好，是秒級回應消除等待焦慮

踩雷：

上線首週出現幻覺事件：AI 回答「免運門檻 NT$ 500」，實際是 NT$ 800。根因：L2 檢索到舊版 FAQ chunk。修復：把「免運政策」上 L1 Wiki + 設 verified_at 每月重驗。

11.3 案例 B：SaaS 技術文檔（AI 客服）

背景：B2B SaaS，API 文檔 + 整合指南 + SDK 範例超過 300 篇文章。開發者自助查詢場景。

關鍵指標：

指標	值
月查詢量	120,000
L1 命中率	38%
L2 走 Rerank 比率	18%（開發者愛問細節）
平均答案長度	340 字
答案帶 code block 比率	61%
客戶主動追問率	22%

觀察：

技術問題 L1 命中率偏低（38% vs 電商的 52%）：技術問題表述變異大、主題發散
Rerank 啟用後 Recall@5 提升 9%，但延遲增加 250ms
對話記憶特別重要：開發者會連續追問，系統記得「剛才在講 SDK auth」極重要
幻覺類型特別：不是講錯事實，是給出實際不存在的 API endpoint — 需要 Ch 12 的「endpoint 白名單」策略

11.4 案例 C：化粧品業者（PIF AI）

背景：中小型保養品品牌，2026 Q1 啟動 PIF 建檔，共 14 個 SKU 需建檔。

關鍵指標：

指標	傳統顧問	PIF AI
單 SKU 建檔時間	30 工作天	4 工作天
單 SKU 費用	USD 3,500	USD 600
法規更新追蹤	人工每月	自動每週
引用可追溯率	60–70%	100%
TFDA 審查通過率	70%（一次送審）	88%（一次送審）
LLM Token 費用	—	USD 320 / 月

觀察：

PIF AI 通過率高於人工：因為自動 lint 會擋下常見錯誤（成分含量加總 ≠ 100%、禁用物未比對）
毒理資訊 95% 來自 PubChem / ECHA 的 L1 Wiki：編譯好的 Wiki 把查詢時間從「人工 30 分鐘 / 成分」變「系統 < 1 秒」
引用 100% 可追溯：每段聲明都有 paragraph_hash，TFDA 審查員不再質疑出處

踩雷：

ECHA 資料 2026/2 大規模更新，舊 Wiki 過期。解決：接入「來源變動預警」後，租戶 Dashboard 秒看到「7 份 PIF 引用已過期」。

11.5 案例 D：B2B 顧問品牌（GEO + RAG 聯動）

背景：B2B 策略顧問品牌，有 10 位合夥人 bio、30 篇研究報告、12 個產業分析。導入 GEO Platform 做 AI 可見性優化；導入 RAG 做內部知識檢索。關鍵是兩者共用同一份品牌事實。

關鍵指標（6 週期間）：

指標	W0（上線）	W6
AI 引用率（ChatGPT）	18%	41%
AI 引用率（Perplexity）	22%	58%
事實正確率（NLI 驗證）	67%	94%
幻覺事件 / 週	12	2
幻覺修復平均時間	—	6.2 天
內部客服命中率	72%	89%

最震撼的觀察：

第 3 週系統偵測到 Perplexity 講「合夥人 Alice 畢業於哈佛」— 但實際是史丹佛。GEO 觸發修復流程：

ClaimReview 生成
寫進 RAG Wiki（合夥人簡介頁）
AXP shadow doc 更新
6 天後 Perplexity 改口「史丹佛」
整個過程無人工介入

這是兩個產品深度整合的具體價值。

11.6 跨案例歸納

把四個案例放在同一張表看：

指標	A 電商	B SaaS 文檔	C 化粧品 PIF	D B2B 顧問
L1 命中率	52%	38%	62%（PIF 公共 KB）	41%
Cache 命中率	31%	22%	14%	26%
月 Token 費用	USD 680	USD 450	USD 320	USD 520
主要幻覺類型	數字（價格）	不存在 endpoint	無（NLI 守住）	人物事實
Handoff 率	11%	N/A（自助）	24%（法規解釋）	N/A

結論 1：結構化程度決定 L1 命中率。FAQ / 法規條文結構明確，Wiki 命中率 50%+；技術文檔 / 自由問答結構鬆散，30–40%。

結論 2：法規與學術場景值得啟用 NLI。C 案例開啟 NLI 後幻覺事件歸零，成本多 18% 但法規風險降到可接受。

結論 3：GEO + RAG 聯動改變的是「品牌 AI 健康」整體。單一指標（引用率 / 正確率）會誤導，D 案例的 5 維度聯動才是真正的工程價值。

結論 4：Token 費用絕對值差異不大，但佔營收比率差很多。電商規模 5M 美金，Token 費 680 = 0.016%；法規建檔單筆收 600 USD、Token 費 20 USD = 3.3%。所以 PIF AI 必須更極致優化。

本章要點

四個案例覆蓋三條產品線：AI 客服（A, B）、PIF（C）、GEO 聯動（D）
L1 命中率從 38% 到 62% 差異大，取決於知識結構化程度
Handoff 率落在 11–24% 之間，集中在需要真人判斷的情境
NLI 驗證在法規場景貢獻顯著，成本多 18% 換幻覺歸零
跨產品聯動（GEO + RAG）的價值需要多維度指標才能看出

參考資料

修訂記錄

日期	版本	說明
2026-04-20	v1.0	初稿

導覽：← Ch 10: 與 PIF 整合 · 📖 目次 · Ch 12: 限制 →

This site is open source. Improve this page.

Baiyuan RAG Knowledge Platform Whitepaper

Chapter 11 — 真實租戶觀察（匿名）

目錄

11.1 資料收集原則與去識別化

11.2 案例 A：電商客服（AI 客服 SaaS）

11.3 案例 B：SaaS 技術文檔（AI 客服）

11.4 案例 C：化粧品業者（PIF AI）

11.5 案例 D：B2B 顧問品牌（GEO + RAG 聯動）

11.6 跨案例歸納

本章要點

參考資料

修訂記錄