Baiyuan GEO Platform Whitepaper

Chapter 10 — Phase 基線測試:以固定問題集做縱向 AI 認知比較

每次都生不同的問題來問,你永遠不知道分數變化是來自「品牌變了」還是「問題變了」。

目錄


10.1 常規掃描的縱向追蹤盲點

Ch 2 介紹的常規掃描每次都動態生成 intent query,目的是模擬真實使用者會問的各種問題。這個設計適合「橫向」回答「這個品牌現在被提及多少」,但無法回答縱向問題:「品牌上週到這週,AI 對它的認知有什麼變化?」

原因:兩次掃描的 query 集合不同,分數差異至少有三種可能:

  1. 真的變化 — AI 對品牌的認知改變(可能是好是壞)
  2. query 變了 — 新 query 比舊 query 容易/不容易觸發提及
  3. 隨機性 — 同一 query 在同一 AI 兩次回應不一定完全相同

若無法區隔三種來源,趨勢圖就只是雜訊。要過濾出真實變化,需要固定 query 集合 + 多次重測

Fig 10-1:常規掃描 vs 基線測試

flowchart TB
    subgraph Regular["常規掃描(橫向)"]
      R1[每次生新 query]
      R2[答「現在幾分」]
      R3[不適合時序比較]
    end
    subgraph Baseline["Phase 基線測試(縱向)"]
      B1[固定 query set]
      B2[相隔週/雙週重測]
      B3[答「認知如何演變」]
    end
    Regular --- Baseline

Fig 10-1: 兩種掃描回答不同類型的問題,互補而非替代。


10.2 Phase 基線測試設計

Phase 的定義與節奏

Fig 10-2:三階段資料結構

flowchart LR
    Q["意圖 Query × 20(固定)"] --> P1[Phase 1<br/>Day 0]
    Q --> P2[Phase 2<br/>Day 7]
    Q --> P3[Phase 3<br/>Day 14]
    P1 -->|對比| P2
    P2 -->|對比| P3
    P1 -->|對比| P3
    P1 --> R[response_text × platforms]
    P2 --> R
    P3 --> R

Fig 10-2: 三次提問、同一組 query、三份完整 response 對比。

為何是 20 題而非更多

20 題是經驗值,未來若數據支持調整可再迭代。


10.3 與常規掃描的資料路徑區隔

Phase 基線測試走完全獨立的資料路徑,與常規掃描不交疊:

差異面向 常規掃描 Phase 基線
Query 來源 每次動態生成 固定於 Phase 1
觸發頻率 daily / 4h 週期性手動觸發或排程
是否計入 GEO 主分數 (獨立呈現)
是否受 Stale Carry-Forward 影響 (遇失敗標 incomplete)
資料保存 依滾動視窗 永久保存 response_text
是否走 Redis 快取 是(減少重複 API) (每次新鮮呼叫)

為何 Phase 基線不走快取

常規掃描會把同一題的近期回應快取(假設短時間內 AI 不會改意見)以降低成本。但 Phase 基線的目的就是「測量 AI 意見的變化」—— 若快取,就測不到變化。

為何 Phase 基線不計入主分數

若納入主分數,Phase 2 與 Phase 3 的重測會產生三倍計入效應(同品牌在相近時段被重複計分),污染儀表板趨勢。分離兩者保持分數純淨。


10.4 四類觀察軸

Phase 基線資料的價值不僅是「分數變化」,還有四類獨立觀察軸:

Fig 10-3:四類變化觀察矩陣

flowchart TB
    subgraph Quant["① 量的變化"]
      Q1[引用率上升/下降]
      Q2[位置前移/後退]
      Q3[平台覆蓋擴/縮]
    end
    subgraph Qual["② 質的變化"]
      L1[描述字句變化]
      L2[用詞深度變化]
      L3[新增或刪除的要點]
    end
    subgraph Comp["③ 競品的變化"]
      C1[共現競品名單]
      C2[競品位置關係]
      C3[新競品出現]
    end
    subgraph Sent["④ 情感的變化"]
      S1[情感分數位移]
      S2[強烈語氣的消長]
      S3[中性→正/負的轉向]
    end

Fig 10-3: 四類軸互不重疊;量可計算、質需質性分析、競品需圖譜對比、情感需模型打分。

各軸的分析手法

:直接以分數差值、百分比變化、趨勢斜率計算。

:將 Phase 1 與 Phase 2 的 response_text 做 diff 比對;突出「新增段落」「刪除段落」「替換字句」三類。高亮顯示給客戶看。

競品:抽取回應中的所有品牌實體,對比兩次 Phase 的集合差集(新進 / 退出 / 維持)。

情感:對每句話跑情感分類,比較情感分布的位移。例如 Phase 1 中性 80% / 正面 15% / 負面 5%,Phase 2 中性 60% / 正面 30% / 負面 10% 就是明顯的情感分化。


10.5 實務操作指引

何時啟用 Phase 基線

推薦三個觸發場景:

  1. 客戶訂閱高階方案時自動建立 Phase 1,使用者可在儀表板看縱向演變
  2. 客戶做重大內容改版後人工觸發 Phase 1,衡量改版效益
  3. Closed-Loop 修復Ch 9)後啟動 Phase 測試,驗證幻覺是否真的收斂

基線失效與重建

當下列事件發生時,Phase 基線應該重建而非繼續延伸:

重建時建立新 baseline_cohort_id,舊的保留供歷史參考但不再新增資料點。

UI 呈現原則


本章要點

參考資料


導覽← Ch 9: Closed-Loop 幻覺修復 · 📖 目次 · Ch 11: 5 品牌實戰數據 →