每次都生不同的問題來問,你永遠不知道分數變化是來自「品牌變了」還是「問題變了」。
Ch 2 介紹的常規掃描每次都動態生成 intent query,目的是模擬真實使用者會問的各種問題。這個設計適合「橫向」回答「這個品牌現在被提及多少」,但無法回答縱向問題:「品牌上週到這週,AI 對它的認知有什麼變化?」
原因:兩次掃描的 query 集合不同,分數差異至少有三種可能:
若無法區隔三種來源,趨勢圖就只是雜訊。要過濾出真實變化,需要固定 query 集合 + 多次重測。
flowchart TB
subgraph Regular["常規掃描(橫向)"]
R1[每次生新 query]
R2[答「現在幾分」]
R3[不適合時序比較]
end
subgraph Baseline["Phase 基線測試(縱向)"]
B1[固定 query set]
B2[相隔週/雙週重測]
B3[答「認知如何演變」]
end
Regular --- Baseline
Fig 10-1: 兩種掃描回答不同類型的問題,互補而非替代。
baseline_test_runs.queries_json 與 baseline_test_responses 表flowchart LR
Q["意圖 Query × 20(固定)"] --> P1[Phase 1<br/>Day 0]
Q --> P2[Phase 2<br/>Day 7]
Q --> P3[Phase 3<br/>Day 14]
P1 -->|對比| P2
P2 -->|對比| P3
P1 -->|對比| P3
P1 --> R[response_text × platforms]
P2 --> R
P3 --> R
Fig 10-2: 三次提問、同一組 query、三份完整 response 對比。
20 題是經驗值,未來若數據支持調整可再迭代。
Phase 基線測試走完全獨立的資料路徑,與常規掃描不交疊:
| 差異面向 | 常規掃描 | Phase 基線 |
|---|---|---|
| Query 來源 | 每次動態生成 | 固定於 Phase 1 |
| 觸發頻率 | daily / 4h | 週期性手動觸發或排程 |
| 是否計入 GEO 主分數 | 是 | 否(獨立呈現) |
| 是否受 Stale Carry-Forward 影響 | 是 | 否(遇失敗標 incomplete) |
| 資料保存 | 依滾動視窗 | 永久保存 response_text |
| 是否走 Redis 快取 | 是(減少重複 API) | 否(每次新鮮呼叫) |
常規掃描會把同一題的近期回應快取(假設短時間內 AI 不會改意見)以降低成本。但 Phase 基線的目的就是「測量 AI 意見的變化」—— 若快取,就測不到變化。
若納入主分數,Phase 2 與 Phase 3 的重測會產生三倍計入效應(同品牌在相近時段被重複計分),污染儀表板趨勢。分離兩者保持分數純淨。
Phase 基線資料的價值不僅是「分數變化」,還有四類獨立觀察軸:
flowchart TB
subgraph Quant["① 量的變化"]
Q1[引用率上升/下降]
Q2[位置前移/後退]
Q3[平台覆蓋擴/縮]
end
subgraph Qual["② 質的變化"]
L1[描述字句變化]
L2[用詞深度變化]
L3[新增或刪除的要點]
end
subgraph Comp["③ 競品的變化"]
C1[共現競品名單]
C2[競品位置關係]
C3[新競品出現]
end
subgraph Sent["④ 情感的變化"]
S1[情感分數位移]
S2[強烈語氣的消長]
S3[中性→正/負的轉向]
end
Fig 10-3: 四類軸互不重疊;量可計算、質需質性分析、競品需圖譜對比、情感需模型打分。
量:直接以分數差值、百分比變化、趨勢斜率計算。
質:將 Phase 1 與 Phase 2 的 response_text 做 diff 比對;突出「新增段落」「刪除段落」「替換字句」三類。高亮顯示給客戶看。
競品:抽取回應中的所有品牌實體,對比兩次 Phase 的集合差集(新進 / 退出 / 維持)。
情感:對每句話跑情感分類,比較情感分布的位移。例如 Phase 1 中性 80% / 正面 15% / 負面 5%,Phase 2 中性 60% / 正面 30% / 負面 10% 就是明顯的情感分化。
推薦三個觸發場景:
當下列事件發生時,Phase 基線應該重建而非繼續延伸:
重建時建立新 baseline_cohort_id,舊的保留供歷史參考但不再新增資料點。
/baseline 呈現 Phase 1→2→3 的對比視圖