AI 客服品質管理
適用對象:客服主管、品質管理人員、客服培訓師
1. 快速入門:AI 客服的三個品質指標
如何查看評估報告分數?
路徑:AgentOps(側邊欄)→ AI 助理監控
在表格中可直接查看每筆對話的三大評分指標,點擊「查看」可看完整詳情。
為什麼需要評估?
就像檢視客服人員的通話錄音,我們也需要檢查 AI 的回答品質。 系統會自動給每次對話評分,幫助你快速找出問題。
三個核心指標
誠實性評分
AI 說的資訊是否正確,有沒有亂講或憑空想像
85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌
回答相關性評分
AI 有沒有回答客戶真正想問的問題
85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌
上下文精確度評分
AI 有沒有找對參考資料,是否精準針對上下文
85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌
簡易判斷法
三個指標都 > 80 分 → ✅ 這次回答很好
任一個指標 < 60 分 → ❌ 需要立即改善
兩個以上 < 70 分 → ⚠️ 系統性問題,需全面檢討2. 如何看懂評估報告
報告範例
三種常見問題類型
問題 A:誠實性評分低(< 60 分)
症狀:AI 說的資訊是錯的或憑空想像
常見原因:
參考資料過時(價格、庫存、政策已更新)
資料互相矛盾(不同文件說法不一)
AI 自己「猜測」答案,沒有依據資料庫內容
影響:客戶可能收到錯誤資訊,造成客訴
問題 B:回答相關性評分低(< 60 分)
症狀:AI 沒有回答客戶真正想問的
常見原因:
AI 聊了一堆,但沒講重點
答非所問,講了不相關的內容
只說明背景,沒給出實際答案
影響:客戶需要再問一次,降低滿意度
問題 C:上下文精確度評分低(< 60 分)
症狀:AI 找錯參考資料或不夠精準
常見原因:
關鍵字搜尋不準確
混淆不同商品/分類的資料
參考資料的標題或分類不清楚
影響:即使 AI 想好好回答,但用錯資料就會答錯
3. 實戰案例:服飾業常見問題
案例 1:說錯價格(誠實性評分低)
📊 問題發現
客戶問題:「這件羽絨外套多少錢?」
AI 回答:「這件羽絨外套售價 NT$ 3,990 元。」
評估結果:
誠實性評分 (faithfulness_score):38 分 ❌
回答相關性評分 (answer_relevancy_score):95 分 ✅
上下文精確度評分 (context_precision_score):85 分 ✅
實際情況: 該商品已調價為 NT$ 2,990 元(折扣後),但 AI 仍然回答原價。
💡 改善方案
步驟 1:檢查資料
打開知識庫中的「商品價格表」
發現價格沒有更新
步驟 2:更新資料
❌ 問題資料
✅ 修正後資料
步驟 3:提醒 AI
在「AI 回答原則」中加上:
「回答價格時,務必確認是否為最新價格,並說明適用期間。如有折扣活動,請同時告知原價和折扣價。」
案例 2:答非所問(回答相關性評分低)
📊 問題發現
客戶問題:「買了不合身,可以退貨嗎?」
AI 回答:「我們提供多種尺寸選擇,包括 S、M、L、XL。每件衣服的尺寸表都標註在商品頁面上。購買前建議參考尺寸表測量。」
評估結果:
誠實性評分 (faithfulness_score):90 分 ✅
回答相關性評分 (answer_relevancy_score):35 分 ❌
上下文精確度評分 (context_precision_score):60 分 ⚠️
問題診斷: 客戶問「可不可以退貨」,但 AI 在講「怎麼選尺寸」,完全沒回答核心問題。
💡 改善方案
步驟 1:調整回答原則
在「AI 回答原則」中加上:
核心原則:先回答客戶的核心問題
錯誤範例:
客戶問「可以退貨嗎?」
AI 答「我們有完善的售後服務...」❌(沒說可不可以)
正確範例:
客戶問「可以退貨嗎?」
AI 答「可以。商品到貨 7 天內,若未使用可申請退貨...」✅(直接回答)
步驟 2:重組資料結構
❌ 問題資料(太發散)
✅ 修正後資料
改善重點:
✅ 開頭直接回答「可以」或「不可以」
✅ 用 Q&A 格式,一目了然
✅ 列出明確條件,避免爭議
案例 3:找錯商品(上下文精確度評分低)
📊 問題發現
客戶問題:「黑色針織上衣的材質是什麼?」
AI 回答:「這款針織上衣採用 100% 純棉材質,柔軟舒適,適合四季穿著。」
評估結果:
誠實性評分 (faithfulness_score):88 分 ✅
回答相關性評分 (answer_relevancy_score):90 分 ✅
上下文精確度評分 (context_precision_score):48 分 ❌
實際情況: 黑色針織上衣是 70% 羊毛 + 30% 聚酯纖維,AI 找到的是「白色針織上衣」的資料(100% 純棉)。
💡 改善方案
步驟 1:檢查資料標示
問題資料檔案名稱:
問題點:所有針織上衣都在同一份文件,AI 難以區分。
步驟 2:改善資料結構
✅ 修正方案 A:分開文件
✅ 修正方案 B:清楚標題
步驟 3:提醒 AI
在「AI 回答原則」中加上:
「客戶提到商品的顏色、型號時,務必確認參考資料是否為該顏色、型號的資訊。不同顏色的同款商品,材質和規格可能不同。」
4. 三步驟改善方案
當發現問題時,依照這個流程處理:
步驟 1:更新資料內容
適用情況:
✅ 誠實性評分低(資料錯誤或過時)
✅ 上下文精確度評分低(資料混亂、標示不清)
檢查清單:
資料品質範例:
❌ 不好的資料
✅ 好的資料
步驟 2:調整 AI 回答原則
適用情況:
✅ 回答相關性評分低(答非所問)
✅ 誠實性評分低(AI 亂猜、憑空想像)
AI 回答原則範本:
步驟 3:提報技術團隊
適用情況:
上下文精確度評分持續偏低
同樣問題重複發生
調整資料和原則後仍未改善
提報內容:
5. 日常管理檢查表
日常檢查
發現問題時:
回覆品質追蹤
1. 數據回顧
2. 問題分析
3. 改善行動
附錄A:問題診斷速查表
誠實性評分低
資料過時或錯誤、AI 憑空想像
步驟 1:更新資料內容
回答相關性評分低
AI 答非所問
步驟 2:調整回答原則
上下文精確度評分低
AI 找錯資料或不夠精準
步驟 1:改善資料標示
多個指標都低
系統性問題
步驟 1+2,必要時步驟 3
改善優先順序
附錄 B:系統評估指標對照表
主要使用指標(不需要標準答案)
這三個指標是本指南的核心,可以直接應用於日常客服對話評估:
誠實性評分
Faithfulness
評估 AI 回答是否符合資料庫內容,是否憑空想像或自己編造內容
回答相關性評分
Answer Relevancy
評估 AI 回答是否與客戶問題相關,有沒有答非所問
上下文精確度評分
Context Precision
評估 AI 的回答是否精準針對上下文,是否找對參考資料
進階指標(需要標準答案)
以下指標需要事先準備「標準答案」(ground truth),適合用於測試案例評估:
回答正確性
Answer Correctness
比對 AI 回答與標準答案,評估正確性
回答相似度
Answer Similarity
評估 AI 回答與標準答案的語意相似程度
參考資料召回率
Context Recall
評估系統是否檢索到所有必要的參考資料
其他可用指標(DeepEval)
系統也支援以下額外的評估指標,可用於更全面的品質檢測:
偏見檢測
Bias
檢測回答中是否包含偏見或歧視性內容
毒性檢測
Toxicity
檢測回答中是否包含不當或攻擊性內容
幻覺檢測
Hallucination
檢測 AI 是否產生與事實不符的內容
上下文相關性
Contextual Relevancy
評估檢索到的參考資料是否與問題相關
使用建議
日常監控:使用三個主要指標(誠實性評分、回答相關性評分、上下文精確度評分)
測試評估:搭配進階指標,準備標準答案進行系統性評估
品質把關:啟用偏見和毒性檢測,確保回答符合企業規範
常見問題 Q&A
Q1:我不懂技術,能管理 AI 客服嗎? A:可以!就像管理客服人員一樣,你只需要:
每天看評估報告,找出問題對話
檢查資料是否正確、完整
調整 AI 的「回答原則」(就像培訓客服話術)
Q2:評分是怎麼來的?AI 自己評自己嗎? A:不是。評分是由專門的「評估系統」自動進行,就像有另一個 AI 在旁邊當「品管」,檢查第一個 AI 的回答。
Q3:三個指標都很重要嗎?可以只看一個嗎? A:建議三個都看,因為它們反映不同問題:
誠實性評分 (
faithfulness_score):AI 是否符合資料庫內容,有無憑空想像回答相關性評分 (
answer_relevancy_score):AI 是否理解問題,回答是否相關上下文精確度評分 (
context_precision_score):AI 是否精準針對上下文,找對參考資料
如果只看一個,可能漏掉重要問題。
Q4:改善後多久會看到效果? A:
更新資料:立即生效(當天就能看到改善)
調整回答原則:立即生效
技術調整:需要 2-4 週(視問題複雜度)
結語
管理 AI 客服就像管理真人客服團隊:
✅ 定期檢查品質(看評估報告) ✅ 持續更新知識(更新資料內容) ✅ 優化服務話術(調整回答原則) ✅ 記錄改善成效(追蹤評分變化)
只要照著這份指南,即使不懂技術,也能讓 AI 客服越來越好!
Last updated
Was this helpful?
