AI 客服品質管理

適用對象:客服主管、品質管理人員、客服培訓師

1. 快速入門:AI 客服的三個品質指標

如何查看評估報告分數?

路徑:AgentOps(側邊欄)→ AI 助理監控

在表格中可直接查看每筆對話的三大評分指標,點擊「查看」可看完整詳情。

為什麼需要評估?

就像檢視客服人員的通話錄音,我們也需要檢查 AI 的回答品質。 系統會自動給每次對話評分,幫助你快速找出問題。


三個核心指標

指標名稱
白話說明
評分標準

誠實性評分

AI 說的資訊是否正確,有沒有亂講或憑空想像

85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌

回答相關性評分

AI 有沒有回答客戶真正想問的問題

85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌

上下文精確度評分

AI 有沒有找對參考資料,是否精準針對上下文

85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌


簡易判斷法

三個指標都 > 80 分  → ✅ 這次回答很好
任一個指標 < 60 分  → ❌ 需要立即改善
兩個以上 < 70 分    → ⚠️ 系統性問題,需全面檢討

2. 如何看懂評估報告

報告範例


三種常見問題類型

問題 A:誠實性評分低(< 60 分)

症狀:AI 說的資訊是錯的或憑空想像

常見原因

  • 參考資料過時(價格、庫存、政策已更新)

  • 資料互相矛盾(不同文件說法不一)

  • AI 自己「猜測」答案,沒有依據資料庫內容

影響:客戶可能收到錯誤資訊,造成客訴


問題 B:回答相關性評分低(< 60 分)

症狀:AI 沒有回答客戶真正想問的

常見原因

  • AI 聊了一堆,但沒講重點

  • 答非所問,講了不相關的內容

  • 只說明背景,沒給出實際答案

影響:客戶需要再問一次,降低滿意度


問題 C:上下文精確度評分低(< 60 分)

症狀:AI 找錯參考資料或不夠精準

常見原因

  • 關鍵字搜尋不準確

  • 混淆不同商品/分類的資料

  • 參考資料的標題或分類不清楚

影響:即使 AI 想好好回答,但用錯資料就會答錯


3. 實戰案例:服飾業常見問題

案例 1:說錯價格(誠實性評分低)

📊 問題發現

客戶問題:「這件羽絨外套多少錢?」

AI 回答:「這件羽絨外套售價 NT$ 3,990 元。」

評估結果

  • 誠實性評分 (faithfulness_score):38 分

  • 回答相關性評分 (answer_relevancy_score):95 分 ✅

  • 上下文精確度評分 (context_precision_score):85 分 ✅

實際情況: 該商品已調價為 NT$ 2,990 元(折扣後),但 AI 仍然回答原價。


💡 改善方案

步驟 1:檢查資料

  • 打開知識庫中的「商品價格表」

  • 發現價格沒有更新

步驟 2:更新資料

問題資料

修正後資料

步驟 3:提醒 AI

在「AI 回答原則」中加上:

「回答價格時,務必確認是否為最新價格,並說明適用期間。如有折扣活動,請同時告知原價和折扣價。」


案例 2:答非所問(回答相關性評分低)

📊 問題發現

客戶問題:「買了不合身,可以退貨嗎?」

AI 回答:「我們提供多種尺寸選擇,包括 S、M、L、XL。每件衣服的尺寸表都標註在商品頁面上。購買前建議參考尺寸表測量。」

評估結果

  • 誠實性評分 (faithfulness_score):90 分 ✅

  • 回答相關性評分 (answer_relevancy_score):35 分

  • 上下文精確度評分 (context_precision_score):60 分 ⚠️

問題診斷: 客戶問「可不可以退貨」,但 AI 在講「怎麼選尺寸」,完全沒回答核心問題。


💡 改善方案

步驟 1:調整回答原則

在「AI 回答原則」中加上:

核心原則:先回答客戶的核心問題

錯誤範例:

  • 客戶問「可以退貨嗎?」

  • AI 答「我們有完善的售後服務...」❌(沒說可不可以)

正確範例:

  • 客戶問「可以退貨嗎?」

  • AI 答「可以。商品到貨 7 天內,若未使用可申請退貨...」✅(直接回答)

步驟 2:重組資料結構

問題資料(太發散)

修正後資料

改善重點

  • ✅ 開頭直接回答「可以」或「不可以」

  • ✅ 用 Q&A 格式,一目了然

  • ✅ 列出明確條件,避免爭議


案例 3:找錯商品(上下文精確度評分低)

📊 問題發現

客戶問題:「黑色針織上衣的材質是什麼?」

AI 回答:「這款針織上衣採用 100% 純棉材質,柔軟舒適,適合四季穿著。」

評估結果

  • 誠實性評分 (faithfulness_score):88 分 ✅

  • 回答相關性評分 (answer_relevancy_score):90 分 ✅

  • 上下文精確度評分 (context_precision_score):48 分

實際情況: 黑色針織上衣是 70% 羊毛 + 30% 聚酯纖維,AI 找到的是「白色針織上衣」的資料(100% 純棉)。


💡 改善方案

步驟 1:檢查資料標示

問題資料檔案名稱:

問題點:所有針織上衣都在同一份文件,AI 難以區分。

步驟 2:改善資料結構

修正方案 A:分開文件

修正方案 B:清楚標題

步驟 3:提醒 AI

在「AI 回答原則」中加上:

「客戶提到商品的顏色、型號時,務必確認參考資料是否為該顏色、型號的資訊。不同顏色的同款商品,材質和規格可能不同。」


4. 三步驟改善方案

當發現問題時,依照這個流程處理:


步驟 1:更新資料內容

適用情況

  • ✅ 誠實性評分低(資料錯誤或過時)

  • ✅ 上下文精確度評分低(資料混亂、標示不清)

檢查清單

資料品質範例

不好的資料

好的資料


步驟 2:調整 AI 回答原則

適用情況

  • ✅ 回答相關性評分低(答非所問)

  • ✅ 誠實性評分低(AI 亂猜、憑空想像)

AI 回答原則範本


步驟 3:提報技術團隊

適用情況

  • 上下文精確度評分持續偏低

  • 同樣問題重複發生

  • 調整資料和原則後仍未改善

提報內容


5. 日常管理檢查表

日常檢查

發現問題時:


回覆品質追蹤

1. 數據回顧

2. 問題分析

3. 改善行動


附錄A:問題診斷速查表

評分狀況
可能原因
改善方法

誠實性評分低

資料過時或錯誤、AI 憑空想像

步驟 1:更新資料內容

回答相關性評分低

AI 答非所問

步驟 2:調整回答原則

上下文精確度評分低

AI 找錯資料或不夠精準

步驟 1:改善資料標示

多個指標都低

系統性問題

步驟 1+2,必要時步驟 3


改善優先順序


附錄 B:系統評估指標對照表

主要使用指標(不需要標準答案)

這三個指標是本指南的核心,可以直接應用於日常客服對話評估:

中文名稱
英文全名
說明

誠實性評分

Faithfulness

評估 AI 回答是否符合資料庫內容,是否憑空想像或自己編造內容

回答相關性評分

Answer Relevancy

評估 AI 回答是否與客戶問題相關,有沒有答非所問

上下文精確度評分

Context Precision

評估 AI 的回答是否精準針對上下文,是否找對參考資料

進階指標(需要標準答案)

以下指標需要事先準備「標準答案」(ground truth),適合用於測試案例評估:

中文名稱
英文全名
說明

回答正確性

Answer Correctness

比對 AI 回答與標準答案,評估正確性

回答相似度

Answer Similarity

評估 AI 回答與標準答案的語意相似程度

參考資料召回率

Context Recall

評估系統是否檢索到所有必要的參考資料

其他可用指標(DeepEval)

系統也支援以下額外的評估指標,可用於更全面的品質檢測:

中文名稱
英文名稱
說明

偏見檢測

Bias

檢測回答中是否包含偏見或歧視性內容

毒性檢測

Toxicity

檢測回答中是否包含不當或攻擊性內容

幻覺檢測

Hallucination

檢測 AI 是否產生與事實不符的內容

上下文相關性

Contextual Relevancy

評估檢索到的參考資料是否與問題相關

使用建議

  1. 日常監控:使用三個主要指標(誠實性評分、回答相關性評分、上下文精確度評分)

  2. 測試評估:搭配進階指標,準備標準答案進行系統性評估

  3. 品質把關:啟用偏見和毒性檢測,確保回答符合企業規範


常見問題 Q&A

Q1:我不懂技術,能管理 AI 客服嗎? A:可以!就像管理客服人員一樣,你只需要:

  • 每天看評估報告,找出問題對話

  • 檢查資料是否正確、完整

  • 調整 AI 的「回答原則」(就像培訓客服話術)


Q2:評分是怎麼來的?AI 自己評自己嗎? A:不是。評分是由專門的「評估系統」自動進行,就像有另一個 AI 在旁邊當「品管」,檢查第一個 AI 的回答。


Q3:三個指標都很重要嗎?可以只看一個嗎? A:建議三個都看,因為它們反映不同問題:

  • 誠實性評分 (faithfulness_score):AI 是否符合資料庫內容,有無憑空想像

  • 回答相關性評分 (answer_relevancy_score):AI 是否理解問題,回答是否相關

  • 上下文精確度評分 (context_precision_score):AI 是否精準針對上下文,找對參考資料

如果只看一個,可能漏掉重要問題。


Q4:改善後多久會看到效果? A:

  • 更新資料:立即生效(當天就能看到改善)

  • 調整回答原則:立即生效

  • 技術調整:需要 2-4 週(視問題複雜度)


結語

管理 AI 客服就像管理真人客服團隊:

定期檢查品質(看評估報告) ✅ 持續更新知識(更新資料內容) ✅ 優化服務話術(調整回答原則) ✅ 記錄改善成效(追蹤評分變化)

只要照著這份指南,即使不懂技術,也能讓 AI 客服越來越好!

Last updated

Was this helpful?