AI 客服品質管理指南
適用對象:客服主管、品質管理人員、客服培訓師
1. 快速入門:AI 客服的三個品質指標
如何查看評估報告分數?
路徑:AgentOps(側邊欄)→ AI 助理監控
在表格中可直接查看每筆對話的三大評分指標,點擊「查看」可看完整詳情。
為什麼需要評估?
就像檢視客服人員的通話錄音,我們也需要檢查 AI 的回答品質。 系統會自動給每次對話評分,幫助你快速找出問題。
三個核心指標
誠實性評分
AI 說的資訊是否正確,有沒有亂講或憑空想像
85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌
回答相關性評分
AI 有沒有回答客戶真正想問的問題
85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌
上下文精確度評分
AI 有沒有找對參考資料,是否精準針對上下文
85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌
簡易判斷法
三個指標都 > 80 分 → ✅ 這次回答很好
任一個指標 < 60 分 → ❌ 需要立即改善
兩個以上 < 70 分 → ⚠️ 系統性問題,需全面檢討2. 如何看懂評估報告
報告範例
對話編號:#20240120-001
客戶問題:「XL 號的黑色風衣還有貨嗎?」
AI 回答:「黑色風衣目前有庫存,XL 號可以訂購。」
評估結果:
├─ 誠實性評分 (faithfulness_score):45 分 ❌ (說有貨,但其實沒貨)
├─ 回答相關性評分 (answer_relevancy_score):90 分 ✅ (確實回答了庫存問題)
└─ 上下文精確度評分 (context_precision_score):70 分 ⚠️ (找到風衣資料,但尺寸資訊不夠精確)
問題診斷:AI 回答了錯誤的庫存資訊三種常見問題類型
問題 A:誠實性評分低(< 60 分)
症狀:AI 說的資訊是錯的或憑空想像
常見原因:
參考資料過時(價格、庫存、政策已更新)
資料互相矛盾(不同文件說法不一)
AI 自己「猜測」答案,沒有依據資料庫內容
影響:客戶可能收到錯誤資訊,造成客訴
問題 B:回答相關性評分低(< 60 分)
症狀:AI 沒有回答客戶真正想問的
常見原因:
AI 聊了一堆,但沒講重點
答非所問,講了不相關的內容
只說明背景,沒給出實際答案
影響:客戶需要再問一次,降低滿意度
問題 C:上下文精確度評分低(< 60 分)
症狀:AI 找錯參考資料或不夠精準
常見原因:
關鍵字搜尋不準確
混淆不同商品/分類的資料
參考資料的標題或分類不清楚
影響:即使 AI 想好好回答,但用錯資料就會答錯
3. 實戰案例:服飾業常見問題
案例 1:說錯價格(誠實性評分低)
📊 問題發現
客戶問題:「這件羽絨外套多少錢?」
AI 回答:「這件羽絨外套售價 NT$ 3,990 元。」
評估結果:
誠實性評分 (faithfulness_score):38 分 ❌
回答相關性評分 (answer_relevancy_score):95 分 ✅
上下文精確度評分 (context_precision_score):85 分 ✅
實際情況: 該商品已調價為 NT$ 2,990 元(折扣後),但 AI 仍然回答原價。
💡 改善方案
步驟 1:檢查資料
打開知識庫中的「商品價格表」
發現價格沒有更新
步驟 2:更新資料
❌ 問題資料
羽絨外套系列
- 經典款羽絨外套:NT$ 3,990
- 長版羽絨外套:NT$ 4,990✅ 修正後資料
羽絨外套系列(2024 冬季價格)
商品名稱:經典款羽絨外套
- 原價:NT$ 3,990
- 折扣價:NT$ 2,990(2024/1/1 起)
- 活動期限:2024/1/1 - 2024/2/28
商品名稱:長版羽絨外套
- 原價:NT$ 4,990
- 折扣價:NT$ 3,990(2024/1/1 起)
- 活動期限:2024/1/1 - 2024/2/28
更新日期:2024/1/15步驟 3:提醒 AI
在「AI 回答原則」中加上:
「回答價格時,務必確認是否為最新價格,並說明適用期間。如有折扣活動,請同時告知原價和折扣價。」
案例 2:答非所問(回答相關性評分低)
📊 問題發現
客戶問題:「買了不合身,可以退貨嗎?」
AI 回答:「我們提供多種尺寸選擇,包括 S、M、L、XL。每件衣服的尺寸表都標註在商品頁面上。購買前建議參考尺寸表測量。」
評估結果:
誠實性評分 (faithfulness_score):90 分 ✅
回答相關性評分 (answer_relevancy_score):35 分 ❌
上下文精確度評分 (context_precision_score):60 分 ⚠️
問題診斷: 客戶問「可不可以退貨」,但 AI 在講「怎麼選尺寸」,完全沒回答核心問題。
💡 改善方案
步驟 1:調整回答原則
在「AI 回答原則」中加上:
核心原則:先回答客戶的核心問題
錯誤範例:
客戶問「可以退貨嗎?」
AI 答「我們有完善的售後服務...」❌(沒說可不可以)
正確範例:
客戶問「可以退貨嗎?」
AI 答「可以。商品到貨 7 天內,若未使用可申請退貨...」✅(直接回答)
步驟 2:重組資料結構
❌ 問題資料(太發散)
售後服務說明
本公司重視客戶權益,提供完善的售後服務。
購買商品時請詳閱尺寸表,選擇合適尺寸。
如有任何問題,歡迎聯繫客服...✅ 修正後資料
退換貨規定
Q:可以退貨嗎?
A:可以。到貨 7 天內,商品未使用、吊牌完整,可申請退貨。
退貨條件:
✅ 商品未使用、未下水、未試穿超過 10 分鐘
✅ 吊牌、包裝完整
✅ 到貨 7 天內提出申請
❌ 特價商品、內衣褲不可退貨
退貨流程:
1. 撥打客服專線 0800-XXX-XXX 或填寫線上表單
2. 客服提供退貨地址及單號
3. 7-14 天內退款至原付款方式
---
Q:可以換貨嗎?
A:可以。到貨 7 天內,可免費換尺寸或顏色(限同商品)。
換貨流程:
1. 聯繫客服確認庫存
2. 寄回商品(同退貨條件)
3. 收到商品後 3 天內寄出新商品改善重點:
✅ 開頭直接回答「可以」或「不可以」
✅ 用 Q&A 格式,一目了然
✅ 列出明確條件,避免爭議
案例 3:找錯商品(上下文精確度評分低)
📊 問題發現
客戶問題:「黑色針織上衣的材質是什麼?」
AI 回答:「這款針織上衣採用 100% 純棉材質,柔軟舒適,適合四季穿著。」
評估結果:
誠實性評分 (faithfulness_score):88 分 ✅
回答相關性評分 (answer_relevancy_score):90 分 ✅
上下文精確度評分 (context_precision_score):48 分 ❌
實際情況: 黑色針織上衣是 70% 羊毛 + 30% 聚酯纖維,AI 找到的是「白色針織上衣」的資料(100% 純棉)。
💡 改善方案
步驟 1:檢查資料標示
問題資料檔案名稱:
針織上衣.pdf問題點:所有針織上衣都在同一份文件,AI 難以區分。
步驟 2:改善資料結構
✅ 修正方案 A:分開文件
商品資料/
├─ 針織上衣_黑色_型號A001.pdf
├─ 針織上衣_白色_型號A002.pdf
├─ 針織上衣_灰色_型號A003.pdf✅ 修正方案 B:清楚標題
# 針織上衣商品資訊
## 黑色針織上衣(型號:A001)
- 顏色:黑色
- 材質:70% 羊毛 + 30% 聚酯纖維
- 適合季節:秋冬
- 洗滌方式:手洗,不可烘乾
## 白色針織上衣(型號:A002)
- 顏色:白色
- 材質:100% 純棉
- 適合季節:春夏秋冬
- 洗滌方式:可機洗,低溫烘乾
## 灰色針織上衣(型號:A003)
- 顏色:灰色
- 材質:50% 羊毛 + 50% 腈綸
- 適合季節:秋冬
- 洗滌方式:乾洗步驟 3:提醒 AI
在「AI 回答原則」中加上:
「客戶提到商品的顏色、型號時,務必確認參考資料是否為該顏色、型號的資訊。不同顏色的同款商品,材質和規格可能不同。」
4. 三步驟改善方案
當發現問題時,依照這個流程處理:
發現評分過低
↓
步驟 1:更新資料內容(最重要)
↓
步驟 2:調整 AI 回答原則
↓
步驟 3:提報技術團隊(如果需要)步驟 1:更新資料內容
適用情況:
✅ 誠實性評分低(資料錯誤或過時)
✅ 上下文精確度評分低(資料混亂、標示不清)
檢查清單:
資料品質範例:
❌ 不好的資料
退貨說明
部分商品可退貨,但要符合一定條件。
有些特殊商品不能退,請購買前注意。
如需退貨請聯絡客服。✅ 好的資料
退貨規定
可退貨商品:
✅ 一般服飾(上衣、褲子、外套)
✅ 配件(包包、帽子、圍巾)
不可退貨商品:
❌ 內衣褲、泳衣
❌ 特價商品(5 折以下)
❌ 客製化商品
退貨條件(全部符合才可退):
1. 到貨 7 天內
2. 商品未使用(吊牌完整、無試穿痕跡)
3. 包裝完整
退貨流程:
1. 撥打客服專線 0800-XXX-XXX
2. 提供訂單編號
3. 客服提供退貨地址
4. 寄回商品(建議使用掛號)
5. 收到商品後 7-14 天退款
聯絡方式:
- 客服專線:0800-XXX-XXX(09:00-21:00)
- 線上客服:官網右下角對話框
- 電子郵件:[email protected]步驟 2:調整 AI 回答原則
適用情況:
✅ 回答相關性評分低(答非所問)
✅ 誠實性評分低(AI 亂猜、憑空想像)
AI 回答原則範本:
# AI 客服回答原則
## 核心守則
1. **先回答核心問題**
- 客戶問「可不可以」→ 先回答「可以」或「不可以」
- 客戶問「多少錢」→ 先講價格
- 客戶問「怎麼做」→ 先給步驟
2. **只說有把握的**
- 所有資訊必須來自參考資料
- 不確定就說「這部分需要人工客服協助」
- 絕對不可以猜測或假設
3. **注意細節**
- 顏色、尺寸、型號不可混淆
- 價格要確認是最新的
- 活動期限要說明清楚
## 回答格式
### 政策類問題(退換貨、會員、優惠)
第一段:直接回答 「可以」 或 「不可以」
第二段:說明條件(用條列式)
第三段:告訴客戶怎麼做(流程或聯絡方式)
### 商品類問題(價格、材質、庫存)
第一段:直接回答問題(價格/材質/有無庫存)
第二段:補充商品資訊(規格、尺寸、顏色)
第三段:購買連結或下一步
### 流程類問題(怎麼買、怎麼退、怎麼換)
第一段:總結流程(3-5 個步驟)
第二段:詳細說明每個步驟
第三段:注意事項或聯絡方式
## 禁止事項
❌ 不可說「通常」「一般來說」「大概」(要明確)
❌ 不可混淆不同商品的資訊
❌ 不可省略重要條件(價格、尺寸、期限)
❌ 不可推測客戶沒說的資訊
## 範例
✅ 好的回答:
客戶:「這件外套可以退貨嗎?」 AI:「可以。商品到貨 7 天內,若符合以下條件可申請退貨:
商品未使用,吊牌完整
包裝完好無損
非特價商品
退貨流程: 請撥打客服專線 0800-XXX-XXX,我們會提供退貨地址及說明。 退款約 7-14 個工作天退回原付款方式。」
❌ 不好的回答:
客戶:「這件外套可以退貨嗎?」 AI:「本公司重視客戶權益,提供完善的售後服務。 購買前建議詳閱商品說明,選擇合適尺寸。 如有任何問題歡迎聯繫客服...」 (沒有直接回答可不可以退貨)步驟 3:提報技術團隊
適用情況:
上下文精確度評分持續偏低
同樣問題重複發生
調整資料和原則後仍未改善
提報內容:
問題類型:上下文精確度評分低
問題描述:
客戶詢問「黑色」商品時,AI 經常找到「白色」或其他顏色的資料。
影響範圍:
約 15% 的商品查詢問題會出現此狀況
已嘗試的改善:
✅ 已將不同顏色的商品資料分開檔案
✅ 已在標題中明確標示顏色
⚠️ 問題仍未完全解決
建議技術調整:
希望系統能更協助更精準辨識「顏色」關鍵字
附件:
- test_cases_color_queries.csv(100 個測試問題)
- current_results.csv(當前系統的檢索結果)
- expected_results.csv(預期的正確結果)5. 日常管理檢查表
日常檢查
發現問題時:
如果同類問題 ≥ 3 次
→ 立即處理(更新資料或調整原則)
如果涉及價格、政策錯誤
→ 緊急修正,當天完成
如果是偶發問題
→ 記錄觀察,列入討論回覆品質追蹤
1. 數據回顧
本週統計:
- 總對話數:___ 則
- 平均誠實性評分 (faithfulness_score):___ 分
- 平均回答相關性評分 (answer_relevancy_score):___ 分
- 平均上下文精確度評分 (context_precision_score):___ 分
- 異常對話數:___ 則(____%)2. 問題分析
高頻問題 Top 3:
1. ________(__ 次)- 哪個指標低?
2. ________(__ 次)- 哪個指標低?
3. ________(__ 次)- 哪個指標低?3. 改善行動
本週要做:
□ 更新 ___ 份資料(負責人:___)
□ 調整 ___ 項回答原則(負責人:___)
□ 提報 ___ 個技術問題(負責人:___)
下週目標:
- 異常對話率降至 < ____%
- 所有指標平均 > ___ 分附錄A:問題診斷速查表
誠實性評分低
資料過時或錯誤、AI 憑空想像
步驟 1:更新資料內容
回答相關性評分低
AI 答非所問
步驟 2:調整回答原則
上下文精確度評分低
AI 找錯資料或不夠精準
步驟 1:改善資料標示
多個指標都低
系統性問題
步驟 1+2,必要時步驟 3
改善優先順序
第一優先:誠實性評分 < 60 分
→ 可能給客戶錯誤資訊或憑空想像內容,造成客訴
第二優先:回答相關性評分 < 60 分
→ 客戶體驗差,需要重複詢問
第三優先:上下文精確度評分 < 60 分
→ 雖然問題不明顯,但長期會影響品質附錄 B:系統評估指標對照表
主要使用指標(不需要標準答案)
這三個指標是本指南的核心,可以直接應用於日常客服對話評估:
誠實性評分
Faithfulness
評估 AI 回答是否符合資料庫內容,是否憑空想像或自己編造內容
回答相關性評分
Answer Relevancy
評估 AI 回答是否與客戶問題相關,有沒有答非所問
上下文精確度評分
Context Precision
評估 AI 的回答是否精準針對上下文,是否找對參考資料
進階指標(需要標準答案)
以下指標需要事先準備「標準答案」(ground truth),適合用於測試案例評估:
回答正確性
Answer Correctness
比對 AI 回答與標準答案,評估正確性
回答相似度
Answer Similarity
評估 AI 回答與標準答案的語意相似程度
參考資料召回率
Context Recall
評估系統是否檢索到所有必要的參考資料
其他可用指標(DeepEval)
系統也支援以下額外的評估指標,可用於更全面的品質檢測:
偏見檢測
Bias
檢測回答中是否包含偏見或歧視性內容
毒性檢測
Toxicity
檢測回答中是否包含不當或攻擊性內容
幻覺檢測
Hallucination
檢測 AI 是否產生與事實不符的內容
上下文相關性
Contextual Relevancy
評估檢索到的參考資料是否與問題相關
使用建議
日常監控:使用三個主要指標(誠實性評分、回答相關性評分、上下文精確度評分)
測試評估:搭配進階指標,準備標準答案進行系統性評估
品質把關:啟用偏見和毒性檢測,確保回答符合企業規範
常見問題 Q&A
Q1:我不懂技術,能管理 AI 客服嗎? A:可以!就像管理客服人員一樣,你只需要:
每天看評估報告,找出問題對話
檢查資料是否正確、完整
調整 AI 的「回答原則」(就像培訓客服話術)
Q2:評分是怎麼來的?AI 自己評自己嗎? A:不是。評分是由專門的「評估系統」自動進行,就像有另一個 AI 在旁邊當「品管」,檢查第一個 AI 的回答。
Q3:三個指標都很重要嗎?可以只看一個嗎? A:建議三個都看,因為它們反映不同問題:
誠實性評分 (
faithfulness_score):AI 是否符合資料庫內容,有無憑空想像回答相關性評分 (
answer_relevancy_score):AI 是否理解問題,回答是否相關上下文精確度評分 (
context_precision_score):AI 是否精準針對上下文,找對參考資料
如果只看一個,可能漏掉重要問題。
Q4:改善後多久會看到效果? A:
更新資料:立即生效(當天就能看到改善)
調整回答原則:立即生效
技術調整:需要 2-4 週(視問題複雜度)
結語
管理 AI 客服就像管理真人客服團隊:
✅ 定期檢查品質(看評估報告) ✅ 持續更新知識(更新資料內容) ✅ 優化服務話術(調整回答原則) ✅ 記錄改善成效(追蹤評分變化)
只要照著這份指南,即使不懂技術,也能讓 AI 客服越來越好!
Last updated
Was this helpful?
