AI 客服品質管理

適用對象：客服主管、品質管理人員、客服培訓師

1. 快速入門：AI 客服的三個品質指標

如何查看評估報告分數？

路徑：AgentOps（側邊欄）→ AI 助理監控

在表格中可直接查看每筆對話的三大評分指標，點擊「查看」可看完整詳情。

為什麼需要評估？

就像檢視客服人員的通話錄音，我們也需要檢查 AI 的回答品質。系統會自動給每次對話評分，幫助你快速找出問題。

三個核心指標

指標名稱

白話說明

評分標準

誠實性評分

AI 說的資訊是否正確，有沒有亂講或憑空想像

85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌

回答相關性評分

AI 有沒有回答客戶真正想問的問題

85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌

上下文精確度評分

AI 有沒有找對參考資料，是否精準針對上下文

85 分以上 ✅ 60-84 分 ⚠️ 60 分以下 ❌

簡易判斷法

三個指標都 > 80 分  → ✅ 這次回答很好
任一個指標 < 60 分  → ❌ 需要立即改善
兩個以上 < 70 分    → ⚠️ 系統性問題，需全面檢討

2. 如何看懂評估報告

報告範例

對話編號：#20240120-001
客戶問題：「XL 號的黑色風衣還有貨嗎？」
AI 回答：「黑色風衣目前有庫存，XL 號可以訂購。」

評估結果：
├─ 誠實性評分 (faithfulness_score)：45 分 ❌ （說有貨，但其實沒貨）
├─ 回答相關性評分 (answer_relevancy_score)：90 分 ✅ （確實回答了庫存問題）
└─ 上下文精確度評分 (context_precision_score)：70 分 ⚠️ （找到風衣資料，但尺寸資訊不夠精確）

問題診斷：AI 回答了錯誤的庫存資訊

三種常見問題類型

問題 A：誠實性評分低（< 60 分）

症狀：AI 說的資訊是錯的或憑空想像

常見原因：

參考資料過時（價格、庫存、政策已更新）
資料互相矛盾（不同文件說法不一）
AI 自己「猜測」答案，沒有依據資料庫內容

影響：客戶可能收到錯誤資訊，造成客訴

問題 B：回答相關性評分低（< 60 分）

症狀：AI 沒有回答客戶真正想問的

常見原因：

AI 聊了一堆，但沒講重點
答非所問，講了不相關的內容
只說明背景，沒給出實際答案

影響：客戶需要再問一次，降低滿意度

問題 C：上下文精確度評分低（< 60 分）

症狀：AI 找錯參考資料或不夠精準

常見原因：

關鍵字搜尋不準確
混淆不同商品/分類的資料
參考資料的標題或分類不清楚

影響：即使 AI 想好好回答，但用錯資料就會答錯

3. 實戰案例：服飾業常見問題

案例 1：說錯價格（誠實性評分低）

📊 問題發現

客戶問題：「這件羽絨外套多少錢？」

AI 回答：「這件羽絨外套售價 NT$ 3,990 元。」

評估結果：

誠實性評分 (faithfulness_score)：38 分 ❌
回答相關性評分 (answer_relevancy_score)：95 分 ✅
上下文精確度評分 (context_precision_score)：85 分 ✅

實際情況：該商品已調價為 NT$ 2,990 元（折扣後），但 AI 仍然回答原價。

💡 改善方案

步驟 1：檢查資料

打開知識庫中的「商品價格表」
發現價格沒有更新

步驟 2：更新資料

❌ 問題資料

羽絨外套系列
- 經典款羽絨外套：NT$ 3,990
- 長版羽絨外套：NT$ 4,990

✅ 修正後資料

羽絨外套系列（2024 冬季價格）

商品名稱：經典款羽絨外套
- 原價：NT$ 3,990
- 折扣價：NT$ 2,990（2024/1/1 起）
- 活動期限：2024/1/1 - 2024/2/28

商品名稱：長版羽絨外套
- 原價：NT$ 4,990
- 折扣價：NT$ 3,990（2024/1/1 起）
- 活動期限：2024/1/1 - 2024/2/28

更新日期：2024/1/15

步驟 3：提醒 AI

在「AI 回答原則」中加上：

「回答價格時，務必確認是否為最新價格，並說明適用期間。如有折扣活動，請同時告知原價和折扣價。」

案例 2：答非所問（回答相關性評分低）

📊 問題發現

客戶問題：「買了不合身，可以退貨嗎？」

AI 回答：「我們提供多種尺寸選擇，包括 S、M、L、XL。每件衣服的尺寸表都標註在商品頁面上。購買前建議參考尺寸表測量。」

評估結果：

誠實性評分 (faithfulness_score)：90 分 ✅
回答相關性評分 (answer_relevancy_score)：35 分 ❌
上下文精確度評分 (context_precision_score)：60 分 ⚠️

問題診斷：客戶問「可不可以退貨」，但 AI 在講「怎麼選尺寸」，完全沒回答核心問題。

💡 改善方案

步驟 1：調整回答原則

在「AI 回答原則」中加上：

核心原則：先回答客戶的核心問題
錯誤範例：
客戶問「可以退貨嗎？」
AI 答「我們有完善的售後服務...」❌（沒說可不可以）
正確範例：
客戶問「可以退貨嗎？」
AI 答「可以。商品到貨 7 天內，若未使用可申請退貨...」✅（直接回答）

步驟 2：重組資料結構

❌ 問題資料（太發散）

售後服務說明

本公司重視客戶權益，提供完善的售後服務。
購買商品時請詳閱尺寸表，選擇合適尺寸。
如有任何問題，歡迎聯繫客服...

✅ 修正後資料

退換貨規定

Q：可以退貨嗎？
A：可以。到貨 7 天內，商品未使用、吊牌完整，可申請退貨。

退貨條件：
✅ 商品未使用、未下水、未試穿超過 10 分鐘
✅ 吊牌、包裝完整
✅ 到貨 7 天內提出申請
❌ 特價商品、內衣褲不可退貨

退貨流程：
1. 撥打客服專線 0800-XXX-XXX 或填寫線上表單
2. 客服提供退貨地址及單號
3. 7-14 天內退款至原付款方式

---

Q：可以換貨嗎？
A：可以。到貨 7 天內，可免費換尺寸或顏色（限同商品）。

換貨流程：
1. 聯繫客服確認庫存
2. 寄回商品（同退貨條件）
3. 收到商品後 3 天內寄出新商品

改善重點：

✅ 開頭直接回答「可以」或「不可以」
✅ 用 Q&A 格式，一目了然
✅ 列出明確條件，避免爭議

案例 3：找錯商品（上下文精確度評分低）

📊 問題發現

客戶問題：「黑色針織上衣的材質是什麼？」

AI 回答：「這款針織上衣採用 100% 純棉材質，柔軟舒適，適合四季穿著。」

評估結果：

誠實性評分 (faithfulness_score)：88 分 ✅
回答相關性評分 (answer_relevancy_score)：90 分 ✅
上下文精確度評分 (context_precision_score)：48 分 ❌

實際情況：黑色針織上衣是 70% 羊毛 + 30% 聚酯纖維，AI 找到的是「白色針織上衣」的資料（100% 純棉）。

💡 改善方案

步驟 1：檢查資料標示

問題資料檔案名稱：

針織上衣.pdf

問題點：所有針織上衣都在同一份文件，AI 難以區分。

步驟 2：改善資料結構

✅ 修正方案 A：分開文件

商品資料/
├─ 針織上衣_黑色_型號A001.pdf
├─ 針織上衣_白色_型號A002.pdf
├─ 針織上衣_灰色_型號A003.pdf

✅ 修正方案 B：清楚標題

# 針織上衣商品資訊

## 黑色針織上衣（型號：A001）
- 顏色：黑色
- 材質：70% 羊毛 + 30% 聚酯纖維
- 適合季節：秋冬
- 洗滌方式：手洗，不可烘乾

## 白色針織上衣（型號：A002）
- 顏色：白色
- 材質：100% 純棉
- 適合季節：春夏秋冬
- 洗滌方式：可機洗，低溫烘乾

## 灰色針織上衣（型號：A003）
- 顏色：灰色
- 材質：50% 羊毛 + 50% 腈綸
- 適合季節：秋冬
- 洗滌方式：乾洗

步驟 3：提醒 AI

在「AI 回答原則」中加上：

「客戶提到商品的顏色、型號時，務必確認參考資料是否為該顏色、型號的資訊。不同顏色的同款商品，材質和規格可能不同。」

4. 三步驟改善方案

當發現問題時，依照這個流程處理：

發現評分過低
    ↓
步驟 1：更新資料內容（最重要）
    ↓
步驟 2：調整 AI 回答原則
    ↓
步驟 3：提報技術團隊（如果需要）

步驟 1：更新資料內容

適用情況：

✅ 誠實性評分低（資料錯誤或過時）
✅ 上下文精確度評分低（資料混亂、標示不清）

檢查清單：

資料是否為最新版本？
價格、庫存、政策是否正確？
不同商品的資料是否清楚區分？
標題是否明確？（讓 AI 容易找到）
是否用條列式、表格呈現？（而非大段文字）

資料品質範例：

❌ 不好的資料

退貨說明

部分商品可退貨，但要符合一定條件。
有些特殊商品不能退，請購買前注意。
如需退貨請聯絡客服。

✅ 好的資料

退貨規定

可退貨商品：
✅ 一般服飾（上衣、褲子、外套）
✅ 配件（包包、帽子、圍巾）

不可退貨商品：
❌ 內衣褲、泳衣
❌ 特價商品（5 折以下）
❌ 客製化商品

退貨條件（全部符合才可退）：
1. 到貨 7 天內
2. 商品未使用（吊牌完整、無試穿痕跡）
3. 包裝完整

退貨流程：
1. 撥打客服專線 0800-XXX-XXX
2. 提供訂單編號
3. 客服提供退貨地址
4. 寄回商品（建議使用掛號）
5. 收到商品後 7-14 天退款

聯絡方式：
- 客服專線：0800-XXX-XXX（09:00-21:00）
- 線上客服：官網右下角對話框
- 電子郵件：[email protected]

步驟 2：調整 AI 回答原則

適用情況：

✅ 回答相關性評分低（答非所問）
✅ 誠實性評分低（AI 亂猜、憑空想像）

AI 回答原則範本：

# AI 客服回答原則

## 核心守則

1. **先回答核心問題**
   - 客戶問「可不可以」→ 先回答「可以」或「不可以」
   - 客戶問「多少錢」→ 先講價格
   - 客戶問「怎麼做」→ 先給步驟

2. **只說有把握的**
   - 所有資訊必須來自參考資料
   - 不確定就說「這部分需要人工客服協助」
   - 絕對不可以猜測或假設

3. **注意細節**
   - 顏色、尺寸、型號不可混淆
   - 價格要確認是最新的
   - 活動期限要說明清楚

## 回答格式

### 政策類問題（退換貨、會員、優惠）
第一段：直接回答 「可以」 或 「不可以」 
第二段：說明條件（用條列式） 
第三段：告訴客戶怎麼做（流程或聯絡方式）

### 商品類問題（價格、材質、庫存）
第一段：直接回答問題（價格/材質/有無庫存） 
第二段：補充商品資訊（規格、尺寸、顏色） 
第三段：購買連結或下一步

### 流程類問題（怎麼買、怎麼退、怎麼換）
第一段：總結流程（3-5 個步驟） 
第二段：詳細說明每個步驟 
第三段：注意事項或聯絡方式

## 禁止事項

❌ 不可說「通常」「一般來說」「大概」（要明確）
❌ 不可混淆不同商品的資訊
❌ 不可省略重要條件（價格、尺寸、期限）
❌ 不可推測客戶沒說的資訊

## 範例

✅ 好的回答：
客戶：「這件外套可以退貨嗎？」 AI：「可以。商品到貨 7 天內，若符合以下條件可申請退貨：
商品未使用，吊牌完整
包裝完好無損
非特價商品
退貨流程： 請撥打客服專線 0800-XXX-XXX，我們會提供退貨地址及說明。 退款約 7-14 個工作天退回原付款方式。」

❌ 不好的回答：
客戶：「這件外套可以退貨嗎？」 AI：「本公司重視客戶權益，提供完善的售後服務。 購買前建議詳閱商品說明，選擇合適尺寸。 如有任何問題歡迎聯繫客服...」 （沒有直接回答可不可以退貨）

步驟 3：提報技術團隊

適用情況：

上下文精確度評分持續偏低
同樣問題重複發生
調整資料和原則後仍未改善

提報內容：

問題類型：上下文精確度評分低

問題描述：
客戶詢問「黑色」商品時，AI 經常找到「白色」或其他顏色的資料。

影響範圍：
約 15% 的商品查詢問題會出現此狀況

已嘗試的改善：
✅ 已將不同顏色的商品資料分開檔案
✅ 已在標題中明確標示顏色
⚠️ 問題仍未完全解決

建議技術調整：
希望系統能更協助更精準辨識「顏色」關鍵字

附件：
- test_cases_color_queries.csv（100 個測試問題）
- current_results.csv（當前系統的檢索結果）
- expected_results.csv（預期的正確結果）

5. 日常管理檢查表

日常檢查

發現問題時：

如果同類問題 ≥ 3 次
→ 立即處理（更新資料或調整原則）

如果涉及價格、政策錯誤
→ 緊急修正，當天完成

如果是偶發問題
→ 記錄觀察，列入討論

回覆品質追蹤

1. 數據回顧

本週統計：
- 總對話數：___ 則
- 平均誠實性評分 (faithfulness_score)：___ 分
- 平均回答相關性評分 (answer_relevancy_score)：___ 分
- 平均上下文精確度評分 (context_precision_score)：___ 分
- 異常對話數：___ 則（____%）

2. 問題分析

高頻問題 Top 3：
1. ________（__ 次）- 哪個指標低？
2. ________（__ 次）- 哪個指標低？
3. ________（__ 次）- 哪個指標低？

3. 改善行動

本週要做：
□ 更新 ___ 份資料（負責人：___）
□ 調整 ___ 項回答原則（負責人：___）
□ 提報 ___ 個技術問題（負責人：___）

下週目標：
- 異常對話率降至 < ____%
- 所有指標平均 > ___ 分

附錄Ａ：問題診斷速查表

評分狀況

可能原因

改善方法

誠實性評分低

資料過時或錯誤、AI 憑空想像

步驟 1：更新資料內容

回答相關性評分低

AI 答非所問

步驟 2：調整回答原則

上下文精確度評分低

AI 找錯資料或不夠精準

步驟 1：改善資料標示

多個指標都低

系統性問題

步驟 1+2，必要時步驟 3

改善優先順序

第一優先：誠實性評分 < 60 分
→ 可能給客戶錯誤資訊或憑空想像內容，造成客訴

第二優先：回答相關性評分 < 60 分  
→ 客戶體驗差，需要重複詢問

第三優先：上下文精確度評分 < 60 分
→ 雖然問題不明顯，但長期會影響品質

附錄 B：系統評估指標對照表

主要使用指標（不需要標準答案）

這三個指標是本指南的核心，可以直接應用於日常客服對話評估：

中文名稱

英文全名

說明

誠實性評分

Faithfulness

評估 AI 回答是否符合資料庫內容，是否憑空想像或自己編造內容

回答相關性評分

Answer Relevancy

評估 AI 回答是否與客戶問題相關，有沒有答非所問

上下文精確度評分

Context Precision

評估 AI 的回答是否精準針對上下文，是否找對參考資料

進階指標（需要標準答案）

以下指標需要事先準備「標準答案」(ground truth)，適合用於測試案例評估：

中文名稱

英文全名

說明

回答正確性

Answer Correctness

比對 AI 回答與標準答案，評估正確性

回答相似度

Answer Similarity

評估 AI 回答與標準答案的語意相似程度

參考資料召回率

Context Recall

評估系統是否檢索到所有必要的參考資料

其他可用指標（DeepEval）

系統也支援以下額外的評估指標，可用於更全面的品質檢測：

中文名稱

英文名稱

說明

偏見檢測

Bias

檢測回答中是否包含偏見或歧視性內容

毒性檢測

Toxicity

檢測回答中是否包含不當或攻擊性內容

幻覺檢測

Hallucination

檢測 AI 是否產生與事實不符的內容

上下文相關性

Contextual Relevancy

評估檢索到的參考資料是否與問題相關

使用建議

日常監控：使用三個主要指標（誠實性評分、回答相關性評分、上下文精確度評分）
測試評估：搭配進階指標，準備標準答案進行系統性評估
品質把關：啟用偏見和毒性檢測，確保回答符合企業規範

常見問題 Q&A

Q1：我不懂技術，能管理 AI 客服嗎？ A：可以！就像管理客服人員一樣，你只需要：

每天看評估報告，找出問題對話
檢查資料是否正確、完整
調整 AI 的「回答原則」（就像培訓客服話術）

Q2：評分是怎麼來的？AI 自己評自己嗎？ A：不是。評分是由專門的「評估系統」自動進行，就像有另一個 AI 在旁邊當「品管」，檢查第一個 AI 的回答。

Q3：三個指標都很重要嗎？可以只看一個嗎？ A：建議三個都看，因為它們反映不同問題：

誠實性評分 (faithfulness_score)：AI 是否符合資料庫內容，有無憑空想像
回答相關性評分 (answer_relevancy_score)：AI 是否理解問題，回答是否相關
上下文精確度評分 (context_precision_score)：AI 是否精準針對上下文，找對參考資料

如果只看一個，可能漏掉重要問題。

Q4：改善後多久會看到效果？ A：

更新資料：立即生效（當天就能看到改善）
調整回答原則：立即生效
技術調整：需要 2-4 週（視問題複雜度）

結語

管理 AI 客服就像管理真人客服團隊：

✅ 定期檢查品質（看評估報告） ✅ 持續更新知識（更新資料內容） ✅ 優化服務話術（調整回答原則） ✅ 記錄改善成效（追蹤評分變化）

只要照著這份指南，即使不懂技術，也能讓 AI 客服越來越好！

Previous為 AI 助理加入角色指令 Next工具功能概覽

Last updated 1 month ago

Was this helpful?