# AI 客服品質管理

> **適用對象**：客服主管、品質管理人員、客服培訓師

## 1. 快速入門：AI 客服的三個品質指標

#### **如何查看評估報告分數？**

**路徑**：AgentOps（側邊欄）→ AI 助理監控

在表格中可直接查看每筆對話的三大評分指標，點擊「查看」可看完整詳情。

#### 為什麼需要評估？

就像檢視客服人員的通話錄音，我們也需要檢查 AI 的回答品質。\
系統會自動給每次對話評分，幫助你快速找出問題。

***

#### 三個核心指標

| 指標名稱         | 白話說明                   | 評分標準                                      |
| ------------ | ---------------------- | ----------------------------------------- |
| **誠實性評分**    | AI 說的資訊是否正確，有沒有亂講或憑空想像 | <p>85 分以上 ✅<br>60-84 分 ⚠️<br>60 分以下 ❌</p> |
| **回答相關性評分**  | AI 有沒有回答客戶真正想問的問題      | <p>85 分以上 ✅<br>60-84 分 ⚠️<br>60 分以下 ❌</p> |
| **上下文精確度評分** | AI 有沒有找對參考資料，是否精準針對上下文 | <p>85 分以上 ✅<br>60-84 分 ⚠️<br>60 分以下 ❌</p> |

***

#### 簡易判斷法

```
三個指標都 > 80 分  → ✅ 這次回答很好
任一個指標 < 60 分  → ❌ 需要立即改善
兩個以上 < 70 分    → ⚠️ 系統性問題，需全面檢討
```

***

## 2. 如何看懂評估報告

#### 報告範例

```
對話編號：#20240120-001
客戶問題：「XL 號的黑色風衣還有貨嗎？」
AI 回答：「黑色風衣目前有庫存，XL 號可以訂購。」

評估結果：
├─ 誠實性評分 (faithfulness_score)：45 分 ❌ （說有貨，但其實沒貨）
├─ 回答相關性評分 (answer_relevancy_score)：90 分 ✅ （確實回答了庫存問題）
└─ 上下文精確度評分 (context_precision_score)：70 分 ⚠️ （找到風衣資料，但尺寸資訊不夠精確）

問題診斷：AI 回答了錯誤的庫存資訊
```

***

#### 三種常見問題類型

**問題 A：誠實性評分低（< 60 分）**

**症狀**：AI 說的資訊是錯的或憑空想像

**常見原因**：

* 參考資料過時（價格、庫存、政策已更新）
* 資料互相矛盾（不同文件說法不一）
* AI 自己「猜測」答案，沒有依據資料庫內容

**影響**：客戶可能收到錯誤資訊，造成客訴

***

**問題 B：回答相關性評分低（< 60 分）**

**症狀**：AI 沒有回答客戶真正想問的

**常見原因**：

* AI 聊了一堆，但沒講重點
* 答非所問，講了不相關的內容
* 只說明背景，沒給出實際答案

**影響**：客戶需要再問一次，降低滿意度

***

**問題 C：上下文精確度評分低（< 60 分）**

**症狀**：AI 找錯參考資料或不夠精準

**常見原因**：

* 關鍵字搜尋不準確
* 混淆不同商品/分類的資料
* 參考資料的標題或分類不清楚

**影響**：即使 AI 想好好回答，但用錯資料就會答錯

***

## 3. 實戰案例：服飾業常見問題

#### 案例 1：說錯價格（誠實性評分低）

**📊 問題發現**

**客戶問題**：「這件羽絨外套多少錢？」

**AI 回答**：「這件羽絨外套售價 NT$ 3,990 元。」

**評估結果**：

* 誠實性評分 (faithfulness\_score)：**38 分** ❌
* 回答相關性評分 (answer\_relevancy\_score)：95 分 ✅
* 上下文精確度評分 (context\_precision\_score)：85 分 ✅

**實際情況**：\
該商品已調價為 NT$ 2,990 元（折扣後），但 AI 仍然回答原價。

***

**💡 改善方案**

**步驟 1：檢查資料**

* 打開知識庫中的「商品價格表」
* 發現價格沒有更新

**步驟 2：更新資料**

❌ **問題資料**

```
羽絨外套系列
- 經典款羽絨外套：NT$ 3,990
- 長版羽絨外套：NT$ 4,990
```

✅ **修正後資料**

```
羽絨外套系列（2024 冬季價格）

商品名稱：經典款羽絨外套
- 原價：NT$ 3,990
- 折扣價：NT$ 2,990（2024/1/1 起）
- 活動期限：2024/1/1 - 2024/2/28

商品名稱：長版羽絨外套
- 原價：NT$ 4,990
- 折扣價：NT$ 3,990（2024/1/1 起）
- 活動期限：2024/1/1 - 2024/2/28

更新日期：2024/1/15
```

**步驟 3：提醒 AI**

在「AI 回答原則」中加上：

> 「回答價格時，務必確認是否為最新價格，並說明適用期間。如有折扣活動，請同時告知原價和折扣價。」

***

#### 案例 2：答非所問（回答相關性評分低）

**📊 問題發現**

**客戶問題**：「買了不合身，可以退貨嗎？」

**AI 回答**：「我們提供多種尺寸選擇，包括 S、M、L、XL。每件衣服的尺寸表都標註在商品頁面上。購買前建議參考尺寸表測量。」

**評估結果**：

* 誠實性評分 (faithfulness\_score)：90 分 ✅
* 回答相關性評分 (answer\_relevancy\_score)：**35 分** ❌
* 上下文精確度評分 (context\_precision\_score)：60 分 ⚠️

**問題診斷**：\
客戶問「可不可以退貨」，但 AI 在講「怎麼選尺寸」，完全沒回答核心問題。

***

**💡 改善方案**

**步驟 1：調整回答原則**

在「AI 回答原則」中加上：

> **核心原則：先回答客戶的核心問題**
>
> 錯誤範例：
>
> * 客戶問「可以退貨嗎？」
> * AI 答「我們有完善的售後服務...」❌（沒說可不可以）
>
> 正確範例：
>
> * 客戶問「可以退貨嗎？」
> * AI 答「可以。商品到貨 7 天內，若未使用可申請退貨...」✅（直接回答）

**步驟 2：重組資料結構**

❌ **問題資料（太發散）**

```
售後服務說明

本公司重視客戶權益，提供完善的售後服務。
購買商品時請詳閱尺寸表，選擇合適尺寸。
如有任何問題，歡迎聯繫客服...
```

✅ **修正後資料**

```
退換貨規定

Q：可以退貨嗎？
A：可以。到貨 7 天內，商品未使用、吊牌完整，可申請退貨。

退貨條件：
✅ 商品未使用、未下水、未試穿超過 10 分鐘
✅ 吊牌、包裝完整
✅ 到貨 7 天內提出申請
❌ 特價商品、內衣褲不可退貨

退貨流程：
1. 撥打客服專線 0800-XXX-XXX 或填寫線上表單
2. 客服提供退貨地址及單號
3. 7-14 天內退款至原付款方式

---

Q：可以換貨嗎？
A：可以。到貨 7 天內，可免費換尺寸或顏色（限同商品）。

換貨流程：
1. 聯繫客服確認庫存
2. 寄回商品（同退貨條件）
3. 收到商品後 3 天內寄出新商品
```

**改善重點**：

* ✅ 開頭直接回答「可以」或「不可以」
* ✅ 用 Q\&A 格式，一目了然
* ✅ 列出明確條件，避免爭議

***

#### 案例 3：找錯商品（上下文精確度評分低）

**📊 問題發現**

**客戶問題**：「黑色針織上衣的材質是什麼？」

**AI 回答**：「這款針織上衣採用 100% 純棉材質，柔軟舒適，適合四季穿著。」

**評估結果**：

* 誠實性評分 (faithfulness\_score)：88 分 ✅
* 回答相關性評分 (answer\_relevancy\_score)：90 分 ✅
* 上下文精確度評分 (context\_precision\_score)：**48 分** ❌

**實際情況**：\
黑色針織上衣是 70% 羊毛 + 30% 聚酯纖維，AI 找到的是「白色針織上衣」的資料（100% 純棉）。

***

**💡 改善方案**

**步驟 1：檢查資料標示**

問題資料檔案名稱：

```
針織上衣.pdf
```

問題點：所有針織上衣都在同一份文件，AI 難以區分。

**步驟 2：改善資料結構**

✅ **修正方案 A：分開文件**

```
商品資料/
├─ 針織上衣_黑色_型號A001.pdf
├─ 針織上衣_白色_型號A002.pdf
├─ 針織上衣_灰色_型號A003.pdf
```

✅ **修正方案 B：清楚標題**

```markdown
# 針織上衣商品資訊

## 黑色針織上衣（型號：A001）
- 顏色：黑色
- 材質：70% 羊毛 + 30% 聚酯纖維
- 適合季節：秋冬
- 洗滌方式：手洗，不可烘乾

## 白色針織上衣（型號：A002）
- 顏色：白色
- 材質：100% 純棉
- 適合季節：春夏秋冬
- 洗滌方式：可機洗，低溫烘乾

## 灰色針織上衣（型號：A003）
- 顏色：灰色
- 材質：50% 羊毛 + 50% 腈綸
- 適合季節：秋冬
- 洗滌方式：乾洗
```

**步驟 3：提醒 AI**

在「AI 回答原則」中加上：

> 「客戶提到商品的顏色、型號時，務必確認參考資料是否為該顏色、型號的資訊。不同顏色的同款商品，材質和規格可能不同。」

***

## 4. 三步驟改善方案

當發現問題時，依照這個流程處理：

```
發現評分過低
    ↓
步驟 1：更新資料內容（最重要）
    ↓
步驟 2：調整 AI 回答原則
    ↓
步驟 3：提報技術團隊（如果需要）
```

***

#### 步驟 1：更新資料內容

**適用情況**：

* ✅ 誠實性評分低（資料錯誤或過時）
* ✅ 上下文精確度評分低（資料混亂、標示不清）

**檢查清單**：

* [ ] 資料是否為最新版本？
* [ ] 價格、庫存、政策是否正確？
* [ ] 不同商品的資料是否清楚區分？
* [ ] 標題是否明確？（讓 AI 容易找到）
* [ ] 是否用條列式、表格呈現？（而非大段文字）

**資料品質範例**：

❌ **不好的資料**

```
退貨說明

部分商品可退貨，但要符合一定條件。
有些特殊商品不能退，請購買前注意。
如需退貨請聯絡客服。
```

✅ **好的資料**

```
退貨規定

可退貨商品：
✅ 一般服飾（上衣、褲子、外套）
✅ 配件（包包、帽子、圍巾）

不可退貨商品：
❌ 內衣褲、泳衣
❌ 特價商品（5 折以下）
❌ 客製化商品

退貨條件（全部符合才可退）：
1. 到貨 7 天內
2. 商品未使用（吊牌完整、無試穿痕跡）
3. 包裝完整

退貨流程：
1. 撥打客服專線 0800-XXX-XXX
2. 提供訂單編號
3. 客服提供退貨地址
4. 寄回商品（建議使用掛號）
5. 收到商品後 7-14 天退款

聯絡方式：
- 客服專線：0800-XXX-XXX（09:00-21:00）
- 線上客服：官網右下角對話框
- 電子郵件：service@example.com
```

***

#### 步驟 2：調整 AI 回答原則

**適用情況**：

* ✅ 回答相關性評分低（答非所問）
* ✅ 誠實性評分低（AI 亂猜、憑空想像）

**AI 回答原則範本**：

```markdown
# AI 客服回答原則

## 核心守則

1. **先回答核心問題**
   - 客戶問「可不可以」→ 先回答「可以」或「不可以」
   - 客戶問「多少錢」→ 先講價格
   - 客戶問「怎麼做」→ 先給步驟

2. **只說有把握的**
   - 所有資訊必須來自參考資料
   - 不確定就說「這部分需要人工客服協助」
   - 絕對不可以猜測或假設

3. **注意細節**
   - 顏色、尺寸、型號不可混淆
   - 價格要確認是最新的
   - 活動期限要說明清楚

## 回答格式

### 政策類問題（退換貨、會員、優惠）
第一段：直接回答 「可以」 或 「不可以」 
第二段：說明條件（用條列式） 
第三段：告訴客戶怎麼做（流程或聯絡方式）

### 商品類問題（價格、材質、庫存）
第一段：直接回答問題（價格/材質/有無庫存） 
第二段：補充商品資訊（規格、尺寸、顏色） 
第三段：購買連結或下一步

### 流程類問題（怎麼買、怎麼退、怎麼換）
第一段：總結流程（3-5 個步驟） 
第二段：詳細說明每個步驟 
第三段：注意事項或聯絡方式

## 禁止事項

❌ 不可說「通常」「一般來說」「大概」（要明確）
❌ 不可混淆不同商品的資訊
❌ 不可省略重要條件（價格、尺寸、期限）
❌ 不可推測客戶沒說的資訊

## 範例

✅ 好的回答：
客戶：「這件外套可以退貨嗎？」 AI：「可以。商品到貨 7 天內，若符合以下條件可申請退貨：
商品未使用，吊牌完整
包裝完好無損
非特價商品
退貨流程： 請撥打客服專線 0800-XXX-XXX，我們會提供退貨地址及說明。 退款約 7-14 個工作天退回原付款方式。」

❌ 不好的回答：
客戶：「這件外套可以退貨嗎？」 AI：「本公司重視客戶權益，提供完善的售後服務。 購買前建議詳閱商品說明，選擇合適尺寸。 如有任何問題歡迎聯繫客服...」 （沒有直接回答可不可以退貨）
```

***

#### 步驟 3：提報技術團隊

**適用情況**：

* 上下文精確度評分持續偏低
* 同樣問題重複發生
* 調整資料和原則後仍未改善

**提報內容**：

```
問題類型：上下文精確度評分低

問題描述：
客戶詢問「黑色」商品時，AI 經常找到「白色」或其他顏色的資料。

影響範圍：
約 15% 的商品查詢問題會出現此狀況

已嘗試的改善：
✅ 已將不同顏色的商品資料分開檔案
✅ 已在標題中明確標示顏色
⚠️ 問題仍未完全解決

建議技術調整：
希望系統能更協助更精準辨識「顏色」關鍵字

附件：
- test_cases_color_queries.csv（100 個測試問題）
- current_results.csv（當前系統的檢索結果）
- expected_results.csv（預期的正確結果）
```

***

## 5. 日常管理檢查表

#### 日常檢查

**發現問題時：**

```
如果同類問題 ≥ 3 次
→ 立即處理（更新資料或調整原則）

如果涉及價格、政策錯誤
→ 緊急修正，當天完成

如果是偶發問題
→ 記錄觀察，列入討論
```

***

#### 回覆品質追蹤

**1. 數據回顧**

```
本週統計：
- 總對話數：___ 則
- 平均誠實性評分 (faithfulness_score)：___ 分
- 平均回答相關性評分 (answer_relevancy_score)：___ 分
- 平均上下文精確度評分 (context_precision_score)：___ 分
- 異常對話數：___ 則（____%）
```

**2. 問題分析**

```
高頻問題 Top 3：
1. ________（__ 次）- 哪個指標低？
2. ________（__ 次）- 哪個指標低？
3. ________（__ 次）- 哪個指標低？
```

**3. 改善行動**

```
本週要做：
□ 更新 ___ 份資料（負責人：___）
□ 調整 ___ 項回答原則（負責人：___）
□ 提報 ___ 個技術問題（負責人：___）

下週目標：
- 異常對話率降至 < ____%
- 所有指標平均 > ___ 分
```

***

## 附錄Ａ：問題診斷速查表

| 評分狀況          | 可能原因            | 改善方法           |
| ------------- | --------------- | -------------- |
| **誠實性評分低**    | 資料過時或錯誤、AI 憑空想像 | 步驟 1：更新資料內容    |
| **回答相關性評分低**  | AI 答非所問         | 步驟 2：調整回答原則    |
| **上下文精確度評分低** | AI 找錯資料或不夠精準    | 步驟 1：改善資料標示    |
| **多個指標都低**    | 系統性問題           | 步驟 1+2，必要時步驟 3 |

***

#### 改善優先順序

```
第一優先：誠實性評分 < 60 分
→ 可能給客戶錯誤資訊或憑空想像內容，造成客訴

第二優先：回答相關性評分 < 60 分  
→ 客戶體驗差，需要重複詢問

第三優先：上下文精確度評分 < 60 分
→ 雖然問題不明顯，但長期會影響品質
```

***

## 附錄 B：系統評估指標對照表

#### 主要使用指標（不需要標準答案）

這三個指標是本指南的核心，可以直接應用於日常客服對話評估：

| 中文名稱         | 英文全名              | 說明                              |
| ------------ | ----------------- | ------------------------------- |
| **誠實性評分**    | Faithfulness      | 評估 AI 回答是否符合資料庫內容，是否憑空想像或自己編造內容 |
| **回答相關性評分**  | Answer Relevancy  | 評估 AI 回答是否與客戶問題相關，有沒有答非所問       |
| **上下文精確度評分** | Context Precision | 評估 AI 的回答是否精準針對上下文，是否找對參考資料     |

#### 進階指標（需要標準答案）

以下指標需要事先準備「標準答案」(ground truth)，適合用於測試案例評估：

| 中文名稱        | 英文全名               | 說明                   |
| ----------- | ------------------ | -------------------- |
| **回答正確性**   | Answer Correctness | 比對 AI 回答與標準答案，評估正確性  |
| **回答相似度**   | Answer Similarity  | 評估 AI 回答與標準答案的語意相似程度 |
| **參考資料召回率** | Context Recall     | 評估系統是否檢索到所有必要的參考資料   |

#### 其他可用指標（DeepEval）

系統也支援以下額外的評估指標，可用於更全面的品質檢測：

| 中文名稱       | 英文名稱                 | 說明                 |
| ---------- | -------------------- | ------------------ |
| **偏見檢測**   | Bias                 | 檢測回答中是否包含偏見或歧視性內容  |
| **毒性檢測**   | Toxicity             | 檢測回答中是否包含不當或攻擊性內容  |
| **幻覺檢測**   | Hallucination        | 檢測 AI 是否產生與事實不符的內容 |
| **上下文相關性** | Contextual Relevancy | 評估檢索到的參考資料是否與問題相關  |

#### 使用建議

1. **日常監控**：使用三個主要指標（誠實性評分、回答相關性評分、上下文精確度評分）
2. **測試評估**：搭配進階指標，準備標準答案進行系統性評估
3. **品質把關**：啟用偏見和毒性檢測，確保回答符合企業規範

***

## 常見問題 Q\&A

**Q1：我不懂技術，能管理 AI 客服嗎？**\
A：可以！就像管理客服人員一樣，你只需要：

* 每天看評估報告，找出問題對話
* 檢查資料是否正確、完整
* 調整 AI 的「回答原則」（就像培訓客服話術）

***

**Q2：評分是怎麼來的？AI 自己評自己嗎？**\
A：不是。評分是由專門的「評估系統」自動進行，就像有另一個 AI 在旁邊當「品管」，檢查第一個 AI 的回答。

***

**Q3：三個指標都很重要嗎？可以只看一個嗎？**\
A：建議三個都看，因為它們反映不同問題：

* **誠實性評分** (`faithfulness_score`)：AI 是否符合資料庫內容，有無憑空想像
* **回答相關性評分** (`answer_relevancy_score`)：AI 是否理解問題，回答是否相關
* **上下文精確度評分** (`context_precision_score`)：AI 是否精準針對上下文，找對參考資料

如果只看一個，可能漏掉重要問題。

***

**Q4：改善後多久會看到效果？**\
A：

* 更新資料：立即生效（當天就能看到改善）
* 調整回答原則：立即生效
* 技術調整：需要 2-4 週（視問題複雜度）

***

## 結語

管理 AI 客服就像管理真人客服團隊：

✅ **定期檢查品質**（看評估報告）\
✅ **持續更新知識**（更新資料內容）\
✅ **優化服務話術**（調整回答原則）\
✅ **記錄改善成效**（追蹤評分變化）

只要照著這份指南，即使不懂技術，也能讓 AI 客服越來越好！
