自動評估
自動執行測試評估,追蹤 AI 助理回應品質與成功率
什麼是自動評估?
自動評估功能讓您能夠使用預先建立的測試資料集,自動化測試 AI 助理的回應品質。系統會將測試資料集中的每個問題發送給 AI 助理,並比對實際回應與預期回應,產生詳細的評估報告。
主要優點:
提升效率
一鍵執行數十個甚至上百個測試案例
無需人工逐一測試,大幅節省時間
支援定期自動執行,持續監控品質
量化品質指標
成功率百分比:清楚了解通過測試的比例
平均回應時間:掌握 AI 助理的反應速度
測試案例通過/失敗明細:快速定位問題
版本比較
比較不同版本 AI 助理的表現差異
評估知識庫更新前後的影響
確保更新後品質不退化
如何進入自動評估
進入左側功能欄的 「AgentOps」,點選 「自動評估」,即可看到評估管理頁面。

頁面中會顯示以下資訊:
測試 ID: 系統自動產生的評估記錄編號
評估名稱: 您為此次評估設定的名稱
描述: 評估的用途說明
測試資料集: 使用的測試資料集名稱
AI 助理: 被測試的 AI 助理名稱
成功率: 通過測試的案例百分比
平均時間: AI 助理回應的平均時間
建立時間: 評估執行的日期與時間
操作按鈕: 查看詳情、重新執行、刪除等功能
建立並執行自動評估
1. 準備測試資料集
在執行自動評估前,請先確認您已建立測試資料集。
如何建立測試資料集?請參考: 測試資料集管理
2. 開始建立評估
點擊頁面右上角的 「Create Test」按鈕,開始建立新的自動評估。
3. 設定評估參數
在彈出的對話框中,輸入以下資訊:
評估名稱 (必填)
建議使用有意義的名稱,例如:「2024-11 產品知識庫更新後測試」
方便日後追蹤與比較不同時期的評估結果
評估描述 (選填)
記錄此次評估的目的與背景
例如:「更新產品規格文件後,驗證回應準確性」
選擇測試資料集 (必填)
從下拉選單中選擇要使用的測試資料集
可以看到每個資料集包含的測試案例數量
選擇 AI 助理 (必填)
選擇要測試的 AI 助理
可以選擇多個 AI 助理進行比較
4. 執行評估
設定完成後,點擊 「開始評估」,系統會自動:
將測試資料集中的每個問題發送給 AI 助理
收集 AI 助理的實際回應
比對實際回應與預期回應
計算成功率與平均回應時間
產生詳細的評估報告
評估執行時間取決於測試案例數量,通常 50 個測試案例約需 2-3 分鐘
查看評估結果
評估列表總覽
在評估列表中,您可以快速查看所有評估的關鍵指標:
成功率指標:
綠色 (≥90%): 表現優異,品質穩定
黃色 (70-89%): 表現良好,但有改善空間
紅色 (<70%): 需要立即檢視並改善
平均回應時間:
顯示 AI 助理回應每個測試案例的平均時間
幫助評估系統效能與使用者體驗
查看詳細報告
點擊評估記錄的 「查看詳情」按鈕,可以看到完整的評估報告,包含:
1. 整體統計
總測試案例數
通過案例數 / 失敗案例數
成功率百分比
平均回應時間
最快/最慢回應時間
2. 測試案例明細
每個測試案例會顯示:
測試問題: 發送給 AI 助理的問題
預期回應: 測試資料集中設定的預期回應
實際回應: AI 助理的實際回答
測試結果: 通過 ✓ 或失敗 ✗
回應時間: 此案例的處理時間
失敗原因: 若未通過,說明原因 (例如:「實際回應未包含預期關鍵字」)
3. 失敗案例分析
重點檢視未通過的測試案例:
查看 AI 助理的實際回應與預期回應的差異
判斷是知識庫內容不足、AI 理解錯誤,或是測試案例設定需要調整
根據分析結果進行對應改善
管理評估記錄
搜尋評估記錄
使用頁面上方的搜尋與篩選功能:
關鍵字搜尋
測試 ID
評估名稱
描述內容
測試集篩選
選擇特定測試資料集,查看所有使用該資料集的評估
AI 助理篩選
選擇特定 AI 助理,查看其所有評估記錄
追蹤單一 AI 助理的品質變化趨勢
重新執行評估
點擊操作欄位中的 「重新執行」按鈕,可以使用相同的測試資料集與 AI 助理再次執行評估。
適用情境:
修改知識庫內容後,重新測試驗證改善效果
調整 AI 助理設定後,確認表現是否提升
定期執行相同測試,追蹤長期品質趨勢
比較不同評估
選擇多筆評估記錄,進行對比分析:
比較不同時期的成功率變化
評估不同 AI 助理在相同測試下的表現
追蹤優化措施的實際效果
匯出評估報告
點擊 「匯出」按鈕,可將評估結果匯出為 Excel 或 PDF 格式,方便:
與團隊成員分享
製作品質報告
長期保存記錄
刪除評估記錄
點擊操作欄位中的 「刪除」按鈕,即可刪除不再需要的評估記錄。
刪除評估記錄後無法復原,但不會影響測試資料集與 AI 助理本身
自動評估最佳實踐
1. 建立定期評估機制
建議建立定期評估的習慣:
2. 設定品質基準線
為不同類型的 AI 助理設定合理的品質目標:
產品查詢助理
≥ 95%
知識範圍明確,應維持高準確度
客服支援助理
≥ 90%
涵蓋多種情境,但核心問題應準確
通用對話助理
≥ 80%
問題範圍廣,允許較大彈性
專業諮詢助理
≥ 98%
涉及專業領域,需極高準確性
3. 追蹤品質趨勢
建立評估記錄追蹤表,觀察長期變化:
4. 分析失敗案例並持續改善
針對失敗案例進行分類與分析:
知識庫問題:
知識內容不足或過時 → 更新相關文件
知識表達不清晰 → 重新撰寫或增加範例
相關知識分散 → 整合至同一文件
AI 設定問題:
AI 理解問題意圖錯誤 → 調整 System Prompt
回應過於簡短或冗長 → 優化角色指令
未正確引用知識庫 → 檢查知識庫連結設定
測試案例問題:
預期回應設定過於嚴格 → 調整為關鍵字匹配
測試問題表達不清 → 改寫測試案例
預期回應已過時 → 更新測試資料集
5. 建立回歸測試流程
每次重大更新前後都應執行評估:
6. 跨 AI 助理比較
若您有多個處理類似業務的 AI 助理:
使用相同測試資料集評估所有 AI 助理
比較各自的成功率與回應時間
識別表現最佳的 AI 助理配置
將成功經驗應用至其他 AI 助理
評估指標說明
成功率計算方式
測試案例判定標準
通過條件:
AI 助理的實際回應中「包含」預期回應的關鍵內容
不需要完全一致,但必須涵蓋核心資訊
系統使用智慧比對演算法,考慮語意相似度
失敗原因:
實際回應未包含預期關鍵字或句子
AI 助理回答錯誤資訊
AI 助理表示無法回答
回應超時 (超過設定的最大等待時間)
平均回應時間
常見問題
Q1: 自動評估與手動測試有什麼不同?
自動評估:
使用預先定義的測試資料集
系統自動執行並產生報告
適合大量、重複性的測試
可量化追蹤品質趨勢
手動測試:
在「內部問答」或「所有對話」中手動輸入問題
人工判斷回應品質
適合探索性測試與特殊情境驗證
建議兩者搭配使用:自動評估作為主要品質監控機制,手動測試用於深度驗證與問題探索。
Q2: 為什麼成功率突然下降?
可能的原因:
知識庫內容被修改或刪除: 檢視最近的知識庫變更記錄
AI 助理設定被調整: 檢查 System Prompt 或其他設定是否變更
測試資料集內容更新: 確認測試案例的預期回應是否仍然合理
系統或 LLM 模型更新: 聯繫技術支援確認是否有系統變更
Q3: 如何提升評估成功率?
短期改善:
查看失敗案例的實際回應
判斷是知識不足或 AI 理解錯誤
針對性補充知識或調整 AI 設定
重新執行評估驗證改善效果
長期優化:
定期審查並更新知識庫內容
收集真實用戶對話,新增為測試案例
持續優化 AI 角色指令與設定
建立知識庫內容維護流程
Q4: 可以針對特定主題進行評估嗎?
可以。建議針對不同業務主題建立多個測試資料集:
產品相關測試集
訂單流程測試集
會員服務測試集
技術支援測試集
這樣可以分別追蹤各主題的品質表現,精準定位需要改善的領域。
Q5: 評估會影響實際用戶對話嗎?
不會。自動評估使用獨立的測試環境,不會干擾實際用戶的對話,也不會出現在「所有對話」記錄中。
Q6: 可以設定自動定期執行評估嗎?
目前需要手動執行評估。未來版本將支援排程自動執行功能,例如每週自動執行指定的評估並發送報告通知,敬請期待。
Q7: 評估結果可以整合到報告中嗎?
可以。您可以:
匯出評估結果為 Excel 或 PDF 格式
整合到品質監控報表中
與 使用分析 數據結合,全面評估 AI 助理表現
下一步
執行自動評估後,您可以:
透過 AI 助理監控 追蹤實際對話中的表現
根據評估結果調整 知識庫內容
優化 AI 助理的角色指令
查看 使用分析 了解真實用戶的使用情況
Last updated
Was this helpful?
