AgentOps (自動化測試)
本篇將介紹如何在 MaiAgent 系統中使用 AgentOps 功能,協助您進行測試與監控操作,以系統化方式提升 AI 回答的相關性與準確性。
什麼是 AgentOps?
AI 助理越用越多,使用者問題也愈來愈複雜。
需要一套方式,確保 AI 助理可以:
正確回答
不亂講話
回覆速度穩定
不危害品牌
AgentOps 是一種專為測試和監控 AI 助理品質的功能,主要透過建立測試題庫的方式進行測試,並幫助提升 AI 系統在處理查詢時的回答相關性和準確性。透過這種方式,您可以確保 AI 的反應更加精確,並能在實際應用中更有效地提供正確答案。
傳統手動逐題測試 vs. AgentOps 自動化測試
手動測試
AgentOps
來源
人工逐題輸入
事先建立測試題庫,自動取題、批次執行
測試方式
測試者手動輸入問題、等待 AI 回覆、手動比對答案
系統一次自動跑所有題目、比對預期答案、產生完整報告
速度
慢,需要逐題操作
快,單鍵執行,可同時跑數十~數百題
覆蓋率
低,通常只測到少量題目
高,可批量測試大量題庫,避免遺漏問題
人工成本
高,需要人力反覆檢查
低,測試全自動跑完,人工只需看結果
使用時機
小改動、臨時確認、快速看效果
模型更新、資料庫修改、提示詞調整後,需驗證是否退步
AgentOps 的核心功能
🧩 1. 自動化測試(Automated Evaluation)
系統會 一次跑完整份測試題庫,並輸出:
每題是否成功
AI 回答與預期答案的差異
回覆品質分數
回答相關性
平均回覆秒數
失敗案例報告
當你想確認 AI 助理的回答品質時,不再需要一題題手動測試。
AgentOps 會根據你建立的「測試題庫」,自動逐題跑過所有問題、比對預期答案、找出不符合的案例,最後把結果整理成完整報告告訴你。
📡 2. AI 助理監控(Assistant Monitoring)
系統會在「真實使用者每一次問答」時自動監控,並記錄:
回答是否不當
是否符合公司規範
自動化測試 vs. AI 助理監控
來源
事先設計好的測試題庫,題目可控、可分主題
真實使用者輸入,問題多變,更貼近真實世界
運作方式
透過預先建立的「測試題庫」自動執行測試,不需人工輸入問題
監控每一次真實使用者輸入時的 AI 回覆,記錄回應品質與結果
主要目的
系統性測試 AI 回答品質
即時監控 AI 與使用者互動表現
可控性
高,可以重複測試特定問題
低,問題來源不可控,使用者可能提出預期外問題
使用時機
上線前、版本更新、提示詞調整、資料庫修正後,用於驗證是否退步
上線後長期監控,用於了解 AI 在真實情境中的表現
優點
可批量測試、結果穩定可比較
能發現「題庫沒有但現場常出現」的真實問題
AgentOps 可以做到的事情
具體應用場景
🏥 醫療診所
🏥 學校行政
如何在 MaiAgent 中使用 AgentOps 功能
1. 建立測試題庫(第一次使用)
步驟一:建立新題庫
打開「AgentOps」,進入「測試集」
按下「建立測試集」按鈕

設定測試集名稱

步驟二:新增測試題目
方法 A:上傳 CSV 檔案(建議使用)
進入測試案例頁面
按下「新增測試案例」

選擇「匯入」

準備 CSV 檔案,內容格式如下:
如果沒有標準答案,ground_truth(標準答案) 欄位可以先空著(需要用 CSV 檔案上傳)
14 天後可以退貨嗎?
目前僅能在收到商品後14天內申請退貨
支援什麼付款方式?
信用卡、ATM 轉帳、貨到付款(依通路提供)
評分依據
回答是否流暢、完整、邏輯正確
是否與標準答案語意一致
可發現的問題
文不對題、邏輯錯誤
資訊錯誤、政策不一致、講太多、漏講
上傳檔案後,系統會自動匯入

方法 B:手動輸入
進入測試案例頁面
按下「新增測試案例」

選擇「手動輸入」

輸入問題與預期答案
2. 執行批次測試
步驟三:建立評估任務
進入「AgentOps」→「自動化測試」
點擊「建立測試」

填寫資訊:
名稱:
電商客服測試 - 2025/11/18描述:( 測試紀錄,可參考下方範本 )
選擇測試集:
電商客服測試選擇 AI 助理:
電商客服

點擊「確定」開始測試
步驟四:等待測試完成
狀態顯示「評估中」
完成後狀態變為「已完成」
測試時間 → 整體評估執行時間概覽
超過 50 個案例時,建議分批執行
10 個
約 2-3 分鐘
快速測試
20 個
約 4-6 分鐘
例行測試
30 個
約 6-9 分鐘
中等規模
50 個
約 10-15 分鐘
完整評估
100 個
約 20-30 分鐘
大規模測試
影響執行時間的因素
AI 助理複雜度 ⇒ Normal / Agent Mode
知識庫大小 ⇒ 知識庫越大,檢索時間越長
網路狀況 ⇒ API 呼叫延遲會影響整體時間
3. 查看成效
步驟五:查看評估結果
點擊評估記錄進入詳情頁


同次測試集所有QA紀錄與評分
查看關鍵指標:
通過率:
0%(沒有測試案例通過)
所有測試題目皆不匹配預設答案(Ground Truth)
品質性評分:100 分
平均回應時間:5.0 秒
查看各項指標分數:
回答相關性:
0.88(需改進)偏見:
0(優秀)冒犯性:
0(優秀)幻覺:
100(需改進)

單一QA評分詳情

查看單一指標詳細分析描述
步驟六:查看失敗案例
點擊「測試案例詳情」
查看
低分指標原因 與 AI 回答
4. 改善 AI 助理
步驟七:根據結果調整
根據評估結果進行改善:
問題 1:回答相關性偏低(0.88)
改善方式:
調整角色指令,強調回答需切題
檢查知識庫內容是否完整
優化檢索參數
問題 2:上下文召回率偏低(0)
改善方式:
檢查知識庫是否涵蓋相關資訊
問題 3:出現幻覺(100)
改善方式:
調整角色指令,加入:請完全依據提供的知識庫內容回答用戶問題
檢查知識庫的「模糊地帶」,把所有模糊的指引具體化
❌ 修正前:請聯繫我們。
✅ 修正後:請撥打客服專線 02-1234-5678 或寄信至 [email protected]。
步驟八:修改 AI 助理設定
進入「AI 助理」頁面
修改「角色指令」
儲存變更
5. 再次測試驗證改善效果
步驟九:建立新一輪測試
重複「步驟 3-4」建立新的評估任務
名稱:
電商客服測試 - 2025/11/27(改善後)詳細紀錄可於
描述欄位紀錄使用相同的測試題庫進行比較
步驟十:比較前後結果
對比兩次測試結果:
回答相關性
0.88
1
+0.12
幻覺
1
0
-1
平均回應時間
5 秒
2.3 秒
-2.7 秒
六、持續優化循環
建議頻率
每次重大更新後立即測試
新增知識庫內容後測試
調整 AI 助理設定後測試
快速檢查清單
6. 常見問題
Q1
如果只有問題(Q),沒有標準答案(A),可以使用嗎?
可以。系統會執行測試並產生評估結果,但僅限於不需要標準答案的指標(如回答相關性、偏見、冒犯性、幻覺等)。
Q2
模型生成答案時會套用我們設置的 Prompt 嗎?
會。批次測試會使用 AI 助理當前的完整設定,
Q3
批量測試時,前後題的答案會互相影響嗎?
不會。每次測試案例都是獨立的對話,不會保留前一個問題的對話歷史,確保每個答案都是基於相同的上下文條件產生。
Q4
一次批量生成答案 vs 一題一題手動問,答案會有差異嗎?
理論上相同。因為每個測試案例都是獨立對話,使用相同的 Prompt 和知識庫設定。 實際差異可能來自:知識庫內容更新、系統設定變更、LLM 的隨機性(通常很小)。
Q5
沒有標準答案時,如何判斷測試結果?
可參考以下指標: • 回答相關性:答案是否切題 • 安全性指標:是否有偏見、冒犯性、幻覺 • 回應時間:速度是否合理 • 手動檢視:查看實際回答內容是否符合預期
Q6
如何比較改善前後的測試結果?
建議:
使用相同的測試題庫
記錄每次測試的描述與設定變更
對比通過率、品質性評分、各項指標分數
查看失敗案例,分析改善效果
Q7
回應時間過長怎麼辦?
改善方式: ◦ 調整 LLM 模型參數 ◦ 優化檢索流程 ◦ 減少不必要的工具調用
Q8
測試分數偏低,該如何改善?
建議依照以下步驟調整:
調整角色指令:加入明確限制,例如「請完全依據提供的知識庫內容回答」。 2.檢查知識庫:將模糊的指引具體化 (例如補上具體電話號碼) 。
Q9
為什麼加入標準答案 (Ground Truth) 後,成功率反而下降?
因為系統驗證變嚴格了。若無標準答案,系統僅檢查回答品質 (如語氣、完整性);加入後,系統會比對「AI 回答是否與公司政策完全一致」。
Last updated
Was this helpful?
