回覆評估與監測結果
查看回覆評估結果
回覆評估功能位於 AgentOps 模組,提供兩種查看方式:
即時監控
AgentOps → AI 助理監控
即時計算每次對話的評分,用於監控線上 AI 助理的回覆品質。
自動化測試
AgentOps → 自動化測試
使用測試集批次執行評估,產生完整報告與改善建議,適合版本發布前的品質驗證。
評分指標
MaiAgent 平台提供回覆評估功能,針對每次問答留下紀錄與自動算分,分數包含
誠實性評分(Faithfulness)
LLM 是否有如實的回答,而非自行捏造答案回答
LLM、RAG、知識庫
✅
✅
回答相關性評分(Answer Relevancy)
LLM 是否切中要點的回答,是否不完整或包含冗餘文字
LLM、RAG、知識庫
✅
✅
上下文精準度評分(Context Precision)
RAG 檢索的內容是否跟問題相關
RAG、知識庫
✅
✅
上下文相關性評分(Contextual Relevancy)
檢索內容與問題的整體相關程度
RAG、知識庫
✅
✅
上下文召回率評分(Context Recall)
RAG 檢索的內容與正確答案相比,是否都有檢索出資料
RAG、知識庫
✅
✅
回答正確性評分(Answer Correctness)
回覆與正確答案的正確性
LLM、RAG、知識庫
✅
✅
回答相似度評分(Answer Similarity)
回覆與正確答案的語意相似度
LLM、RAG、知識庫
✅
✅
偏見檢測(Bias)
檢測回答是否包含性別、種族、宗教等偏見
LLM
✅
毒性檢測(Toxicity)
檢測回答是否包含有害、冒犯性內容
LLM
✅
幻覺檢測(Hallucination)
檢測回答是否包含與上下文不符的虛構資訊
LLM、RAG
✅
✅

誠實性評分(Faithfulness)與幻覺檢測(Hallucination)的差異
這兩個指標經常被混淆,但它們的評估角度不同:
Faithfulness:衡量回答中有「多少比例」的內容是基於檢索上下文,是正向指標(分數越高越好)
Hallucination:檢測回答中是否「存在」與上下文矛盾或無法驗證的內容,是負向指標(分數越低越好)
衡量方向
正向(越高越好)
負向(越低越好)
評估問題
回答有多少是基於來源?
回答有沒有捏造內容?
計算方式
可驗證陳述數 ÷ 總陳述數
檢測是否存在虛構資訊
範例
檢索上下文:「台北 101 的高度為 508 公尺,於 2004 年完工」
回答:「台北 101 高度為 508 公尺,於 2004 年完工,曾是世界最高建築」
Faithfulness 分數偏低:因為只有 2/3 的內容有依據
Hallucination 分數偏高:因為「曾是世界最高建築」在上下文中沒有提及,被視為幻覺內容
簡言之,Faithfulness 關注「忠於來源的程度」,Hallucination 關注「是否有捏造」。兩者相關但不相同:Faithfulness 低不一定有幻覺,但有幻覺一定會導致 Faithfulness 下降。
功能支援對照
誠實性評分(Faithfulness)
✅
✅
回答相關性評分(Answer Relevancy)
✅
✅
上下文精準度評分(Context Precision)
✅
✅
上下文相關性評分(Contextual Relevancy)
✅
上下文召回率評分(Context Recall)
⚠️
✅
回答正確性評分(Answer Correctness)
⚠️
回答相似度評分(Answer Similarity)
⚠️
偏見檢測(Bias)
✅
毒性檢測(Toxicity)
✅
幻覺檢測(Hallucination)
✅
⚠️ 即將提供
分數意義
0.5:以下通常被認為需要改進
0.6-0.7:是可接受的範圍
0.8:以上被認為是良好表現
0.9:以上是優秀表現
分數偏低的原因釐清與解決分法
LLM 能力問題,無法根據參考資料回答問題
解決方法:更換能力更強的 LLM
RAG 檢索能力,是否有找到與問題相關的資料
解決方法:聯繫 MaiAgent 官方
知識庫的資料提供是否充足
解決方法:補充正確的知識庫資料與 FAQ 常見問題
Last updated
Was this helpful?
