回覆評估與監測結果

查看回覆評估結果

回覆評估功能位於 AgentOps 模組,提供兩種查看方式:

即時監控

AgentOps → AI 助理監控

即時計算每次對話的評分,用於監控線上 AI 助理的回覆品質。

自動化測試

AgentOps → 自動化測試

使用測試集批次執行評估,產生完整報告與改善建議,適合版本發布前的品質驗證。

評分指標

MaiAgent 平台提供回覆評估功能,針對每次問答留下紀錄與自動算分,分數包含

指標
描述
影響原因
問題
回覆
檢索上下文
正確答案

誠實性評分(Faithfulness)

LLM 是否有如實的回答,而非自行捏造答案回答

LLM、RAG、知識庫

回答相關性評分(Answer Relevancy)

LLM 是否切中要點的回答,是否不完整或包含冗餘文字

LLM、RAG、知識庫

上下文精準度評分(Context Precision)

RAG 檢索的內容是否跟問題相關

RAG、知識庫

上下文相關性評分(Contextual Relevancy)

檢索內容與問題的整體相關程度

RAG、知識庫

上下文召回率評分(Context Recall)

RAG 檢索的內容與正確答案相比,是否都有檢索出資料

RAG、知識庫

回答正確性評分(Answer Correctness)

回覆與正確答案的正確性

LLM、RAG、知識庫

回答相似度評分(Answer Similarity)

回覆與正確答案的語意相似度

LLM、RAG、知識庫

偏見檢測(Bias)

檢測回答是否包含性別、種族、宗教等偏見

LLM

毒性檢測(Toxicity)

檢測回答是否包含有害、冒犯性內容

LLM

幻覺檢測(Hallucination)

檢測回答是否包含與上下文不符的虛構資訊

LLM、RAG

回覆評估指標關係圖

誠實性評分(Faithfulness)與幻覺檢測(Hallucination)的差異

這兩個指標經常被混淆,但它們的評估角度不同:

  • Faithfulness:衡量回答中有「多少比例」的內容是基於檢索上下文,是正向指標(分數越高越好)

  • Hallucination:檢測回答中是否「存在」與上下文矛盾或無法驗證的內容,是負向指標(分數越低越好)

面向
Faithfulness
Hallucination

衡量方向

正向(越高越好)

負向(越低越好)

評估問題

回答有多少是基於來源?

回答有沒有捏造內容?

計算方式

可驗證陳述數 ÷ 總陳述數

檢測是否存在虛構資訊

範例

檢索上下文:「台北 101 的高度為 508 公尺,於 2004 年完工」

回答:「台北 101 高度為 508 公尺,於 2004 年完工,曾是世界最高建築」

  • Faithfulness 分數偏低:因為只有 2/3 的內容有依據

  • Hallucination 分數偏高:因為「曾是世界最高建築」在上下文中沒有提及,被視為幻覺內容

簡言之,Faithfulness 關注「忠於來源的程度」,Hallucination 關注「是否有捏造」。兩者相關但不相同:Faithfulness 低不一定有幻覺,但有幻覺一定會導致 Faithfulness 下降。

功能支援對照

指標
即時監控
自動化測試

誠實性評分(Faithfulness)

回答相關性評分(Answer Relevancy)

上下文精準度評分(Context Precision)

上下文相關性評分(Contextual Relevancy)

上下文召回率評分(Context Recall)

⚠️

回答正確性評分(Answer Correctness)

⚠️

回答相似度評分(Answer Similarity)

⚠️

偏見檢測(Bias)

毒性檢測(Toxicity)

幻覺檢測(Hallucination)

⚠️ 即將提供

分數意義

  • 0.5:以下通常被認為需要改進

  • 0.6-0.7:是可接受的範圍

  • 0.8:以上被認為是良好表現

  • 0.9:以上是優秀表現

分數偏低的原因釐清與解決分法

  • LLM 能力問題,無法根據參考資料回答問題

    • 解決方法:更換能力更強的 LLM

  • RAG 檢索能力,是否有找到與問題相關的資料

    • 解決方法:聯繫 MaiAgent 官方

  • 知識庫的資料提供是否充足

    • 解決方法:補充正確的知識庫資料與 FAQ 常見問題

Last updated

Was this helpful?