> For the complete documentation index, see [llms.txt](https://docs.maiagent.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.maiagent.ai/tech/maiagent-tech-ja/ai-agents/evaluation.md).

# 回答評価とモニタリング結果

最終更新：2025-11-14

## 概要

MaiAgent は Deepeval フレームワークを使用して回答評価を行っており、現在は **Deepeval 3.7.0** バージョンにアップグレードされ、より強力な評価機能と柔軟な設定オプションを提供しています。

## バージョン更新のお知らせ

### Deepeval 3.7.0 の新機能

MaiAgent プラットフォームは Deepeval 3.7.0 にアップグレードされ、以下の重要な改善が加わりました。

#### 1. 設定可能な評価用 LLM

新バージョンでは、評価に使用する大規模言語モデル（LLM）をカスタマイズできます。

* **柔軟な選択**：特定の LLM に限定されることなく評価を実施できます
* **コスト最適化**：より経済的なモデルを評価に選択し、運用コストを削減できます
* **パフォーマンス調整**：評価ニーズに応じて、適切なモデルの速度と精度のバランスを選択できます

**設定例：**

```python
# 評価設定で使用する LLM を指定
evaluation_config = {
    "evaluation_model": "gpt-4",  # またはその他の対応モデル
    "temperature": 0.0,
    "max_tokens": 1000
}
```

#### 2. 空白の Ground Truth に対する柔軟な処理

新バージョンでは、空白または欠落している正解（Ground Truth）の処理が改善されました。

* **自動適応**：テストケースに正解が提供されていない場合、システムが自動的に評価戦略を調整します
* **部分評価**：完全な Ground Truth が欠けていても、他の観点での評価を行えます
* **わかりやすい通知**：Ground Truth の欠如によりどの評価指標が算出できないかを明確にお知らせします

**適用シーン：**

* 探索的なテスト段階で、まだ標準解答が定義されていない場合
* 単一の正解が存在しないオープンエンドな質問応答シーン
* AI アシスタントの基本的な回答能力を素早く検証する場合

#### 3. 並列処理による評価パフォーマンスの向上

Deepeval 3.7.0 は並列処理メカニズムを導入し、評価速度を大幅に向上させました。

* **バッチ評価**：複数のテストケースを同時に評価できます
* **パフォーマンス向上**：旧バージョンと比較して、評価速度が 2〜3 倍向上します
* **リソース最適化**：演算リソースをより効率的に活用します

**パフォーマンス比較：**

| テストケース数 | 旧バージョン所要時間 | 新バージョン所要時間 | 向上率  |
| ------- | ---------- | ---------- | ---- |
| 10 件    | 45 秒       | 18 秒       | 2.5x |
| 50 件    | 3.5 分      | 1.5 分      | 2.3x |
| 100 件   | 7 分        | 3 分        | 2.3x |

### アップグレードのご提案

旧バージョンの評価機能をお使いの場合は、以下のアップグレード戦略をご検討ください。

1. **既存の評価設定の見直し**：現在使用している評価パラメータを確認します
2. **新しい設定オプションのテスト**：新しい LLM 設定機能を試してみます
3. **テストケースの最適化**：柔軟な Ground Truth 処理を活用し、テストのカバー範囲を拡充します
4. **パフォーマンス改善のモニタリング**：並列処理による速度向上を観察します

## 回答評価結果の確認

回答評価機能は **AgentOps** モジュールにあり、2 種類の確認方法を提供しています。

### リアルタイムモニタリング

AgentOps → AI アシスタントモニタリング

各会話のスコアをリアルタイムで算出し、オンライン上の AI アシスタントの回答品質をモニタリングするために使用します。

### 自動化テスト

AgentOps → 自動化テスト

テストセットを使ってバッチで評価を実行し、完全なレポートと改善提案を生成します。バージョンリリース前の品質検証に適しています。

## 評価指標

MaiAgent プラットフォームは回答評価機能を提供しており、各質問応答について記録を残し自動でスコアを算出します。スコアには以下が含まれます。

<table><thead><tr><th>指標</th><th>説明</th><th>影響要因</th><th>質問</th><th>回答</th><th width="118">検索コンテキスト</th><th>正解</th></tr></thead><tbody><tr><td>誠実性スコア（Faithfulness）</td><td>LLM が事実に忠実に回答しているか、勝手に答えを捏造して回答していないか</td><td>LLM、RAG、ナレッジベース</td><td></td><td>✅</td><td>✅</td><td></td></tr><tr><td>回答関連性スコア（Answer Relevancy）</td><td>LLM が要点を押さえて回答しているか、不完全だったり冗長な記述を含んでいないか</td><td>LLM、RAG、ナレッジベース</td><td>✅</td><td>✅</td><td></td><td></td></tr><tr><td>コンテキスト精度スコア（Context Precision）</td><td>RAG が検索した内容が質問と関連しているか</td><td>RAG、ナレッジベース</td><td>✅</td><td></td><td>✅</td><td></td></tr><tr><td>コンテキスト関連性スコア（Contextual Relevancy）</td><td>検索内容と質問の全体的な関連度</td><td>RAG、ナレッジベース</td><td>✅</td><td></td><td>✅</td><td></td></tr><tr><td>コンテキスト再現率スコア（Context Recall）</td><td>RAG が検索した内容を正解と比較し、必要なデータをすべて検索できているか</td><td>RAG、ナレッジベース</td><td></td><td></td><td>✅</td><td>✅</td></tr><tr><td>回答正確性スコア（Answer Correctness）</td><td>回答と正解の正確性</td><td>LLM、RAG、ナレッジベース</td><td></td><td>✅</td><td></td><td>✅</td></tr><tr><td>回答類似度スコア（Answer Similarity）</td><td>回答と正解の意味的な類似度</td><td>LLM、RAG、ナレッジベース</td><td></td><td>✅</td><td></td><td>✅</td></tr><tr><td>バイアス検出（Bias）</td><td>回答に性別、人種、宗教などのバイアスが含まれていないかを検出</td><td>LLM</td><td></td><td>✅</td><td></td><td></td></tr><tr><td>毒性検出（Toxicity）</td><td>回答に有害・攻撃的な内容が含まれていないかを検出</td><td>LLM</td><td></td><td>✅</td><td></td><td></td></tr><tr><td>ハルシネーション検出（Hallucination）</td><td>回答にコンテキストと一致しない架空の情報が含まれていないかを検出</td><td>LLM、RAG</td><td></td><td>✅</td><td>✅</td><td></td></tr></tbody></table>

<figure><img src="/files/VsZ6kBSoSKXc0DmlMKRH" alt=""><figcaption><p>回答評価指標の関係図</p></figcaption></figure>

### 誠実性スコア（Faithfulness）とハルシネーション検出（Hallucination）の違い

この 2 つの指標はよく混同されますが、評価する観点が異なります。

* **Faithfulness**：回答のうち「どれだけの割合」の内容が検索コンテキストに基づいているかを測る、**正方向の指標**です（スコアが高いほど良い）
* **Hallucination**：回答にコンテキストと矛盾する、または検証できない内容が「存在するか」を検出する、**負方向の指標**です（スコアが低いほど良い）

| 観点     | Faithfulness         | Hallucination   |
| ------ | -------------------- | --------------- |
| 測定方向   | 正方向（高いほど良い）          | 負方向（低いほど良い）     |
| 評価する問い | 回答のどれだけがソースに基づいているか？ | 回答に捏造された内容はないか？ |
| 算出方法   | 検証可能な記述数 ÷ 総記述数      | 架空の情報が存在するかを検出  |

**例**

> **検索コンテキスト**：「台北 101 の高さは 508 メートルで、2004 年に完成した」
>
> **回答**：「台北 101 の高さは 508 メートルで、2004 年に完成し、かつて世界一高い建築物だった」

* **Faithfulness スコアは低め**：根拠があるのは 3 分の 2 の内容のみであるため
* **Hallucination スコアは高め**：「かつて世界一高い建築物だった」はコンテキストに記載されておらず、ハルシネーション内容とみなされるため

簡単に言えば、Faithfulness は「ソースへの忠実度」に着目し、Hallucination は「捏造があるか」に着目します。両者は関連していますが同一ではありません。Faithfulness が低くても必ずしもハルシネーションがあるわけではありませんが、ハルシネーションがあれば必ず Faithfulness の低下につながります。

## 機能サポート対応表

| 指標                                 | リアルタイムモニタリング | 自動化テスト |
| ---------------------------------- | :----------: | :----: |
| 誠実性スコア（Faithfulness）               |       ✅      |    ✅   |
| 回答関連性スコア（Answer Relevancy）         |       ✅      |    ✅   |
| コンテキスト精度スコア（Context Precision）     |       ✅      |    ✅   |
| コンテキスト関連性スコア（Contextual Relevancy） |              |    ✅   |
| コンテキスト再現率スコア（Context Recall）       |      ⚠️      |    ✅   |
| 回答正確性スコア（Answer Correctness）       |      ⚠️      |        |
| 回答類似度スコア（Answer Similarity）        |      ⚠️      |        |
| バイアス検出（Bias）                       |              |    ✅   |
| 毒性検出（Toxicity）                     |              |    ✅   |
| ハルシネーション検出（Hallucination）          |              |    ✅   |

> ⚠️ 近日提供予定

## スコアの意味

* 0.5：以下は通常、改善が必要とみなされます
* 0.6〜0.7：許容できる範囲です
* 0.8：以上は良好なパフォーマンスとみなされます
* 0.9：以上は優秀なパフォーマンスです

## スコアが低い原因の切り分けと解決方法

* LLM の能力の問題で、参考資料に基づいて質問に回答できない
  * 解決方法：より能力の高い LLM に変更するか、新バージョンの設定可能な評価用 LLM 機能を使用します
* RAG の検索能力。質問に関連するデータを見つけられているか
  * 解決方法：MaiAgent 公式にお問い合わせください
* ナレッジベースのデータ提供が十分か
  * 解決方法：正しいナレッジベースのデータと FAQ（よくある質問）を補充します

## ベストプラクティス

### 柔軟な Ground Truth の活用

標準解答がない場合でも、以下のことが可能です。

1. まず基礎評価（Ground Truth を必要としない指標）を行う
2. AI アシスタントの回答パターンを観察する
3. 実際のパフォーマンスに基づいて評価基準を段階的に構築する
4. Ground Truth を補充して完全な評価を行う

### 並列処理の有効活用

最適な評価パフォーマンスを得るために、以下をおすすめします。

* 一度に複数のテストケース（10 件以上）を評価することをおすすめします
* 過度に頻繁な小バッチ評価は避けてください
* 大量の評価はピーク時間帯以外に実施することをご検討ください

## 技術リソース

* [Deepeval 公式ドキュメント](https://docs.confident-ai.com/)
* [Deepeval 3.7.0 更新履歴](https://github.com/confident-ai/deepeval/releases/tag/v3.7.0)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.maiagent.ai/tech/maiagent-tech-ja/ai-agents/evaluation.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
