monitor-waveformAI 助理監控

即時監控 AI 助理運作狀態,深入分析對話品質與效能指標

什麼是 AI 助理監控?

AI 助理監控提供即時且詳細的 AI 助理運作數據,讓您能夠深入了解每一次對話的處理細節、效能指標與品質評分。與「使用分析」提供的整體趨勢不同,監控功能聚焦於個別對話的深度分析。

主要優點:

即時監控

  • 查看 AI 助理實際運作狀況

  • 追蹤每一則訊息的處理細節

  • 快速識別異常或效能問題

深度分析

  • 詳細的輸入/輸出訊息內容

  • 回覆時間與處理時間統計

  • Token 用量與成本追蹤

  • 品質評分與使用者回饋

精準優化

  • 識別高成本或慢速回應的對話

  • 分析特定 LLM 模型的表現

  • 追蹤不同 AI 助理的運作差異

  • 發現需要改善的具體問題

如何進入 AI 助理監控

進入左側功能欄的 「AgentOps」,點選 「AI 助理監控」,即可看到監控介面。

AI 助理監控介面

頁面中會以表格形式顯示所有監控記錄,包含:

  • 輸入訊息: 使用者或系統發送給 AI 的內容

  • 輸出訊息: AI 助理的回應內容

  • 評分指標: 品質評分或使用者回饋

  • 回覆時間: AI 產生回應所花費的時間

  • 處理時間: 系統完整處理的時間

  • 用量: Token 消耗量與預估成本

  • LLM: 使用的語言模型

  • 使用者: 發起對話的使用者識別

  • 時間: 對話發生的日期與時間

監控數據詳細說明

1. 輸入訊息 (Input Message)

顯示發送給 AI 助理的原始內容,包含:

  • 使用者問題: 實際提問的內容

  • 系統上下文: 對話歷史、角色指令等

  • 附加參數: 元資料篩選、標籤設定等

點擊輸入訊息欄位可展開查看完整內容。

2. 輸出訊息 (Output Message)

顯示 AI 助理的回應內容,包含:

  • 回應文字: AI 產生的文字內容

  • 引用來源: 若使用知識庫,顯示引用的文件

  • 結構化輸出: JSON 格式或特殊格式的回應

點擊輸出訊息欄位可展開查看完整回應與引用細節。

3. 評分指標 (Rating)

顯示對話的品質指標:

  • 使用者回饋: 讚 👍 或倒讚 👎

  • 自動評分: 系統根據回應品質自動計算的分數

  • 信心指數: AI 對自身回應的信心程度

4. 回覆時間 (Response Time)

5. 處理時間 (Processing Time)

6. 用量 (Usage)

顯示 Token 消耗與成本資訊:

  • 輸入 Token: 發送給 LLM 的 Token 數量

  • 輸出 Token: LLM 產生的 Token 數量

  • 總 Token: 輸入 + 輸出的總計

  • 預估成本: 根據 LLM 定價計算的成本

circle-info

Token 用量直接影響使用成本。監控高用量對話,有助於優化成本結構。

7. LLM 模型

顯示使用的語言模型,例如:

  • GPT-4

  • GPT-3.5-turbo

  • Claude 3

  • 其他自定義模型

不同模型有不同的成本、速度與能力特性。

8. 使用者資訊

顯示發起對話的使用者:

  • 使用者 ID 或名稱

  • 聯絡人資訊 (若已建立)

  • 組織角色與權限

9. 時間戳記

記錄對話發生的精確時間,支援:

  • 按日期範圍篩選

  • 追蹤特定時段的對話

  • 分析尖峰時段的效能表現

搜尋與篩選功能

關鍵字搜尋

使用頁面上方的搜尋欄,可以搜尋:

  • 輸入訊息內容: 尋找包含特定問題的對話

  • 輸出訊息內容: 尋找特定回應內容

  • 使用者名稱: 查詢特定使用者的對話記錄

輸入關鍵字後按下搜尋,系統會即時過濾符合條件的記錄。

LLM 模型篩選

點擊 「LLM」篩選器,可以:

  • 選擇特定 LLM 模型

  • 查看該模型的所有對話記錄

  • 比較不同模型的效能與成本

應用情境:

  • 評估切換 LLM 模型的效果

  • 分析特定模型的成本結構

  • 識別模型相關的品質問題

AI 助理篩選

點擊 「AI 助理」篩選器,可以:

  • 選擇特定 AI 助理

  • 查看該助理的所有對話

  • 比較不同助理的表現

應用情境:

  • 追蹤特定 AI 助理的運作狀況

  • 比較多個 AI 助理的效能差異

  • 識別需要優化的 AI 助理

時間範圍篩選

使用 「時間限制」篩選器,可以:

  • 選擇預設時間範圍 (今天、最近 7 天、最近 30 天)

  • 自訂起始與結束日期時間

  • 查看特定時段的對話記錄

應用情境:

  • 分析特定時間的系統表現

  • 比較不同時段的對話品質

  • 追蹤更新部署前後的變化

重置搜尋

點擊 「Reset Search」按鈕,可以清除所有篩選條件,回到完整列表視圖。

匯出與設定

匯出監控數據

點擊頁面右上角的 「匯出」按鈕,可以:

  • 匯出目前篩選結果為 Excel 或 CSV 格式

  • 包含所有監控欄位的詳細資料

  • 用於深度分析或報告製作

匯出資料用途:

  • 製作定期效能報告

  • 進行離線數據分析

  • 與團隊成員分享監控發現

  • 長期保存歷史記錄

監控設定

點擊 「設定」按鈕,可以調整:

  • 顯示欄位: 選擇要顯示或隱藏的欄位

  • 刷新頻率: 設定自動刷新監控數據的間隔

  • 警示設定: 設定效能或品質警示門檻 (未來功能)

  • 資料保留: 設定監控數據的保留天數

AI 助理監控最佳實踐

1. 建立監控習慣

定期檢視監控數據,掌握 AI 助理的實際運作狀況:

每日檢視:

  • 查看最近 24 小時的對話

  • 識別異常的回應時間或錯誤

  • 快速回應使用者回饋

每週分析:

  • 統計平均回覆時間與用量

  • 識別高頻問題與常見回應

  • 評估 AI 助理表現是否穩定

每月總結:

  • 匯出完整監控數據進行深度分析

  • 比較不同時期的效能趨勢

  • 制定下個月的優化目標

2. 識別效能瓶頸

重點關注以下指標:

回覆時間過長 (> 10 秒)

  • 檢查知識庫是否過大或檢索效率不佳

  • 評估是否需要優化 System Prompt

  • 考慮使用更快的 LLM 模型

處理時間異常

  • 若處理時間遠大於回覆時間,可能是知識庫檢索慢

  • 檢查資料庫效能與索引設定

  • 優化知識庫結構

Token 用量過高

  • 檢視輸入訊息是否包含過多上下文

  • 評估是否可縮短 System Prompt

  • 考慮調整對話歷史保留長度

3. 品質問題追蹤

當發現品質問題時:

步驟 1: 識別問題對話

  • 使用關鍵字搜尋找到相關對話

  • 查看輸入與輸出的完整內容

  • 確認是否為系統性問題或個案

步驟 2: 分析根本原因

  • 知識庫內容不足或錯誤 → 更新知識庫

  • AI 理解錯誤 → 優化 System Prompt

  • 模型能力限制 → 考慮切換更強大的 LLM

步驟 3: 驗證改善效果

  • 進行調整後重新測試類似問題

  • 使用 自動評估 進行回歸測試

  • 持續監控確認問題已解決

4. 成本優化

監控 Token 用量,優化成本結構:

高成本對話識別:

優化策略:

  • 縮減上下文: 減少不必要的對話歷史

  • 精簡 Prompt: 移除冗餘的角色指令

  • 模型選擇: 簡單問題使用較便宜的模型

  • 知識庫優化: 避免檢索過多不相關內容

5. 比較不同 LLM 模型

若您使用多個 LLM 模型:

建立比較表:

指標
GPT-4
GPT-3.5-turbo
Claude 3

平均回覆時間

5.2秒

2.1秒

4.8秒

平均 Token 用量

1250

980

1150

單次平均成本

$0.015

$0.003

$0.012

使用者滿意度

92%

85%

90%

根據比較結果,為不同情境選擇最適合的模型。

6. 使用者行為分析

透過監控數據了解使用者行為:

  • 高頻使用者: 識別重度使用者,了解其需求

  • 問題類型: 統計常見問題類別

  • 使用時段: 分析尖峰與離峰時段

  • 對話模式: 了解典型對話流程

這些洞察有助於:

  • 優化知識庫內容優先級

  • 調整系統資源配置

  • 改善使用者體驗

7. 異常偵測與警示

建立異常偵測機制:

設定警示條件:

  • 回覆時間超過 15 秒

  • Token 用量超過 5000

  • 連續多次使用者給予倒讚

  • 錯誤率突然上升

回應流程:

  1. 接收警示通知

  2. 立即查看監控介面確認狀況

  3. 分析問題原因

  4. 採取緊急措施或排程優化

監控與其他功能的整合

監控 + 自動評估

整合應用:

  1. 在監控中發現品質問題

  2. 將問題案例加入測試資料集

  3. 執行自動評估驗證

  4. 確認問題已修復

監控 + 使用分析

互補分析:

  • 使用分析: 提供整體趨勢與統計指標

  • AI 助理監控: 提供個別對話的深度細節

結合兩者,可以:

  • 從整體趨勢中發現異常

  • 從監控細節中找出根本原因

  • 全面評估 AI 助理表現

參考: 使用分析

監控 + 所有對話

差異說明:

功能
所有對話
AI 助理監控

用途

查看完整對話記錄

深入分析運作細節

顯示內容

使用者與 AI 的對話內容

技術指標與效能數據

主要使用者

客服、業務人員

技術人員、AI 管理者

關注重點

對話內容與上下文

效能、成本、品質指標

參考: 所有對話的功能

常見問題

Q1: AI 助理監控與「所有對話」有什麼不同?

所有對話:

  • 以對話為中心,顯示完整對話流程

  • 適合客服人員查看對話內容

  • 重點在使用者與 AI 的互動內容

AI 助理監控:

  • 以技術指標為中心,顯示運作細節

  • 適合技術人員與 AI 管理者

  • 重點在效能、成本、品質分析

建議根據不同需求選擇使用。

Q2: 監控數據保留多久?

預設保留 90 天的監控數據。您可以在設定中調整保留天數,或定期匯出重要數據進行長期保存。

Q3: 如何追蹤特定問題的改善效果?

  1. 使用關鍵字搜尋找到相關問題的歷史對話

  2. 記錄當前的回覆時間、品質評分等指標

  3. 進行優化調整

  4. 再次搜尋相同問題,比較指標變化

  5. 透過自動評估進行系統性驗證

Q4: 可以設定自動警示嗎?

目前需要手動檢視監控數據。未來版本將支援自動警示功能,當效能或品質指標異常時,系統會自動發送通知,敬請期待。

Q5: Token 用量如何計算?

Token 用量由 LLM 提供商計算:

  • 輸入 Token: 包含使用者問題、System Prompt、對話歷史、知識庫上下文

  • 輸出 Token: AI 助理產生的回應文字

不同語言與模型的 Token 計算方式略有差異,一般而言:

  • 英文: 1 Token ≈ 4 個字元 ≈ 0.75 個單字

  • 中文: 1 Token ≈ 1-2 個中文字

Q6: 為什麼有些對話的處理時間特別長?

可能原因:

  • 知識庫檢索慢: 知識庫容量大或結構複雜

  • LLM 生成慢: 複雜問題或要求長回應

  • 網路延遲: 與 LLM API 的連線速度

  • 系統負載高: 同時處理大量對話

建議檢視該時段的系統負載與知識庫效能。

Q7: 如何比較不同 AI 助理的表現?

  1. 使用 AI 助理篩選器選擇第一個助理

  2. 記錄或匯出其監控數據

  3. 切換到第二個助理

  4. 比較兩者的平均回覆時間、Token 用量、品質評分等指標

  5. 也可以使用相同測試資料集進行 自動評估 比較


下一步

使用 AI 助理監控後,您可以:

Last updated

Was this helpful?