AI 助理監控

即時監控 AI 助理運作狀態,深入分析對話品質與效能指標

什麼是 AI 助理監控?

AI 助理監控提供即時且詳細的 AI 助理運作數據,讓您能夠深入了解每一次對話的處理細節、效能指標與品質評分。與「使用分析」提供的整體趨勢不同,監控功能聚焦於個別對話的深度分析。

主要優點:

即時監控

查看 AI 助理實際運作狀況
追蹤每一則訊息的處理細節
快速識別異常或效能問題

深度分析

詳細的輸入/輸出訊息內容
回覆時間與處理時間統計
Token 用量與成本追蹤
品質評分與使用者回饋

精準優化

識別高成本或慢速回應的對話
分析特定 LLM 模型的表現
追蹤不同 AI 助理的運作差異
發現需要改善的具體問題

如何進入 AI 助理監控

進入左側功能欄的「AgentOps」,點選「AI 助理監控」,即可看到監控介面。

頁面中會以表格形式顯示所有監控記錄,包含:

輸入訊息: 使用者或系統發送給 AI 的內容
輸出訊息: AI 助理的回應內容
評分指標: 品質評分或使用者回饋
回覆時間: AI 產生回應所花費的時間
處理時間: 系統完整處理的時間
用量: Token 消耗量與預估成本
LLM: 使用的語言模型
使用者: 發起對話的使用者識別
時間: 對話發生的日期與時間

監控數據詳細說明

1. 輸入訊息 (Input Message)

顯示發送給 AI 助理的原始內容,包含:

使用者問題: 實際提問的內容
系統上下文: 對話歷史、角色指令等
附加參數: 元資料篩選、標籤設定等

點擊輸入訊息欄位可展開查看完整內容。

2. 輸出訊息 (Output Message)

顯示 AI 助理的回應內容,包含:

回應文字: AI 產生的文字內容
引用來源: 若使用知識庫,顯示引用的文件
結構化輸出: JSON 格式或特殊格式的回應

點擊輸出訊息欄位可展開查看完整回應與引用細節。

3. 評分指標 (Rating)

顯示對話的品質指標:

使用者回饋: 讚 👍 或倒讚 👎
自動評分: 系統根據回應品質自動計算的分數
信心指數: AI 對自身回應的信心程度

4. 回覆時間 (Response Time)

回覆時間 = LLM 完成文字生成的時間

理想範圍:
• 簡單問答: < 2 秒
• 一般對話: 2-5 秒
• 複雜查詢: 5-10 秒
• 需優化: > 10 秒

5. 處理時間 (Processing Time)

處理時間 = 完整處理流程的總時間

包含:
• 知識庫檢索時間
• LLM 生成時間
• 後處理與格式化時間

6. 用量 (Usage)

顯示 Token 消耗與成本資訊:

輸入 Token: 發送給 LLM 的 Token 數量
輸出 Token: LLM 產生的 Token 數量
總 Token: 輸入 + 輸出的總計
預估成本: 根據 LLM 定價計算的成本

Token 用量直接影響使用成本。監控高用量對話,有助於優化成本結構。

7. LLM 模型

顯示使用的語言模型,例如:

GPT-4
GPT-3.5-turbo
Claude 3
其他自定義模型

不同模型有不同的成本、速度與能力特性。

8. 使用者資訊

顯示發起對話的使用者:

使用者 ID 或名稱
聯絡人資訊 (若已建立)
組織角色與權限

9. 時間戳記

記錄對話發生的精確時間,支援:

按日期範圍篩選
追蹤特定時段的對話
分析尖峰時段的效能表現

搜尋與篩選功能

關鍵字搜尋

使用頁面上方的搜尋欄,可以搜尋:

輸入訊息內容: 尋找包含特定問題的對話
輸出訊息內容: 尋找特定回應內容
使用者名稱: 查詢特定使用者的對話記錄

輸入關鍵字後按下搜尋,系統會即時過濾符合條件的記錄。

LLM 模型篩選

點擊「LLM」篩選器,可以:

選擇特定 LLM 模型
查看該模型的所有對話記錄
比較不同模型的效能與成本

應用情境:

評估切換 LLM 模型的效果
分析特定模型的成本結構
識別模型相關的品質問題

AI 助理篩選

點擊「AI 助理」篩選器,可以:

選擇特定 AI 助理
查看該助理的所有對話
比較不同助理的表現

應用情境:

追蹤特定 AI 助理的運作狀況
比較多個 AI 助理的效能差異
識別需要優化的 AI 助理

時間範圍篩選

使用「時間限制」篩選器,可以:

選擇預設時間範圍 (今天、最近 7 天、最近 30 天)
自訂起始與結束日期時間
查看特定時段的對話記錄

應用情境:

分析特定時間的系統表現
比較不同時段的對話品質
追蹤更新部署前後的變化

重置搜尋

點擊「Reset Search」按鈕,可以清除所有篩選條件,回到完整列表視圖。

匯出與設定

匯出監控數據

點擊頁面右上角的「匯出」按鈕,可以:

匯出目前篩選結果為 Excel 或 CSV 格式
包含所有監控欄位的詳細資料
用於深度分析或報告製作

匯出資料用途:

製作定期效能報告
進行離線數據分析
與團隊成員分享監控發現
長期保存歷史記錄

監控設定

點擊「設定」按鈕,可以調整:

顯示欄位: 選擇要顯示或隱藏的欄位
刷新頻率: 設定自動刷新監控數據的間隔
警示設定: 設定效能或品質警示門檻 (未來功能)
資料保留: 設定監控數據的保留天數

AI 助理監控最佳實踐

1. 建立監控習慣

定期檢視監控數據,掌握 AI 助理的實際運作狀況:

每日檢視:

查看最近 24 小時的對話
識別異常的回應時間或錯誤
快速回應使用者回饋

每週分析:

統計平均回覆時間與用量
識別高頻問題與常見回應
評估 AI 助理表現是否穩定

每月總結:

匯出完整監控數據進行深度分析
比較不同時期的效能趨勢
制定下個月的優化目標

2. 識別效能瓶頸

重點關注以下指標:

回覆時間過長 (> 10 秒)

檢查知識庫是否過大或檢索效率不佳
評估是否需要優化 System Prompt
考慮使用更快的 LLM 模型

處理時間異常

若處理時間遠大於回覆時間,可能是知識庫檢索慢
檢查資料庫效能與索引設定
優化知識庫結構

Token 用量過高

檢視輸入訊息是否包含過多上下文
評估是否可縮短 System Prompt
考慮調整對話歷史保留長度

3. 品質問題追蹤

當發現品質問題時:

步驟 1: 識別問題對話

使用關鍵字搜尋找到相關對話
查看輸入與輸出的完整內容
確認是否為系統性問題或個案

步驟 2: 分析根本原因

知識庫內容不足或錯誤 → 更新知識庫
AI 理解錯誤 → 優化 System Prompt
模型能力限制 → 考慮切換更強大的 LLM

步驟 3: 驗證改善效果

進行調整後重新測試類似問題
使用自動評估進行回歸測試
持續監控確認問題已解決

4. 成本優化

監控 Token 用量,優化成本結構:

高成本對話識別:

1. 按用量排序,找出 Token 消耗最高的對話
2. 分析為何這些對話消耗過多 Token
3. 評估是否合理或需要優化

優化策略:

縮減上下文: 減少不必要的對話歷史
精簡 Prompt: 移除冗餘的角色指令
模型選擇: 簡單問題使用較便宜的模型
知識庫優化: 避免檢索過多不相關內容

5. 比較不同 LLM 模型

若您使用多個 LLM 模型:

建立比較表:

指標

GPT-4

GPT-3.5-turbo

Claude 3

平均回覆時間

5.2秒

2.1秒

4.8秒

平均 Token 用量

1250

980

1150

單次平均成本

$0.015

$0.003

$0.012

使用者滿意度

92%

85%

90%

根據比較結果,為不同情境選擇最適合的模型。

6. 使用者行為分析

透過監控數據了解使用者行為:

高頻使用者: 識別重度使用者,了解其需求
問題類型: 統計常見問題類別
使用時段: 分析尖峰與離峰時段
對話模式: 了解典型對話流程

這些洞察有助於:

優化知識庫內容優先級
調整系統資源配置
改善使用者體驗

7. 異常偵測與警示

建立異常偵測機制:

設定警示條件:

回覆時間超過 15 秒
Token 用量超過 5000
連續多次使用者給予倒讚
錯誤率突然上升

回應流程:

接收警示通知
立即查看監控介面確認狀況
分析問題原因
採取緊急措施或排程優化

監控與其他功能的整合

監控 + 自動評估

整合應用:

在監控中發現品質問題
將問題案例加入測試資料集
執行自動評估驗證
確認問題已修復

監控 + 使用分析

互補分析:

使用分析: 提供整體趨勢與統計指標
AI 助理監控: 提供個別對話的深度細節

結合兩者,可以:

從整體趨勢中發現異常
從監控細節中找出根本原因
全面評估 AI 助理表現

參考: 使用分析

監控 + 所有對話

差異說明:

功能

所有對話

AI 助理監控

用途

查看完整對話記錄

深入分析運作細節

顯示內容

使用者與 AI 的對話內容

技術指標與效能數據

主要使用者

客服、業務人員

技術人員、AI 管理者

關注重點

對話內容與上下文

效能、成本、品質指標

參考: 所有對話的功能

常見問題

Q1: AI 助理監控與「所有對話」有什麼不同?

所有對話:

以對話為中心,顯示完整對話流程
適合客服人員查看對話內容
重點在使用者與 AI 的互動內容

AI 助理監控:

以技術指標為中心,顯示運作細節
適合技術人員與 AI 管理者
重點在效能、成本、品質分析

建議根據不同需求選擇使用。

Q2: 監控數據保留多久?

預設保留 90 天的監控數據。您可以在設定中調整保留天數,或定期匯出重要數據進行長期保存。

Q3: 如何追蹤特定問題的改善效果?

使用關鍵字搜尋找到相關問題的歷史對話
記錄當前的回覆時間、品質評分等指標
進行優化調整
再次搜尋相同問題,比較指標變化
透過自動評估進行系統性驗證

Q4: 可以設定自動警示嗎?

目前需要手動檢視監控數據。未來版本將支援自動警示功能,當效能或品質指標異常時,系統會自動發送通知,敬請期待。

Q5: Token 用量如何計算?

Token 用量由 LLM 提供商計算:

輸入 Token: 包含使用者問題、System Prompt、對話歷史、知識庫上下文
輸出 Token: AI 助理產生的回應文字

不同語言與模型的 Token 計算方式略有差異,一般而言:

英文: 1 Token ≈ 4 個字元 ≈ 0.75 個單字
中文: 1 Token ≈ 1-2 個中文字

Q6: 為什麼有些對話的處理時間特別長?

可能原因:

知識庫檢索慢: 知識庫容量大或結構複雜
LLM 生成慢: 複雜問題或要求長回應
網路延遲: 與 LLM API 的連線速度
系統負載高: 同時處理大量對話

建議檢視該時段的系統負載與知識庫效能。

Q7: 如何比較不同 AI 助理的表現?

使用 AI 助理篩選器選擇第一個助理
記錄或匯出其監控數據
切換到第二個助理
比較兩者的平均回覆時間、Token 用量、品質評分等指標
也可以使用相同測試資料集進行自動評估比較

下一步

使用 AI 助理監控後,您可以:

根據監控發現優化知識庫內容
調整 AI 助理的角色指令
建立測試資料集將問題案例納入測試
執行自動評估驗證優化效果
查看使用分析了解整體趨勢

Previous自動評估 Next聯絡人

Last updated 20 minutes ago

Was this helpful?

hashtag什麼是 AI 助理監控?

hashtag如何進入 AI 助理監控

hashtag監控數據詳細說明

hashtag1. 輸入訊息 (Input Message)

hashtag2. 輸出訊息 (Output Message)

hashtag3. 評分指標 (Rating)

hashtag4. 回覆時間 (Response Time)

hashtag5. 處理時間 (Processing Time)

hashtag6. 用量 (Usage)

hashtag7. LLM 模型

hashtag8. 使用者資訊

hashtag9. 時間戳記

hashtag搜尋與篩選功能

hashtag關鍵字搜尋

hashtagLLM 模型篩選

hashtagAI 助理篩選

hashtag時間範圍篩選

hashtag重置搜尋

hashtag匯出與設定

hashtag匯出監控數據

hashtag監控設定

hashtagAI 助理監控最佳實踐

hashtag1. 建立監控習慣

hashtag2. 識別效能瓶頸

hashtag3. 品質問題追蹤

hashtag4. 成本優化

hashtag5. 比較不同 LLM 模型

hashtag6. 使用者行為分析

hashtag7. 異常偵測與警示

hashtag監控與其他功能的整合

hashtag監控 + 自動評估

hashtag監控 + 使用分析

hashtag監控 + 所有對話

hashtag常見問題

hashtagQ1: AI 助理監控與「所有對話」有什麼不同?

hashtagQ2: 監控數據保留多久?

hashtagQ3: 如何追蹤特定問題的改善效果?

hashtagQ4: 可以設定自動警示嗎?

hashtagQ5: Token 用量如何計算?

hashtagQ6: 為什麼有些對話的處理時間特別長?

hashtagQ7: 如何比較不同 AI 助理的表現?

hashtag下一步

什麼是 AI 助理監控?

如何進入 AI 助理監控

監控數據詳細說明

1. 輸入訊息 (Input Message)

2. 輸出訊息 (Output Message)

3. 評分指標 (Rating)

4. 回覆時間 (Response Time)

5. 處理時間 (Processing Time)

6. 用量 (Usage)

7. LLM 模型

8. 使用者資訊

9. 時間戳記

搜尋與篩選功能

關鍵字搜尋

LLM 模型篩選

AI 助理篩選

時間範圍篩選

重置搜尋

匯出與設定

匯出監控數據

監控設定

AI 助理監控最佳實踐

1. 建立監控習慣

2. 識別效能瓶頸

3. 品質問題追蹤

4. 成本優化

5. 比較不同 LLM 模型

6. 使用者行為分析

7. 異常偵測與警示

監控與其他功能的整合

監控 + 自動評估

監控 + 使用分析

監控 + 所有對話

常見問題

Q1: AI 助理監控與「所有對話」有什麼不同?

Q2: 監控數據保留多久?

Q3: 如何追蹤特定問題的改善效果?

Q4: 可以設定自動警示嗎?

Q5: Token 用量如何計算?

Q6: 為什麼有些對話的處理時間特別長?

Q7: 如何比較不同 AI 助理的表現?

下一步