語音助理
讓 AI 助理能用「聽」和「說」服務客戶,支援即時對話、STT/LLM/TTS 管線與中斷控制
這是什麼?
語音助理讓 AI 助理能透過語音互動:使用者用講的,AI 也用講的回。底層整合即時語音模型、STT(語音轉文字)、TTS(文字轉語音)與中斷控制,可用於電話客服、IVR、語音助理等情境。
啟用後,AI 助理會多出一個「語音通話」介面,使用者點麥克風即可開始對話。
三種互動模式
不同模式適合不同需求,取決於延遲、聲線自訂彈性、工具支援度。
即時對話(Realtime)
使用語音模型直接做即時語音對話
對延遲要求最高、能接受預設聲線的場景
即時對話 + TTS
即時語音模型搭配自訂 TTS 輸出
需要自訂品牌聲線、又想保留即時感
STT + LLM + TTS
語音轉文字 → LLM → 文字轉語音的傳統管線
需要完整工具支援、可接受稍高延遲、希望最大彈性
簡單判斷:要最快、最自然 → Realtime;要品牌聲線 → Realtime + TTS;要最大彈性與工具支援 → STT + LLM + TTS。
中斷控制(Turn Handling)
語音對話的關鍵體驗 — 使用者能不能在 AI 講話途中打斷它?怎麼判斷使用者是真的在說話、而不是雜音或嗯啊?
可調整的參數:
最短語音持續時間(秒)
使用者的語音必須持續至少幾秒,才會被當成「我要打斷」
最少字數
使用者必須說出至少幾個字,才會觸發中斷
注意:
min_duration和min_words僅在 STT + LLM + TTS 模式有效。Realtime 模式由語音模型內部處理中斷判斷。
對話狀態
語音對話進行時,介面會顯示當下的狀態:
聆聽中:AI 正在接收使用者的語音
思考中:AI 正在處理(查知識庫、用工具、生成回覆)
回覆中:AI 正在用語音回覆
初始化中:剛建立連線、準備中
跟一般文字對話有什麼不同?
輸入
鍵盤打字、貼上檔案
麥克風語音、可能加上 DTMF 按鍵
輸出
文字、Markdown、圖片、檔案
語音、最後再附上文字逐字稿
延遲要求
秒級可接受
必須毫秒級才自然
適合場景
需要詳細資訊、會回看記錄
需要立即回應、雙手忙、電話通路
適合的場景
電話客服:取代傳統 IVR,AI 直接接電話、聽問題、給答案
語音查詢系統:客戶打電話查訂單、查餘額、查保單
語音 FAQ:常見問題用講的直接問
行車 / 雙手忙場景:使用者沒辦法打字,但需要 AI 協助
無障礙需求:對打字困難的使用者更友善
使用限制
工具支援:目前 Realtime 與 Realtime + TTS 模式僅支援 MCP 工具;要用 API 工具的話請改用 STT + LLM + TTS 模式
知識庫搜尋:語音助理會搜尋所有關聯的知識庫,無法限定只搜某幾份文件
麥克風權限:需要使用者授權瀏覽器使用麥克風才能開始對話
我需要做什麼?
進入 AI 助理設定 — 在你想開啟語音的 Agent 設定頁
選擇語音助理模式 — Realtime / Realtime + TTS / STT + LLM + TTS 三選一
設定供應商與配置 — 依模式選對應的 STT / TTS / Realtime 供應商與 JSON 配置
調整中斷控制(選用)— STT + LLM + TTS 模式可調最短時長與最少字數
測試 — 在介面開啟語音通話,確認連線、聆聽、回覆三個狀態都順暢
延伸閱讀
最後更新於
這有幫助嗎?
