Browser Tool
這是什麼?
Browser Tool 讓 Agent 能操控瀏覽器:自己導航到網頁、點擊按鈕、填寫表單、捲動畫面,並透過螢幕截圖「看見」當下頁面,再決定下一步要做什麼。
業界也常稱這類能力為 Browser Use 或 Computer Use。MaiAgent 的 Browser Tool 是內建在 Agent 上的版本,啟用後對話中就能直接使用,不需要額外串接外部服務。
能做什麼?
導航與探索:開啟指定 URL、跟著連結逐頁瀏覽
與頁面元素互動:點擊、雙擊、輸入文字、按鍵、捲動
視覺理解:每次操作後擷取截圖,Agent 看畫面決定下一步
多步任務:登入 → 搜尋 → 篩選 → 取得資料這類連續流程
跟工具、Code Interpreter 有什麼不同?
動作對象
後端服務 / API
沙盒中的程式環境
真實瀏覽器與網頁
看得到畫面嗎
看不到(只有 JSON 回應)
看得到沙盒輸出
看得到(截圖)
適合的任務
結構化資料查詢、定義好的 API 呼叫
計算、處理檔案、產文件
沒有 API 但有網頁的服務
簡單判斷:對方有 API → 工具;要算東西/產檔 → Code Interpreter;只有網頁可以操作 → Browser Tool。
適合的場景
沒有公開 API 的內部系統,但有 Web UI 可以操作
從第三方網站抓取需要登入或互動的資訊
自動化跨頁面、跨步驟的網頁流程(搜尋、篩選、下載)
任何「人在瀏覽器上會做的事」,但你想交給 Agent 自動完成
注意事項
針對 Claude 模型最佳化:Browser Tool 對視覺截圖的判讀依賴模型能力,使用 Claude 系列效果最佳,其他模型可能效果不穩。
同源頁面效果最佳:跨域 iframe、嚴格 CSP 的網頁可能有部分操作受限。
執行需要時間:每一步都要載入頁面、截圖、推理,連續多步任務會比一次 API 呼叫慢,請設計合理的場景。
我需要做什麼?
進入 Agent 設定 — 在你想啟用的 AI 助理設定頁
開啟 Browser Tool — 在工具或進階能力區啟用
建議使用 Claude 模型 — 取得最佳的視覺判讀效果
測試 — 在對話中請 Agent 執行一個需要操作網頁的任務,確認瀏覽器面板能正確顯示與互動
最後更新於
這有幫助嗎?
