爬蟲能自動從網頁抓取內容,並匯入到知識庫中。你只要給它一個網址,它就能爬取該頁面(或整個網站)的文字內容,轉換成 Agent 能查閱的知識。
官網內容:把公司官網的產品介紹、服務說明自動匯入
公開資訊:抓取法規、公告、技術文件等公開網頁
持續更新:網站內容會變動,定期重新爬取保持知識庫最新
爬蟲是知識庫的資料來源之一。它的定位是:
爬蟲抓到的內容最終會進入知識庫,Agent 不會直接跟爬蟲互動。
輸入網址 — 告訴爬蟲要抓哪個網頁或網站
設定範圍 — 只抓單頁、還是遞迴抓取子頁面
執行爬取 — 啟動爬蟲,等待完成
匯入知識庫 — 將爬取結果匯入指定的知識庫
驗證內容 — 檢查匯入的內容是否正確完整
如何使用爬蟲(爬取資料)功能arrow-up-right
Last updated 9 days ago
Was this helpful?
資料來源 知識庫 Agent ───────── ────── ────── 手動上傳文件 ──→ 建立 FAQ ──→ 企業知識百科 ──→ 查閱並回覆 爬蟲抓網頁 ──→