spider爬蟲

爬蟲概念
爬蟲:自動抓取網頁內容,匯入知識庫

這是什麼?

爬蟲能自動從網頁抓取內容,並匯入到知識庫中。你只要給它一個網址,它就能爬取該頁面(或整個網站)的文字內容,轉換成 Agent 能查閱的知識。

什麼時候需要用?

  • 官網內容:把公司官網的產品介紹、服務說明自動匯入

  • 公開資訊:抓取法規、公告、技術文件等公開網頁

  • 持續更新:網站內容會變動,定期重新爬取保持知識庫最新

爬蟲和知識庫的關係

爬蟲是知識庫的資料來源之一。它的定位是:

爬蟲抓到的內容最終會進入知識庫,Agent 不會直接跟爬蟲互動。

我需要做什麼?

  1. 輸入網址 — 告訴爬蟲要抓哪個網頁或網站

  2. 設定範圍 — 只抓單頁、還是遞迴抓取子頁面

  3. 執行爬取 — 啟動爬蟲,等待完成

  4. 匯入知識庫 — 將爬取結果匯入指定的知識庫

  5. 驗證內容 — 檢查匯入的內容是否正確完整

延伸閱讀

Last updated

Was this helpful?