HTTrack Website Copier 免費、開源的砍站軟體(離線瀏覽器)

在「掃描規則」裡可以指定要下載哪些類型的檔案,或者是避免下載某些鏈結;像是不希望下載到網頁裡的廣告時,就可以將廣告商的網址排除 ▼

HTTrack Website Copier - 掃描規則選項

接下來是「限制」項目,這裡比較重要的設定有:

  • 最大深度」,例如 2,表示除了目前專案指定的網址之外,再「深入一層」下載目前網頁裡的鏈結;如果是 3 的話那就是:下載目前指定的網頁(第一層) + 第一層網頁裡的網址(第二層)+ 第二層網頁裡的網址(第三層)… 以此類推。
  • 最大外部鏈結深度」則是設定是否下載外部網站(來自其它網域)的網頁,0 代表不下載。
  • 每秒最多連線數」,設定在一秒之內同時向網站發起多少連線請求。要注意的是,如果設太高的話容易造成伺服器過載,或是被擋 IP ▼

HTTrack Website Copier - 限制選項

再來是「流量控制」,這裡可以設定:

  • 連線數」,表示下載網站時的連線總數;勾選「持續連接」可以使和網站的連線持續被利用,而不是下載完一個檔案之後斷開再重新連線,提高砍站的效率。
  • 超時」,多久時間網站沒有回應的話就視為超時(timeout)。
  • 重試」,在超時之後重試下載的次數 ▼

HTTrack Website Copier - 流量控制選項

最後是「鏈結」項目,這邊建議勾選「試圖抓取所有的URLs」,在下載網站時試圖解析 JavaScript 中的鏈結;「保存所有指向非HTML檔案的鏈結,例如外部的ZIP檔案或圖片檔案」,讓 HTTrack Website Copier 下載網頁中顯示的圖片或是鏈結的檔案,即使來源是外部網站;以及「首先保存HTML檔案!」,在砍站時先下載 HTML 檔案,讓 HTTrack Website Copier 提早分析網頁中的鏈結,以提高砍站的整體速度 ▼

HTTrack Website Copier - 鏈結選項

當設定好專案之後,按下「確定」關閉選項視窗,再按「下一步」來到建立專案的最後一個步驟。這裡 HTTrack Website Copier 會預設選擇「如果需要請修改連線參數,然後按完成開始鏡像」,意思就是按下「完成」後就會開始下載網站(砍站)了 ▼

HTTrack Website Copier - 完成專案設定

網站下載(砍站)中… ▼

HTTrack Website Copier - 砍站中…

網站下載完畢後可以按下「瀏覽已鏡像的網站」來開始進行離線瀏覽 ▼

HTTrack Website Copier - 開始離線瀏覽網站

7 thoughts on “HTTrack Website Copier 免費、開源的砍站軟體(離線瀏覽器)

  1. 其它像是備份網站、製作鏡像或是「資料探勘」等也都能派得上用場。
    請問「資料探勘」要怎麼做?我怎麼不知道這一套有「Data Mining」的功能

    1. 我的意思是指,可以先利用 HTTrack 把網路上的資料下載回來後,再用專門的分析程式進行 Data Mining。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *