網頁抓取(英語:web scraping)是一種從網頁上取得頁面內容的電腦軟件技術。通常透過軟件使用低階別的超文字傳輸協定模仿人類的正常訪問。

網頁抓取和網頁索引極其相似,其中網頁索引指的是大多數搜尋引擎採用使用的機械人網絡爬蟲等技術。與此相反,網頁抓取更側重於轉換網絡上非結構化數據(常見的是HTML格式)成為能在一個中央資料庫和電子試算表中儲存和分析的結構化數據。網頁抓取也涉及到網絡自動化,它利用電腦軟件模擬了人的瀏覽。網頁抓取的用途包括線上的價格比較,聯絡人抓取,氣象數據監測,網頁變化檢測,科研,混搭和Web數據整合。

技術層面

編輯

網絡抓取用於自動化取得萬維網上的資訊

  • 人工複製與貼上:最好的網頁抓取技術也比不上人類的手工複製與貼上,尤其是在某些網站採取技術手段禁止自動化網頁抓取的情況下,人工的複製與貼上就成了唯一的解決方案。
  • 文字搜尋與正則表達式:文字搜尋並且配合正則表達式可以有效的從頁面上提取需要的內容。在基於UNIX的系統上可以使用grep,在其他平台或其他程式語言(例如PerlPython)中也有相應的命令或語法。
  • HTML語法剖析器:很多網站都是使用資料庫來儲存他們的數據,用戶訪問的時候再通過程式自動按照指定的格式生成,由於生成的這些網頁都採用了相同的的格式或者模板等,所以可以通過對取得到的HTML頁面使用語法剖析器進行語法分析,然後就可以使用HTML標籤來提取需要的內容。使用HTML語法剖析器同文字搜尋與正則表達式相比較程式更加的健壯,也免於構造複雜的正則表達式。

著名工具

編輯

參見

編輯