什么是網絡爬蟲?
搜索引擎爬蟲 (又被稱為網頁蜘蛛,網絡機器人),是一種按照一定的規(guī)則,自動的抓取萬維網信息的程序或者腳本。
1、首先從互聯網頁面中精心選擇一部分網頁,以這些網頁的鏈接地址作為種子URL,將這些種子URL放入待抓取URL隊列中,爬蟲從待抓取URL隊列依次讀取,并將URL通過DNS解析,把鏈接地址轉換為網站服務器對應的IP地址。
2、然后將其和網頁相對路徑名稱交給網頁下載器,網頁下載器負責頁面內容的下載。對于下載到本地的網頁,一方面將其存儲到頁面庫中,等待建立索引等后續(xù)處理;另一方面將下載網頁的URL放入已抓取URL隊列中,這個隊列記載了爬蟲系統(tǒng)已經下載過的網頁URL,以避免網頁的重復抓取。
3、對于剛下載的網頁,從中抽取出所包含的所有鏈接信息,并在已抓取URL隊列中檢查,如果發(fā)現鏈接還沒有被抓取過,則將這個URL放入待抓取URL隊列末尾,在之后的抓取調度中會下載這個URL對應的網頁。如此這般,形成循環(huán),直到待抓取URL隊列為空,這代表著爬蟲系統(tǒng)已將能夠抓取的網頁盡數抓完,此時完成了一輪完整的抓取過程。
【版權聲明】:本站內容來自于與互聯網(注明原創(chuàng)稿件除外),如文章或圖像侵犯到您的權益,請及時告知,我們第一時間刪除處理!謝謝!
上一篇:如何防止網站被黑客攻擊?
下一篇:網絡爬蟲違法嗎?