當(dāng)網(wǎng)站有了蜘蛛來訪,你的網(wǎng)站頁面才有被收錄的可能,而搜索引擎蜘蛛會(huì)來爬行我們網(wǎng)站的html代碼,然后把數(shù)據(jù)拆分為標(biāo)題、摘要、頭圖、正文等結(jié)構(gòu)化數(shù)據(jù),帶回給搜索引擎的服務(wù)器,進(jìn)行篩選放入數(shù)據(jù)庫,接下來是關(guān)于搜索引擎蜘蛛對(duì)網(wǎng)站頁面爬行規(guī)律的一點(diǎn)分享。【網(wǎng)站優(yōu)化】
現(xiàn)在的網(wǎng)站數(shù)量以百億計(jì)算,每個(gè)頁面都有快照備份是不現(xiàn)實(shí)的,所以搜索引擎蜘蛛會(huì)優(yōu)勝劣汰,就像是有探路的先鋒,有主力的部隊(duì),有功能之分,其實(shí)并沒有高低權(quán)重之分。
搜索引擎蜘蛛對(duì)網(wǎng)站內(nèi)頁的爬行規(guī)律:
搜索引擎蜘蛛主要由收錄與快照兩種蜘蛛構(gòu)成,通常123IP開頭的是收錄蜘蛛,220IP開頭的是快照蜘蛛,我們通過這兩種蜘蛛的日志訪問情況,基本上能判斷出這個(gè)網(wǎng)站在搜索引擎看來是不是一個(gè)優(yōu)質(zhì)的網(wǎng)站。
1、內(nèi)容有質(zhì)量的頁面:新發(fā)一篇文章后,通常是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行,接著當(dāng)天或隔1-2天,快照就會(huì)有更新。
2、404頁面爬取規(guī)律:當(dāng)網(wǎng)站刪除了幾篇已收錄的內(nèi)頁訪問變成404后,123開頭的蜘蛛來爬取時(shí),一般發(fā)現(xiàn)兩次404后,搜索引擎蜘蛛就不會(huì)來了。
3、文章內(nèi)容劣質(zhì)頁面:如果是用文章生成器生成的拼湊文章,排版亂無可讀性,123開頭的蜘蛛來了一次以后就沒有再來了。
那么搜索引擎蜘蛛爬行真正的邏輯應(yīng)該是:123開頭蜘蛛打沖鋒,對(duì)網(wǎng)頁內(nèi)容進(jìn)行篩選,以便減少不必要的服務(wù)器資源浪費(fèi);220開頭蜘蛛一般在123蜘蛛篩選過后才進(jìn)入,如果網(wǎng)頁內(nèi)容實(shí)在劣質(zhì),220開頭的蜘蛛不會(huì)造訪;對(duì)于已經(jīng)收錄快照的頁面,是220開頭直接來訪。
最后得出的結(jié)論如下:
1、123開頭的IP是收錄蜘蛛,所謂收錄蜘蛛是指搜索引擎蜘蛛造訪后,搜索引擎后端會(huì)通過一系列判定手段,如反作弊處理、原創(chuàng)度檢測(cè)等等,決定是否能夠可以收錄,是否可以牽引網(wǎng)頁快照蜘蛛到訪。
2、220開頭的IP是快照蜘蛛,當(dāng)快收錄蜘蛛檢測(cè)網(wǎng)頁通過了收錄標(biāo)準(zhǔn)之后,通過快照蜘蛛生成結(jié)構(gòu)化數(shù)據(jù),進(jìn)入倒排索引,這個(gè)時(shí)候的網(wǎng)頁才有快照,才能被用戶搜索到。
所以每次快照更新前,收錄蜘蛛、快照蜘蛛均有造訪,而收錄蜘蛛與快照蜘蛛訪問比率一般不超過2:1, 如果收錄蜘蛛出現(xiàn)次數(shù)遠(yuǎn)遠(yuǎn)大于快照蜘蛛,說明網(wǎng)頁的內(nèi)容還不過關(guān)。