1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          百度抓取器爬蟲工作原理,網站抓取建設指南!

          來源:互聯網轉載 時間:2024-10-12 14:51:40

          首先百度的抓取器會和網站的首頁進行交互,拿到網站首頁之后會對頁面進行理解,理解包含(類型、價值計算),其次會把網站首頁的所有超鏈接提取出來。

          如上圖所示,首頁的超鏈接被稱為“后鏈”,等到下一輪抓取的時候,抓取器會繼續和這些超鏈接的頁面進行交互,拿到頁面進行提煉,依次不斷一層一層的抓取,這就構成了抓取環路。

          一、抓取友好性優化

          1、URL規范

          任何一個資源都是通過URL來抓取的,URL相對于網站的門牌號,那么URL的規劃就非常重要了。尤其是如上圖所示,“待抓URL”的環境,爬蟲在首頁的時候,并不知道URL是什么樣子。

          出色的/卓越的/優異的/杰出的的URL的特點是主流的、簡單的,竟可能不要去做一些非主流的樣式,讓人看起來很直觀的URL。

          出色的/卓越的/優異的/杰出的URL示例:

          如上圖所示,靠前條是百度知道的鏈接,整個鏈接分成三段,靠前段是網站的站點,第二段是資源類型,第三段是資源的ID。這種就是非常簡單,并且爬蟲看起來非常優質的URL。

          如上圖所示,第三條相對百度知道多了一個段,首先靠前段是網站的站點,第二段是站點的一級目錄,第三段是站點的二級目錄,最后一段是站點的內容ID。像這種的URL也是符合標準的。

          不友好的URL示例:

          如上圖所示,這種鏈接一看就很長很復雜,有經驗的站長都看得出,這種URL包含了字符,這個URL內包含了文章的標題,導致URL偏長,一個偏長的URL相對比簡單的URL是不占優勢的,百度站長平臺的規則有明確的說到URL不能超過256字節,個人建議URL長度控制在100字節之內,100個字符足夠展現出URL的資源了。

          如上圖所示,這段URL包含統計參數,可能會導致重復抓取,浪費站點權益,所以竟可能不使用參數,如果一定要使用參數,那么也可以保留必要參數,參數字符竟可能使用常規的連接符,比如“?”、“&”,避免非主流連接符。

          2、合理發現鏈路

          爬蟲是從首頁開始一層一層抓取的,所以就需要做好首頁與資源頁的URL關系。這樣爬蟲抓取相對而言比較省力。

          如上圖所示,從首頁到具體內容的超鏈路徑關系叫做發現鏈路,目前大多數移動站沒有太注意發現鏈路的關系,所以導致爬蟲無法抓取到內容頁。

          如上圖所示,這兩個站點是移動網站常見的建站方式,從發現鏈路的角度來講,這兩類站點是不友好。

          Feed流推薦:

          大多數做feed流的站點后臺是有非常多的數據,用戶不斷的刷會有新的內容出現,但你刷新的次數再多,可能也只能刷到1%左右的內容,而爬蟲相當于一個用戶,爬蟲不可能做到以這種方式將網站所有的內容都爬取到,所以就會導致一些頁面爬蟲不到,即使你有100萬的內容,可能只能抓取到1-2萬。

          僅有搜索入口:

          如上圖所示,首頁只有一個搜索框,用戶需要輸入關鍵詞,才能找到對應的內容,但爬蟲不可能做到輸入關鍵詞然后再去爬取,所以爬蟲只能爬取到首頁后,就沒有后鏈了,自然抓取和收錄就會不理想。

          解決方案:

          索引頁下的內容按發布時間逆序排序的,這樣做有一個好處,搜索引擎可以通過索引頁即使的抓取到你網站最新的資源,另外新發布的資源要實時在索引頁同步,很多純靜態的網頁,內容更新了,但是首頁(索引頁)卻沒有出來,這樣會導致搜索引擎通過索引頁無法即使的抓取到最新的資源,第三個點是后鏈(最新文章)的URL需要直接在源碼在露出,方便搜索引擎抓取,最后就是索引頁不是越多越好,有少數優質的索引頁就足夠了,比如長城號,基本上只利用首頁來做索引頁。

          最后這里和大家說一個更高效的解決方案,那就是直接通過百度站長資源平臺去主動提交資源,這樣搜索引擎可以繞過索引頁直接抓取到最新資源,這里需要注意兩個點。

          Q:資源提交是不是越多越好?

          A:收錄效果的核心永遠是內容質量,如果大量提交低質、泛濫資源會導致懲罰性打擊。

          Q:為什么提交了普通收錄但沒有抓?

          A:資源提交只能加速資源發現,不能保證短時間內抓取,當然百度方面表示,算法在持續優化,讓優質的內容更快得到抓取。

          3、訪問友好性

          抓取器要和網站進行交互,要保證網站的穩定的,抓取器才能夠正常的爬取。那么訪問友好性主要包括以下幾個方面。

          訪問速度優化:

          加載時間建議控制在2S以內,那么無論是用戶還是爬蟲,對于打開速度更快的網站,都會更加青睞,其次是避免非必要的跳轉,這種情況雖然是少部分,但依然有網站出現很多級的跳轉,那么對于爬蟲來講,很有可能在多級跳轉的同時就斷開了。常見的有做了不帶www的域名跳轉到帶WWW的域名上,然后帶WWW的域名又要跳轉到https上,最后更換新站,這種情況就出現了三四級的跳轉。如果出現類似網站改版,建議直接全部跳轉到新域名上。

          規范http狀態碼:

          我們常見的301/302的正確使用,以及404的正確使用,主要是常規的問題,用常規的方式來解決,比如遇到無效資源,那么就使用404來做,不要用一些特殊的返回狀態碼了。

          訪問穩定性優化:首先盡可能選擇國內大型的DNS服務,以保證站點的穩定性,對于域名的DNS,實際上阿里云還是比較穩定靠譜的,那么其次是謹慎使用技術手段封禁爬蟲抓取,如果說有特定資源不希望在百度上展現,那么可以采用robots來屏蔽,比如說網站的后臺鏈接,大多數都是通過robots屏蔽的。如果說抓取頻次太高,導致服務器壓力過大,影響用戶正常訪問,那么可以通過資源平臺的工具降低抓取頻率。其次是避免防火墻誤封禁爬蟲抓取,那么這里建議大家可以把搜索引擎的UA加入到白名單。最后一點是服務器的穩定性,特別是在短時間內提交大量優質資源,這個時候一定要關注服務器穩定性,因為當你提交大量資源后,爬蟲會隨之增加,這個時候會不會導致你服務器壓力過大而打不開,這個問題是需要站長關注的。

          如上圖所示,這三個例子就是第三方防火墻攔截的一個狀態,當正常用戶打開是這個狀態的時候,搜索引擎抓取的時候,也會處于這個狀態,所以如果遇到CC或者DDOS的時候,我們開啟防火墻的前提,一定要放開搜索引擎的UA。

          4、問答環節

          Q:新站會不會有一個的抓取限制?

          A:對于任何一個新站來講,都沒有抓取限制,不過去年開始,我們已經開始對新站有一個扶持,讓你的網站,先在百度上收錄起來。然后再進行一個價值判斷,那么如何讓百度知道你是一個新站,有兩個捷徑,靠前個是去百度資源平臺提交,第二個點是去工信部做ICP的備案,我們可以從工信部拿到ICP備案的數據,備案之后我們就知道有人建了一個新的站點,這樣就可以給新站一個基礎的流量扶持。

          Q:每個站點蜘蛛抓取的配額都會有調整,大概多久調整一次?

          A:確實會有調整,對于新資源會與你抓取頻率相關,對于舊資源會與你內容質量相關,如果說新資源的質量有變化,那么抓取頻率也會有變化,網站的規模有變化,那么抓取的頻率也會有變化,如果說有很大的改版,那么抓取頻率相對而言也會有變化。

          Q:網站降權能不能恢復?

          A:網站降權恢復的前提是我們會對網站進行重新評估,查看網站是不是有整改,如果有整改是不是做了404,并且有提交到資源平臺,如果說完全符合要求后,搜索引擎會經過評估后,對沒有違規的網站進行恢復。

          Q:新站點是不是有考核期?

          A:對我們來講是沒有一個考核期這么一個東西,我們前面也講到了,竟可能會對新站的一個流量扶持,假設一個新站點流量扶持1-2個月以后,發現網站繼續保持這種狀態,那么就不會有一個太大的調整,當發現網站質量有明顯的提升,那么我們也會相應的提升百度排名。

          Q:百度對外國的服務器和國內的服務器有沒有區別對待?

          A:策略角度上來件,沒有硬性區別對待,但是很多外國的服務器對國內部分區域封禁,以及國外服務器網站備案的角度上來講,國內的服務器都具有優勢。

          Q:新站舊域名是不是更有優勢?

          A:如果說老域名和新站是相同的內容,確實在起步階段有一定的優勢,但僅僅是起步階段,后期還是要看內容的質量,特別要注意的是,如果說老域名的行業和你新網站的內容不相關,即使是所謂高權重的老域名,也會適得其反。百度會認為你今天做這個,明天做那個,效果還不如重新做一個新域名。

          這是陽光明媚的一天,互聯網里風平浪靜,一切都是欣欣向榮。我就是在這樣一個平凡的日子里誕生了。我給自己起了個名字叫超,不過我的師哥師姐們都喜歡叫我小超。從出生的那...

          網上關于SEO優化的知識很多也很雜,很多新手都不知道如何選擇。本來耗子網站里每篇文章都有的詳細步驟的,考慮到很雜,于是耗子對各種SEO優化基礎知識進行了整理,但...

          今天,我給大家講講如何利用電影貼吧引流輕松變現。這個很適合新手。廢話不多說,直接上干貨。每上映一個新片子,只要這個片子有一定的熱度,馬上該片子的貼吧就會出現各種...

          網站外部優化說白了就是站外鏈優化,主要分兩方面 1、外鏈的質量。要選擇權重高的第三方平臺,平臺權重越高,外鏈質量越高,你網站分得的權重就越高。 2、外鏈的數量。外鏈的數...

          隨著互聯網的迅速發展,網站已經成為了人們獲取信息和交流的主要方式。作為一種重要的網絡推廣手段,優化網站關鍵詞已經成為了許多企業和個人的首要任務。關鍵詞優化不僅有助于提高網站的流量和排名,還能夠增加網站的曝光度和用戶粘性,提高轉化率和收益。本文將從關鍵詞研究、應用等方面,介紹如何優化網站關鍵詞。一:關鍵詞研究通過調查和分析目標用戶的需求和搜索行為,找到與網站主題相關的高搜索量和低競爭度的關鍵詞,是關...

          項目經營策劃形成于工程項目的啟動階段,落實于項目管理的全過程,應涵蓋工程項目前期準備階段、工程實施階段、工程結算階段。是指導項目實現利潤最大化的控制規劃性文件。工程項目經營策劃應由本項目的商務經理在工程項目施工之前或施工前期進行編制。項目經理牽頭,組織經營班子針對起草文件集思廣義進行二次修訂,應特別注意和技術溝通探討實施的可行性,相關證據鏈的充分合理性,比如支持性的技術資料、試驗資料、相關影像資料...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>