看淘寶搜索技術博客上的一篇文章《定向抓取漫談》,對通用爬蟲進行了簡單的定義,如下:抓取策略:那些網頁是我們需要去下載的,那些是無需下載的,那些網頁是我們優先下載的,定義清楚之后,能節省很多無謂的爬取。更新策略:監控列表頁來發現新的頁面;定期check 頁面是否過期等等。抽取策略:我們應該如何的從網頁中抽取我們想要的內容,不僅僅包含最終的目標內容,還有下一步要抓取的url。抓取頻率:我們需要合理的去下載一個網站,卻又不失效率。讓我對如何和爬蟲對話 這個課題有了一些思考,下面歸納的主要用于迎合上面提到的爬蟲抓取策略。
1、通過 robots.txt 和爬蟲對話:搜索引擎發現一個新站,原則上靠前個訪問的就是 robots.txt 文件,可以通過 allow/disallow 語法告訴搜索引擎那些文件目錄可以被抓取和不可以被抓取。關于 robots.txt 的詳細介紹:about /robots.txt另外需要注意的是:allow/disallow 語法的順序是有區別的
2、通過 meta tag 和爬蟲對話:比如有的時候我們希望網站列表頁不被搜索引擎收錄但是又希望搜索引擎抓取,那么可以通過 告訴爬蟲,其他常見的還有 noarchive,nosnippet,noodp 等。關于 meta tag 的更多介紹:Metadata Elements
3、通過 rel=nofollow 和爬蟲對話:關于 rel=nofollow 最近國平寫了一篇文章《如何用好 nofollow》很值得一讀,相信讀完之后你會有很大的啟發。
4、通過 rel=canonical 和爬蟲對話:關于 rel=canonical 谷歌網站站長工具幫助有很詳細的介紹:深入了解 rel=canonical
5、通過網站地圖和爬蟲對話:比較常見的是 xml 格式 sitemap 和 html 格式 sitemap,xml 格式 sitemap 可以分割處理或者壓縮壓縮,另外,sitemap 的地址可以寫入到 robots.txt 文件。
6、通過網站管理員工具和搜索引擎對話:我們接觸最多的就是谷歌網站管理員工具,可以設定 googlebot 抓取的頻率,屏蔽不想被抓取的鏈接,控制 sitelinks 等,另外,Bing 和 Yahoo 也都有管理員工具,百度有一個百度站長平臺,內測一年多了仍舊在內測,沒有邀請碼無法注冊。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
世界最稀有的貓 世界上最可愛最稀有的貓?什么貓快瀕危了? 1、狼人貓田納西州的動物飼養者讓一只自然基因突變的無毛貓與另一只黑色短毛貓交配,培育出一種新的貓。這只貓被命名為Lykoi,叫狼人貓。根據國際貓協會的記錄,狼人貓是一種天然基因突變,概率很低。它們有斑駁的灰色頭發和巨大的金色瞳孔。它們看起來像狼人,是世界上最稀有的貓之一。目前,世界上只有35只狼人貓。2、荒漠貓沙漠貓是中國的特產動物,主...
QQ站點的域名是?騰訊的主頁是QQ主頁首頁使用的Http協議,即超文本傳輸協議。有什么辦法可以把黃鉆標識弄掉?第一步,先把QQ空間名字的顏色改一下。將鼠標移動到主頁的名稱上,會顯示一個藍色框。單擊編輯。改變顏色以匹配巢中的顏色。這使得該地址“不可見”。第二步是更改您自己的空間名稱,空間名稱,并粘貼在那里的括號中。第三步,覆蓋黃色菱形標志。此時空間名已經到了第二行,黃色菱形符號和空間地址(個人域名)...
辦理騰訊王卡有什么要求或限制?每個用戶僅可網上預約1張騰訊大王卡或天王卡。用戶識別條件為:、身份證號碼、設備識別碼,其中一個條件反復重復都不可以哦再度辦理申請??梢栽谀穷A約辦聯通騰訊王卡寬帶?河南王卡寬帶限網齡三個月騰訊王卡用戶去辦理,線上預約入口:【河南客服】公眾號,路徑:【專屬服務】—【寬帶服務】—【王卡寬帶預約專區】怎樣登錄騰訊視頻大王卡?方法1:把王卡可以設置為系統默認撥號和設置電腦上網方...