robots.txt用于禁止網絡爬蟲訪問網站指定目錄。robots.txt的格式采用面向行的語法:空行、注釋行(以#打頭)、規則行。規則行的格式為:Field: value。常見的規則行:User-Agent、Disallow、Allow行。
User-Agent行
User-Agent: robot-nameUser-Agent: *
Disallow和Allow行
Disallow: /pathDisallow: # 空字符串,起通配符效果,全禁止Allow: /pathAllow: # 空字符串,起通配符效果,全允許
搜索引擎 | User-Agent值 |
---|---|
googlebot | |
百度 | baiduspider |
雅虎 | slurp |
MSN | msnbot |
Alexa | is_archiver |
我在Linux上抓包觀察到的一些搜索引擎訪問記錄:
# tcpdump -n -nn -A -l -s1024 'tcp port 80'|grep User-AgentUser-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)User-Agent: Googlebot-Image/1.0User-Agent: Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 5 subscribers; feed-id=4619555564728728616)User-Agent: Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)User-Agent: Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )User-Agent: Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)
JikeSpider是即刻搜索(人民搜索)。
如果你沒有對網站根目錄的寫入權限(無法建立robots.txt文件),或你想要某個指定的網頁不被搜索引擎收錄,可以使用元標簽阻止爬蟲訪問:
<meta name="robots" content="noindex"> <!-- 阻止所有爬蟲 --><meta name="googlerobot" content="noindex"> <!-- 阻止Google收錄 -->
robots元標記的默認值為”index,follow”,它的取值可以是(來自Google站長幫助):
noindex
防止網頁被編入索引。
nofollow
防止googlebot從此頁面中跟蹤鏈接。
noarchive
防止Google顯示網頁的快照鏈接。
noimageindex
不被Google圖片搜索索引。
淘寶屏蔽了百度抓取(2008年9月),http://www.taobao.com/robots.txt的內容:
User-agent: BaiduspiderDisallow: /User-agent: baiduspiderDisallow: /
2012年8月,360推出搜索引擎,并與百度發生正面沖突。百度工程師跑出來說360違反robots協議,偷竊百度內容。以百度知道為例,http://zhidao.baidu.com/robots.txt的內容大致是這樣:
User-agent: BaiduspiderDisallow: /w?Allow: /User-agent: GooglebotUser-agent: MSNBotUser-agent: Baiduspider-imageUser-agent: YoudaoBotUser-agent: Sogou web spiderUser-agent: Sogou inst spiderUser-agent: Sogou spider2User-agent: Sogou blogUser-agent: Sogou News SpiderUser-agent: Sogou Orion spiderUser-agent: JikeSpiderUser-agent: SosospiderAllow: /User-agent: *Disallow: /
也就是說對360爬蟲而言,應該走最后一條規則,也就是禁止抓取百度知道所有內容。但從360搜索看,有百度知道的內容。
138632.html
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
太原西客站時刻表 太原西站什么時候關門?太原西客站在哪里? 根據太原市交通局《關于有序恢復長途客運運營的通知》精神,太原汽車西站已具備恢復運營準備的基本條件。從2020年3月5日起,班車客運運營將嚴格按照相關要求有序恢復?,F將有關事項通知如下:車站日運行時間暫定為7:30-18:00。西站與各線路與發車站溝通后,自3月6日起首次開通:太原-大寧 10:00太原-永和 13:20 其他未開通線路...
津云是國企嗎?不是國有企業,而是有限責任公司??N云是有限責任公司,不屬于單位。單位是國企的稱號??N云指縉云文化傳媒有限公司,法定代表人郭。公司 公司經營范圍包括:電影制作、廣播電視節目制作、演出經紀、文化藝術交流活動策劃、廣告業務、展覽展示服務、影視策劃、平面設計、市場調研、軟件和信息技術服務。津云是國企嗎?不是。津云新媒體集團是天津市委宣傳部為進一步推動傳統媒體與新興媒體融合發展,整合全市新媒體...
兒童短頭發怎么扎?1.將短發兩邊扎成小球。這種綁法簡單利落,守氣劉海有一種瞬間被萌化的感覺,簡直萌到骨子里了。2、短發寶寶也可以考慮這個丸子頭!把頭發都扎起來綁個皮筋固定就行了!這是一款超級流行的兒童發型!尤其是炎熱的夏天,讓小公主立馬變得涼快很多!3、帶上一個非常簡單的寶寶短發扎法,一個發夾就可以輕松搞定!就把頭發別在一邊,劉海是斜的。你不 不一定要穿裙子才能成為淑女!4.斜扎一個馬尾,自然流露...