一、爬蟲是什么?
如果我們把互聯網比作一張大的蜘蛛網,數據便是存放于蜘蛛網的各個節點,而爬蟲就是一只小蜘蛛,沿著網絡抓取自己的獵物(數據)爬蟲指的是:向網站發起請求,獲取資源后分析并提取有用數據的程序。
從技術層面來說就是 通過程序模擬瀏覽器請求站點的行為,把站點返回的HTML代碼/JSON數據/二進制數據(圖片、視頻) 爬到本地,進而提取自己需要的數據,存放起來使用;
二、爬蟲的基本流程
用戶獲取網絡數據的方式:
方式1:瀏覽器提交請求—>下載網頁代碼—>解析成頁面
方式2:模擬瀏覽器發送請求(獲取網頁代碼)->提取有用的數據->存放于數據庫或文件中
爬蟲要做的就是方式2。
1、發起請求
使用http庫向目標站點發起請求,即發送一個Request
Request包含:請求頭、請求體等
Request模塊缺陷:不能執行JS 和CSS 代碼
2、獲取響應內容
如果服務器能正常響應,則會得到一個Response
Response包含:html,json,圖片,視頻等
3、解析內容
解析html數據:正則表達式(RE模塊),第三方解析庫如Beautifulsoup,pyquery等
解析json數據:json模塊
解析二進制數據:以wb的方式寫入文件
4、保存數據
數據庫(MySQL,Mongdb、Redis)
文件
三、http協議 請求與響應
Request:用戶將自己的信息通過瀏覽器(socket client)發送給服務器(socket server)
Response:服務器接收請求,分析用戶發來的請求信息,然后返回數據(返回的數據中可能包含其他鏈接,如:圖片,js,css等)
ps:瀏覽器在接收Response后,會解析其內容來顯示給用戶,而爬蟲程序在模擬瀏覽器發送請求然后接收Response后,是要提取其中的有用數據。
四、 request
1、請求方式:
常見的請求方式:GET / POST
2、請求的URL
url全球統一資源定位符,用來定義互聯網上一個唯一的資源 例如:一張圖片、一個文件、一段視頻都可以用url唯一確定
url編碼
https://www.baidu.com/s?wd=圖片
圖片會被編碼(看示例代碼)
網頁的加載過程是:
加載一個網頁,通常都是先加載document文檔,
在解析document文檔的時候,遇到鏈接,則針對超鏈接發起下載圖片的請求
3、請求頭
User-agent:請求頭中如果沒有user-agent客戶端配置,服務端可能將你當做一個非法用戶host;
cookies:cookie用來保存登錄信息
注意:一般做爬蟲都會加上請求頭
請求頭需要注意的參數:
(1)Referrer:訪問源至哪里來(一些大型網站,會通過Referrer 做防盜鏈策略;所有爬蟲也要注意模擬)
(2)User-Agent:訪問的瀏覽器(要加上否則會被當成爬蟲程序)
(3)cookie:請求頭注意攜帶
4、請求體
請求體如果是get方式,請求體沒有內容 (get請求的請求體放在 url后面參數中,直接能看到)如果是post方式,請求體是format dataps:1、登錄窗口,文件上傳等,信息都會被附加到請求體內2、登錄,輸入錯誤的用戶名密碼,然后提交,就可以看到post,正確登錄后頁面通常會跳轉,無法捕捉到post
五、 響應Response
1、響應狀態碼
200:代表成功
301:代表跳轉
404:文件不存在
403:無權限訪問
502:服務器錯誤
2、respone header
響應頭需要注意的參數:
(1)Set-Cookie:BDSVRTM=0; path=/:可能有多個,是來告訴瀏覽器,把cookie保存下來
(2)Content-Location:服務端響應頭中包含Location返回瀏覽器之后,瀏覽器就會重新訪問另一個頁面
3、preview就是網頁源代碼
JSO數據
如網頁html,圖片
二進制數據等
六、總結
1、總結爬蟲流程:
爬取—>解析—>存儲
2、爬蟲所需工具:
請求庫:requests,selenium(可以驅動瀏覽器解析渲染CSS和JS,但有性能劣勢(有用沒用的網頁都會加載);) 解析庫:正則,beautifulsoup,pyquery 存儲庫:文件,MySQL,Mongodb,Redis
關于爬蟲是什么就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
c語言中正確的字符常量是用一對單引號將一個字符括起表示合法的字符常量。例如‘a’。數值包括整型、浮點型。整型可用十進制,八進制,十六進制。八進制前面要加0,后面...
2022年天津專場考試原定于3月19日舉行,受疫情影響確定延期,但目前延期后的考試時間推遲。 符合報名條件的考生,須在規定時間登錄招考資訊網(www.zha...
:喜歡聽,樂意看。指很受歡迎?!巴卣官Y料”喜聞樂見:[ xǐ wén lè jiàn ]詳細解釋1. 【解釋】:喜歡聽,樂意看。指很受歡迎。2. 【示例】:這是...
(資料圖)哈嘍小伙伴們 ,今天給大家科普一個小知識。在日常生活中我們或多或少的都會接觸到美國男籃夢八隊成員方面的一些說法,有的小伙伴還不是很了解,今天就給大家詳細的介紹一下關于美國男籃夢八隊成員的相關內容。前鋒:6號勒布朗詹姆斯(克里夫蘭騎士隊)、14號泰肖恩普林斯(底特律活塞隊)、15號卡梅隆安東尼(丹佛掘金隊)。中鋒:4號卡洛斯布澤爾(猶他爵士隊)、11號德懷特霍華德(奧蘭多魔術隊)、12號克...
房貸利率4.9%要不要改為lpr,可以從以下三個方面進行考慮:1、房貸利率的多少:如果用戶的房貸利息較高,那么還是變換為LPR比較好;2、剩下貸款期限的長度:如果用戶的貸款剩余期限長于5年(10年),那么選擇固定年利率或許更好一一些。相反,如果用戶的貸款剩余期限低于5年(10年) ,那么,選擇LPR比較穩妥,可以享有LPR下降產生的益處;3、未來是否有提前還貸計劃:如果用戶的收入較高,或是住房貸款...
10萬最聰明的存錢法有哪些?階梯存錢法和十二存單法有什么區別?隨小編一起來了解下吧1、階梯存錢法:驢可以把資金分為好幾份,每一份存進不一樣限期的定期存款里。以10萬為例,可以分為1萬、2萬、3萬、4萬四筆各自存一年銀行定期。用階梯存款的方式,益處是如果用戶臨時性需要用2萬,那只需把在其中2萬取出就可以,另外三部分存款的利息不會受到影響;2、十二存單法:每一個月存一筆一年期定期存款,持續存12個月,...