scrapy框架(Python的Scrapy框架簡單介紹和實例用法)

來源：互聯網轉載時間：2024-05-10 10:22:00

Scrapy框架簡單介紹

Scrapy框架是一個基于Twisted的異步處理框架,是純Python實現的爬蟲框架,是提取結構性數據而編寫的應用框架,其架構清晰,模塊之間的耦合程度低,可擴展性極強,我們只需要少量的代碼就能夠快速抓取數據。

其框架如下圖所示:

Scrapy Engine是整個框架的核心,而涉及到我們編寫代碼的模塊一般只有Item Pipeline模塊和Spiders模塊。

創建Scrapy項目

首先我們通過以下代碼來創建Scrapy項目,執行代碼如下圖所示:

ScrapystartprojectFiction

運行結果如下圖所示:

通過上圖可知,我們在C盤創建了一個新的Scrapy項目,項目名為Fiction,而且還提示我們可以通過以下命令創建第一個Spider爬蟲,命令如下所示:

cdFiction#進入目錄scrapygenspiderexampleexample.com#創建spider爬蟲

其中example是我們爬蟲名,example.com是爬蟲爬取的范圍,也就是網站的域名。

Fiction文件夾內容如下圖所示:

創建Spider爬蟲

在上面的步驟我們成功創建了一個Scrapy項目,而且知道如何創建Spider爬蟲,接下來我們創建名為fiction的Spider爬蟲,其域名為www.17k.com,代碼如下所示:

scrapygenspiderfictionwww.17k.com

運行后,spiders文件夾中多了我們剛才創建fiction.py,這個就是我們創建的Spider爬蟲。

如下圖所示:

看到這么多py文件是不是慌了,其實不用慌,一般情況我們主要在剛創建的spider爬蟲文件、items.py和pipelines.py進行編寫代碼,其中:

fiction.py:主要編寫代碼定義爬取的邏輯,解析響應并生成提取結果和新的請求;
items.py:主要先定義好爬取數據的字段,避免拼寫錯誤或者定義字段錯誤,當然我們可以不先定義好字段,而在fiction.py中直接定義;
pipelines.py:主要是編寫數據清洗、驗證和存儲數據的代碼,當我們把數據存儲在csv、xml、pickle、marshal、json等文件時,就不需要在pipelines.py中編寫代碼了,只需要執行以下代碼即可:

scrapycrawlfiction文件名.后綴

當數據需要保存在MongoDB數據庫時,則編寫以下代碼即可:

frompymongoimportMongoClientclient=MongoClient()collection=client["Fiction"]["fiction"]classTest1Pipeline:defprocess_item(self,item,spider):collection.insert(item)returnitem

Spider爬蟲提取數據

在提取數據前,首先我們進入要爬取小說網站并打開開發者工具,如下圖所示:

我們通過上圖可以發現,<dl class="Volume">存放著我們所有小說章節名,點擊該章節就可以跳轉到對應的章節頁面,所以可以使用Xpath來通過這個p作為我們的xpath爬取范圍,通過for循環來遍歷獲取每個章節的名和URL鏈接。

跳轉章節內容頁面后,打開開發者工具,如下圖所示:

通過上圖可以發現,小說內容存儲在<p class="readAreaBox">里面,我們可以通過for循環來遍歷該dl中的<p class="p">獲取到章節的全部內容,當然也是通過使用Xpath來獲取。

items.py代碼定義字段

細心的小伙伴就發現了,我們所需要提前的字段有章節名、章節URL鏈接和章節內容,其中章節名和章節內容是需要進行數據保存的,所以可以先在items.py文件中定義好字段名,具體代碼如下所示:

importscrapyclassFictionItem(scrapy.Item):#definethefieldsforyouritemherelike:name=scrapy.Field()text=scrapy.Field()

定義字段很簡單,字段名=scrapy.Field()即可。

對了,在items.py定義好字段有個最好的好處是當我們在獲取到數據的時候,使用不同的item來存放不同的數據,在把數據交給pipeline的時候,可以通過isinstance(item,FictionItem)來判斷數據屬于哪個item,進行不同的數據(item)處理。

定義好字段后,這是我們通過在pipeline.py文件中編寫代碼,對不同的item數據進行區分,具體代碼如下:

fromFiction.itemsimportFictionItemclassFictionPipeline:defprocess_item(self,item,spider):ifisinstance(item,FictionItem):print(item)

當然,在我們爬取的項目中,只需要一個class類,在上面的代碼只是為了展示如何判斷區分數據屬于哪個item。

fiction.py代碼提取數據

fiction.py文件也就是我們創建的spider爬蟲,打開fiction.py文件,其代碼內容如下所示:

importscrapyclassFictionSpider(scrapy.Spider):name='fiction'allowed_domains=['www.17k.com']start_urls=['http://www.17k.com/']defparse(self,response):pass

其中:

name是定義此爬蟲名稱的字符串,每個項目唯一的名字,用來區分不同的Spider,啟動爬蟲時使用scrapy crawl +該爬蟲名字;
allowed_domains是允許爬取的域名,防止爬蟲爬到其他網站;
start_urls是最開始爬取的url;
parse()方法是負責解析返回響應、提取數據或進一步生成要處理的請求,注意:不能修改這個方法的名字。

大致了解該文件內容的各個部分后,我們開始提取首頁的章節名和章節URL鏈接,具體代碼如下所示:

importscrapyfromFiction.itemsimportFictionItemclassFictionSpider(scrapy.Spider):name='fiction'allowed_domains=['www.17k.com']start_urls=['https://www.17k.com/list/2536069.html']defparse(self,response):html=response.xpath('//dl[@class="Volume"]')books=html.xpath('./dd/a')forbookinbooks:item=FictionItem()item['name']=[]name=book.xpath('./span/text()').extract()foriinname:item['name'].append(i.replace('\n','').replace('\t',''))href=book.xpath('./@href').extract_first()href='https://www.17k.com'+hrefyieldscrapy.Request(url=href,callback=self.parse_detail,meta={'item':item})

首先導入FictionItem,再我們把start_urls鏈接修改為待會要爬的URL鏈接,在parse()方法中,使用xpath獲取章節名和章節URL鏈接,通過for循環調用FictionItem(),再把章節名存放在item里面。

通過生成器yield 返回調用scrapy.Request()方法,其中:

url=href:表示下一個爬取的URL鏈接;
callback:表示指定parse_detail函數作為解析處理;
meta:實現在不同的解析函數中傳遞數據。

在上一步中我們指定了parse_detail函數作為解析處理,接下來將編寫parse_detail函數來獲取章節內容,具體代碼如下所示:

defparse_detail(self,response):string=""item=response.meta['item']content=response.xpath('//*[@id="readArea"]/p[1]/p[2]//p/text()').extract()foriincontent:string=string+i+'\n'item['text']=stringyielditem

首先我們定義了一個空變量string,在通過response.meta[]來接收item數據,其參數為上一步中的meta={'item': item}的item,接下來獲取章節內容,最后將章節內容存儲在item['text']中,并通過生成器yield返回數據給引擎。

pipelines.py代碼保存數據

章節名和章節內容已經全部獲取下來了,接下來我們把獲取下來的數據保存為txt文件,具體代碼如下所示:

fromFiction.itemsimportFictionItemimporttimeclassFictionPipeline:defopen_spider(self,spider):print(time.time())defprocess_item(self,item,spider):ifisinstance(item,FictionItem):title=item['name']content=item['text']withopen(f'小說/{title[0]}.txt','w',encoding='utf-8')asf:f.write(content)defclose_spider(self,spider):print(time.time())

首先我們導入FictionItem、time,在open_spider()和close_spider()方法編寫代碼調用time.time()來獲取爬取的開始時間和結束時間,再在process_item()方法中,把引擎返回的item['name']和item['text']分別存放在title和content中,并通過open打開txt文件,調用write()把章節內容寫入在txt文件中。

settings.py代碼啟動爬蟲

在啟動爬蟲前,我們先要在settings.py文件中啟動引擎,啟動方式很簡單,只要找到下圖中的代碼,并取消代碼的注釋即可:

有人可能問:那User-Agent在哪里設置?我們可以在settings.py文件中,設置User-Agent,具體代碼如下:

好了,所有代碼已經編寫完畢了,接下來將啟動爬蟲了,執行代碼如下:

scrapycrawlfiction

啟動爬蟲后,發現我們控制臺里面多了很多log日志數據的輸出,這時可以通過在settings.py添加以下代碼,就可以屏蔽這些log日志:

LOG_LEVEL="WARNING"

結果展示

“Python的Scrapy框架簡單介紹和實例用法”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注本站網站,小編將為大家輸出更多高質量的實用文章!

本文由 貴州做網站公司 整理發布，部分圖文來源于互聯網，如有侵權，請聯系我們刪除，謝謝！

標簽：scrapy框架-

上一篇：resize(css中resize的作用是什么)

下一篇：cad移動(cad如何移動圖形)

網站建設網站推廣 SEO 網站運營網絡營銷

c語言中正確的字符常量是什么

2024-12-15

c語言中正確的字符常量是用一對單引號將一個字符括起表示合法的字符常量。例如‘a’。數值包括整型、浮點型。整型可用十進制，八進制，十六進制。八進制前面要加0，后面...

天津專升本最新信息2022年

2024-12-15

2022年天津專場考試原定于3月19日舉行，受疫情影響確定延期，但目前延期后的考試時間推遲。符合報名條件的考生，須在規定時間登錄招考資訊網(www.zha...

喜聞樂見的意思是

2024-12-15

：喜歡聽，樂意看。指很受歡迎?！巴卣官Y料”喜聞樂見：[ xǐ wén lè jiàn ]詳細解釋1. 【解釋】：喜歡聽，樂意看。指很受歡迎。2. 【示例】：這是...

河蚌怎么養？河蚌養殖方式有哪些？

2023-08-30

(相關資料圖)最近這段時間總有小伙伴問小編河蚌怎么養是什么，小編為此在網上搜尋了一些有關于河蚌怎么養的知識送給大家，希望能解答各位小伙伴的疑惑。目前河蚌養殖方式多采用吊養和籠養，吊養方法有單個吊養和串養在一根線上吊養兩只蚌以上，籠養數量依籠（網籠、網夾）的大小而定，一般以每只蚌都能接觸籠底為適宜。育珠河蚌一般畝養殖池塘為800-1200只，外蕩為600-800只，養殖密度具體視體重肥度，水體流動，...

農行的結息交易是什么意思？農業銀行結息怎么計算？計算公式如下

2023-08-29

農行的結息交易是什么意思在每個季度最后一個月的21日，中國農業銀行會將本季度內賬戶活期存款利息轉入到用戶的賬戶中，并在下一日為用戶發送含有“結息交易”字樣的短信。中國農業銀行發送的結息交易短信只顯示利息金額，不顯示賬戶余額。借記卡中活期存款采用積數計息按季結息，每季末月的20日為結息日，按結息日營業機構的活期執行利率計算的稅后利息，并入本金起息。中國農業銀行已經暫停收取利息...

時尚雜志排行榜(最好看的雜志排行榜)

2023-08-27

學過時尚的小伙伴應該會發現，其實，提高時尚品味是可以省錢的。最實用的是逛淘寶的時候，一眼就能從各種便宜的衣服里選出最好最合適的。再往前看，買一件衣服，就能想出各種穿法，一件能頂好幾件。而且，也很適合不買黨。在你提升了時尚思維之后，看看自己的衣柜，就能發現各種新的穿搭火花。再加上新的妝容和發型，不用買衣服就能做出各種新的漂亮造型~今天給大家帶來七本小女生Pakeezah分享的時尚雜志，她經常借鑒。這...