1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          圍觀微博網友發起的美胸大賽

          來源:互聯網轉載 時間:2024-01-29 08:16:33

          網友:看看胸女:滾網友:美胸比賽女:[圖片消息]

          繼上次知乎話題 擁有一副好身材是怎樣的體驗? 解析了知乎回答內容之后,這次我們來解析一下微博內容,以微博網友發起的美胸大賽為例:

          https://m.weibo.cn/detail/4367970740108457

          https://m.weibo.cn/detail/4348022520956497

          這就是本次要獲取的微博圖片內容,共計672張很兇的照片:

          下面是講如何獲取的,不感興趣的話直接去公眾號回復 套圖 即可獲得。


          首先進入開發者工具看一下微博結構:

          這只是一小部分,微博評論和微博用戶發的微博頁面,里面都是以html5格式傳到本地的,把內容格式化之后就會發現,層級非常復雜,與其解析這個還不如用selenium更簡單一些。于是當時就產生了兩個思路:

          • 借助 splash 直接解析渲染后的頁面
          • 用 mitmproxy 抓手機APP微博的包,用 APPium 控制手機刷新評論

          不管是哪一種,相對于只是獲取一下圖片而言都麻煩。于是去網上搜一下,搜索結果都是前兩年爬取微博的方法,那時候還是用 ajax 以 json 格式傳遞,現在明顯已經不是。

          然后后面抱著僥幸心理把訪問形式改成手機,微博域名就從 weibo.com 變成了 weibo.cn,再看一下 network 選項卡以hotflow 開頭的 xhr :

          這時候 weibo.cn 傳給本地信息就是簡單的 json 格式啦。上圖就是微博評論列表的評論,可以看到每條評論如果有圖片,就會有 pic 屬性,但是要注意在 pic 下的 直接子 url 只是預覽圖鏈接,并非原圖。原圖鏈接在pic 屬性下 large 下的 url。其他的屬性是一些微博的標題、發送時間、內容、點贊數、評論數、轉發數和博主相關信息等。我們這次重點是圖片,就不管其他的了。

          另外微博的反爬措施很強,真的惡心到我了,如果有大規模爬取需求,建議去淘寶買號,建 Cookie池,或者用代理池不停地切換訪問主機。如果只用自己電腦本地Cookie,那就把請求頭弄全,并限制抓取速度。

          切換到 Headers 選項卡,看一下 Request URL :

          https://m.weibo.cn/comments/hotFlowChild?cid=4376866645060411&max_id=152030087630286&max_id_type=0

          可以看出它的格式是

          https://m.weibo.cn/comments/hotFlowChild? + cid + max_id + max_id_type'

          其中 cid 是每一條微博的唯一ID,max_id 是下一次傳回數據的最后一條評論的 ID。也就是往下翻看評論,每次顯示十條,并在這次所看的評論里就傳回 下十條評論的最后一條評論的唯一 ID,微博是根據這個ID傳回下十條內容。這也就直接限制了每次爬評論、微博、二級評論時只能一次獲取十條,也無法利用線程池加速,因為只有獲取了這十條才知道下十條請求地址里 max_id 的值。

          然后就可以由這些信息構造請求,獲取 json 格式的響應結果:

          comment_url = 'https://m.weibo.cn/comments/hotflow?id={weibo_id}&mid={weibo_id}&max_id={max_id}&max_id_type=0'url = comment_url.format(weibo_id=id, max_id=0)response = requests.get(url, headers=headers)result = json.loads(response.text)

          先獲取總評論數來計算需要多少次才能爬完評論:

          total_number = result.get('data').get('total_number')total_number = int(total_number)for i in range(int(total_number / 10)):    result = get_page(weibo_id)    for url in parse_comment(result):        save_to_img(url)

          下載完圖片只有700來張才知道靠后的評論都是無用的(一些朋友跟答主要聯系方式什么的)評論。

          然后就是獲取圖片地址:

          def parse_comment(result):    if result.get('ok') and result.get('data').get('data'):        comments = result.get('data').get('data')        for comment in comments:            if comment.get('pic'):                url = comment.get('pic').get('large').get('url')                yield url

          要先 if comment.get('pic') 一下,這很重要,因為很多無用評論并沒有配圖,也就是沒有 pic 屬性,要以這種方式過濾掉。

          另外還有這個:

          這里的二級評論就很有必要爬一下,看一下結構:

          值得注意的是二級評論里不管有沒有圖片都不會有 pic 屬性,圖片在回答內容text 里以 css 方式嵌套的,很明顯就是 a 標簽下的 href 屬性 就是圖片地址。用 pyquery 取出來地址:

          childs_comment = result.get('data')for child_comment in childs_comment:    text = child_comment.get('text')    content = pyquery.PyQuery(text)    url = content('a').attr('href')    yield url

          存儲圖片以圖片內容的 md5 值命名,可以去重:

          response = requests.get(url)if response.status_code == 200:img_path = '{0}/{1}.{2}'.format(path,md5(response.content).hexdigest(), 'jpg')  # 以圖片的md5字符串命名防止重復圖片

          最后接入某大廠的人體特征值檢測,考慮到圖片大多沒有露臉,識別男女性別不夠準,這里把未識別出人體的圖片去掉了(一些表情圖)。

          有興趣的可以公眾號回復 套圖 獲得這次微博圖片和上次知乎圖片微博結構比較簡單,與上次關于知乎的文章差不多,不再提供源碼。

          標簽:淘寶美胸大賽-

          網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...

          在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...

          在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...

          汽車的dynamic模式是什么意思?奧迪的動態模式意味著汽車處于動態轉向模式。奧迪RS 6首次采用DRC動態平順性控制的創新懸掛理念。它包括一個沒有電子控制的特殊減震系統,以避免車身側翻。當轉向或彎道時,阻尼系統可以大大抵消汽車繞縱軸(橫滾)的振動。在加速或制動時,動態行駛控制(DRC–動態行駛控制)還可以防止車輛繞橫軸振動。dynamic是什么意思?表示動態或移動模式。動態(動態或運動)模式相當...

          十堰哪家電腦維修比較好的?石巖的電腦維修集中在柳巖,不同的品牌會去相應的售后服務處,會好一些,其他的會去騙人。十堰萬瑞科技有限公司是做什么的軟件開發;系統集成;網絡工程、智能工程;工業自動化和辦公信息設備的銷售;信息技術和管理咨詢服務;計算機軟硬件銷售及售后服務;電腦配件銷售及維修服務;辦公設備和耗材的銷售。電腦壞了去那里修?1.如果認識的朋友知道,可以打電話問朋友。2.把電腦帶到附近的電腦市場,...

          內存2133和3600玩游戲差距大嗎?游戲,差距很小。這個差距需要根據你平時如何使用電腦,再看內存顆粒的好壞,然后需要考慮其他配件的影響??偟膩碚f,同樣的內存粒子,內存大概可以這樣分層,2133以下是低檔,3200以下是中檔,3200以上是高檔。如果你是游戲玩家,2133-3600之間的內存對大部分游戲影響不大,最大相差2%。只有少數會達到6%-8%的差距。如果你是辦公室黨,內存頻率的影響幾乎可以...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>