1. 程式人生 > >python爬取花瓣妹子資訊

python爬取花瓣妹子資訊

因為花瓣妹子資訊是動態載入的,所以如果用原始方法直接爬取網頁的方法是爬不到的,這裡我們用selenium來自動化處理。
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
import time

url = ‘http://huaban.com/boards/favorite/beauty/
headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36’}

brower = webdriver.Chrome(‘F:\chromedriver\chromedriver.exe’) #載入谷歌驅動
chromedriver下載地址:https://sites.google.com/a/chromium.org/chromedriver/downloads
brower.implicitly_wait(3)
brower.get(url)
for i in range(15):
brower.execute_script(‘window.scrollTo(0,document.body.scrollHeight);’)
time.sleep(2)
Soup = BeautifulSoup(brower.page_source,’lxml’)
好了,動態原始碼搞到,下面我來爬取妹子圖片左上角上的名字
for name in Soup.find(‘div’,id=’waterfall’).find_all(‘div’,class_=’over’):
print(name.h3.string)

ok啦,名字成功到手,有興趣可以爬取妹子圖片,有什麼問題可以在評論中交流啦啦啦!

相關推薦

python花瓣妹子資訊

因為花瓣妹子資訊是動態載入的,所以如果用原始方法直接爬取網頁的方法是爬不到的,這裡我們用selenium來自動化處理。 import requests from bs4 import BeautifulSoup from selenium import w

python自如房間資訊(二)

主要是針對自如房價的爬取 。以下程式碼對房價圖片進行處理,將裡面的數字提取出來,然後用knn最近鄰演算法去對圖片上的資料進行分類。 import sys import cv2 import numpy as np ####### training part ###########

python自如房間資訊(一)

使用python和selenium+Chrome Headless爬取自如房間資訊,並將結果儲存在MongoDB中。其中最麻煩的應該是每間房的價格,因為自如是用一張圖片和offset來顯示價格,所以不能直接獲得。但我們可以通過將圖片轉為文字,再通過偏移量將數字組合為價格。 在這裡我們使用的是Ch

python杭州市幼兒園資訊

一、爬取前準備 1、IDE使用pycharm 2、安裝相關的庫,requests,re,xlsxwritter,beautifulsoup 如圖看到,網頁由頂部的區域,中間的學校列表和底部的分頁等幾個重要的部分組成。檢視網頁原始碼,可以看到上述的三個部分都

一文搞懂如何用Python上市公司資訊

1. 概念準備 Python基本概念 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0) r意思是強制不轉義字串 TableTableTable型表格

Python全站妹子圖片,差點硬碟走火了!

Python爬取全站妹子圖片,差點硬碟走火了! 程式設計小道士 2019-01-05 17:03:51 在這嚴寒的冬日,為了點燃我們的熱情,今天小編可是給大家帶來了偷偷收藏了很久的好東西。大家要注意點哈,我第一次使用的時候,大意導致差點壞了大事哈!   想學

Python全站妹子圖片, 差點硬碟走火了!

在這嚴寒的冬日,為了點燃我們的熱情,小編可是給大家帶來了偷偷收藏了很久的好東西。大家要節制點使用啊,我第一次使用的時候,不小心差點壞了大事。。。     想學Python或者對Python感興趣的老鐵,想要Python資料的夥計,都可以加群571799375,

使用Python學校學生資訊!(簡單爬蟲)

很久木有來寫博文啦,發現學校的教務系統很多童鞋都木有修改初始密碼,於是博主就想寫試用python寫一個爬蟲小指令碼,將木有修改初始密碼的童鞋資料扒下來,然後嘿嘿嘿~~~通知他們修改! 鑑於寫博文時未通知這些受害童鞋們,因此隱去關鍵資訊。 首先為初始化方法__

Python磁力鏈資訊

更新說明 2017.4.23 本程式使用MySQL資料庫儲存,使用本程式前請手動修改相關程式開頭處的資料庫連線語句。 需要requests、bs4、pymysql庫支援。 爬取和網站目錄結構有關,網

python貓眼電影資訊

爬取TOP100所有電影的資訊,(電影名, 主演, 上映時間) 爬取該電影的宣傳封面的圖片, 儲存到本地/mnt/img/目錄中; 將獲取的資訊, 儲存到mysql資料庫中(電影名, 主演, 上映時間, 封面圖片的本地路徑) import re #<

python豆瓣電影資訊

''' 用到的主要知識:(詳情見官方文件) 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

爬蟲:用Python招聘職位資訊&職位需求分析

用Python爬取智聯招聘網站“資料分析”相關崗位資訊 # _*_ coding: utf-8 _*_ from bs4 import BeautifulSoup import requests import csv import json import pa

python 豆瓣書籍資訊

繼爬取 貓眼電影TOP100榜單 之後,再來爬一下豆瓣的書籍資訊(主要是書的資訊,評分及佔比,評論並未爬取)。原創,轉載請聯絡我。 需求:爬取豆瓣某型別標籤下的所有書籍的詳細資訊及評分 語言:python 支援庫: 正則、解析和搜尋:re、requests、bs4、lxml

Python知乎妹子都愛啥名

imread gen fancybox pda port fun dmi mage panda 閑來無事上知乎,看到好多妹子,於是抓取一波。 有沒有興趣?? 目標網址https://www.zhihu.com/collection/78172986 抓取分析 爬取分析

python煎蛋妹子圖(老司機養成之路)

chrom all with file windows import apple 妹子 lib 源碼: 1 import urllib.request 2 from bs4 import BeautifulSoup 3 import os 4 import io

python 爬蟲 requests+BeautifulSoup 巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲,自我感覺極差啊,代碼low,效率差,也沒有保存到本地文件或者數據庫,強行使用了一波多線程導致數據順序發生了變化。。。 貼在這裏,引以為戒吧。 #

利用高德API + Python鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家 實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

Python爬蟲 - 網頁文字資訊並儲存(美文的與儲存)

 本篇文章所包含的主要內容:  使用requests模組實現對網頁以字串的形式儲存 使用open()、write()、close()函式實現檔案的開啟與寫入 使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

Python練習三:爬蟲練習,從一個提供免費代理的網站中IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url):   req = urllib.request.Request(url)   req

Python爬蟲:網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例,程式碼如下: 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo