python使用requests爬取資料（酷狗hot500案例）（講解細緻）

阿新 • • 發佈：2019-01-03

關於使用requests爬取酷狗hot500的案例

1. 案例環境：

python版本：python3.x;

IDE：anaconda-spider；（已安裝好需要的requests，bs4庫等）

資料庫：mysql.5.7

工具包：pymsql(安裝將補充)、requests，beautifulsoup

2. 思路分析：

2.1 確定待爬取的url：

http://www.kugou.com/yy/rank/home/1-8888.html?from=homepage

說明：其頁數的變化是修改1-8888中的1，即第n頁為n-8888

使用火狐瀏覽器檢視網頁的程式碼：ctrl+shift+i，先點選如圖紅框中按鈕，再在網頁上點選需要檢視內容就會定位到對應的程式碼，如圖1：

圖1

2.2 確定爬取的資料

確定爬取的歌曲排名的標籤class類名：pc_temp_songnum，如圖2：

圖2

確定爬取的歌曲名稱和歌手的標籤class類名：pc_temp_songname，如圖3：

圖3

確定爬取的歌曲時間的標籤class類名：pc_temp_time；如圖4：

圖4

3. 程式碼分析：


     
      
       
        
       
       
        
         # -*- coding: utf-8 -*- 

        
       
      
       
        
       
       
        
         """
        
       
      
       
        
       
       
        
         Created on Sat Feb 24 21:00:31 2018
        
       
      
       
        
       
       
        
         @author: piqia
        
       
      
       
        
       
       
        
         """
        
       
      
       
        
       
       
        
         # 匯入時間模組 可以呼叫sleep方法,避免頻繁地爬去資訊而被遮蔽
        
       
      
       
        
       
       
        
         import time
        
       
      
       
        
       
       
        
         #使用requests庫獲取爬取的頁面
        
       
      
       
        
       
       
        
         import requests
        
       
      
       
        
       
       
        
         #從bs4中匯入BeautifulSoup，用於解析html頁面
        
       
      
       
        
       
       
        
         from bs4 
         import BeautifulSoup
        
       
      
       
        
       
       
        
         #這是使用mysql資料庫，將爬取的資料寫到mysql資料中
        
       
      
       
        
       
       
        
         import pymysql
        
       
      
       
        
       
       
        
         #初始化連線物件、執行物件
        
       
      
       
        
       
       
        
         connection=
         None
        
       
      
       
        
       
       
        
         cursor=
         None
        
       
      
       
        
       
       
        
         #設定訪問的頭，偽裝瀏覽器，註釋1
        
       
      
       
        
       
       
        
         headers={
        
       
      
       
        
       
       
                
         'User-Agent': 
         'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0'
        
       
      
       
        
       
       
        
                 }
        
       
      
       
        
       
       
        
         #爬取的函式,獲取酷狗音樂TOP500的資訊,引數為一個連線地址，一個數據操作物件
        
       
      
       
        
       
       
        
         def get_info(url,mysqlHelper):
        
       
      
       
        
       
       
            
         #使用requests獲取,並設定headers引數
        
       
      
       
        
       
       
        
             wb_data=requests.get(url, params=headers) 
        
       
      
       
        
       
       
            
         #對爬取到的資料使用text獲取，進行解析
        
       
      
       
        
       
       
        
             soup = BeautifulSoup(wb_data.text, 
         'lxml') 
        
       
      
       
        
       
       
            
         # 獲取排名
        
       
      
       
        
       
       
        
             ranks = soup.select(
         '.pc_temp_num') 
        
       
      
       
        
       
       
            
         # 獲取歌名和歌手
        
       
      
       
        
       
       
        
             titles = soup.select(
         '.pc_temp_songname')  
        
       
      
       
        
       
       
            
         # 歌曲時長list
        
       
      
       
        
       
       
        
             song_times = soup.select(
         '.pc_temp_time') 
        
       
      
       
        
       
       
            
         #排名，歌名。歌手，時間都是一一對應的列表格式，用for迴圈進行遍歷，寫入data字典中，可寫入mongodb，也可寫到mysql，這是寫到mysql中
        
       
      
       
        
       
       
            
         for rank,title,song_time 
         in zip(ranks,titles,song_times):
        
       
      
       
        
       
       
        
                 data={
        
       
      
       
        
       
       
                       
         'rank': rank.get_text().strip(), 
         #獲取標籤的中的內容，並把附近的空格、換行刪除
        
       
      
       
        
       
       
                       
         'singer':title.get_text().split(
         '-')[
         0].strip(),  
         #將字串切割出一個列表獲取第一個
        
       
      
       
        
       
       
                       
         'song':title.get_text().split(
         '-')[
         1].strip(),    
         #將字串切割出一個列表獲取第二個
        
       
      
       
        
       
       
                       
         'time':song_time.get_text().strip()               
         #獲取時間值
        
       
      
       
        
       
       
        
                         }
        
       
      
       
        
       
       
                
         #根據獲取的資料，寫出插入資料
        
       
      
       
        
       
       
        
                 sql=
         '''insert into songs values("{0}","{1}","{2}","{3}")'''.format(data[
         'rank'],data[
         'singer'],data[
         'song'],data[
         'time'])
        
       
      
       
        
       
       
                
         #列印驗證
        
       
      
       
        
       
       
        
                 print(sql)
        
       
      
       
        
       
       
        
                 print(
         "-"*
         20)
        
       
      
       
        
       
       
                
         #呼叫物件這的方法寫入方法
        
       
      
       
        
       
       
        
                 mysqlHelper.insert(sql)
        
       
      
       
        
       
       
        
         #建立一個數據庫操作物件
        
       
      
       
        
       
       
        
         class mysqlHelper():
        
       
      
       
        
       
       
            
         #初始化，類似於java中的資料的定義
        
       
      
       
        
       
       
            
         def __init__(self):
        
       
      
       
        
       
       
        
                 self.connection=
         None
        
       
      
       
        
       
       
        
                 self.cursor=
         None
        
       
      
       
        
       
       
            
         #關閉資料方法
        
       
      
       
        
       
       
            
         def close(self):
        
       
      
       
        
       
       
                
         if self.cursor:
        
       
      
       
        
       
       
        
                     self.cursor.close()
        
       
      
       
        
       
       
                
         if self.connection:
        
       
      
       
        
       
       
        
                     self.connection.close()
        
       
      
       
        
       
       
            
         #操作mysql語句
        
       
      
       
        
       
       
            
         def insert(self,sql):
        
       
      
       
        
       
       
                
         #使用try except，處理異常
        
       
      
       
        
       
       
                
         try:
        
       
      
       
        
       
       
                    
         #使出pymysql獲取mysql資料庫連線
        
       
      
       
        
       
       
        
                     self.connection=pymysql.connect(host=
         'localhost',user=
         'root',passwd=
         'root',db=
         'myproject',charset=
         'utf8')
        
       
      
       
        
       
       
                    
         #獲取資料操作物件
        
       
      
       
        
       
       
        
                     self.cursor=self.connection.cursor()
        
       
      
       
        
       
       
                    
         #執行sql語句
        
       
      
       
        
       
       
        
                     self.cursor.execute(sql)
        
       
      
       
        
       
       
                    
         #事務提交
        
       
      
       
        
       
       
        
                     self.connection.commit()  
        
       
      
       
        
       
       
                
         except Exception 
         as ex:
        
       
      
       
        
       
       
                    
         #異常資料回滾，不進行mysql資料的執行
        
       
      
       
        
       
       
        
                     self.connection.rollback()
        
       
      
       
        
       
       
                    
         #列印異常資訊
        
       
      
       
        
       
       
        
                     print(ex)
        
       
      
       
        
       
       
                
         finally:
        
       
      
       
        
       
       
                    
         #關閉資源
        
       
      
       
        
       
       
        
                     self.close()
        
       
      
       
        
       
       
        
         #如果直接使用本檔案就執行
        
       
      
       
        
       
       
        
         if __name__==
         '__main__':
        
       
      
       
        
       
       
            
         #初始化資料庫
        
       
      
       
        
       
       
        
             sql0=
         "DROP TABLE IF EXISTS `songs`"
        
       
      
       
        
       
       
        
             sql1 = 
         "CREATE TABLE `songs` (`rank` varchar(5),`songer` varchar(100),`song` varchar(50),`time` varchar(10))ENGINE=InnoDB DEFAULT CHARSET=utf8;"
        
       
      
       
        
       
       
            
         #建立物件
        
       
      
       
        
       
       
        
             mysqlHelper=mysqlHelper()
        
       
      
       
        
       
       
            
         #清空資料庫中songs的表格
        
       
      
       
        
       
       
        
             mysqlHelper.insert(sql0)
        
       
      
       
        
       
       
            
         #建立表格，經過測試，不可以同時執行這兩條語句
        
       
      
       
        
       
       
        
             mysqlHelper.insert(sql1)
        
       
      
       
        
       
       
            
         #生成要遍歷成的url,使用列表生成器的方式
        
       
      
       
        
       
       
        
             urls=[
         'http://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(str(i)) 
         for i 
         in range(
         1,
         24)]
        
       
      
       
        
       
       
            
         for url 
         in urls:
        
       
      
       
        
       
       
                
         #呼叫get_info方法進行爬取
        
       
      
       
        
       
       
        
                 get_info(url,mysqlHelper)
        
       
      
       
        
       
       
                
         #推遲1s
        
       
      
       
        
       
       
        
                 time.sleep(
         1)

4. 執行結果

如圖5為spider執行結果片段，圖6是將爬取的資料寫到資料的結果。

圖5

圖6

5. 補充

5.1 Headers的獲取

開啟火狐-->crtl+shift+i-->網路（圖7）-->訊息頭（圖8）即可找到。

圖7

圖8

5.2 注意

由於歌曲名，歌手長度不定在建立資料庫的時候要考慮各個列的長度。

5.3 pymysql工具包的安裝

方式比較多，這裡我使用anaconda中便捷的安裝方式：開啟anaconda --> envirments(圖9)選擇All-->搜尋pymysql（圖10）安裝即可。

圖9

圖10

關於使用requests爬取酷狗hot500的案例

1. 案例環境：

python版本：python3.x;

IDE：anaconda-spider；（已安裝好需要的requests，bs4庫等）

資料庫：mysql.5.7

工具包：pymsql(安裝將補充)、requests，beautifulsoup

2. 思路分析：

2.1 確定待爬取的url：

http://www.kugou.com/yy/rank/home/1-8888.html?from=homepage

說明：其頁數的變化是修改1-8888中的1，即第n頁為n-8888

使用火狐瀏覽器檢視網頁的程式碼：ctrl+shift+i，先點選如圖紅框中按鈕，再在網頁上點選需要檢視內容就會定位到對應的程式碼，如圖1：

圖1

2.2 確定爬取的資料

確定爬取的歌曲排名的標籤class類名：pc_temp_songnum，如圖2：

圖2

確定爬取的歌曲名稱和歌手的標籤class類名：pc_temp_songname，如圖3：

圖3

確定爬取的歌曲時間的標籤class類名：pc_temp_time；如圖4：

圖4

3. 程式碼分析：


  
   
    
     
    
    
     
      # -*- coding: utf-8 -*-
     
    
   
    
     
    
    
     
      """
     
    
   
    
     
    
    
     
      Created on Sat Feb 24 21:00:31 2018
     
    
   
    
     
    
    
     
      @author: piqia
     
    
   
    
     
    
    
     
      """
     
    
   
    
     
    
    
     
      # 匯入時間模組 可以呼叫sleep方法,避免頻繁地爬去資訊而被遮蔽
     
    
   
    
     
    
    
     
      import time
     
    
   
    
     
    
    
     
      #使用requests庫獲取爬取的頁面
     
    
   
    
     
    
    
     
      import requests
     
    
   
    
     
    
    
     
      #從bs4中匯入BeautifulSoup，用於解析html頁面
     
    
   
    
     
    
    
     
      from bs4 
      import BeautifulSoup
     
    
   
    
     
    
    
     
      #這是使用mysql資料庫，將爬取的資料寫到mysql資料中
     
    
   
    
     
    
    
     
      import pymysql
     
    
   
    
     
    
    
     
      #初始化連線物件、執行物件
     
    
   
    
     
    
    
     
      connection=
      None
     
    
   
    
     
    
    
     
      cursor=
      None
     
    
   
    
     
    
    
     
      #設定訪問的頭，偽裝瀏覽器，註釋1
     
    
   
    
     
    
    
     
      headers={
     
    
   
    
     
    
    
             
      'User-Agent': 
      'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0'
     
    
   
    
     
    
    
     
              }
     
    
   
    
     
    
    
     
      #爬取的函式,獲取酷狗音樂TOP500的資訊,引數為一個連線地址，一個數據操作物件
     
    
   
    
     
    
    
     
      def get_info(url,mysqlHelper):
     
    
   
    
     
    
    
         
      #使用requests獲取,並設定headers引數
     
    
   
    
     
    
    
     
          wb_data=requests.get(url, params=headers) 
     
    
   
    
     
    
    
         
      #對爬取到的資料使用text獲取，進行解析
     
    
   
    
     
    
    
     
          soup = BeautifulSoup(wb_data.text, 
      'lxml') 
     
    
   
    
     
    
    
         
      # 獲取排名
     
    
   
    
     
    
    
     
          ranks = soup.select(
      '.pc_temp_num') 
     
    
   
    
     
    
    
         
      # 獲取歌名和歌手
     
    
   
    
     
    
    
     
          titles = soup.select(
      '.pc_temp_songname')  
     
    
   
    
     
    
    
         
      # 歌曲時長list
     
    
   
    
     
    
    
     
          song_times = soup.select(
      '.pc_temp_time') 
     
    
   
    
     
    
    
         
      #排名，歌名。歌手，時間都是一一對應的列表格式，用for迴圈進行遍歷，寫入data字典中，可寫入mongodb，也可寫到mysql，這是寫到mysql中
     
    
   
    
     
    
    
         
      for rank,title,song_time 
      in zip(ranks,titles,song_times):
     
    
   
    
     
    
    
     
              data={
     
    
   
    
     
    
    
                    
      'rank': rank.get_text().strip(), 
      #獲取標籤的中的內容，並把附近的空格、換行刪除
     
    
   
    
     
    
    
                    
      'singer':title.get_text().split(
      '-')[
      0].strip(),  
      #將字串切割出一個列表獲取第一個
     
    
   
    
     
    
    
                    
      'song':title.get_text().split(
      '-')[
      1].strip(),    
      #將字串切割出一個列表獲取第二個
     
    
   
    
     
    
    
                    
      'time':song_time.get_text().strip()               
      #獲取時間值
     
    
   
    
     
    
    
     
                      }
     
    
   
    
     
    
    
             
      #根據獲取的資料，寫出插入資料
     
    
   
    
     
    
    
     
              sql=
      '''insert into songs values("{0}","{1}","{2}","{3}")'''.format(data[
      'rank'],data[
      'singer'],data[
      'song'],data[
      'time'])
     
    
   
    
     
    
    
             
      #列印驗證
     
    
   
    
     
    
    
     
              print(sql)
     
    
   
    
     
    
    
     
              print(
      "-"*
      20)
     
    
   
    
     
    
    
             
      #呼叫物件這的方法寫入方法
     
    
   
    
     
    
    
     
              mysqlHelper.insert(sql)
     
    
   
    
     
    
    
     
      #建立一個數據庫操作物件
     
    
   
    
     
    
    
     
      class mysqlHelper():
     
    
   
    
     
    
    
         
      #初始化，類似於java中的資料的定義
     
    
   
    
     
    
    
         
      def __init__(self):
     
    
   
    
     
    
    
     
              self.connection=
      None
     
    
   
    
     
    
    
     
              self.cursor=
      None
     
    
   
    
     
    
    
         
      #關閉資料方法
     
    
   
    
     
    
    
         
      def close(self):
     
    
   
    
     
    
    
             
      if self.cursor:
     
    
   
    
     
    
    
     
                  self.cursor.close()
     
    
   
    
     
    
    
             
      if self.connection:
     
    
   
    
     
    
    
     
                  self.connection.close()
     
    
   
    
     
    
    
         
      #操作mysql語句
     
    
   
    
     
    
    
         
      def insert(self,sql):
     
    
   
    
     
    
    
             
      #使用try except，處理異常
     
    
   
    
     
    
    
             
      try:
     
    
   
    
     
    
    
                 
      #使出pymysql獲取mysql資料庫連線
     
    
   
    
     
    
    
     
                  self.connection=pymysql.connect(host=
      'localhost',user=
      'root',passwd=
      'root',db=
      'myproject',charset=
      'utf8')
     
    
   
    
     
    
    
                 
      #獲取資料操作物件
     
    
   
    
     
    
    
     
                  self.cursor=self.connection.cursor()
     
    
   
    
     
    
    
                 
      #執行sql語句
     
    
   
    
     
    
    
     
                  self.cursor.execute(sql)
     
    
   
    
     
    
    
                 
      #事務提交
     
    
   
    
     
    
    
     
                  self.connection.commit()  
     
    
   
    
     
    
    
             
      except Exception 
      as ex:
     
    
   
    
     
    
    
                 
      #異常資料回滾，不進行mysql資料的執行
     
    
   
    
     
    
    
     
                  self.connection.rollback()
     
    
   
    
     
    
    
                 
      #列印異常資訊
     
    
   
    
     
    
    
     
                  print(ex)
     
    
   
    
     
    
    
             
      finally:
     
    
   
    
     
    
    
                 
      #關閉資源
     
    
   
    
     
    
    
     
                  self.close()
     
    
   
    
     
    
    
     
      #如果直接使用本檔案就執行
     
    
   
    
     
    
    
     
      if __name__==
      '__main__':
     
    
   
    
     
    
    
         
      #初始化資料庫
     
    
   
    
     
    
    
     
          sql0=
      "DROP TABLE IF EXISTS `songs`"
     
    
   
    
     
    
    
     
          sql1 = 
      "CREATE TABLE `songs` (`rank` varchar(5),`songer` varchar(100),`song` varchar(50),`time` varchar(10))ENGINE=InnoDB DEFAULT CHARSET=utf8;"
     
    
   
    
     
    
    
         
      #建立物件
     
    
   
    
     
    
    
     
          mysqlHelper=mysqlHelper()
     
    
   
    
     
    
    
         
      #清空資料庫中songs的表格
     
    
   
    
     
    
    
     
          mysqlHelper.insert(sql0)
     
    
   
    
     
    
    
         
      #建立表格，經過測試，不可以同時執行這兩條語句
     
    
   
    
     
    
    
     
          mysqlHelper.insert(sql1)
     
    
   
    
     
    
    
         
      #生成要遍歷成的url,使用列表生成器的方式
     
    
   
    
     
    
    
     
          urls=[
      'http://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(str(i)) 
      for i 
      in range(
      1,
      24)]
     
    
   
    
     
    
    
         
      for url 
      in urls:
     
    
   
    
     
    
    
             
      #呼叫get_info方法進行爬取
     
    
   
    
     
    
    
     
              get_info(url,mysqlHelper)
     
    
   
    
     
    
    
             
      #推遲1s
     
    
   
    
     
    
    
     
              time.sleep(
      1)

4. 執行結果

python使用requests爬取資料（酷狗hot500案例）（講解細緻）

關於使用requests爬取酷狗hot500的案例 1. 案例環境： python版本：python3.x;

java爬取並下載酷狗TOP500歌曲

是這樣的，之前買車送的垃圾記錄儀不能用了，這兩天狠心買了好點的記錄儀，帶導航、音樂、藍芽、4G等功能，尋思，既然有這些功能就利用起來，用4G聽歌有點奢侈，就準備去酷狗下點歌聽，居然都是需要辦會員才能下載，而且vip一月只能下載300首，我這麼窮又這麼摳怎麼可能衝

python：爬蟲爬取資料的處理之Json字串的處理（2）

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

python 爬蟲（三）模擬post請求，爬取資料

import urllib.request import urllib.parse url =r"http://www.baidu.com" #將要傳送的資料合成一個字典 #字典的鍵值在網頁裡找 data = { "username":"1507", "password":"230

scrapy框架爬取資料入庫（附詳細介紹）

在論壇上看過很多的scrapy資料入庫（mysql）的例子，但是我嘗試之後總是出現一些莫名其妙的錯誤，搞得自己走了很多彎路，於是我將我認為是最簡單易懂的方法和程式碼展示給大家，歡迎大家吐槽1.建立scrapy專案（安裝scrapy框架和mysql資料庫就不在這討論了，論壇上也

python爬取資料（豆瓣上TOP250的電影資訊）初學者必看！！！

python爬取豆瓣上TOP250電影初學python爬蟲。我這裡用的 lxml提取xpath的方式來爬取資料 lxml爬取的速度會比bs4快，所以這裡我選用的lxml 話不多上，趕緊上教程。爬取的思路： 1.獲取網頁解析（有些網頁需要代理） 2.解析完成之

爬蟲入門講解（用urllib庫爬取資料）

首先介紹說明什麼是爬蟲？是一種按照一定的規則，自動地抓取網際網路資訊的程式或者指令碼。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在 Python中有很多庫可以用來抓取網頁爬蟲分類通用爬蟲（General Purpose

用python的matplotlib和numpy庫繪製股票K線均線的整合效果（含從網路介面爬取資料和驗證交易策略程式碼）

本人最近在嘗試著發表“以股票案例入門Python程式語言”系列的文章，在這些文章裡，將用Python工具繪製各種股票指標，在講述各股票指標的含義以及計算方式的同時，驗證基於各種指標的交易策略，本文是第一篇，通過K線和均線案例講述Numpy，Maplotlib

C#簡單爬取資料（.NET使用HTML解析器ESoup和正則兩種方式匹配資料）

一、獲取資料想弄一個數據庫，由於需要一些人名，所以就去百度一下，然後發現了360圖書館中有很多人名然後就像去複製一下，發現複製不了，需要登陸此時f12檢視原始碼是可以複製的，不過就算可以複製想要插入資料也是很麻煩的。既然複製走不通，於是我抱著探索知識的精神，打開了Visual Studio 首先我

將豆瓣排名前250爬取資料通過sqlite3存入資料庫

#爬取豆瓣top250電影，並儲存到資料庫 import requests from bs4 import BeautifulSoup import sqlite3 def get_html(web_url): user_agent = 'Mozilla/5.0 (Linux; Andro

R中使用rvest爬取資料小試

總結R中使用 xpath 和 css selectors 獲取標籤內容(xpath功能強大，而CSS選擇器通常語法比較簡潔，執行速度更快些) 例:抓取下面標籤的內容： <h3 class="lister index unbold text"><span>小明他很忙</

selenium+python爬取資料跳轉網頁

專案要做一個四個層級欄的資料抓取，而且點選查詢後資料會在新跳出的網頁。原始碼如下註釋解釋 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.15

爬取資料省市縣鎮村

package aa; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Jsoup; import org.jsoup.nodes.Document;

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

用appium爬取資料python3實現

二、參考博文以下網址對於這篇教程非常重要，感謝分享在看這篇教程前，希望你已經具備selenium動態抓取網頁的知識，若不熟悉，可參看https://blog.csdn.net/Fan_shui/article/details/81516645 三、

Python使用xpath爬取資料返回空列表解決方案積累

筆者以爬取2018年AAAI人工智慧頂會論文元資料為例。其中包括標題(title)和摘要(abstract)等欄位前言：首先需要檢視該網頁是否可以爬取，通過在URL後加入/robots,txt可以檢視。 ①tbody問題 URL:2018AAAI的第一篇

Python 爬取網頁中JavaScript動態新增的內容（二）

使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install selenium phantomjs（是一種無介面的瀏覽器，用於完成網頁的渲染）下載：http://phantomjs.or

Python 爬取網頁中JavaScript動態新增的內容（一）

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。那麼，通過Web kit可以簡單解決這個

Selenium+phanmJs 操作瀏覽器爬取資料

什麼是selenium？是Python的一個第三方庫，對外提供的介面可以操作瀏覽器，然後讓瀏覽器完成自動化的操作。　　環境搭建安裝selenum：pip install selenium 獲取某一款瀏覽器的驅動程式（以谷歌瀏覽器為例）谷歌瀏覽器驅動下載地址：http://chromedriv

python使用requests爬取資料（酷狗hot500案例）（講解細緻）

關於使用requests爬取酷狗hot500的案例

1. 案例環境：

2. 思路分析：

2.1 確定待爬取的url：

2.2 確定爬取的資料

3. 程式碼分析：

4. 執行結果

5. 補充

5.1 Headers的獲取

5.2 注意

5.3 pymysql工具包的安裝

關於使用requests爬取酷狗hot500的案例

1. 案例環境：

2. 思路分析：

2.1 確定待爬取的url：

2.2 確定爬取的資料

3. 程式碼分析：

4. 執行結果

相關推薦