python3爬蟲第一天(1)
阿新 • • 發佈:2018-04-22
python urlopen img src 調用 表達式 鏈接 AR 2.3
1.目標:用python3爬取慕課網課程頁的圖片,然後保存到本地。
2。打開pycharm編寫python代碼。思路如下:
2.1 . 從urllib庫裏導入request模塊。
2.2 用request模塊下的urlopen方法打開網頁獲取一個http響應對象
2.3 響應對象調用.read()方法轉換成字節流,類似與\r\n\xe5\x90\x8e\xe7\xab\xaf\
2.4 提取字節流中的圖片鏈接,用findall(r‘正則表達式‘,字節流),我用的正則findall(r‘src.+\.jpg‘,realhtml)
2.5 把圖片中的鏈接進行優化,加上‘http’
2.6 寫個for循環,每次循環就新建一個文件,然後把url依次從圖片鏈接表裏拿出來,然後再調用
request.urlopen(url),req.read(),然後把讀取的字節流放在圖片裏。代碼如下
3.
4.在本地生成圖片如下。
python3爬蟲第一天(1)