1. 程式人生 > >Python爬蟲將爬取的圖片寫入world文件

Python爬蟲將爬取的圖片寫入world文件

作為初學爬蟲的我,無論是爬取文字還是圖片,都可以遊刃有餘的做到,但是爬蟲所爬取的內容往往不是單獨的圖片或者文字,於是我就想是否可以將圖文儲存至world文件裡,一開始使用瞭如下方法儲存圖片:

 with open('123.doc','wb')as file:
     file.write(response.content)
     file.close()   

結果就是,world文件裡出現了一堆亂碼,此法不同,我就開始另尋他法,找了很久也沒有找到,只找到了關於Python操作world的方法。

於是我就開始了新的思路:使用原來的方法將圖片儲存下來,再將圖片新增到world文件裡,最後將圖片刪除。這裡使用的是python-dox庫,程式碼如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div'
,{"class":"thumb"})).split('src="')[1].split('"/')[0] tu = 'https:' + img img_name = img.split('/')[-1] #儲存圖片至本地 with open(img_name,'wb')as f: response = requests.get(tu).content f.write(response) f.close() document = Document() document.add_paragraph(wen)#向文件裡新增文字 document.add_picture(img_name)#向文件裡新增圖片
document.save('tuwen.doc')#儲存文件 os.remove(img_name)#刪除儲存在本地的圖片

最後,還是實現了將圖文儲存在了world文件裡,儘管方法有些笨……