python爬取的資料如何匯入excel---以噹噹網為例
一、相關模組的下載與安裝
(一) 首先需要幾個模組,xlrd(下載地址為:https://pypi.org/project/xlrd/#files),xlwt(下載地址為:https://pypi.python.org/pypi)。現在以xlrd的安裝為例。
cmd進入xlrd所在的資料夾,然後輸入pip install xlrd-1.1.0-py2.py3-none-any.whl(就是你所下載的模組的名稱),結果如圖所示:
(名稱)
由於xlwt已存在,所以就無需安裝:
(二)BeautifulSoup的簡單介紹與安裝
BeautifulSoup是一個可以從HTML或XML檔案中提取資料的Python庫,它能將HTML的標籤檔案解析成樹形結構,然後方便地獲取到指定標籤的對應屬性。
安裝使用控制檯,輸入pip install beautifulsoup,發現已成功安裝。
(三)同樣的方法安裝了xlutils(地址為https://pypi.org/project/xlutils/#files)和openpyxl(這個沒有去下載模組,直接在控制檯輸入pip install openpyxl),同時安扎un個了html5lib(這個直接誒控制檯安裝就好),如下圖所示:
二、爬取噹噹網並寫入excel
本文以爬取噹噹網--圖書--科技類--計算機---程式設計為例,爬取程式設計類的圖書的書名、連結、評論數,並將內容寫入excel。
首先設定items:
然後設定pipelines:
最後設定爬蟲檔案dd.py的內容,見下圖:
三、執行結果
從控制檯進入到dangdang資料夾,然後輸入scrapy crawl dd,就可以運行了,結果如下圖:
以上就是相關爬蟲寫入excel中的程式碼,還有很多不完善的地方,僅供大家參考。