1. 程式人生 > >python爬取的資料如何匯入excel---以噹噹網為例

python爬取的資料如何匯入excel---以噹噹網為例

一、相關模組的下載與安裝

(一) 首先需要幾個模組,xlrd(下載地址為:https://pypi.org/project/xlrd/#files),xlwt(下載地址為:https://pypi.python.org/pypi)。現在以xlrd的安裝為例。

    cmd進入xlrd所在的資料夾,然後輸入pip install xlrd-1.1.0-py2.py3-none-any.whl(就是你所下載的模組的名稱),結果如圖所示:

                         (名稱)

                          

    由於xlwt已存在,所以就無需安裝:

                           

(二)BeautifulSoup的簡單介紹與安裝

    BeautifulSoup是一個可以從HTML或XML檔案中提取資料的Python庫,它能將HTML的標籤檔案解析成樹形結構,然後方便地獲取到指定標籤的對應屬性。

    安裝使用控制檯,輸入pip install beautifulsoup,發現已成功安裝。

                              

(三)同樣的方法安裝了xlutils(地址為https://pypi.org/project/xlutils/#files)和openpyxl(這個沒有去下載模組,直接在控制檯輸入pip install openpyxl),同時安扎un個了html5lib(這個直接誒控制檯安裝就好),如下圖所示:

                                 

二、爬取噹噹網並寫入excel

    本文以爬取噹噹網--圖書--科技類--計算機---程式設計為例,爬取程式設計類的圖書的書名、連結、評論數,並將內容寫入excel。

    首先設定items:

                                    1

    然後設定pipelines:

                                     

    最後設定爬蟲檔案dd.py的內容,見下圖:

                                    

三、執行結果

    從控制檯進入到dangdang資料夾,然後輸入scrapy crawl dd,就可以運行了,結果如下圖:

                                    4

    以上就是相關爬蟲寫入excel中的程式碼,還有很多不完善的地方,僅供大家參考。