python之爬取網頁數據總結（一）

阿新 • • 發佈：2019-02-09

固定環境變量 http lec 了解線程 rom 第一個正則

今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。

因為配置了環境變量，可以cmd命令直接安裝。假如電腦上有兩個版本的python，建議進入到目錄安裝。

安裝的命令為 pip install requests（Beautifulsoup4 /lxml ）三條分別執行。

安裝結束，可以嘗試網上一些簡單的例子，明白了解 Beautifulsoup4 解析網頁所使用的方式。這個可以避開正則表達式，個人感覺學起來很方便。

soup.select(‘‘) 這個方法就是解析網頁代碼，提取其中某一部分。該方法的使用可以類比java 爬蟲的webmagic jsoupXpath-0.1.1.jar 的使用方法。

主要理解這個方法之後就可以看懂大部分代碼。

以下為網上的例子代碼，比較簡單，適合學習。

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        #r.encoding = ‘utf-8‘
        return r.text
    except:
        return ""
def getContent(url):
    html = getHTMLText(url)
    # print(html)
    soup = BeautifulSoup(html, "html.parser")
    title = soup.select("div.hd > h1")
    print(title[0].get_text())
    time = soup.select("div.a_Info > span.a_time")
    print(time[0].string)
    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")
    print(author[0].get_text())
    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")
    for para in paras:
        if len(para) > 0:
            print(para.get_text())
            print()
    #寫入文件
    fo = open("text.txt", "w+")
    fo.writelines(title[0].get_text() + "\n")
    fo.writelines(time[0].get_text() + "\n")
    for para in paras:
        if len(para) > 0:
            fo.writelines(para.get_text() + "\n\n")
    fo.writelines(author[0].get_text() + ‘\n‘)
    fo.close()
    #將爬取到的文章用字典格式來存
    article = {
        ‘Title‘ : title[0].get_text(),
        ‘Time‘ : time[0].get_text(),
        ‘Paragraph‘ : paras,
        ‘Author‘ : author[0].get_text()
    }
    print(article)
def main():
    url = "http://news.qq.com/a/20170504/012032.htm"
    getContent(url);
main()

　　掌握基本的爬取數據之後，便嘗爬取取大量數據。經過多次嘗試發現，首先需要準備多個ip，同一個ip多次訪問長時間會導致結果全部為空。

其次是多線程，為的是增加速度。python中多線程網上大多使用的是pool

使用

if __name__ == ‘__main__‘:#需加上這句代碼，這時是一種固定的寫法
    # pool()有一個參數，processes，表示有多少個進程,比如processes=2
    pool = ThreadPool()   //網上大部分使用的是pool=Pool()，但是經過多次嘗試總是失敗，然後改成了這樣的。

    pool.map(get_all_list_info,urlStr)  //兩個參數，第一個為調用的方法，該方法有參數，但是後邊不寫形參，map的第二個參數為一個叠代器，就是集合形式，會按順序取其中的數據，作為參數傳遞給方法。
    pool.close()
    pool.join()

掌握這些，基本可以實現大量數據爬取。

python之爬取網頁數據總結（一）

固定環境變量 http lec 了解線程 rom 第一個正則今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。因

3.10爬取網頁數據示例（二）

lec href icu fin done mage con img else import requestsimport osimport bs4url=‘http://xkcd.com‘ml=‘F:\ABD‘os.makedirs(ml,exist_ok=True)wh

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

Python爬蟲爬取動態頁面思路+例項（一）

簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷Q

03：requests與BeautifulSoup結合爬取網頁數據應用

fas bsp 2.3 m2e bae DC 信息 type 取數 1.1 爬蟲相關模塊命令回顧　　1、requests模塊 1、 pip install requests 2、 response =

使用webdriver+urllib爬取網頁數據

環境都是 mac net www med har turn 當我 urilib是python的標準庫，當我們使用Python爬取網頁數據時，往往用的是urllib模塊，通過調用urllib模塊的urlopen(url)方法返回網頁對象，並使用read()方法獲得url的h

python pandas模塊,nba數據處理（1）

excel inpu con num 表結構固定 sql 面向列 lines pandas提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。pandas兼具Numpy高性能的數組計算功能以及電子表格和關系型數據（如SQL）靈活的數據處理能力。它提供了復雜精細的

數據結構（一）之鏈表

存儲鏈表操作 author void 復雜 pac 部分地址插入一、鏈表　　鏈表是一種物理存儲單元上非連續、非順序的存儲結構，數據元素的邏輯順序是通過鏈表中的指針鏈接次序實現的。　　鏈表由一系列結點（鏈表中每一個元素稱為結點）組成，結點可以在運行時動態生成。每個

Python數據結構（一）字典

字典0x 01 字典簡介子典和列表是python中最常用的兩種數據類型，字典是鍵值對(key-value)格式的數據類型，它和列表一樣也有索引，但不是列表中的下標，而是使用key來作為索引，key所對應的值就是value，所以字典是無序的，因此任何時候只要訪問字典的key，便可以得到對應的value，

[讀書筆記] Python數據分析（一）準備工作

基礎 htm 環境防止功能多維處理工具 ati 增強 1. python中數據結構：矩陣，數組，數據框，通過關鍵列相互聯系的多個表（SQL主鍵，外鍵），時間序列 2. python 解釋型語言，程序員時間和CPU時間衡量，高頻交易系統 3. 全局解釋器鎖GIL，

數據結構（一）線性表循環鏈表之約瑟夫環

cli amp tlist isp alloc 個人 pla 初始 ont （一）前提 41個人報數，1-3，當誰報數為3，誰就去嗝屁。現在獲取他們嗝屁的順序（二）實現結構順序：3->1->5->2->4 （三）代碼實現 #def

problem-solving-with-algorithms-and-data-structure-usingpython(使用python解決算法和數據結構) -- 基本數據結構（一）

匹配剛才第一個 ems sem spl pla 查看線性數據結構 1. 什麽是線性數據結構？棧，隊列，deques, 列表是一類數據的容器，它們數據項之間的順序由添加或刪除的順序決定。一旦一個數據項被添加，它相對於前後元素一直保持該位置不變。諸

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

學習筆記之數據庫（一）——操作數據庫

swd 否則 userdel upd 執行文件忘記 alt 不能 ets 用戶權限的相關命令：權限類型： 01 讀 read r 4 02 寫 write w 2 03 執行 excute x 1 組權限：開發組：將所有開發人員添加到一個組中，這個組中所有

【數據庫】MySQL數據庫（一）

管理系統 ins 我的電腦使用語句命令行 mar alt rac 一、MySQL數據庫系統 MySQL數據庫系統就是用來對數據庫、數據的一些管理二、數據庫系統 1.數據庫就是用來存儲各種數據的 2.數據庫管理系統就是用來管理各種數據庫的數據的一個系統

算法導論筆記——第十~十一章數據結構（一）散列

發生情況要求 sub 裝載 ted 因子 let 完全第十章基本數據結構棧：可由數組表示隊列：可由數組表示指針和對象：可由多數組表示。可用棧表示free list 有根數：　　二叉樹：左右孩子　　分支無限制：左孩子右兄弟表示法第十一章散列表數組：

數據聚合（一）

ref 過去的 div 觀測 ive -a 由於默認會有在統計學中，聚合的定義指使用基於多組觀測結果的總結的統計替換多組觀測結果 -- 來自 https://web.archive.org/web/20120112062156/http://www.r-blogg

數據庫（一），範式

兩個 direct alt 反範式還需二維查詢 block 表拆分範式為什麽要用範式我們在學習關系型數據庫的時候一定有感覺，關系數據庫不就是一個二維表格嗎，那麽數據庫有什麽用？數據庫看上去像一個表格，其實不然，比如如下的訂單表，一個訂單號X2001對應一個用戶

使用XStream解析復雜XML並插入數據庫（一）

針對很多 trac ota print root parser 沒有 jdbc 環境： Springboot+mysql 我只想說jpa真的超級好用，準備深入研究一下~ 導入依賴： <dependency> <groupId>org.proj

Redis的數據結構（一）

惰性 api rim 緩沖可能過程 edi strong body （一）使用SDS（simple dynamic string）簡單動態字符串。好處： 1.可以杜絕緩沖區溢出。--->SDS API在修改SDS時會進行空間判斷，【空間不足會自動擴充-->

python之爬取網頁數據總結（一）

相關推薦