python爬蟲學習：第一爬_快眼看書排行榜

阿新 • • 發佈：2018-07-13

font n) 對象 file 叠代器 get quest client 有一個

 1 import json
 2 import re
 3 from urllib.request import urlopen    # urllib用法：https://www.jb51.net/article/65279.htm
 4 
 5 # 思路：通過url獲取網頁內容--》匹配需要內容---》拿到內容寫入文件
 6 
 7 
 8 def get_page(url):
 9     """
10     獲得網頁代碼字符串，以便操作
11     :param url: 傳入網址
12     :return:  返回utf編碼得字符串
13     """
14  # respond對象有一個方法叫著read(),用它讀出來是一個bytes類型得數據，需要轉碼 

15     respond = urlopen(url)  
16     return respond.read().decode(‘utf-8‘)  
17 # 如果不用，將返回得是一個對象 <http.client.HTTPResponse object at 0x000001E25553EE10>
18 
19 # 將得到的字符串傳入，通過正則匹配出需要的內容，返回
20 def parse_page(s_strfile, pattern):
21     """
22     通過正則去匹配傳入的字符串，得到想要的內容
23     為節約時間，因為每次都要用相同的正則規則去匹配我想要的內容，故可以將正則配置成一個對象，然後對象通過調用方法查值
 
24     為節約空間，可用叠代器取值，乘上將對象封裝成一個生成器，每次取一個，節約內存
25     :param s_strfile:
26     :return:
27     """
28     # com = re.compile(‘<td class="s">.*?<a href=.*?>(?P<x_name>.*?)</a>.*?<a href=.*?>(?P<x_title>.*?)</a>‘
29     #                   ‘.*?<td class="t">(?P<x_time>.*?)</td>‘, re.S) 

30     # 兩行和一行一樣的效果
31     # com = re.compile(
32     #     ‘<td class="s">.*?<a href=.*?>(?P<x_name>.*?)</a>.*?<a href=.*?>(?P<x_title>.*?)</a>.*?<td class="t">(?P<x_time>.*?)</td>‘,
33     #     re.S)
34     # 上面是將正則通過方法compile構建成一個對象
35 
36     # 先試著通過findall可以全部取出，但很占內存，故查找結果存儲，計劃構建成一個生成器，一次取一個
37     # page = com.findall(s_strfile)
38     # print(page)
39 
40     ret = pattern.finditer(s_strfile)  # 此方法比findall要節省內存，取值用all
41     for i in ret:
42         yield {‘name‘: i.group(‘x_name‘),
43                ‘title‘: i.group(‘x_title‘),
44                ‘time‘: i.group(‘x_time‘)}
45 
46 
47 def main(page_num, pattern):
48     """
49     接收運行次數及正則規則，寫入文件
50     :param page_num:
51     :param pattern:
52     :return:
53     """
54     url = ‘http://booksky.99lb.net/sodupaihang/page%s‘ % page_num
55     response_html_code = get_page(url)
56     ret = parse_page(response_html_code, pattern)
57     with open(‘xiaoshuo_info.txt‘, ‘a‘, encoding=‘utf-8‘) as f:
58         for data in ret:
59             write_line_str = json.dumps(data, ensure_ascii=False)  # json 為字符串
60             f.write(‘‘.join([write_line_str, ‘\n‘]))
61 
62 
63 # 編譯正則規則為一個對象，放在全局變量，只需編譯一次即可，省時間
64 pattern = re.compile(
65     ‘<td class="s">.*?<a href=.*?>(?P<x_name>.*?)</a>.*?<a href=.*?>(?P<x_title>.*?)66 </a>.*?<td class="t">(?P<x_time>.*?)</td>‘,
67     re.S)
68 
69 if __name__ == ‘__main__‘:
70     for num in range(1, 11):
71         main(num, pattern)

font n) 對象 file 叠代器 get quest client 有一個 1 import json 2 import re 3 from urllib.request import urlopen # urllib用法：https://www.jb5

Python爬蟲學習==>第一章：Python3+Pip環境配置

sof 環境 pts window https 有時 naconda 步驟管家前置操作軟件名：anaconda 版本：Anaconda3-5.0.1-Windows-x86_64清華鏡像下載鏈接：https://mirrors.tuna.tsinghua.ed

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

python爬蟲學習：爬蟲QQ說說並生成詞雲圖，回憶滿滿

自學過一段時間的python，用django自己做了個網站，也用requests+BeautifulSoup爬蟲過些簡單的網站，週末研究學習了一波，準備爬取QQ空間的說說，並把內容存在txt中，讀取生成雲圖。好久不登qq了，空間說說更是幾年不玩了，裡面滿滿的

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

python爬蟲學習第一章

neu ext 完成通信關鍵詞更新 ide address idt html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,b

Python爬蟲學習==>第二章：MongoDB環境配置

擴展建立 body 網絡 dash blog 虛擬 bson 階段　　學習目的： MongoDB的安裝正式步驟（VMWare 虛擬機上無法安裝這個MongoDB的自啟動服務，如果你能辦到，請多賜教） Step1：MongoDB的簡介

python集訓營學習：第一章 python基礎

python基礎1.python介紹python是一門解釋型語言，代碼想運行，必須通過解釋器執行解釋器種類有CPython、IPython、PyPy、Jython、IronPython等2.變量聲明變量name=‘Crab’變量定義規則變量名只能是字母、數字或下劃線的任意組合變量名的第一個字符不能是數字

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

Python爬蟲學習必備知識點：正則表示式模組詳解

一、基礎語法總結 1.1、匹配單個字元 a . d D w W s S [...] [^...] 匹配單個字元（.）規則：匹配除換行之外的任意字元 In [24]: re.findall("f.o","foo is not fao") Out[24]: ['foo',

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的安裝：https://mp.csdn.net/postedit/83715574 r=requests.get(url,params=None,**kwargs) 這個r是Response物件 url ：擬獲取頁面的url連結 params：url中的額外引數

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

例項需求：運用python語言在http://www.ip138.com/post/網站爬取全國各個省市縣級城市的郵政編碼，並且儲存在excel檔案中例項環境：python3.7　　　　　　 requests庫(內建的python庫，無需手動安裝)　　　　　　 xlwt庫(需要自己手動安裝) 例項網站：

python爬蟲學習：第一爬_快眼看書排行榜

相關推薦