python requests抓取貓眼電影

阿新 • • 發佈：2017-10-12

def res b- int nic status () tle proc

1. 網址：http://maoyan.com/board/4?

技術分享

2. 代碼：

 1 import json
 2 from multiprocessing import Pool
 3 import requests
 4 from requests.exceptions import RequestException
 5 import re
 6 
 7 
 8 def get_one_page_html(url):
 9     try:
10         response = requests.get(url)
11         if response.status_code == 200:
 
12             return response.text
13         return None
14     except RequestException:
15         return None
16 
17 def parse_one_page(html):
18     pattern = re.compile(‘<dd>.*?board-index.*?>(\d+)</i>.*?alt.*?src="(.*?)".*?name"><a‘
19                +‘.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p> 
‘
20                +‘.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>‘, re.S)# .可以匹配任意的換行符
21 
22     items = re.findall(pattern,html)
23     #(‘1‘, ‘http://p1.meituan.net/movie/[email protected]_220h_1e_1c‘, ‘霸王別姬‘, ‘\n                主演：張國榮,張豐毅,鞏俐\n        ‘, ‘上映時間：1993-01-01(中國香港)‘, ‘9.‘, ‘6‘), 

24     for item in items:
25         yield {
26             ‘index‘ : item[0],
27             ‘image‘ : item[1],
28             ‘title‘:item[2],
29             ‘actor‘ : item[3].strip()[3:],
30             ‘time‘: item[4].strip()[5:],
31             ‘score‘ : item[5] + item[6]
32         }
33 
34 def write_to_file(content):
35     with open(‘result.txt‘, ‘a‘, encoding=‘utf-8‘)as f:
36         f.write(json.dumps(content, ensure_ascii=False) + ‘\n‘)#導入快捷見alt+enter,content內容是個字典，我們要把它變成字符串寫入文件,加入換行符，每行一個
37         f.close()
38 
39 def main(offset):
40     url = ‘http://maoyan.com/board/4?offset=‘ + str(offset)
41     html = get_one_page_html(url)
42     for item in parse_one_page(html):
43         print(item)
44         write_to_file(item)  #會變成unicode編碼，若想result.txt裏面是中文,需要修改write_to_file函數，加上encoding=‘utf-8’和ensure_ascii=False
45 
46 if __name__ == ‘__main__‘:
47     # for i in range(10):
48     #     main(i*10)
49 
50     pool = Pool()
51     pool.map(main, [i*10 for i in range(10)])

View Code

3. 結果：

註意：

1.正則匹配要好好看看

2.將輸出的內容格式化，變成一個生成器字典

3.寫到文件的時候把unicode編碼變成中文顯示

4.進程池Pool。實現秒抓

python requests抓取貓眼電影

def res b- int nic status () tle proc 1. 網址：http://maoyan.com/board/4? 2. 代碼： 1 import json 2 from multiprocessing import Po

Python爬蟲之requests+正則表示式抓取貓眼電影top100以及瓜子二手網二手車資訊(四)

{'index': '1', 'image': 'http://p1.meituan.net/movie/[email protected]_220h_1e_1c', 'title': '霸王別姬', 'actor': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01', 'sc

Python-爬蟲-基本庫（requests）使用-抓取貓眼電影Too100榜

spa spi fire tools not agen ext get pytho 1 #抓取貓眼電影，https://maoyan.com/board/4 榜單電影列表 2 import requests 3 import re 4 from requests

Python爬蟲之三：抓取貓眼電影TOP100

今天我要利用request庫和正則表示式抓取貓眼電影Top100榜單。執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器 1. 抓取單頁內容瀏

【3月24日】Requests+正則表示式抓取貓眼電影Top100

本次實驗爬蟲任務工具較為簡單，主要是熟悉正則表示式的匹配： pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>

Python爬蟲之抓取貓眼電影TOP100

執行平臺：windowsPython版本：Python 3.7.0IDE:Sublime Text瀏覽器：Chrome瀏覽器思路： 1.檢視網頁原始碼 2.抓取單頁內容 3.正則表示式提取資訊

Python爬蟲之一：抓取貓眼電影TOP100

執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器1. 抓取單頁內容瀏覽器開啟貓眼電影首頁，點選“榜單”，然後再點選”TOP100榜”，就能看到想要的了。接下來通過程式碼來獲取網頁的HTML

python爬蟲——requests抓取某電影網站top100

今天閒的沒事，學習了一下爬蟲方面的知識，然後用requests庫實現了抓取貓眼網站top100電影，還是挺有意思的。最近用到python比較多，也算是加強了python的運用吧 :-） imp

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

用pyquery 初步改寫崔慶才的抓取貓眼電影排行（正在更新）特意置頂，提醒自己更新

items parse rac info sco ber windows time ont 目前正在學Python爬蟲，正在讀崔慶才的《Python3網絡爬蟲開發實戰》，之前學習正則表達式，但是由於太難，最後放棄了（學渣的眼淚。。。。），在這本書上的抓取貓眼電影排行上，

00_抓取貓眼電影排行TOP100

前言：學習python3爬蟲大概有一週的時間，熟悉了爬蟲的一些基本原理和基本庫的使用，本次就準備利用requests庫和正則表示式來抓取貓眼電影排行TOP100的相關內容。 1、本次目標：需要爬去出貓眼電影排行TOP100的電影相關資訊，包括：名稱、圖片、演員、時間、評分，排名。提取站點的URL為h

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

反爬蟲-python3.6抓取貓眼電影資訊

思路分解： 1.頁面資訊 url:http://maoyan.com/cinema/24311?poi=164257570 檢視資訊發現價格存在亂碼現象：重新整理頁面找到亂碼的URL，下載woff格式檔案：方法：複製URL：右鍵單擊轉

python爬蟲爬取貓眼電影top100

這個爬蟲我是跟著教程做的，也是第一次用python的re和multiprocessing（多執行緒），還知道了yield生成器的用法。不過re正則表示式真的厲害，但是學起來比較難，還在學習中。import requests import re import pymysql f

requests爬取貓眼電影403錯誤解決方法

原始碼如下: import requests from requests.exceptions import RequestException def one_page_code(url): try: &n

Python爬蟲-爬取貓眼電影Top100榜單

貓眼電影的網站html組成十分簡單。地址就是很簡單的offset=x 這個x引數更改即可翻頁。下面的資訊使用正則表示式很快就可以得出結果。直接放程式碼： import json

抓取貓眼電影top100

一、目標運用requests+正則表示式爬取貓眼電影top100的電影圖片、名稱、時間、評分等資訊，提取站點的url為"http://maoyan.com/board/4"，提取結果以文字的形式儲存下來。二、準備工作1. 安裝python 首先，下載Python3，這裡使用P

python爬蟲爬取貓眼電影資料

# 定義一個函式獲取貓眼電影的資料 import requests def main(): url = url = 'http://maoyan.com/board/4?offset=0' html = requests.get(url).text

正則匹配的抓取貓眼電影排行Top100

本案例，我們利用requests庫和正則表示式來抓取貓眼電影TOP100的相關內容。 1.目標提取貓眼電影Top100的電影名稱、時間、評分、圖片（下載）,提取的站點URL為：http://maoyan.com/board/4，圖片將儲存到指定資料

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料運用Requests獲得網頁 import requests ##獲取單個網頁資料 def get_one_page(url): response = requests.get(url) r

python requests抓取貓眼電影

相關推薦