記一次簡單爬蟲(豆瓣/dytt)

阿新 • • 發佈：2018-11-19

磕磕絆絆學python一個月，這次到正則表示式終於能寫點有趣的東西，在此作個記錄：

—————————————————————————————————————————————————

1.爬取豆瓣電影榜前250名單

執行環境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)]

成品效果：

相關程式碼：

 1 
 from urllib.request import urlopen
 2 import re
 3 # import ssl  # 若有數字簽名問題可用
 4 # ssl._create_default_https_context = ssl._create_unverified_context
 5 
 6 
 7 # 寫正則規則
 8 obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?導演:(?P<daoyan>.*?)&nbsp;.*? 
'
 9                  r'主演:(?P<zhuyan>.*?)<br>\n                            (?P<shijian>.*?)&nbsp;/&nbsp;(?P<diqu>.*?)&nbsp;'
10                  r'/&nbsp;(?P<leixing>.*?)\n.*?<span class="rating_num" property="v:average">(?P<fen>.*?)</span>.*?<span> 
'
11                  r'(?P<renshu>.*?)評價</span>.*?<span class="inq">(?P<jianping>.*?)</span>',re.S)  # re.S 幹掉換行
12 
13 # 轉碼 獲取內容
14 def getContent(url):
15     content = urlopen(url).read().decode("utf-8")
16     return content
17 
18 # 匹配頁面內容 返回一個迭代器
19 def parseContent(content):
20     iiter = obj.finditer(content)
21     for el in iiter:
22         yield {
23             "name":el.group("name"),
24             "daoyan":el.group("daoyan"),
25             "zhuyan":el.group("zhuyan"),
26             "shijian":el.group("shijian"),
27             "diqu":el.group("diqu"),
28             "leixing":el.group("leixing"),
29             "fen":el.group("fen"),
30             "renshu":el.group("renshu"),
31             "jianping":el.group("jianping")
32         }
33 
34 
35 for i in range(10):
36     url = "https://movie.douban.com/top250?start=%s&filter=" % (i*25)  # 迴圈頁面10
37     print(url)
38     g = parseContent(getContent(url))  # 匹配獲取的內容返回給g
39     f = open("douban_movie.txt",mode="a",encoding="utf-8")
40     for el in g:
41         f.write(str(el)+"\n")  # 寫入到txt 注意加上換行
42 
43     # f.write("==============================================")  # 測試分頁
44     f.close()

2.爬取某站最新電影和下載地址

執行環境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)]

成品效果：

相關程式碼：

 1 from urllib.request import urlopen
 2 import json
 3 import re
 4 
 5 # 獲取主頁面內容
 6 url = "https://www.dytt8.net/"
 7 content = urlopen(url).read().decode("gbk")
 8 # print(content)
 9 
10 # 正則
11 obj = re.compile(r'.*?最新電影下載</a>]<a href=\'(?P<url1>.*?)\'>', re.S)
12 obj1 = re.compile(r'.*?<div id="Zoom">.*?<br />◎片　　名(?P<name>.*?)<br />.*?bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)
13 
14 
15 def get_content(content):
16     res = obj.finditer(content)
17     f = open('movie_dytt.json', mode='w', encoding='utf-8')
18     for el in res:
19         res = el.group("url1")
20         res = url + res  # 拼接子頁面網址
21 
22         content1 = urlopen(res).read().decode("gbk")  # 獲取子頁面內容
23         lst = obj1.findall(content1)  # 匹配obj1返回一個列表
24         # print(lst)  # 元組
25         name = lst[0][0]
26         download = lst[0][1]
27         s = json.dumps({"name":name,"download":download},ensure_ascii=False)
28         f.write(s+"\n")
29     f.flush()
30     f.close()
31 
32 
33 get_content(content)  # 呼叫函式 執行

記一次簡單爬蟲(豆瓣/dytt)

磕磕絆絆學python一個月，這次到正則表示式終於能寫點有趣的東西，在此作個記錄： ————————————————————————————————————————————————— 1.爬取豆瓣電影榜前250名單執行環境： pycha

記一次Python爬蟲開發經歷

light 情況獲取數據類型 true charm req 是我遇到為啥要做Python爬蟲，是因為我去找電影的某個網站有點坑，它支持tag標簽查詢自己喜歡的電影，但是不支持雙標簽或者三標簽查詢。由於一個電影對應多種類型(tag)，這就意味著，我需要進入這個電影介紹

zabbix記一次簡單的部署包方式安裝一次過

報錯 article 上海使用 shang http 配置文件火墻安裝mysql zabbix記一次簡單的部署包方式安裝一次過記一次部署包方式安裝一次過環境centos7 zabbix 3.2.11 準備工作關閉防火墻 systemctl stop fire

記一次簡單的破解程式(逆向)

已投稿合天載入以後然後隨便輸入一個密碼然後在程式中搜索報錯資訊。例如如下搜尋的：然後雙擊進入。然後發現JE將其修改為JEN（JE是==，而JEN是!=，如此便打破了原有的邏輯）右鍵編輯->二進位制編輯將74改為75（這裡所說的74、75就是JE

記一次簡單的日誌分析

題目檔案：https://files.cnblogs.com/files/nul1/access.log.tar 直接搜尋flag發現是一題關於二分法注入。頁面為200的位元組大小為1765，所以可以通過讀取每行判斷是否有1765以及有沒有flag的關鍵字樣，進而提取值。指令碼如

記一次簡單的程式碼審計

這段時間在想著做個高校的會員管理系統，所以在chrome上裝了個掘金外掛，今天發現日推推了個類似的PHP寫的小程式本著能省就省，有自行車還造什麼輪子的原則於是乎 git clone https://github.com/chaodada/member.git 經過簡單的部署後算是能打開了

記一次Python3爬蟲利用pyppeteer得到網站js加密後的密文

分析的是一個航空網站，其實是我再找python執行js程式碼的資料的時候，發現了一個博主分析了這個網站的加密過程，然後我去跟著操作的時候，發現網站的加密部分程式碼發生了變化，不過在我不小心把網頁關了之後，我實在找不到那篇文章了。。。。。所以我再說一下整個的分析過

記一次簡單的UITableView卡頓優化

先說需求，要做一個類似這種的列表標籤控制元件直接用的第三方 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px Menlo; color: #3f6e74; background-color: #e1ffde } YZTagList &nbs

記一次企業級爬蟲系統升級改造（四）：爬取微信公眾號文章（通過搜狗與新榜等第三方平臺）

首先表示抱歉，年底大家都懂的，又涉及SupportYun系統V1.0上線。故而第四篇文章來的有點晚了些~~~對關注的朋友說聲sorry! SupportYun系統當前一覽：　　首先說一下，文章的進度一直是延後於系統開發進度的。　　當前系統V1.0 已經正式上線服役了，這

記一次簡單的sql註入

-- 截圖是否有效 src bsp 構造 mage nbsp inf 什麽是sql註入攻擊？所謂SQL註入式攻擊，就是攻擊者把SQL命令插入到Web表單的輸入域或頁面請求的查詢字符串，欺騙服務器執行惡意的SQL命令。在某些表單中，用戶輸入的內容直接用

記一次簡單的SQL注入

參考：http://103.238.227.13:10083/ bugku 可以看到編碼是gb2312 測試注入點 id=1和id=1‘ 都沒錯應該是寬位元組注入，在試試 id=%df’ 報錯接著來輸入欄位id=%df’ union se

python爬蟲——記一次前所未有的經歷（爬取魔方格作文）

前言我還是第一次遇到魔方格這麼處理請求的網站，這裡記錄一下過程 1、爬取物件：http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html 需要抓取中間作文格里的作文

記一次java socket學習(簡單實用多執行緒，實現多對多群聊)

學習過程是艱苦，學習結束是快樂的目錄用 [TOC]來生成目錄：本來想寫一些文字描述描述，可是想不出來說啥。。。所以直接記錄程式碼了。。。程式碼塊因為喜歡把常量都提取出來所以上來就是常量類： public class Const

【SQLServer】記一次資料遷移-標識重複的簡單處理

今天在資料遷移的時候因為手賤遇到一個坑爹問題，發來大家樂樂，也傳授新手點經驗遷移慣用就是臨時表或者新庫，經常用的語法有很多，這次主要說的是這個：select * into 資料庫名..表名 from xxx 先不扯了，先看錯誤：趕緊看看是不是資料重複~事實證明，木有重複資料。。。有人

一次簡單Python爬蟲程式碼記錄

順手記錄一次簡單Python爬蟲程式碼，留以後備用 #!/usr/bin/python # -*- coding: UTF-8 -*- import cookielib import urllib2 from urllib import urlencode i

網路爬蟲之記一次js逆向解密經歷

1 引言數月前寫過某網站（請原諒我的掩耳盜鈴）的爬蟲，這兩天需要重新採集一次，用的是scrapy-redis框架，本以為二次爬取可以輕鬆完成的，可沒想到爬蟲啟動沒幾秒，出現了大堆的重試提示，心裡頓時就咯噔一下，悠閒時光估計要結束了。仔細分析後，發現是獲取店鋪列表的請求出現問題，通過瀏覽器抓包，發現請求

記一次學習配置叢集eureka，註冊生成者、消費端，實現簡單的服務呼叫

總結一次基於SpringCloud，Greenwich.SR2版本部署叢集eureka，註冊生產者、消費者並進行簡單呼叫的流程。

記一次不正經的爬蟲學習經歷

0x00前言大家好，相信點進來看的小夥伴都對爬蟲非常感興趣（絕對不是因為封面），博主也是一樣的。最近由於疫情的原因，大家都不能出門玩耍，所以博主準備分享一些有趣的學習經歷給大家。昨天，博主逛B站時偶然（非常偶然~）發現了一個不同尋常的教程

記一次mapreduce讀取不到輸入文件的問題

mapreduce 過濾器hdfs上輸入文件所在包含兩個目錄，分別是： /20170503/shoplast/ /20170503/shop/但是我想過濾掉shop，只把shoplast作為輸入故我實現了過濾器如下： public static class Fi

記一次阿裏電面經歷

art 存儲空間自由結束 eas 大型特定 easy col 昨天下午（3/19）三點多鐘，接到了一個杭州的電話，是阿裏的。問我是否方便聊聊。我說我在上課，四點下課。然後他就四點多鐘的時候又打了一次過來。項目經歷上來就問我有無大型項目的經歷。不好意思，我說無。。。又

記一次簡單爬蟲(豆瓣/dytt)

相關推薦