提供一份爬蟲源碼，叫我雷鋒

阿新 • • 發佈：2017-06-13

agen 表達式 while art bsp head () 模塊 geo

#coding=utf-8
from Tkinter import * #GUI(圖像用戶界面)模塊
from ScrolledText import ScrolledText #文本滾動條
import urllib,requests #請求模塊
import re #正則表達式
import threading #多線程處理與控制
url_name = []#url+name
a = 1#頁碼
def get():
global a #全局變量
hd = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36‘}
url = ‘http://www.budejie.com/video/‘+str(a)
varl.set(‘已結獲取到第%s頁視頻‘%(a))
html = requests.get(url,headers=hd).text #獲取源碼
a += 1
url_content = re.compile(r‘<div class="j-r-list-c">.*?</div>.*?</div>‘,re.S)
url_contents = re.findall(url_content,html)
#print url_contents
for i in url_contents:
url_reg = r‘data-mp4="(.*?)">‘#匹配地址
url_items = re.findall(url_reg,i)
#print url_items #視頻列表
if url_items:#判斷地址列表是否存在
name_reg = re.compile(r‘<a href="/detail-.{8}?.html"(.*?)</\w>‘,re.S)
name_items = re.findall(name_reg,i)
#print name_items #名字列表
for i,k in zip(name_items,url_items):
url_name.append([i,k])
print i,k
return url_name
id = 1#視頻
def write():
global id
while id<10:
url_name = get()
for i in url_name:#名字+地址
#aa = i[0].decode(‘utf-8‘).encode(‘gbk‘)
urllib.urlretrieve(i[1],‘video\\%s.mp4‘%(a))
text.insert(END,str(id)+‘.‘+i[1]+‘\n‘+i[0]+‘\n‘)
url_name.pop(0)
id += 1
varl.set(‘視頻鏈接和名字抓取完畢,over‘)
def start():
th = threading.Thread(target=write)
th.start()#觸發

root = Tk()
root.title(‘爬取某視頻‘)
root.geometry(‘666x525‘)
text = ScrolledText(root,font=(‘微軟雅黑‘,10))
text.grid() #布局的方法 pack簡單
button = Button(root,text=‘開始爬取‘,font=(‘微軟雅黑‘,10),command=start)
button.grid()
varl = StringVar()
label = Label(root,font=(‘微軟雅黑‘,10),fg=‘red‘,textvariable = varl)
label.grid()
varl.set(‘已準備...‘)
root.mainloop()#發送創建窗口的指令

更多學習資料加群：595266089。

提供一份爬蟲源碼，叫我雷鋒

agen 表達式 while art bsp head () 模塊 geo #coding=utf-8from Tkinter import * #GUI(圖像用戶界面)模塊from ScrolledText import ScrolledText #文本滾動條import

提供一份爬蟲源碼，叫我雷鋒

提供一份爬蟲源碼，叫我雷鋒

原創，微信跳一跳外掛源碼、熱門遊戲，輕松上千分

自開發一機100號亞馬遜、facebook雲控系統源碼，及技術實現

自主開發一機100號微信雲控系統源碼，及技術原理

自主開發亞馬遜，facebook一機一號雲控系統源碼，及技術展現

HR收到一份程式設計師簡歷，初中學歷自稱北京碼帝，你們可服？

如何開發一套完整的直播軟件源碼，前期需要準備什麽？

深入JDK源碼，這裏總有你不知道的知識點！

設置Eclipse可以Debug模式調試JDK源碼，並顯示局部變量的1

TVideoCapture類的源碼，繼承TCustomPanel，用於視頻捕獲（用到了SendMessage和SetWindowPos等API）good

iOS新聞應用源碼，高仿今日頭條源碼等

Java集合幹貨系列-（一）ArrayList源碼解析

微信小程序一鍵生成源碼在線制作定制功能強大的微信小程序

android狼人殺源碼，桌面源碼，獵豹快切源碼

android精品源碼，圖片瀏覽器歸屬地下載！

android精選源碼，知乎閱讀瀑布流loading彈窗掃描二維碼簡潔的MVP

python 微信跳一跳和源碼解讀

為什麽我怎麽也理解不了H5微信棋牌源碼，是因為智商不夠嗎？

2018完整版聚合直播APP源碼，拒絕破解版

雲豹方維直播源碼，手機直播系統搭建經驗分享!

提供一份爬蟲源碼，叫我雷鋒

相關推薦