[Python] 記一波閑來無事寫的小爬蟲

阿新 • • 發佈：2018-02-23

閑來無事 .html .cn path remove markdown 講解 parser log

Python爬取一波簡書的文章
就沒什麽時間寫講解...
早知道把剛才的視頻錄下來發出來了。

import requests
from bs4 import BeautifulSoup
from os import remove

def find_data(title, url):
data = ""
r = requests.get(url)
soup = BeautifulSoup(r.text, ‘html.parser‘)
div_data = soup.find("div", class_="show-content-free")

p_list = div_data.find_all("p")
for i in p_list:
data += i.text + "\n"
path = title+".txt"
with open(path, "w") as f:
f.write(data)
return path

Title_url = "https://www.jianshu.com"
TitleAndUrl = {}

r = requests.get("https://www.jianshu.com/")
soup = BeautifulSoup(r.text, "html.parser")

ul_data = soup.find("ul", class_="note-list")
li_soup = BeautifulSoup(str(ul_data), "html.parser")

li_data = li_soup.find_all("li")
for i in li_data:
soup = BeautifulSoup(str(i), "html.parser")
a_data = soup.find("a", class_="title")

URL = Title_url + a_data["href"]
TitleAndUrl[a_data.text] = URL
for i in TitleAndUrl:
try:
file_name = find_data(i, TitleAndUrl[i])
except Exception as e:
with open("error.log", "a+") as f:
i = i + "\n"
f.write(i)
e = str(e) + "\n"
f.write(e)
continue
由小影轉發
QQ：1539747235
郵箱：[email protected]

本文基於《署名-非商業性使用-相同方式共享 4.0 國際 (CC BY-NC-SA 4.0)》許可協議授權
文章鏈接：https://www.allsrc.cn/requests/pythonfindjianshu.html (轉載時請註明本文出處及文章鏈接)

[Python] 記一波閑來無事寫的小爬蟲

閑來無事 .html .cn path remove markdown 講解 parser log Python爬取一波簡書的文章就沒什麽時間寫講解... 早知道把剛才的視頻錄下來發出來了。 import requests from bs4 import Beautifu

[Python] 記一波閑來無事寫的小爬蟲

[Python] 記一波閑來無事寫的小爬蟲

閑來無事研究一下酷狗緩存文件kgtemp的加密方式

閑來無事.gif

閑來無事，把node又拾起來看看

閑來無事第一輯--懺悔雲

閑來無事看兩個好玩的C語言面試題

記一波pyenv安裝

北京的霧霾這麼嚴重，不得不用Python分析一波！原來PM2.5早變少

記一次火狐flash無聲音的問題

中秋無事，小破一個時間限制的軟體

【肥宅捕獲指南】快來給我寫小紙條吧！

Python書單走一波，只要你敢來，我就敢送！

VS Code 折騰記 - (15) 再來推薦一波大前端適用系列的外掛(改善編碼體驗)

(11) 再來一波外掛推薦!(程式碼片段,框架,Node,touchbar,TS,Git,資料庫,python!!)

通過python的urllib.request庫來爬取一只貓

記一次非常無語的生成柱狀圖，js，ecshop。

用gdb調試python多線程代碼-記一次死鎖的發現

記一次無語的沒安裝bcmath

記一次調試python內存泄露的問題

區塊鏈都有手機了，聯想這一波操作是來挖礦？還是挖坑？

[Python] 記一波閑來無事寫的小爬蟲

相關推薦