建站四部曲之Python爬蟲+資料準備篇(selenium)
本系列為了總結一下手上的知識,致敬我的2018
本篇的重點在於:使用python爬取資料寫入檔案,使用okhttp3訪問後臺介面插入資料
本篇總結的技術點:Python資料抓取
、
okhttp3訪問api介面插入資料庫
、
java檔案的簡單操作
Python是我在學完JavaScript/">JavaScript的ES6之後學的,三個字---這麼像
於是乎,花了三天看看語法、算算向量、做做爬蟲、數數花生後也就沒在深究了
一、簡書網頁分析:
1.問題所在

預設載入9個條目,滾到底再載入9個條目 現在問題在於:直接用連結請求,只能載入9條,怎麼能讓它自己滾動 是問題肯定有解決方案,百度下唄,滿目的selenium,好吧,就決定是你了 複製程式碼
2.網頁標籤分析:
需要的資料在note-list的ul中,其中一個li如下:
需要的資料有:content的div下的a標籤:href和內容
abstract的p的內容,time的span下的:data-shared-at
<li id="note-38135290" data-note-id="38135290" class="have-img"> <a class="wrap-img" href="/p/0baa4b4b81f4" target="_blank"> <img class="img-blur-done" src="//upload-images.jianshu.io/upload_images/9414344-c7c823aafe6938de.png?imageMogr2/auto-orient/strip|imageView2/1/w/300/h/240" alt="120"> </a> <div class="content"> <a class="title" target="_blank" href="/p/0baa4b4b81f4">建站三部曲之後端介面篇(SpringBoot+上線)</a> <p class="abstract"> 本系列分為三篇: 建站三部曲之後端介面篇(SpringBoot+上線) 建站三部曲之前端顯示篇(React+上線) 建站三部曲之移動端篇(And... </p> <div class="meta"> <a target="_blank" href="/p/0baa4b4b81f4"> <i class="iconfont ic-list-read"></i> 3 </a><a target="_blank" href="/p/0baa4b4b81f4#comments"> <i class="iconfont ic-list-comments"></i> 0 </a><span><i class="iconfont ic-list-like"></i> 0</span> <span class="time" data-shared-at="2018-12-11T13:16:57+08:00">43分鐘前</span> 複製程式碼
二、二十分鐘入手selenium
1.新增依賴:
pip install selenium 複製程式碼
2.下載瀏覽器外掛(我是用Chrome,下載地址:)
注意對應版本下載

3.使用:
from selenium import webdriver #導包 driver = webdriver.Chrome("I:\Python\chromedriver.exe")#建立driver,引數為外掛的路徑 driver.get("https://www.jianshu.com/u/e4e52c116681")#開啟網頁 driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')#下滑 複製程式碼

4.間隔時間任務:
問題又來了,貌似只能執行一次,那就用輪訓任務吧
ofollow,noindex">TimeTask.py
from datetime import datetime, timedelta class TimeTask: def __init__(self): self.count = 0# 成員變數(例項變數) def runTask(self, func, day=0, hour=0, min=0, second=1, count=20): now = datetime.now() period = timedelta(days=day, hours=hour, minutes=min, seconds=second) next_time = now + period strnext_time = next_time.strftime('%Y-%m-%d %H:%M:%S') while self.count < count: # Get system current time iter_now = datetime.now() iter_now_time = iter_now.strftime('%Y-%m-%d %H:%M:%S') if str(iter_now_time) == str(strnext_time): func() self.count += 1 iter_time = iter_now + period strnext_time = iter_time.strftime('%Y-%m-%d %H:%M:%S') continue 複製程式碼
getHtml.py
from selenium import webdriver from utils.TimeTask import TimeTask def fetch(): driver.execute_script('window.scrollTo(0, document.body.scrollHeight)') if __name__ == '__main__': driver = webdriver.Chrome("I:\Python\chromedriver.exe") driver.get("https://www.jianshu.com/u/e4e52c116681") timeTask = TimeTask() timeTask.runTask(fetch, 0, 0, 0, 1, 5) 複製程式碼

三、獲取需要的資料:
1.獲取名稱
selenium的強大之處在於可以查詢dom結構,哈哈,css沒白學
需要的資料都在content類下,選擇器為: .note-list li .content
使用find_elements_by_css_selector可以使用css選擇器獲取一個list
content = driver.find_elements_by_css_selector('.note-list li .content') #遍歷content就行了 for i in content: a = i.find_element_by_css_selector(' a.title') #獲取a標籤 print(a.text) #列印 複製程式碼
白花花的資料就到手裡

2.接下來一樣的思路
for i in content: a = i.find_element_by_css_selector(' a.title') info = i.find_element_by_css_selector(' p.abstract') time = i.find_element_by_css_selector('span.time') href = a.get_attribute('href') print(a.text) print(href) print(info.text) print(time.get_attribute("data-shared-at")) 複製程式碼

3.將字串寫入檔案中
將資料稍微裝飾一下,以&&&分割每個條目,以```分割每個欄位
str = '' for i in content: a = i.find_element_by_css_selector(' a.title') info = i.find_element_by_css_selector(' p.abstract') time = i.find_element_by_css_selector('span.time') href = a.get_attribute('href') str += a.text + "```" str += href + "```" str += info.text + "```" str += time.get_attribute("data-shared-at").split('T')[0] + "```" str += "&&&" print(str) name = 'I:\\Python\\android_data_fetcher\\data\\data.txt' dirs = os.path.split(name)[0] is_exist = os.path.exists(dirs) if not is_exist: os.makedirs(dirs) f = open(name, "w") f.write(str)# 儲存到檔案中 f.close() 複製程式碼

Python任務完成,下一個交接棒就交給java了
想想現在能幹嘛了——任意一個人的簡書主頁,點一下都可以自動爬取出文章資訊
這對整理自己的文章很有幫助,如果靠手動一篇一篇拷貝,想想都要崩潰
二、使用java訪問介面將資料插入伺服器
1.檔案的讀取:
/** * 讀取檔案 * * @param in 檔案 * @paramcharSet 讀取的編碼 * @return 檔案內容 */ private static String readFile(File in,String charSet) { if (!in.exists() && in.isDirectory()) { return ""; } InputStreamReader fr = null; try { fr = new InputStreamReader(new FileInputStream(in), charSet) //字元陣列迴圈讀取 char[] buf = new char[1024]; int len = 0; StringBuilder sb = new StringBuilder(); while ((len = fr.read(buf)) != -1) { sb.append(new String(buf, 0, len)); } return sb.toString(); } catch (Exception e) { e.printStackTrace(); return ""; } finally { try { if (fr != null) { fr.close(); } } catch (Exception e) { e.printStackTrace(); } } } 複製程式碼
2.讀取檔案,分割欄位
String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk"); String[] split = result.split("&&&"); for (String s : split) { String[] item = s.split("```"); String name = item[0];//名稱 String jianshuUrl = item[1];//簡書首頁 String info = item[2];//文章介紹 String time = item[3];//建立時間 } 複製程式碼

3.新增okhttp依賴
<!-- https://mvnrepository.com/artifact/com.squareup.okhttp3/okhttp --> <dependency> <groupId>com.squareup.okhttp3</groupId> <artifactId>okhttp</artifactId> <version>3.12.0</version> </dependency> 複製程式碼
4.post請求插入資料的方法
private static void doPost(String url, String name, String info, String jianshuUrl, String createTime) { //1.HttpClient物件 OkHttpClient okHttpClient = new OkHttpClient(); //2.構造RequestBody FormBody body = new FormBody.Builder() .add("type", "C") .add("name", name) .add("localPath", "null") .add("jianshuUrl", jianshuUrl) .add("juejinUrl", "null") .add("info", info) .add("imgUrl", name + ".png") .add("createTime", createTime) .build(); Request request = new Request.Builder().url(url).post(body).build(); //3.將Request封裝為Call物件 Call call = okHttpClient.newCall(request); //4.執行Call call.enqueue(new Callback() { public void onFailure(Call call, IOException e) { } public void onResponse(Call call, Response response) throws IOException { System.out.println(response.body().string()); } }); } 複製程式碼
5.遍歷欄位時進行插入資料:請求介面見上篇
public static void main(String[] args) { String url = "http://192.168.43.60:8089/api/android/note"; String result = readFile(new File("I:\\Python\\android_data_fetcher\\data\\data.txt"),"gbk"); String[] split = result.split("&&&"); for (String s : split) { String[] item = s.split("```"); String name = item[0]; String jianshuUrl = item[1]; String info = item[2]; String time = item[3]; System.out.println(name+""+jianshuUrl); try { Thread.sleep(10); } catch (InterruptedException e) { e.printStackTrace(); } doPost(url,name,info,jianshuUrl,time); } } 複製程式碼


6.資料插入到伺服器資料庫:
由於本地和伺服器上的配置都一樣,改下ip執行一下就行了:
www.toly1994.com:8089/api/android… 可查所有資料
圖片打算自己來挑選,或製作,型別的分類還是自己來吧
資料,就這樣吧,雖然簡陋了些...以後慢慢來,畢竟0到1是質變,1到2是量變
三、圖片的處理
1.簡介
先拿一些測試圖片來用,資料庫中只要存 文章名稱.png
就行了
service層讀取的時候做了一些小處理,現在也就是要對測試圖片進行重新命名
"imgUrl":"http://192.168.10.101:8089/imgs/android/01-React搭建react環境及SCSS的配置.png" 複製程式碼

2.獲取文章名稱的列表
ArrayList<String> names = new ArrayList<String>(); String[] split = result.split("&&&"); for (String s : split) { String[] item = s.split("```"); String name = item[0]; names.add(name); } 複製程式碼
3.遍歷資料夾修改名稱
private static void renameImg(ArrayList<String> names, File dir) { File[] files = dir.listFiles(); for (int i = 0; i < names.size(); i++) { File file = files[i]; file.renameTo(new File(file.getParent(),names.get(i)+".png")); } } 複製程式碼

4.小問題:
發現有些名字不能做檔名,好吧,考慮步驟,MD5處理一下

//插入資料庫時: .add("imgUrl", Md5Util.getMD5(name) + ".png") //重新命名時: file.renameTo(new File(file.getParent(), Md5Util.getMD5(names.get(i)) + ".png")); 複製程式碼
public class Md5Util { /** * 獲取一個字串的Md5值 * * @param content 內容 * @return Md5值 */ public static String getMD5(String content) { content = content + "芝麻開門"; try { MessageDigest digest = MessageDigest.getInstance("MD5"); digest.update(content.getBytes()); return getHashString(digest); } catch (NoSuchAlgorithmException e) { e.printStackTrace(); } return null; } private static String getHashString(MessageDigest digest) { StringBuilder builder = new StringBuilder(); for (byte b : digest.digest()) { builder.append(Integer.toHexString((b >> 4) & 0xf)); builder.append(Integer.toHexString(b & 0xf)); } return builder.toString(); } } 複製程式碼

ok,資料和圖片準備齊全,下一站React前端
後記:捷文規範
1.本文成長記錄及勘誤表
專案原始碼 | 日期 | 備註 |
---|---|---|
V0.1 | 2018-12-12 | 建站四部曲之Python爬蟲+資料準備篇(selenium) |
2.更多關於我
筆名 | 微信 | 愛好 | |
---|---|---|---|
張風捷特烈 | 1981462002 | zdl1994328 | 語言 |
我的github | 我的簡書 | 我的掘金 | 個人網站 |
3.宣告
1----本文由張風捷特烈原創,轉載請註明
2----歡迎廣大程式設計愛好者共同交流
3----個人能力有限,如有不正之處歡迎大家批評指證,必定虛心改正
4----看到這裡,我在此感謝你的喜歡與支援
