大家在簡書喜歡看什麼
現代社會是一個娛樂至死的社會,媒體不再是傳播價值,傳播真理。變成了大家喜歡看什麼,就給大家看什麼。
今天用爬蟲爬取了簡書的推薦頁面,想了解到大家喜歡看什麼。

image.png
資料

image.png
一共爬取了7個欄位。
- 文章標題
- 文章連結
- 摘要
- 評論數
- 點贊數
- 名字
爬取了105條資料
點贊數與評論數

image.png
可以發現,評論數和點贊數還是有比較強的線性關係的。
建立迴歸模型
l <- lm(meta1~meta,data = jianshutuijian) summary(l) Call: lm(formula = meta1 ~ meta, data = jianshutuijian) Coefficients: (Intercept)meta 37.3951.678 > summary(l) Call: lm(formula = meta1 ~ meta, data = jianshutuijian) Residuals: Min1QMedian3QMax -257.27-44.03-31.21-5.43 1983.30 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)37.395425.29061.4790.142 meta1.67810.41094.084 8.78e-05 *** --- Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 223.2 on 103 degrees of freedom Multiple R-squared:0.1393,Adjusted R-squared:0.131 F-statistic: 16.68 on 1 and 103 DF,p-value: 8.781e-05
截距項不顯著,剔除截距專案
l <- lm(meta1~-1+meta,data = jianshutuijian) summary(l) Call: lm(formula = meta1 ~ -1 + meta, data = jianshutuijian) Residuals: Min1QMedian3QMax -297.71-13.415.0125.10 1985.49 Coefficients: Estimate Std. Error t value Pr(>|t|) meta1.98690.35595.5831.9e-07 *** --- Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 224.4 on 104 degrees of freedom Multiple R-squared:0.2306,Adjusted R-squared:0.2232 F-statistic: 31.17 on 1 and 104 DF,p-value: 1.897e-07
從這個模型可以看出,可以看出一個評論差不多對應兩個:+1:
看評論數與點贊數的分佈
因為資料是非常明顯的左偏,所以對資料去了一個對數。

image.png

image.png
哪些文章受歡迎呢?
評論數或者點贊數大於總體80%的的那些人

image.png
- 兩性 : 女性第一次多重要,男性第一次多重要;南京打小三,三觀碎一地
- 祕籍: 各種偏門.....
- 名人 :為什麼我不介意你讀大冰的書;胡歌深夜發文....;
- 好奇心 :學校,也許不那麼陽光;程式員租來了一個女實習生,男碼農一句話....;
- 散文,小說,故事
所以說,知道寫哪一類文章了嗎?