1. 程式人生 > >自己的CSDN博文閱讀量簡單分析(至2016年1月)

自己的CSDN博文閱讀量簡單分析(至2016年1月)

早就計劃了這個題目。寫博有近一年了,零零散散的寫了一共15篇。期間也一直關注自己的文章被多少人看了一眼,真看還是假看就沒法知道了,閱讀量也終於達到了1000。發現還是有些有趣的事情可以簡單分析一下,也順便練練手。

先上一個表,後面的討論都用這個來做基礎了。資料是自己從網頁上剪貼下來,然後用R練習了一把。本來很簡單的事情,因為工具不熟折騰了好幾天。

ID 文章標題 釋出日期 閱讀量 天數(2016年1月20日) 平均每天閱讀量
15 開博留筆 2015/3/25 44 315 0.139683
14 一個有點意思的問題,如何快速收斂超大的KMeans 2015/4/9 60 300 0.2
13 兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector 2015/4/20 369 289 1.276817
12 Hadoop 2.6 日誌檔案和MapReduce的log檔案研究心得 2015/4/29 109 280 0.389286
11 hadoop叢集的搭建指令碼及構思(一):使用者和使用者許可權 2015/6/16 66 232 0.284483
10 hadoop叢集的搭建指令碼及構思(二):程式檔案的管理思路 2015/7/8 39 210 0.185714
9 資料分析工具之戰,R 和 Python的PK 2015/11/10 71 85 0.835294
8 9個數據科學家必須的技能 2015/11/12 35 83 0.421687
7 RedHat 6上安裝執行7zip 2015/11/20 33 75 0.44
6 用Scala推薦的Eclipse作為IDE開發Spark 1.5.1的程式 2015/11/24 68 71 0.957746
5 班門弄斧的寫統計-置信區間的自我總結 2015/12/14 25 51 0.490196
4 hadoop叢集的搭建指令碼及構思(N):一個簡化的Hadoop+Spark on Yarn叢集快速搭建 2015/12/22 26 43 0.604651
3 一個詭異的spark-submit執行問題(已解決) 2015/12/22 30 43 0.697674
2 初學者入門-用Spark ML來處理超大資料 2015/12/23 34 42 0.809524
1 如何在RedHat裡面編譯R原始碼並安裝 2016/1/6 23 28 0.821429
. Total . 1032 . .

裡面ID是釋出的順序,倒序排了一下。其他的都好理解。總共不到一年的時間,寫了15篇。到1月20日,總共閱讀1032次。基本上是在1月6號釋出了以後沒幾天就到一千了。內容包括系統搭建的內容,安裝OS、軟體什麼的。另外有一點演算法研究,還有就是學Spark的一點東西。都不是很深的內容。

下面重點比較兩個量,一是單貼的總閱讀量和單貼的平均每日閱讀量。應該能說明一些現象。

文章標題 閱讀量
兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector 369
Hadoop 2.6 日誌檔案和MapReduce的log檔案研究心得 109
資料分析工具之戰,R 和 Python的PK 71
用Scala推薦的Eclipse作為IDE開發Spark 1.5.1的程式 68
hadoop叢集的搭建指令碼及構思(一):使用者和使用者許可權 66
一個有點意思的問題,如何快速收斂超大的KMeans 60
開博留筆 44
hadoop叢集的搭建指令碼及構思(二):程式檔案的管理思路 39
9個數據科學家必須的技能 35
初學者入門-用Spark ML來處理超大資料 34
RedHat 6上安裝執行7zip 33
一個詭異的spark-submit執行問題(已解決) 30
hadoop叢集的搭建指令碼及構思(N):一個簡化的Hadoop+Spark on Yarn叢集快速搭建 26
班門弄斧的寫統計-置信區間的自我總結 25
如何在RedHat裡面編譯R原始碼並安裝 23
文章標題 平均每天閱讀量
兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector 1.276817
用Scala推薦的Eclipse作為IDE開發Spark 1.5.1的程式 0.957746
資料分析工具之戰,R 和 Python的PK 0.835294
如何在RedHat裡面編譯R原始碼並安裝 0.821429
初學者入門-用Spark ML來處理超大資料 0.809524
一個詭異的spark-submit執行問題(已解決) 0.697674
hadoop叢集的搭建指令碼及構思(N):一個簡化的Hadoop+Spark on Yarn叢集快速搭建 0.604651
班門弄斧的寫統計-置信區間的自我總結 0.490196
RedHat 6上安裝執行7zip 0.44
9個數據科學家必須的技能 0.421687
Hadoop 2.6 日誌檔案和MapReduce的log檔案研究心得 0.389286
hadoop叢集的搭建指令碼及構思(一):使用者和使用者許可權 0.284483
一個有點意思的問題,如何快速收斂超大的KMeans 0.2
hadoop叢集的搭建指令碼及構思(二):程式檔案的管理思路 0.185714
開博留筆 0.139683

很明顯,關於Mapper初始化錯誤的帖子在兩榜之上都是第一名。呵呵了,看來開發者對於出錯的原因的搜尋很迫切,催生了幾乎每天都會有搜尋到這個帖子裡面的那個錯誤。而且閱讀絕對數量超過了總閱讀量的1/3。可見這種型別的帖子還是容易獲得關注。

兩榜的第二名對比就很有意思了。Hadoop的log檔案的研究是去年6月份就發表了,而且是有點內容的原創,所以不奇怪能獲得一百多的點選。但相對於為Scala配置Eclipse的開發環境這篇,其速度就差多了,釋出了71天,就有68次點選,在閱讀排行榜裡上升急快。看來後半年大家對於Spark的高度熱情讓這種抄襲轉載的文章都能得到這麼多點選。不得不說,程式設計師跟風的速度不慢啊。

第三名可以說是比較有趣的一個文章。這是一篇翻譯的文章,其總點選量和單日閱讀量都上升的很快。我也是在對這兩種工具的對比選擇時才看到並想起來翻譯一下。2015年11月釋出的。看來最近關注大資料和系統建設的人,也對這個題目比較感興趣了。都想比較一下好進行技術選型。

最後討論一下關於Hadoop的HA叢集搭建的文章。這個幾篇都有是這個部落格創立的最初目的。在一開始都得到了還可以的點選。但後來的增長就很乏力。這個是我自己的模糊的記憶,可惜CSDN裡面沒有具體的時間資料可以讓我用,不然會有更有趣的發現。

結論是:

1. 適用性的內容,比如如何排查Exception啊,配置開發環境啊的更容易得到點選,其實可能是更容易被搜尋引擎做index,然後給查詢。

2. 大資料的內容裡,工具比較是今年的可能的熱點,Spark肯定是熱點。Hadoop已經進入成熟期了。

2016年加油,多寫一些有內容的博文!

//TODO