自己的CSDN博文閱讀量簡單分析(至2016年1月)
早就計劃了這個題目。寫博有近一年了,零零散散的寫了一共15篇。期間也一直關注自己的文章被多少人看了一眼,真看還是假看就沒法知道了,閱讀量也終於達到了1000。發現還是有些有趣的事情可以簡單分析一下,也順便練練手。
先上一個表,後面的討論都用這個來做基礎了。資料是自己從網頁上剪貼下來,然後用R練習了一把。本來很簡單的事情,因為工具不熟折騰了好幾天。
ID | 文章標題 | 釋出日期 | 閱讀量 | 天數(2016年1月20日) | 平均每天閱讀量 |
15 | 開博留筆 | 2015/3/25 | 44 | 315 | 0.139683 |
14 | 一個有點意思的問題,如何快速收斂超大的KMeans | 2015/4/9 | 60 | 300 | 0.2 |
13 | 兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector | 2015/4/20 | 369 | 289 | 1.276817 |
12 | Hadoop 2.6 日誌檔案和MapReduce的log檔案研究心得 | 2015/4/29 | 109 | 280 | 0.389286 |
11 | hadoop叢集的搭建指令碼及構思(一):使用者和使用者許可權 | 2015/6/16 | 66 | 232 | 0.284483 |
10 | hadoop叢集的搭建指令碼及構思(二):程式檔案的管理思路 | 2015/7/8 | 39 | 210 | 0.185714 |
9 | 資料分析工具之戰,R 和 Python的PK | 2015/11/10 | 71 | 85 | 0.835294 |
8 | 9個數據科學家必須的技能 | 2015/11/12 | 35 | 83 | 0.421687 |
7 | RedHat 6上安裝執行7zip | 2015/11/20 | 33 | 75 | 0.44 |
6 | 用Scala推薦的Eclipse作為IDE開發Spark 1.5.1的程式 | 2015/11/24 | 68 | 71 | 0.957746 |
5 | 班門弄斧的寫統計-置信區間的自我總結 | 2015/12/14 | 25 | 51 | 0.490196 |
4 | hadoop叢集的搭建指令碼及構思(N):一個簡化的Hadoop+Spark on Yarn叢集快速搭建 | 2015/12/22 | 26 | 43 | 0.604651 |
3 | 一個詭異的spark-submit執行問題(已解決) | 2015/12/22 | 30 | 43 | 0.697674 |
2 | 初學者入門-用Spark ML來處理超大資料 | 2015/12/23 | 34 | 42 | 0.809524 |
1 | 如何在RedHat裡面編譯R原始碼並安裝 | 2016/1/6 | 23 | 28 | 0.821429 |
. | Total | . | 1032 | . | . |
裡面ID是釋出的順序,倒序排了一下。其他的都好理解。總共不到一年的時間,寫了15篇。到1月20日,總共閱讀1032次。基本上是在1月6號釋出了以後沒幾天就到一千了。內容包括系統搭建的內容,安裝OS、軟體什麼的。另外有一點演算法研究,還有就是學Spark的一點東西。都不是很深的內容。
下面重點比較兩個量,一是單貼的總閱讀量和單貼的平均每日閱讀量。應該能說明一些現象。
文章標題 | 閱讀量 |
兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector | 369 |
Hadoop 2.6 日誌檔案和MapReduce的log檔案研究心得 | 109 |
資料分析工具之戰,R 和 Python的PK | 71 |
用Scala推薦的Eclipse作為IDE開發Spark 1.5.1的程式 | 68 |
hadoop叢集的搭建指令碼及構思(一):使用者和使用者許可權 | 66 |
一個有點意思的問題,如何快速收斂超大的KMeans | 60 |
開博留筆 | 44 |
hadoop叢集的搭建指令碼及構思(二):程式檔案的管理思路 | 39 |
9個數據科學家必須的技能 | 35 |
初學者入門-用Spark ML來處理超大資料 | 34 |
RedHat 6上安裝執行7zip | 33 |
一個詭異的spark-submit執行問題(已解決) | 30 |
hadoop叢集的搭建指令碼及構思(N):一個簡化的Hadoop+Spark on Yarn叢集快速搭建 | 26 |
班門弄斧的寫統計-置信區間的自我總結 | 25 |
如何在RedHat裡面編譯R原始碼並安裝 | 23 |
文章標題 | 平均每天閱讀量 |
兩個Mapper初始化輸出類錯誤的心得:Unable to initialize any output collector | 1.276817 |
用Scala推薦的Eclipse作為IDE開發Spark 1.5.1的程式 | 0.957746 |
資料分析工具之戰,R 和 Python的PK | 0.835294 |
如何在RedHat裡面編譯R原始碼並安裝 | 0.821429 |
初學者入門-用Spark ML來處理超大資料 | 0.809524 |
一個詭異的spark-submit執行問題(已解決) | 0.697674 |
hadoop叢集的搭建指令碼及構思(N):一個簡化的Hadoop+Spark on Yarn叢集快速搭建 | 0.604651 |
班門弄斧的寫統計-置信區間的自我總結 | 0.490196 |
RedHat 6上安裝執行7zip | 0.44 |
9個數據科學家必須的技能 | 0.421687 |
Hadoop 2.6 日誌檔案和MapReduce的log檔案研究心得 | 0.389286 |
hadoop叢集的搭建指令碼及構思(一):使用者和使用者許可權 | 0.284483 |
一個有點意思的問題,如何快速收斂超大的KMeans | 0.2 |
hadoop叢集的搭建指令碼及構思(二):程式檔案的管理思路 | 0.185714 |
開博留筆 | 0.139683 |
很明顯,關於Mapper初始化錯誤的帖子在兩榜之上都是第一名。呵呵了,看來開發者對於出錯的原因的搜尋很迫切,催生了幾乎每天都會有搜尋到這個帖子裡面的那個錯誤。而且閱讀絕對數量超過了總閱讀量的1/3。可見這種型別的帖子還是容易獲得關注。
兩榜的第二名對比就很有意思了。Hadoop的log檔案的研究是去年6月份就發表了,而且是有點內容的原創,所以不奇怪能獲得一百多的點選。但相對於為Scala配置Eclipse的開發環境這篇,其速度就差多了,釋出了71天,就有68次點選,在閱讀排行榜裡上升急快。看來後半年大家對於Spark的高度熱情讓這種抄襲轉載的文章都能得到這麼多點選。不得不說,程式設計師跟風的速度不慢啊。
第三名可以說是比較有趣的一個文章。這是一篇翻譯的文章,其總點選量和單日閱讀量都上升的很快。我也是在對這兩種工具的對比選擇時才看到並想起來翻譯一下。2015年11月釋出的。看來最近關注大資料和系統建設的人,也對這個題目比較感興趣了。都想比較一下好進行技術選型。
最後討論一下關於Hadoop的HA叢集搭建的文章。這個幾篇都有是這個部落格創立的最初目的。在一開始都得到了還可以的點選。但後來的增長就很乏力。這個是我自己的模糊的記憶,可惜CSDN裡面沒有具體的時間資料可以讓我用,不然會有更有趣的發現。
結論是:
1. 適用性的內容,比如如何排查Exception啊,配置開發環境啊的更容易得到點選,其實可能是更容易被搜尋引擎做index,然後給查詢。
2. 大資料的內容裡,工具比較是今年的可能的熱點,Spark肯定是熱點。Hadoop已經進入成熟期了。
2016年加油,多寫一些有內容的博文!
//TODO