1. 程式人生 > >Alpha沖刺-第二天

Alpha沖刺-第二天

常見 bubuko 技術分享 啟動 ins 操作 各類 src 發的

1.1 今日完成任務情況以及遇到的問題。

完成任務情況

  • 杜世康:實現彈幕的異步,批量存儲,經測試,服務器的Jenkins服務,Tomcat服務啟動時,在單個任務的爬取下,阿裏雲服務器(CPU 1核 內存 2G 固態磁盤 40G)的CPU使用率維持在10%上下,數據庫寫操作維持1 Count/s,入網0.8kb/s。增強後的程序應該能夠完成彈幕文本的存儲,如下圖所示:
    技術分享圖片
    技術分享圖片

  • 劉丹,李玉瑩:經過細致分析,最終確定了彈幕文本有價值的分析方向。即彈幕整體樣本的情感分析,詞頻分析,關鍵字分析等有價值的分析維度。
  • 曹瑩雯,尹楠: 了解到目前中文分詞,比較權威的中科院開發的NLPIR/ICTCLAS分詞系統非常適合我們團隊的分析方向
  • 王靜雅 :完成彈幕管理中的彈幕列表功能,如下圖,並撰寫Alpha沖刺博文
    技術分享圖片

遇到的問題

  • 在彈幕存儲後,對於彈幕的分詞前,垃圾彈幕如何有效的過濾是個問題,比較常見的垃圾彈幕主要如下兩種:

  • 單個詞,但又不是褒貶類的詞匯:“的”、“一”等;各類標點符號或是特殊符號:“!!!!!!!!!!”、“。。。。。”、“◆△◇←〓☆”、“!@#$%”等;全部都是數字的詞匯:“6666666666”、“233333333333”
  • 淫穢色情、不文明用語,如“臥槽”、“SB”、“草泥馬”等。


1.2 明天任務安排

  • 杜世康:垃圾彈幕的過濾處理
  • 劉丹,李玉瑩:平臺主播管理功能實現
  • 曹瑩雯,尹楠: 研究NLPIR/ICTCLAS分詞系統的Java API如何調用
  • 王靜雅:完成系統管理中的管理員管理,並撰寫明日Alpha沖刺博文

1.3 成員貢獻時間

任務 成員 任務量 完成時間
彈幕的異步存儲 杜世康 30% 4h
彈幕文本的分析方向 劉丹 15% 2h
彈幕文本的分析方向 李玉瑩 15% 2h
NLPIR/ICTCLAS分詞系統 曹瑩雯 10% 2h
NLPIR/ICTCLAS分詞系統 尹楠 10% 2h
完成彈幕管理中的彈幕列表功能與博文撰寫 王靜雅 20% 2h

1.4 站立會議照片

技術分享圖片

Alpha沖刺-第二天