大資料文字分析的應用場景有哪些?
https://www.pmcaff.com/discuss/index/480966354177088?from=related&pmc_param%5Bentry_id%5D=1000000000167873
自問自答一發。之前寫過2篇相關的文章:
【資料運營】在運營中,為什麼文字分析遠比數值型分析重要?(上)
【資料運營】在運營中,為什麼文字分析遠比數值型分析重要?一個實際案例,五點分析(下)
除了上面那幾種應用,這種基於大資料的文字分析還有如下實際應用:
1 傳播分析
檢索物件在傳播趨勢和傳播渠道上的分析。
- 傳播走勢
- 傳播渠道
2 情感分析
情感分析指的是對文字中情感的傾向性和評價物件進行提取的過程。
基於上百萬條社交網路平衡語料和數十萬條新聞平衡語料的機器學習模型,結合自主開發的半監督學習技術,正負面情感分析準確度達到80%以上,可以輕鬆的識別網民對於某一檢索物件的好惡傾向,最直接的應用就是品牌口碑檢測領域。
3 資訊分類
文字資訊分類將文字按照預設的分類體系進行自動區分。常見的商業應用前景有:
通過社交網路挖掘商業情報和潛在銷售機會;
- 企業內文字資料分析;
- 海量資料篩選;
- 資訊分類;
- 自動標籤預測等。
4 典型意見提取
- 微博評論典型意見
- 網民典型評論
典型意見引擎將消費者意見進行單句級別的語義聚合,提取出有代表性的意見。常見的商業應用前景有:
- 消費者調研;
- 電商點評分析;
- 社會熱點事件的意見整理。
5 文字聚類
相似文字聚類指的是機器自動對給定的文字進行話題聚類,將語義上相似的內容歸為一類。常見的商業應用前景有:
- 海量文件、資訊的整理;
- 話題級別的統計分析。
6 關鍵詞抽取
- 文章關鍵詞抽取
- 使用者評論關鍵詞抽取
關鍵詞提取引擎從一篇或多篇文字中提取出有代表性的關鍵詞。關鍵詞提取技術綜合考慮詞語在文字中的頻率,和詞語在千萬級背景資料中的頻率,選擇出最具有代表性的關鍵詞並給出相應權重。
可以使使用者在如恆河沙數的文字資料中提煉出有價值的資訊,節省閱讀時間。
7 語義網路分析、知識圖譜
通過將應用數學、圖形學、資訊視覺化技術、資訊科學等學科的理論與方法引入文字資料分析領域,並結合共現分析手段,視覺化語義網路呈現各類文字/資訊之間的內在相關關係,時間維度上的動態關係(傳播路徑)。
- 知識圖譜網路
- 傳播網路
- 商品關聯網路
1.錘子新發布的功能“BigBang”分詞功能。也算是大資料文字分析的應用,通過大資料文字分析,才能實現對詞義的準確分析,從而做到更準確的分詞。
2.網路輿情監控。這也當然是大資料文字分析的產物,提取網路文字的關鍵詞,組成語義網路之後分析語義傾向,達到輿情監控的目的。
3.社交網路情緒監控。相信大家都看到了很多網路上直播自殺、發自殺預報的這樣的事情,和輿情監控相同,就是對個人社交網路的資訊進行監控,通過文字分析和機器學習的技術,分析出此人的情緒狀況,一旦出現極端的負面情緒,可以通過一定的措施避免極端行為的發生。
4.證券行業投資情報獲取。可以基於積累的大資料做進一步深層次的分析與挖掘,整合各社交網路、證券討論社群群體資訊提取加工成有價值的證券投資情報,對證券投資行為做輔助分析和預報。