1. 程式人生 > >+中文詞頻統計及詞雲制作9-25

+中文詞頻統計及詞雲制作9-25

輸出 很難 imp range 著名 python cloud 基本 jieba

1.我希望老師能講一點python在數據挖掘,數據分析領域的應用,最好能舉些實例,或者說帶我們實際操作一波。

2.中文分詞

  1. 下載一中文長篇小說,並轉換成UTF-8編碼 技術分享
     

  2. 使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數。
  3. >>>import jieba
    
    >>>lr = open(鬥破蒼穹第一章.txt,w)
    >>>lr.write(‘‘‘大陸名為鬥氣大陸,大陸上並沒有小說中常見的各系魔法,而鬥氣,才是大陸的唯一主調!
    
    在這片大陸上,鬥氣的修煉,幾乎已經在無數代人的努力之下,發展到了巔峰地步,而且由於鬥氣的不斷繁衍,最後甚至擴散到了民間之中,這也導致,鬥氣,與人類的日常生活,變得息息相關,如此,鬥氣在大陸中的重要性,更是變得無可替代!
    
    因為鬥氣的極端繁衍,同時也導致從這條主線中分化出了無數條鬥氣修煉之法,所謂手有長短,分化出來的鬥氣修煉之法,自然也是有強有弱。
    
    經過歸納統計,鬥氣大陸將鬥氣功法的等級,由高到低分為四階十二級:天.地.玄.黃!
    
    而每一階,又分初,中,高三級!
    
    修煉的鬥氣功法等級的高低,也是決定日後成就高低的關鍵,比如修煉玄階中級功法的人,自然要比修煉黃階高級功法的同等級的人要強上幾分。
    
    鬥氣大陸,分辯強弱,取決於三種條件。
    
    首先,最重要的,當然是自身的實力,如果本身實力只有一星鬥者級別,那就算你修煉的是天階高級的稀世功法,那也難以戰勝一名修煉黃階功法的鬥師。
    
    其次,便是功法!同等級的強者,如果你的功法等級較之對方要高級許多,那麽在比試之時,種種優勢,一觸既知。
    
    最後一種,名叫鬥技!
    
    顧名思義,這是一種發揮鬥氣的特殊技能,鬥技在大陸之上,也有著等級之分,總的說來,同樣也是分為天地玄黃四級。
    
    鬥氣大陸鬥技數不勝數,不過一般流傳出來的大眾鬥技,大多都只是黃級左右,想要獲得更高深的鬥技,便必須加入宗派,或者大陸上的鬥氣學院。
    
    當然,一些依靠奇遇所得到前人遺留而下的功法,或者有著自己相配套的鬥技,這種由功法衍變而出的鬥技,互相配合起來,威力要更強上一些。
    
    依靠這三種條件,方才能判出究竟孰強孰弱,總的說來,如果能夠擁有等級偏高的鬥氣功法,日後的好處,不言而喻…
    
    不過高級鬥氣修煉功法常人很難得到,流傳在普通階層的功法,頂多只是黃階功法,一些比較強大的家族或者中小宗派,應該有玄階的修煉之法,比如蕭炎所在的家族,最為頂層的功法,便是只有族長才有資格修煉的:狂獅怒罡,這是一種風屬性,並且是玄階中級的鬥氣功法。
    
    玄階之上,便是地階了,不過這種高深功法,或許便只有那些超然勢力與大帝國,方才可能擁有…
    
    至於天階…已經幾百年未曾出現了。
    
    從理論上來說,常人想要獲得高級功法,基本上是難如登天,然而事無絕對,鬥氣大陸地域遼闊,萬族林立,大陸之北,有號稱力大無窮,可與獸魂合體的蠻族,大陸之南,也有各種智商奇高的高級魔獸家族,更有那以詭異陰狠而著名的黑暗種族等等…
    
    由於地域的遼闊,也有很多不為人知的無名隱士,在生命走到盡頭之後,性子孤僻的他們,或許會將平生所創功法隱於某處,等待有緣人取之,在鬥氣大陸上,流傳一句話:如果某日,你摔落懸崖,掉落山洞,不要驚慌,往前走兩步,或許,你,將成為強者!
    
    此話,並不屬假,大陸近千年歷史中,並不泛這種依靠奇遇而成為強者的故事.
    
    這個故事所造成的後果,便是造就了大批每天等在懸崖邊,準備跳崖得絕世功法的懷夢之人,當然了,這些人大多都是以斷胳膊斷腿歸來…
    
    總之,這是一片充滿奇跡,以及創造奇跡的大陸!
    
    ‘‘‘) >>>lr.close() >>>txt = open(鬥破蒼穹第一章.txt,r,encoding=GBK).read() >>>words = jieba.cut(txt) >>>dic = {} >>>for word in words: if len(word) == 1: continue else: reword = word dic[word] = dic.get(word,0) +1 >>>keys
    = set(word) >>>t = sorted(dic.items()) >>>dd = list(dic.items()) >>>dd.sort(key = lambda x:x[1],reverse = True) >>>for i in range(20): print(dd[i])
    技術分享
  4. **排除一些無意義詞、合並同一詞。
  5. **使用wordcloud庫繪制一個詞雲。

+中文詞頻統計及詞雲制作9-25