1. 程式人生 > >1.4 Python基本程式設計解析(下)

1.4 Python基本程式設計解析(下)

1. import的三種用法

方法一:

import <庫名>
<庫名>.<函式名>(<函式引數>)

import <庫名1>,<庫名2>

適合簡單庫名情況

方法二:

from <庫名> import <函式名>

from <庫名> import *
<函式名>(<函式引數>)

混合名稱空間,適合極少庫使用情況

方法三:

import <庫名> as <庫別名>
<
庫別名>.<函式名>(<函式引數>)

適合複雜庫名情況

2. jieba中文分詞庫

2.1 jieba庫概述

jieba是優秀的中文分詞第三方庫

  • 對中文文字進行分詞操作,產生包含產生詞語的列表
  • jieba是第三方庫,需要額外安裝

2.2 jieba庫使用

函式 描述
jieba.lcut(s) 精確模式,返回字串s對應的一個列表型別分詞結果
>>> jieba.lcut("中國是一個偉大的國家")
['中國', '是', '一個', '偉大', '的', '國家']
jieba.lcut(s,cut_all=True) 全模式,返回字串s對應的一個列表型別分詞結果,存在冗餘
>>> jieba.lcut("中國是一個偉大的國家",cut_all = True)
['中國', '國是', '一個', '偉大', '的', '國家']
jieba.add_word(w) 向分詞詞典增加新詞w
>>>jiba.add_word("蟒蛇語言")

3. 計算生態程式設計

3.1 利用Python龐大的計算生態提高程式設計產量

  • 除了Python語法外,要熟練掌握一批Python庫的使用
  • 對於某些”通用問題“,學會去尋找Python庫
  • http://pypi.org

3.2 圍繞Python計算生態完成程式設計功能

  • 結合Python計算生態中較重要的框架,完成程式設計任務
  • 例如:結合PyTorch開展深度學習應用
  • 例如:結合Scrapy框架編寫爬蟲應用

3.3 構建Python庫,豐富Python計算生態

  • 對於新的理解和認識,構架Python計算生態
  • 底層可以利用C/C++等語言實現,給予Python介面

例項3:中文分詞統計

程式需求

統計中文詞語出現次數

  • 以三國演義為例,統計出現的中文詞語數量
  • 按照一定標準輸出,如出現次數等
  • 需要解決中文分詞問題,如:這是一門好課 -> 這是 一門 好課
  • 輸入:threekingdoms.txt
  • 輸出:出現超過50次的詞語,不包括換行
# WordsCount.py
import jieba
f = open("threekingdoms.txt","r",encoding = "utf-8")
txt = f.read() # 把檔案內容以文字形式讀入
f.close()
ls = jieba.lcut(txt) # 中文分詞產生結果儲存為列表型別
d = {}         # 建立一個空字典-鍵值對的集合
# 建立每個單詞與出現次數的鍵值對     
for w in ls:    
    d[w] = d.get(w,0) + 1
# 遍歷結果,設定條件,列印輸出
for k in d:   # k為字典d中每一個鍵 
    if d[k] >= 50 and k != "\n":
        print('"{}"出現{}次'.format(k,d[k]))