使用 Spark ML + Jieba + Pandas 實現一個疾病智慧診功能（Python）

阿新 • • 發佈：2019-01-10

一、前言

電子病歷，很多市中心醫院都在使用，卻很少有人將其中的資料用於機器學習，以達到智慧診斷的功能

本文對此做了一個實戰案例。

二、可行性分析

1、功能介紹：

使用者輸入個人身體特徵的資訊，機器返回最可能的得出的疾病型別及其可能性 %。

2、分析：

① 使用者輸入個人病症時，為一段中文字串
② 首先要進行做特徵處理，即將文字進行分詞（英文則可以直接跳過！），
③ 打上標籤 label，進行 Spark 機器學習訓練
④ 預測

三、程式碼

1、開發環境

儲存模型

# -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com 

# pip freeze > requirements.txt
# pip install -r requirements.txt

import jieba
import pandas as pd
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression, SparkSession
from pyspark.ml.feature import HashingTF, Tokenizer

# 讀取原生資料
df = pd.read_excel("C:/Users/linhongcun/Desktop/t_sickness.xlsx" 
)
# 中文分詞
for indexs in df.index:
    string = df.loc[indexs].values[2]
    # print(string)
    con = jieba.cut(string, cut_all=True)
    content = list(con)
    c = ' '.join(content)
    # print(c)
    df.iloc[indexs, 2] = c

# 0.構建 Spark 物件
spark = SparkSession.builder.master("local").appName("sickness" 
).getOrCreate()

# 1.訓練樣本
training = spark.createDataFrame(df)
training.show(truncate=False)
""" 必須要有欄位為 label 作為預測點——1婦科疾病、2神經系統疾病、3迴圈系統疾病、4呼吸系統疾病、5消化系統疾病
+---+--------+--------------------------+-----+
|id |name    |symptom                   |label|
+---+--------+--------------------------+-----+
|1  |月經失調    |月經 月經週期 週期 不 固定           |1    |
|2  |痛經      |月經 來潮 前後 腹部 疼痛            |1    |
|3  |盆腔炎     |發熱   下腹 下腹部 腹部 疼痛         |1    |
|4  |膀胱炎     |尿急   瘙癢   灼熱              |1    |
|5  |附件炎     |月經 量 增多   痛經 嚴重           |1    |
|6  |陰道炎     |陰道 灼熱 痛癢   白帶 腥臭          |1    |
|7  |乳腺炎     |乳房 紅腫 熱 痛   有 硬塊          |1    |
|8  |宮頸炎     |以 白帶 增多 為主 主要 主要症狀 症狀     |1    |
|9  |經前期緊張綜合徵|情緒 不穩 穩定   易怒             |1    |
|10 |更年期綜合徵  |月經 紊亂   潮熱 盜汗   多疑 易怒     |1    |
|11 |乳腺增生    |乳房 脹痛   並 有 腫塊 出現         |1    |
|12 |葡萄胎     |閉經   腹痛                   |1    |
|13 |子宮肌瘤    |下腹 下腹部 腹部 出現 梨 大小 的 腫塊    |1    |
|14 |宮頸癌     |月經 之外 的 出血                |1    |
|15 |卵巢腫瘤    |腹痛   下腹 出現 腫塊             |1    |
|16 |乳腺癌     |最 可怕 的 腫塊 往往 沒有 痛感        |1    |
|17 |淋病      |尿 痛   尿急   尿道 尿道口 道口 口紅 紅腫|1    |
|18 |頭痛      |頭部 出現 反覆 反覆無常 無常 的 疼痛     |2    |
|19 |眩暈      |感覺 周圍 物體 旋轉   站立 不穩       |2    |
|20 |暈動病     |乘車 時 頭暈   噁心              |2    |
+---+--------+--------------------------+-----+
only showing top 20 rows
"""

# 2.引數設定：tokenizer、hashingTF、lr
tokenizer = Tokenizer(inputCol="symptom", outputCol="words")
hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")
lr = LogisticRegression(maxIter=10, regParam=0.001)
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])

# 3.訓練模型
model = pipeline.fit(training)

# 4.測試資料
test = spark.createDataFrame([
    (0, "興奮"),
    (1, "拒食"),
    (2, "脹痛"),
    (3, "咳嗽")
], ["id", "symptom"])
test.show(truncate=False)
"""
+---+-------+
|id |symptom|
+---+-------+
|0  |興奮     |
|1  |拒食     |
|2  |脹痛     |
|3  |咳嗽     |
+---+-------+
"""

# 5.模型預測
prediction = model.transform(test)
prediction.show(truncate=False)
""" 正確率100%——1婦科疾病、2神經系統疾病、3迴圈系統疾病、4呼吸系統疾病、5消化系統疾病
+---+-------+-----+-----------------------+--------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------+----------+
|id |symptom|words|features               |rawPrediction                                                                                                             |probability                                                                                                               |prediction|
+---+-------+-----+-----------------------+--------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------+----------+
|0  |興奮     |[興奮] |(262144,[85159],[1.0]) |[-2.477496467830346,0.23894253214354277,2.502729581080473,-0.026096802888310178,-0.2103237120516836,-0.027755130453694155]|[0.005142032398933459,0.07778023963377388,0.7482030950579408,0.05967111542618967,0.04963127430859228,0.05957224317457003] |2.0       |
|1  |拒食     |[拒食] |(262144,[70639],[1.0]) |[-2.479710267998232,0.22296399538676587,0.40711232995063407,0.12542881442781045,-0.22694517875278053,1.9511503069858014]  |[0.007096899804584044,0.10588274523648426,0.12729161551306126,0.09604310718632243,0.06751995141297448,0.5961656808465735] |5.0       |
|2  |脹痛     |[脹痛] |(262144,[204799],[1.0])|[-2.4936994604638585,0.815143389891353,0.29659283389333035,-0.024482861902893505,-0.2759726416266452,1.6824187402087265]  |[0.00764809839775098,0.2092019162066145,0.12455524293424604,0.09034843000203284,0.07025868007154462,0.4979876323878109]   |5.0       |
|3  |咳嗽     |[咳嗽] |(262144,[222472],[1.0])|[-2.484678277185686,0.17511466926473163,0.36108768539188024,-0.20941504781420683,2.233242879410125,-0.0753519090668317]   |[0.0060495948111361445,0.08646885081373447,0.10414219855157512,0.05886546146075085,0.6771632986309767,0.06731059573182673]|4.0       |
+---+-------+-----+-----------------------+--------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------+----------+
"""

# 6 模型儲存
pipeline.write().overwrite().save('C:\LLLLLLLLLLLLLLLLLLL\BigData_AI\pyspark\pipeline')
model.write().overwrite().save('C:\LLLLLLLLLLLLLLLLLLL\BigData_AI\pyspark\model')

2、生產環境

直接讀取

from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.classification import SparkSession

# 0.構建 Spark 物件
spark = SparkSession.builder.master("local").appName("medical").getOrCreate()

# 2 訓練方法：載入的方式
loadedPipeline = Pipeline.load('C:\LLLLLLLLLLLLLLLLLLL\BigData_AI\pyspark\pipeline')

# 3.訓練模型：載入的方式
loadedPipelineModel = PipelineModel.load('C:\LLLLLLLLLLLLLLLLLLL\BigData_AI\pyspark\model')

# 4.測試資料
test = spark.createDataFrame([
    (0, "興奮")
], ["id", "symptom"])

# 5.模型預測 —— 1 婦科疾病、2 神經系統疾病、3 迴圈系統疾病、4 呼吸系統疾病、5 消化系統疾病
prediction = loadedPipelineModel.transform(test)
prediction.select("prediction").show(truncate=False)

四、訓練資料

① 疾病及其特徵
② 疾病型別

已經放到 GitHub 上了：https://github.com/larger5/SparkML_TrainingData.git
讀者可以先匯入 mysql 資料庫中，再匯出為 .xls 等檔案格式進行機器學習訓練。
包括 requirements.txt，Spark 版本要注意，其他版本會報錯。

五、使用 Django 部署演算法

https://github.com/larger5/dj_medical.git

使用 Spark ML + Jieba + Pandas 實現一個疾病智慧診功能（Python）

一、前言電子病歷，很多市中心醫院都在使用，卻很少有人將其中的資料用於機器學習，以達到智慧診斷的功能本文對此做了一個實戰案例。二、可行性分析 1、功能介紹：使用者輸入個人身體特徵的資訊，機器返回最可能的得出的疾病型別及其可能性 %。 2、分析： ① 使用

實現一個簡單的眾籌（ICO）合約

代幣的程式碼在我的另一篇文章：https://blog.csdn.net/qq_34493908/article/details/81842920，這裡的眾籌合約需要結合代幣合約，一個非常典型的眾籌專案是EOS，大家可以去搜一下。實現一個眾籌合約需要分為以下幾步：設定眾籌

使用akka實現一個簡單的RPC框架（一）

一、概述目前大多數的分散式架構底層通訊都是通過RPC實現的，RPC框架非常多，比如前我們學過的Hadoop專案的RPC通訊框架，但是Hadoop在設計之初就是為了執行長達數小時的批量而設計的，在某些極端的情況下，任務提交的延遲很高，所有Hadoop的RPC顯得有些笨重。

如何自己實現一個scrapy框架——框架雛形（一）

#一、瞭解框架 ##1、首先明確一下，什麼是框架：框架是為了為解決一類問題而開發的程式，框架兩個字可以分開理解，框：表示指定解決問題的邊界，明確要解決的問題；架：表達的是能夠提供一定的支撐性和可擴充套件性；從而實現解決這類問題達到快速開發的目的。 ##2、實現

用純numpy實現一個簡單的神經網路（理解）

簡單的一個numpy神經網路示例： import numpy as np class NeuralNetwork(): def __init__(self): #將權重轉換為3×1矩陣，其值從-1到1，平均值為0 self.synaptic_we

PyQt實現一個簡單的License系統（二）

本文接著上一篇繼續講解“PyQt實現一個簡單的License系統”，主要包括： 3）如何用python建立一個GUI。 4）python如何調C DLL庫。 5）ctypes中型別處理。上一篇文章只是簡單的將ui檔案轉換為py檔案，並執行，生成了一

仿照spring-boot實現一個簡單的ioc容器（二）

前言跳過廢話，直接看正文仿照spring-boot的專案結構以及部分註解，寫一個簡單的ioc容器。測試程式碼完成後，便正式開始這個ioc容器的開發工作。正文專案結構 simpleioc boot SimpleIocApplicat

【Android 網路資料解析實現一個簡單的新聞例項（一）】

一般安卓在學到非同步任務AsyncTask之後都會有個安卓小專案的任務。得到（荔枝新聞，茶百科等）新聞網路介面來解析網路圖片或文字到ListView元件上顯示。其中要使用到的知識大概有：獲取網路資料（HttpUtil），解析網路資料（NewsParse），防止因

【遠端呼叫框架】如何實現一個簡單的RPC框架（五）優化三：軟負載中心設計與實現

【如何實現一個簡單的RPC框架】系列文章： 1.前言在部落格【遠端呼叫框架】如何實現一個簡單的RPC框架（一）想法與設計中我們介紹了“服務註冊查詢中心”，負責服務資訊的管理即服務的註冊以及查詢，在目前為止的實現中，我們採用web應用的方式，以

android硬編碼h264資料，並使用rtp推送資料流，實現一個簡單的直播-MediaCodec（一）

寫在前面：我並非專業做流媒體的coder，對流媒體行業無比崇拜，只是做了幾年安卓車載ROM，對安卓AV開發算是略懂。本篇部落格是我對MediaCodec編解碼和rtp推流的一次嘗試，希望能給有需要的朋友一些細微的幫助，不喜勿噴，如果有不對的地方希望大神指正共

【遠端呼叫框架】如何實現一個簡單的RPC框架（三）優化一：利用動態代理改變使用者服務呼叫方式

【如何實現一個簡單的RPC框架】系列文章：這篇部落格，在（一）（二）的基礎上，對第一版本實現的服務框架進行改善，不定期更新，每次更新都會增加一個優化的地方。 1、優化一：利用動態代理改變使用者服務呼叫方式 1.1 目的改變使用者

python+openCV實現簡單的圖片搜尋功能（一）

一、圖片搜尋引擎有三種不同的模式 1.Search by Meta-Data:元資料搜尋模式，這種和傳統的文字搜尋類似，給索引資料新增文字註釋，上傳待查詢的圖片的時候，需要附加圖片的文字描述，實際在後臺搜尋對應的文字描述，典型的有 https://www.flickr.com/

自己實現knn，進行圖片分類（python）

資料集下載這是斯坦福課程的作業，根據大綱裡面assignment1內的提示，下載好實驗所需要的資料集。目錄前言：程式碼主體： part1 資料的匯入以及預處理 part2 knn訓練以及預測具體實現 3.1 資料匯入 3.2 計算dist（三種實現，由易

web實現登入，記住密碼功能（cookie）

介面： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>登入頁面</title>

Android實現二維碼掃描功能（三）-閃光燈控制

簡介本篇我們對光線暗淡情況下閃光燈的使用做出介紹。效果晚上測試時：開燈後：未開燈：實現步驟 1、在activity_scanner.xml介面上加上閃光燈開關按鈕。可以是Button、Checkbox等控制元件。

SSM框架下實現驗證碼圖片驗證功能（原始碼）

SSM框架下實現驗證碼圖片驗證功能背景圖片資源路徑 https://download.csdn.net/download/hero_qhz/10322064 一、首先，在pom裡面加上需要用的資源jar包等，並且加上驗證圖片的引用圖片路徑，否則專案啟動會報找不到圖片資源的錯

Android實現二維碼掃描功能（二）-ZXing個性化與近距離識別優化

簡介本篇我們對掃碼介面進行優化，並對ZXing近距離無法識別的問題做出優化。個性化定製每個APP都有自己的表現形式，實現個性化掃碼介面定製，主要有兩個地方： activity_scanner.xml介面檔案 com.google.zxin

Solidify實現一個智慧合約10（列舉）

程式碼示例 pragma solidity ^0.4.4; contract Mj { enum ActionChoices {GoLeft,GoRight,GoStraight,SitSti

jQuery實現一個簡單的購物車功能

名稱展示 -1 set margin for button ans return 最近由於工作需要的原因，開始系統學習jQuery的知識，然後跟著一個視頻教程做了一個購物車的功能，現總結如下。第一步：準備HTML頁面，代碼如下： <!DOCTYPE html P

使用python的Flask實現一個RESTful API伺服器端使用python的Flask實現一個RESTful API伺服器端[翻譯]

使用python的Flask實現一個RESTful API伺服器端[翻譯] 最近這些年，REST已經成為web services和APIs的標準架構，很多APP的架構基本上是使用RESTful的形式了。本文將會使用python的Flask框架輕鬆實現一個RESTful的服務。 R

使用 Spark ML + Jieba + Pandas 實現一個疾病智慧診功能（Python）

一、前言

二、可行性分析

1、功能介紹：

2、分析：

三、程式碼

1、開發環境

2、生產環境

四、訓練資料

五、使用 Django 部署演算法

相關推薦