威斯康星乳腺癌良性預測

阿新 • • 發佈：2018-11-01

一、獲取資料

wget https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data

　原始資料以逗號分隔：

　各個列的屬性：

　　1.Sample Code Number　　　　id number

　　2.Clump Thickness　　　　　　1 - 10　　　　腫塊厚度

　　3.Uniformity Of Cell Size　　　　1 - 10　　　　細胞大小均一性

　　4.Uniformity Of Cell Shape　　　1 - 10　　　　細胞形狀的均一性

　　5.Marginal Adhesion　　　　　　1 - 10　　　邊緣附著性

　　6.Single Epithelial Cell Size　　 1 - 10　　　　單上皮細胞大小

　　7.Bare Nuclei　　　　　　　　　 1 - 10　　　　裸核

　　8.Bland Chromatin　　　　　　　1 - 10　　　　布蘭染色質

　　9.Normal Nucleoli　　　　　　　 1 - 10　　　　正常核仁

　　10.Mitoses　　　　　　　　　　 1 - 10　　　　有絲分裂

　　11.Class　　　　　　　　　　　　　　　　　　 2是良性，4是惡性

二、使用LR和SGD

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
from sklearn import metrics

#資料沒有標題，因此加上引數header
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', header=None)

column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape',\
                'Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei',\
                'Bland Chromatin','Normal Nucleoli','Mitoses','Class']

data.columns = column_names
#發現數據中存在?符號
data = data.replace(to_replace='?',value = np.nan)
data = data.dropna(how='any')

#一般1代表惡性，0代表良性（本資料集4惡性，所以將4變成1，將2變成0）
#data['Class'][data['Class'] == 4] = 1
#data['Class'][data['Class'] == 2] = 0
data.loc[data['Class'] == 4, 'Class'] = 1
data.loc[data['Class'] == 2, 'Class'] = 0

#Sample code number特徵對分類沒有作用，將資料集75%作為訓練集，25%作為測試集
X_train, X_test, y_train, y_test = train_test_split(data[ column_names[1:10] ], data[ column_names[10] ], test_size = 0.25, random_state = 33)

ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

lr = LogisticRegression()
lr.fit(X_train, y_train)
lr_y_predict = lr.predict(X_test)
print( 'The LR Predict Result', metrics.accuracy_score(lr_y_predict, y_test) )
#LR也自帶了score
print( "The LR Predict Result Show By lr.score", lr.score(X_test, y_test) )


sgdc = SGDClassifier(max_iter = 1000)
sgdc.fit(X_train, y_train)
sgdc_y_predict = sgdc.predict(X_test)
print( "The SGDC Predict Result", metrics.accuracy_score(sgdc_y_predict, y_test) )
#SGDC也自帶了score
print( "The SGDC Predict Result Show By SGDC.score", sgdc.score(X_test, y_test) )
print("\n")
print("效能分析:\n")
#效能分析
from sklearn.metrics import classification_report
#使用classification_report模組獲得LR三個指標的結果（召回率，精確率，調和平均數）
print( classification_report( y_test,lr_y_predict,target_names=['Benign','Malignant'] ) )

##使用classification_report模組獲得SGDC三個指標的結果
print( classification_report( y_test,sgdc_y_predict,target_names=['Benign','Malignant'] ) )

'''
特點分析：
LR對引數的計算採用精確解析的方法，計算時間長但是模型效能高
SGDC採用隨機梯度上升演算法估計模型引數，計算時間短但產出的模型效能略低，
一般而言，對於訓練資料規模在10萬量級以上的資料，考慮到時間的耗用，推薦使用SGDC
'''

威斯康星乳腺癌良性預測

一、獲取資料 wget https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data 　原始資料以逗號分隔：　各個列的屬性：

AWS 案例研究：美國威斯康星州 Gibraltar Area Schools 學區

目前，Gibraltar 已步入正軌，與使用期為 5 年的典型本地基礎設施相比，可節省 25% 的成本。該學區還關閉了幾臺舊伺服器，立即實現了能源節約。此外，該學區沒有與外部支援服務提供商簽訂合約，而是依靠 Amazon Premium Support 提供的幫助縮短了上市時間和服務成

機器學習之良/惡性乳腺癌腫瘤預測

nan n) gin sample 通過回歸 ipy read 數據集知識點：　　邏輯斯蒂回歸分類器　　訓練數據集：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-w

PCB、鋼網等檢測優於基恩士、康耐視、海克斯康、大華

一想到視覺公司人們第一時間想到肯定是基恩士、康耐視、海克斯康、大華等品牌，作為視覺列強的他們從來不缺資源，對發展中國進行技術封鎖，發展中國家只能通過交付龐大的費用去交換別人的門檻技術。這時中科藍海憑空出世，作為行業標杆企業，中科藍海表明要在工業4.0的道路上實現彎道超車只能摒棄原來人

良/惡性乳腺癌腫瘤預測---線性分析

1 線性分類器介紹：假設特徵與分類結果存線上性關係的模型；通過累加計算每個維度的特徵與各自權重的乘積幫助類別決策。 2 實驗程式碼及截圖 #coding:utf-8 import pandas as pd import numpy as np #建立特徵列表

澳斯康生物完成4500萬美元的A輪融資，以擴大一體化CMC，並在中國建設世界上最大的細胞培養生產廠

加州THOUSAND OAKS和上海 -- (美國商業資訊) -- 澳斯康生物製藥（海門）有限公司(Thousand Oaks Biopharmaceuticals, Inc.,“TOBIO”)是一家領先的一體化全球性CMC組織，擁有GMP細胞培養基和生物製造能力，該公司今天宣佈已完成4500萬

h3c和瑞斯康達面試經驗

最近一段時間分別在華三和瑞斯康達進行了面試，現在總結一下。華三：剛開始接到華三公司的面試電話還挺意外的，後面約好了週三到該公司進行面試，他們公司現在搬到了回龍觀東大街地鐵站旁邊。早上8點半到達該公司，等了半小時，9點的時候人力的人來了，跟我一塊去面試的還有

海康威視復賽題 ---- 碰撞避免方案（1）

更新 bsp 題目比較 toc .html 可能 pro 徹底題目詳情：http://www.cnblogs.com/wlzy/p/7096182.html 復賽題要求機器人之間不允許發生碰撞和相遇，拿到題目後，大體有以下幾個解題思路： 1.基於側邊停車的碰撞避免算法

海康威視復賽題 --- 算法說明書

重疊 wal -- 位置車機修改選擇解決獲得一、題目背景　　海康威視智能泊車機器人依托海康威視多年在圖像處理、硬件設計及嵌入式軟件領域的技術積累，以及阡陌系列智能倉儲機器人歷經兩年多來精雕細琢已成熟應用的核心技術，瞄準“停車難”痛點，為用戶帶來完美的停車體

[轉]微服務架構的理論基礎 - 康威定律

搭建基礎維系接口 api pro 1.8 project 個人轉自：https://yq.aliyun.com/articles/8611 概述關於微服務的介紹，可以參考微服務那點事。微服務是最近非常火熱的新概念，大家都在追，也都覺得很對，但是似乎沒有很充足的

[luoguP2447] [SDOI2010]外星千足蟲（高斯消元 + bitset）

tps int term for return put ans pro isdigit 傳送門用bitset優化，要不然n^3肯定超時消元過程中有幾點需要註意，找到最大元後break，保證題目中所說的K最小如果有自由元說明解很多，直接返回 #i

DT：DT實現根據乳腺腫瘤特征向量高精度預測腫瘤的是惡性還是良性

ros ati aso isp sop ica sim 交叉 all %DT：DT實現根據乳腺腫瘤特征向量高精度預測腫瘤的是惡性還是良性 load data.mat a = randperm(569); Train = data(a(1:500),:); Test

RF：RF實現根據乳腺腫瘤特征向量高精度(better)預測腫瘤的是惡性還是良性—Jason niu

body pos tlab 高精度 total index 性能分析總數 itl %RF：RF實現根據乳腺腫瘤特征向量高精度(better)預測腫瘤的是惡性還是良性 load data.mat a = randperm(569); Train = data(a(1:

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

杭州海康威視、新華三面試準備問題

全局指向面試海康私有運行概念多個堆棧 1.死鎖的產生原因，和如何避免死鎖？ 2.多線程中堆棧哪個是私有的？答案是棧，多線程之間棧是私有的，堆和全局變量等是公共的。 3.說說什麽是智能指針？智能指針實際上是對普通指針加了一層封裝機制，這層封裝機制是

題解外星千足蟲(線性基+高斯消元)

置疑 pac 想要 %d ++ ldb printf ins n+1 題解 luogu外星千足蟲(線性基+高斯消元) 題目 luogu題目傳送門題解想法首先需要知道這是個異或方程對吧然後既然看到位運算，又有這麽多，就可以考慮線性基(做題技巧)，那我們就丟進去接下

海康威視(iOS集成)

bsp 沖突 tps .html 解決 cheng add aliyun .com 相關資料： https://www.jianshu.com/p/24adda28e9f0 https://www.jianshu.com/p/4664e16bb80d 解決庫沖突 htt

4星|簡·雅各布斯《城市經濟》：農業發源於城市，城市的發展來自進口商品本地生產帶來的乘數效應

border 都在組織發出學術世紀農業生產不能將不城市經濟作者是著名公共知識分子。本書英文版出版於1969年，差不多是50年前的書了。現在看內容沒過時，不過出版社沒請專家寫前言後序，不知道作者的結論在學術圈的認可程度怎麽樣。以我的了解，作者推測的農業

bzoj 1923: [Sdoi2010]外星千足蟲【高斯消元】

ios eterm char max ear space \n term n+1 裸的異或高斯消元 #include<iostream> #include<cstdio> using namespace std; const int N=2005;

關於海康威視與Unity3d集成沖突問題解決

www. tps cnblogs org 問題 sof tail tin port 一、集成　　1.1 了解什麽是ANSI系列與GNU系列　　　　 https://baike.baidu.com/item/ANSI%20C/7657277?fr=aladdin 　　

威斯康星乳腺癌良性預測

相關推薦