Python聚類分析死囚的最後遺言問題

阿新 • • 發佈：2018-12-28

聚類是無監督學習的一個例子,具體的定義百度一下吧！直接進入主題，先說明一下資料的問題，該資料是我重一家外國網站收集的關係死囚的臨行前的一些最後遺言，以及死囚的一些個人資料，僅供參看。
先說明一下怎樣爬取資料吧！該案例使用urllib2，bs4，SGMLParser庫中知識，其中urllib2用於爬取資料，bs4和SGMLParser用於解析資料，並儲存到檔案中去。具體的直接看程式碼吧！

# coding=utf-8

import urllib2
from bs4 import BeautifulSoup
from sgmllib import SGMLParser


class 
 FirstParser(SGMLParser):
    def __init__(self):
        SGMLParser.__init__(self)
        self.__start_tbody = False
        self.__start_tr = False
        self.__start_td = False
        self.__start_th = False
        self.__start_a = False
        self.__td_state = 0
        self.__tr_value = []
        self.data = []

    def 
 start_tbody(self, attr):
        self.__start_tbody = True

    def end_tbody(self):
        self.__start_tbody = False

    def start_tr(self, attrs):
        if self.__start_tbody:
            self.__start_tr = True

    def end_tr(self):
        if self.__start_tbody and self.__start_tr:
            self.data.append(self.__tr_value)
            self.__tr_value = []
            self.__start_tr = False 


    def start_th(self, attrs):
        if self.__start_tbody and self.__start_tr:
            self.__start_th = True

    def end_th(self):
        if self.__start_tbody and self.__start_tr and self.__start_th:
            self.__start_th = False

    def start_td(self, attrs):
        if self.__start_tbody and self.__start_tr:
            self.__start_td = True
            self.__td_state += 1

    def end_td(self):
        if self.__start_tbody and self.__start_tr and self.__start_td:
            self.__start_td = False
            self.__td_state = 0

    def start_a(self, attrs):
        if self.__start_tbody and self.__start_tr:
            self.__tr_value.append(attrs[0][1])
            # print attrs
            self.__start_a = True

    def end_a(self):
        if self.__start_tbody and self.__start_tr and self.__start_td:
            self.__start_a = False

    def handle_data(self, data):
        if self.__start_tbody and self.__start_tr and \
                (self.__start_td or self.__start_th):
            if self.__start_th:
                self.__tr_value.append(data)
            if self.__start_td:
                # if self.__td_state != 2 or self.__td_state != 3:
                self.__tr_value.append(data)


def read_first(page):
    soup = BeautifulSoup(page, 'lxml')
    value = []
    for row in soup.find_all('tbody'):
        tbody = row.find_all('tr')
        print len(tbody)
        for index, r in enumerate(tbody):
            t = []
            if index == 0:
                for k in r.find_all('th'):
                    t.append(k.string)
            else:
                for k in r.find_all('td'):
                    t.append(k.string)
            value.append(t)
    return value


def download_second(url):
    url = 'http://www.tdcj.state.tx.us/death_row/' + url
    page = urllib2.urlopen(url).read()
    page = page.replace('<br />', '')
    soup = BeautifulSoup(page, 'lxml')
    vl = []
    v2 = []
    for row in soup.find('table').find_all('tr'):
        td = row.find_all('td')
        vl.append(fun_replace(td[len(td) - 1].string))
    p = soup.find_all('p')
    for row in p[1:]:
        temp = []
        if len(row.find_all('span')) > 0:
            # temp.append(fun_replace(str(row.find_all('span')[0].string)))
            try:
                temp.append(fun_replace(str(row.text.split('\r\n')[1].strip())))
            except:
                temp.append('')
        else:
            # temp.append(row.string)
            temp.append('')
        v2.append(temp)
    return [vl, v2]


def download_three(url):
    url = 'http://www.tdcj.state.tx.us/death_row/' + url
    page = urllib2.urlopen(url).read()
    soup = BeautifulSoup(page, 'lxml')
    p = soup.find_all('p')
    v1 = []
    if len(p) >= 6:
        for index, row in enumerate(p):
            if index % 2 == 1:
                v1.append([fun_replace(p[index].string),
                           fun_replace(p[index + 1].string)])
            if index >= 5:
                break
    return v1


def fun_replace(s):
    return s.replace(',', '.') if s is not None else ''


def down_first():
    url = 'http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html'
    # page = urllib2.urlopen(url).read()
    page = open('first.html').read()
    first = FirstParser()
    first.feed(page)
    value = first.data
    with open('first.txt', 'a+') as f:
        for index, row in enumerate(value):
            print row[0]
            if index == 0:
                continue
                value = 'Execution,Name,TDCJ Number,Date of Birth,Date Received,' \
                        'Age (when Received),Education Level (Highest Grade Completed),' \
                        'Date of Offense,Age (at the time of Offense),County,Race,Gender,' \
                        'Hair Color,Height,Weight,Eye Color,Native County,Native State,' \
                        'Prior Occupation,Prior Prison Record,Summary of Incident,Co-Defendants,' \
                        'Race and Gender of Victim,Date of Execution,Offender,Last Statement,' \
                        'Last Name,First Name,Race,County\n'
                f.write(value)
            else:
                try:
                    se = download_second(row[1])
                    th = download_three(row[3])
                    value = row[0] + ',' + se[0][0] + ',' + se[0][1] + ',' + se[0][2] + ',' + se[0][3] \
                            + ',' + se[0][4] + ',' + se[0][5] \
                            + ',' + se[0][6] + ',' + se[0][7] + ',' + se[0][8] + ',' + se[0][9] + ',' + se[0][10] \
                            + ',' + se[0][11] + ',' + se[0][12] + ',' + se[0][13] + ',' + se[0][14] \
                            + ',' + se[0][15] + ',' + se[0][16] + ',' + se[1][0][0] + ',' + se[1][1][0] + ',' \
                            + se[1][2][0] + ',' + se[1][3][0] + ',' + se[1][4][0] + ',' + th[0][1] + ',' + th[1][0] \
                            + ',' + th[2][0] + ',' + row[3] + ',' + row[4] + ',' + row[-2] + ',' + row[-1] + '\n'
                    f.write(value.encode('utf-8'))
                except BaseException as e:
                    print e
                # break


down_first()

這裡不建議直接通過案例直接去爬取資料，資料中有些坑，好多資料是以圖片的形式展現的，沒有辦法獲取到的！可以直接下載案例中的資料去使用。

下面開市進行聚類分析

# coding=utf-8

import math
import random
import re


def height(s):
    if s.find('\'') != -1:
        t = s.replace('"', '').split('\'')
    elif s.find('ft') != -1:
        t = s.replace('.', '').replace('in', '').split('ft')
    elif s.find('-') != -1:
        t = s.split('-')
    elif len(s.strip()) == 0:
        t = ['5', '11']
    else:
        t = ['5', '11']
    v = [float(t[0].strip()), float(t[1].strip() if len(t[1].strip()) != 0 else '0')]
    return round((12 * v[0] + v[1]) * 30.48 / 12, 2)


def grade(s):
    p = re.match(r'\d+', s)
    if p is None:
        return 12
    else:
        sp = p.span()
        return int(s[sp[0]:sp[1]])


def load_dataset():
    dataSet = []
    labels = []
    titles = []
    with open('first.txt', 'r+') as f:
        for index, row in enumerate(f.readlines()):
            if index == 0:
                titles = [row for row in row.strip().split(',')]
            else:
                t = [row for row in row.strip().split(',')]
                dataSet.append([int(t[5]), grade(t[6]), height(t[13]), float(t[14].replace('lbs.', ''))])
                labels.append([row.strip() for index, row in enumerate(t) if index not in (14, 13, 6, 5)])
    return dataSet, labels, titles


def pearson(v1, v2):
    '''
    計算皮爾相關度
    :param v1:
    :param v2:
    :return:
    '''
    sum1 = sum(v1)
    sum2 = sum(v2)

    sum1Sq = sum([pow(x, 2) for x in v1])
    sum2Sq = sum([pow(x, 2) for x in v2])

    psum = sum([v1[index] * v2[index] for index in range(len(v1))])

    # 計算r
    num = psum - (sum1 * sum2 / len(v1))
    den = math.sqrt((sum1Sq - pow(sum1, 2) / len(v1)) * (sum2Sq - pow(sum2, 2) / len(v1)))
    if den == 0: return 0
    return 1.0 - num / den


def euclidean(v1, v2):
    '''
    歐幾里得距離
    :param v1:
    :param v2:
    :return:
    '''
    return math.sqrt(sum([pow(v1[i] - v2[i], 2) for i in range(len(v1))]))


class bicluster:
    def __init__(self, vec, left=None, right=None, distance=0.0, id=None):
        self.left = left
        self.right = right
        self.vec = vec
        self.id = id
        self.distance = distance


def hcluster(rows, distance=pearson):
    '''
    簡單分類
    :param rows:
    :param distance:
    :return:
    '''
    distances = {}
    currentclustid = -1
    clust = [bicluster(rows[i], id=i) for i in range(len(rows))]

    while len(clust) > 1:
        lowestpair = (0, 1)
        closest = distance(clust[0].vec, clust[1].vec)

        for i in range(len(clust)):
            for j in range(i + 1, len(clust)):
                if (clust[i].id, clust[j].id) not in distances:
                    distances[(clust[i].id, clust[j].id)] = \
                        distance(clust[i].vec, clust[j].vec)
                d = distances[(clust[i].id, clust[j].id)]
                if d < closest:
                    closest = d
                    lowestpair = (i, j)
        mergevec = [
            (clust[lowestpair[0]].vec[i] + clust[lowestpair[1]].vec[i]) / 2.0
            for i in range(len(clust[0].vec))]
        newcluster = bicluster(mergevec, left=clust[lowestpair[0]],
                               right=clust[lowestpair[1]],
                               distance=closest, id=currentclustid)
        currentclustid -= 1
        del clust[lowestpair[1]]
        del clust[lowestpair[0]]
        clust.append(newcluster)
    return clust[0]


def find(clust, labels, data, distance=pearson):
    '''
    查詢最合適的結果
    :param clust:
    :param labels:
    :param data:
    :param distance:
    :return:
    '''
    while True:
        left = clust.left
        right = clust.right
        if left is None and right is None:
            return labels[clust.id]
        else:
            if left is None and right is not None:
                clust = left
                continue
            elif left is not None and right is None:
                clust = right
                continue
            else:
                ls = distance(left.vec, data)
                rs = distance(right.vec, data)
                if ls <= rs:
                    clust = left
                    continue
                else:
                    clust = right
                    continue


def kcluster(rows, distance=pearson, k=4):
    '''
    K-均值聚類
    :param rows:
    :param distance:
    :param k:
    :return:
    '''
    ranges = [(min([row[i] for row in rows]), max([row[i] for row in rows])) \
              for i in range(len(rows[0]))]
    clusters = [[random.random() * (ranges[i][1] - ranges[i][0]) + ranges[i][0] \
                 for i in range(len(rows[0]))] for j in range(k)]

    lastmatches = None
    for t in range(100):
        # print 'Iteration %d' % t
        bestmatches = [[] for i in range(k)]

        for j in range(len(rows)):
            row = rows[j]
            bestmatch = 0
            for i in range(k):
                d = distance(clusters[i], row)
                if d < distance(clusters[bestmatch], row): bestmatch = i
            bestmatches[bestmatch].append(j)
        if bestmatches == lastmatches: break
        lastmatches = bestmatches

        for i in range(k):
            avgs = [0.0] * len(rows[0])
            if len(bestmatches[i]) > 0:
                for rowid in bestmatches[i]:
                    for m in range(len(rows[rowid])):
                        avgs[m] += rows[rowid][m]
                for j in range(len(avgs)):
                    avgs[j] /= len(bestmatches[i])
                clusters[i] = avgs

    return bestmatches, clusters


def find_k(bestmatches, clusters, dataSet, labels, data, distance=pearson):
    best = -1
    best_value = 0
    for i in range(len(clusters)):
        t1 = distance(clusters[i], data)
        if t1 <= best_value:
            best = i
            best_value = t1
    best1 = -1
    best_value1 = 0
    for i, row in enumerate(bestmatches[best]):
        t1 = distance(dataSet[row], data)
        if t1 <= best_value1:
            best1 = row
            best_value1 = t1
    return labels[best1], dataSet[best1]

具體不太瞭解的看註釋，其中有兩套方法，分類依據有皮爾遜相關係數和歐幾里得距離，有分級聚類和k-均值聚類等，函式以引數的形式進行傳遞，有利於以後的擴充套件。
下面是測試程式

# coding=utf-8

from analysis import *
from show import *

dataSet, labels, titles = load_dataset()
#測試分級聚類，使用皮爾遜相關係數
clust = hcluster(dataSet, distance=pearson)
result = find(clust, labels, [26, 16, 176, 160], distance=pearson)
print result
#測試分級聚類，使用歐幾里得距離
# clust = hcluster(dataSet, distance=euclidean)
# result = find(clust, labels, [26, 16, 176, 160], distance=euclidean)
# print result

#把分局結果進行分級顯示
# printclust(clust)

#使用k-均值聚類，皮爾遜歐幾里得係數
# bestmatches, clusters = kcluster(dataSet, pearson, 4)
# result = find_k(bestmatches, clusters, dataSet, labels, [26, 16, 176, 160], pearson)
# print result

本人菜鳥一枚，僅供共同學習使用，還請大神多多指導。接下來會寫用KNN進行分類的方法。

下載地址

Python聚類分析死囚的最後遺言問題

聚類是無監督學習的一個例子,具體的定義百度一下吧！直接進入主題，先說明一下資料的問題，該資料是我重一家外國網站收集的關係死囚的臨行前的一些最後遺言，以及死囚的一些個人資料，僅供參看。先說明一下怎樣爬取資料吧！該案例使用urllib2，bs4，SGMLParser庫中知識，其中urllib2

Python聚類分析作業代寫代做、人工智能Python作業代寫

data nal clas 決心 learn 前臺數值算法課程一個分析要求： 1. 對所給463條評語進行分詞聚類，分析其所反映的活動類型以下是人工分析得出的主要活動類型的參考舉例： 2. 按年份統計各種活動類型每年所提及的頻次比如：親子閱覽，這一活動在13

python 聚類分析實戰案例:K-means演算法(原理原始碼)

K-means演算法：關於步驟：參考之前的部落格關於程式碼與資料：暫時整理程式碼如下：後期會附上github地址，上傳原始資料與程式碼完整版，各種聚類演算法的對比：參考連線 Kme

Python+pandas實現簡單聚類分析

Python+pandas實現簡單聚類分析應用百度百科對聚類分析的解釋：聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的基礎上收集資料來分類。聚類源於很多領域，包括數學，電腦科學，統計學，生物學和

python資料分析：聚類分析（cluster analysis）

何為聚類分析聚類分析或聚類是對一組物件進行分組的任務，使得同一組（稱為聚類）中的物件（在某種意義上）與其他組（聚類）中的物件更相似（在某種意義上）。它是探索性資料探勘的主要任務，也是統計資料分析的常用技術，用於許多領域，包括機器學習，模式識別，影象分析，資訊檢索，生物資訊學，資料

python資料分析：流量資料化運營（下）——基於自動K值得KMeans廣告效果聚類分析

案例背景某企業由於投放的廣告渠道比較多，需要對其做廣告效果分析以實現有針對性的廣告效果測量和優化工作。跟以應用為目的的案例不同的是，由於本案例是一個分析型案例，該過程的輸出其實是不固定的，因此需要跟業務運營方具體溝通需求。以下是在開展研究之前的基本預設條件：廣告渠道

Python：層次聚類分析

層次分析屬於聚類分析的一種，Scipy有這方面的封裝包。 linkage函式從字面意思是連結，層次分析就是不斷連結的過程，最終從n條資料，經過不斷連結，最終聚合成一類，演算法就此停止。 dendrogram是用來繪製樹形圖的函式。 from scipy

使用python sklearn下的k_means聚類分析演算法時遇到的問題

#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import pandas as pd #引數初始化 inputfile = '../data/consumption_data.xls' #銷量及其他屬性資料 o

K-means聚類分析與python實現

K-means演算法是很典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。演算法原理：首先從n個數據物件任意選擇 k 個物件

聚類分析——層次聚類

logs 較高的 bsp 分析類對象定義 .com blog image 聚類的定義：聚類分析將分類對象分成若幹類，相似的歸為同一類，不相似的歸為不同的類，在同一類內對象之間具有較高的相似度，不同類之間的對象差別較大。層次聚類法：聚類分析——層次聚類

聚類分析方法

實際應用多少三種輸入 k-means 情況度量分析方法差異一、層次聚類（系統聚類）原理：合並法（分解法方向相反算法相同，SPSS只提供合並法） 1、將每一個樣本作為一類，如果是k個樣本就分k成類 2、按照某種方法度量樣本之間的距離，並將距離最近的兩個樣本合並

聚類分析之譜聚類

空間聚類 family 數據集 .cn 存在聚類算法 array 全局最優傳統聚類根據給定的樣本數據集定義一個描述成對數據點相似度的親合矩陣,並且計算矩陣的特征值和特征向量，然後選擇合適的特征向量聚類不同的數據點。譜聚類可以在任意形狀的樣本空間聚類，且

聚類分析

class 其中應對其它聚類 eric arch del 兩種什麽是聚類分析？聚類算法有哪幾種？請選擇一種詳細描述其計算原理和步驟。聚類分析(clusteranalysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析也叫分類分

【R統計】聚類分析

聚類分析 1.10 上海 alt 雲南 12.1 average 6.5 mes 題目：為了深入地了解我國人口的文化程度，利用1990年全國普查數據對全國30個省、直轄市、自治區進行聚類分析，分別選用了三個指標：（1）大學以上文化程度的人口占全部人口的比例（DXBZ）；

【R統計】基於相似系數的聚類分析

ant 建模 sub plc str 選擇 pre light 均值題目：對48名應聘者數據的自變量作聚類分析，選擇變量的相關系數作為變量間的相似系數（cij），距離定義為dij=1-cij。分別用最長距離法、均值法、重心法和Ward法作聚類分析，並畫出相應的譜系圖。

R: 聚類分析

.net 註意們的每次應用領域 str 就是比較記錄判別與聚類的比較：聚類分析和判別分析有相似的作用，都是起到分類的作用。判別分析是已知分類然後總結出判別規則，是一種有指導的學習；聚類分析則是有了一批樣本，不知道它們的分類，甚至連分成幾類也不知道，希望用某

數據分析第四篇：聚類分析（劃分）

think trace stat pid 函數返回 around 構建之前得出聚類是把一個數據集劃分成多個子集的過程，每一個子集稱作一個簇（Cluster），聚類使得簇內的對象具有很高的相似性，但與其他簇中的對象很不相似，由聚類分析產生的簇的集合稱作一個聚類。在相同的

數學模型：3.非監督學習--聚類分析和K-means聚類

rand tar 聚類分析復制 clust tle 降維算法 generator pro 1. 聚類分析聚類分析（cluster analysis）是一組將研究對象分為相對同質的群組（clusters）的統計分析技術 ---->> 將觀測對象的群體按照

數據挖掘——聚類分析總結

app 較差 dbscan repo scatter 結構計算公式 mage != 聚類分析一、概念　　聚類分析是按照個體的特征將他們分類，讓同一個類別內的個體之間具有較高的相似度，不同類別之間具有較大的差異性　　聚類分析屬於無監督學習　　聚類對象可以分為Q型聚類

實戰--酵母基因表達資料的聚類分析

背景：酵母會在一定的時期發生diauxic shift，有一些基因的表達上升，有一些基因表達被抑制，通過聚類演算法，將基因表達的變化模式聚成6類。 ORF Name R1.Ratio R2.Ratio R3.Ratio R4.Ratio R5.Ratio R6.Ratio R7.Rat

Python聚類分析死囚的最後遺言問題

相關推薦