NLP自然語言處理例項：預測天氣冷暖

阿新 • • 發佈：2018-11-25

NLP：自然語言處理（Natural Language Processing）是人工智慧和語言學領域的分支學科。主要包括自然語言理解和生成，自然語言理解系統把自然語言轉化為計算機程式更易於處理的形式即讓電腦懂人類的語言。自然語言生成系統把計算機資料轉化自然語言。

處理過程：形式化描述->數學模型演算法化->程式化->實用化

使用Python語言，首先需要安裝numpy、matplotlib庫（也可以安裝Anaconda實現）

KNN演算法實現預測功能

KNN（K-nearest Neighbor）鄰近演算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類演算法是

資料探勘分類技術中最簡單的方法之一。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。

KNN演算法思想

計算一直類別中資料集的點與當前點的距離
計算樣本距離並排序
選取距離樣本最近的K個點
確定K個點所在類別的出現頻率
返回K個點出現頻率最高的類別作為預測結果

KNN演算法模型流程與實現

1. 蒐集資料：資料採集過程，分為非結構化資料和結構化資料，如網路爬蟲，資料庫，檔案等

2.準備資料：格式化處理，對不同類別的資料進行處理，如轉為統一csv格式

3.分析資料：主要看資料特點，有沒有缺失，資料離散性還是連續性，進而選擇不同模型

跟著網上視訊敲的程式碼，完整如下

# coding:utf-8
"""
NLP 自然語言學習
"""
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import math,operator
# 中文亂碼
myfont =fm.FontProperties(fname='C:\Windows\Fonts\simsunb.ttf') #只支援字尾ttc
plt.rcParams['font.sans-serif']=['SimHei']

"資料儲存到檔案中"
def create_dataset():
    datasets = np.array([[8,4,2],[7,1,1,],[1,4,4],[3,0,5]]) # 資料集
    labels = ['非常熱','非常熱','一般熱','一般熱']                     # 類標籤
    return datasets,labels

def create_datasets():
    datasets = np.array([[8,4,2],[7,1,1,],[1,4,4],[3,0,5],[3,0,4],[5,2,1],[5,3,2]]) # 資料集
    labels = [0,0,1,1,0,0,1] #['非常熱','非常熱','一般熱','一般熱','一般熱']                     # 類標籤
    return datasets,labels

"視覺化分析資料"
def analyze_data_plot(x,y):
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(x,y)
    # plt.scatter(x,y)
    #設定散點圖示題和橫座標
    # plt.title('冷熱感知圖',fontsize=25,fontproperties=myfont)
    plt.title('冷熱感知圖',fontsize=25)
    # plt.xlabel('冰淇淋',fontsize=15,fontproperties=myfont)
    plt.xlabel('冰淇淋',fontsize=15)
    # plt.ylabel('喝水', fontsize=15, fontproperties=myfont)
    plt.ylabel('喝水',fontsize=15)
    # 自動儲存
    plt.savefig('result.png',bbox_inches='tight')
    plt.show()
"構造KNN分類器"
def knn_classifier(newV, datasets, labels, k):
    # 1.計算樣本資料和樣本庫資料的距離
    sqrtDist = EuclideanDis3(newV,datasets)
    # 2.根據距離排序,按照列向量排序
    sortedDistIndexs = sqrtDist.argsort(axis=0)

    # 3.針對k個值，統計各個類別的數量
    classCount = {}
    for i in range(k):
        # 根據距離排序，索引值找到類標籤
        votelabel = labels[sortedDistIndexs[i]]
        # 統計類標籤的鍵值對
        classCount[votelabel] = classCount.get(votelabel,0)+1

    # 4.投票機制，少數服從多數原則
    # 對各個分類字典進行排序，降序，按照值
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    # print('結果預測：',sortedClassCount[0][0])
    return sortedClassCount[0][0]


"歐式距離計算 d2=(x1-x2)2+(y1-y2)2"
def computeEuclideanDis(x1,x2,y1,y2):
    d = math.sqrt(math.pow(x1-x2,2)+math.pow(y1-y2,2))
    return d
"歐式距離計算優化公式"
def EuclideanDis(instance1,instance2):
    d = 0
    length = len(instance1)
    for x in range(length):
        d += math.pow(instance1[x]-instance2[x],2)

    return math.sqrt(d)
"歐式距離計算3:大量資料計算"
def EuclideanDis3(newV,datasets):
    # 獲取向量維度
    rowsize,colsize = datasets.shape
    # 各特徵向量間做差值
    diffMat = np.tile(newV,(rowsize,1))-datasets
    # 差值平方
    sqDiffMat = diffMat ** 2
    # 差值開方求和
    sqrtDist = sqDiffMat.sum(axis=1) ** 0.5

    return sqrtDist

"利用KNN隨機預測訪客天氣感知度"
def predict_temperature():
    # 建立資料集和類標籤
    datasets, labels = create_dataset()
    newV = [2, 4, 4]
    iceCream = float(input("Q:請問你今天吃了幾個冰淇淋？\n"))
    drinkWater = float(input("Q:請問你今天喝了幾瓶水？\n"))
    playHours = float(input("Q:請問你今天在戶外玩了幾個小時?\n"))
    newV = np.array([iceCream, drinkWater, playHours])

    # vecs = np.array([[2, 4, 4], [3, 0, 0], [5, 7, 2]])
    # for i in vecs:
    res = knn_classifier(newV, datasets, labels, 3)
    print('KNN天氣預測結果', res)

"使用機器學習庫sklearn實現預測"

from sklearn import neighbors
def knn_sklearn_predict():

    # 呼叫機器學習庫knn分類器演算法
    knn = neighbors.KNeighborsClassifier()
    datasets,labels = create_datasets()
    # 傳入引數，特徵資料和分類標籤
    print(datasets)
    knn.fit(datasets,labels)
    # knn預測
    predictRes = knn.predict([[2,4,0]])
    print("天氣：\t","非常熱" if predictRes[0]==0 else '一般熱')

    return predictRes

if __name__ == '__main__':

    # predict_temperature()
    knn_sklearn_predict()

NLP自然語言處理例項：預測天氣冷暖

NLP：自然語言處理（Natural Language Processing）是人工智慧和語言學領域的分支學科。主要包括自然語言理解和生成，自然語言理解系統把自然語言轉化為計算機程式更易於處理的形式即讓電腦懂人類的語言。自然語言生成系統把計算機資料轉化自然語言。處理過程：形式化描述->數

[NLP自然語言處理]谷歌BERT模型深度解析

BERT模型程式碼已經發布，可以在我的github: NLP-BERT--Python3.6-pytorch 中下載，請記得start哦目錄一、前言二、如何理解BERT模型三、BERT模型解析論文的核心：詳解BE

自然語言處理之：搭建基於HanLP的開發環境（轉）

環境搭建比FNLP的簡單，具體參考：https://github.com/hankcs/HanLP 各個版本的下載：https://github.com/hankcs/HanLP/releases 完畢後有一個報錯：字元型別對應表載入失敗: D:/eclipse_workspace

NLP自然語言處理常用的Python庫及安裝方法

1、NLTK Natural Language Toolkit，自然語言處理工具包，在NLP領域中，最常使用的一個Python庫。安裝：pip install nltk 2、Gensim 可以用來從文件中自勱提取語義主題。它包含了很多非監督學習演算法如：TF/IDF，潛在語義分

facebook NLP 自然語言處理框架 Pytext 簡介

自然語言處理(NLP)在現代深度學習生態中越來越常見。從流行的深度學習框架到雲端API的支援，例如Google雲、Azure、AWS或Bluemix，NLP是深度學習平臺不可或缺的部分。儘管已經取得了令人難以置信的進步，但構建大規模的NLP應用依然還有極大的挑戰，在學習研究和生產部署之間還存

精通Python自然語言處理 4 ：詞性標註--單詞識別

詞性標註被用於資訊檢索、機器翻譯、NER、語言分析等1、詞性標註簡介一個對句中的每個識別符號分配詞類（如名詞、動詞、形容詞等）標記的過程。在nltk.tag包中並被TaggerIbase類所繼承。>>> text1 = nltk.word_tok

自然語言處理一：基於樸素貝葉斯的語種檢測

本文來自是對七月線上寒小陽自然語言處理課程的總結。本文使用樸素貝葉斯完成一個語種檢測的分類器，準確度經過簡單的引數調優可以達到99.1%。機器學習的演算法要取得好效果，離不開資料，咱們先拉點資料（twitter資料，包含English, French, Germa

自然語言處理之：c++中文分詞（附原始碼）

githup地址：https://github.com/jbymy 一、簡介中文分詞是地然語言處理中的最基礎的環節，到目前為止已經有不少優秀的分詞工具的出現，如“中科院分詞”，“結

《Python自然語言處理實戰：核心技術與算法》PDF新書推介，附帶鏈接地址

核心技術正則表達 eba 詞性標註 6.2 排序系統 ext 書籍本書從各個方面著手，幫助讀者理解NLP的過程，提供了各種實戰場景，結合現實項目背景，幫助讀者理解NLP中的數據結構和算法以及目前主流的NLP技術與方法論，結合信息檢索技術與大數據應用等流行技術，終完成對

帶你深入AI（5）- 自然語言處理領域：RNN LSTM GRU

系列文章，請多關注 Tensorflow原始碼解析1 – 核心架構和原始碼結構自然語言處理1 – 分詞帶你深入AI（1） - 深度學習模型訓練痛點及解決方法帶你深入AI（2）- 深度學習啟用函式，準確率，優化方法等總結帶你深入AI（3）- 物體分類領域：AlexNet VGG I

Deep Learning及NLP(自然語言處理)雜談--第二部分

本雜談分為三個部分，此文為第二部分。第二部分總結這一部分主要講了四個對NLP方面效果比較好的模型：1.GRUs(Gated Feedback Recurrent Neural Networks)　　2.LSTMs(Long Short-Term Memory]

自然語言處理之一：最大熵模型

一直對自然語言處理中的各種模型一知半解。總是抓不住它們的思想。今天看了一下這個“最大熵模型”（A Maximum Entropy Approach to Natural Language Processing），寫寫自己的想法吧。呵呵。就像論文中所說的：希望找到

NLP--自然語言處理與機器學習會議

整理至11月中旬在重慶參加的自然語言處理與機器學習會議，第一講為自然語言處理。由基本理論到實際運用，整理了基本的框架。 1. 自然語言處理基礎詞性標註(POS): 為句子中的每個詞語標註詞性,可看做是句法分析的關鍵任務,也可以看做是句法分析的最低層次.對後

NLP自然語言處理相關技術說明及樣例（附原始碼）

https://segmentfault.com/a/1190000010320214 1、簡單概述 1.1 NLP概念 NLP(Natural Language Processing)，自然語言處理，又稱NLU(Natural Language Understan

Deep Learning及NLP(自然語言處理)雜談--第三部分

歡迎轉載，轉載請註明出處：本雜談分為三個部分，此文為第一部分。第一部分第二部分第三部分第三部分這一部分只介紹了一個model，就是在CV領域大名鼎鼎的CNN其他課程大多請的外賓過來講課，講得都是DL如何在實際情況下的應用。 CNN

NLP自然語言處理庫系列教程——gensim庫

Gensim是一款開源的第三方Python工具包，用於從原始的非結構化的文字中，無監督地學習到文字隱層的主題向量表達。它支援包括TF-IDF，LSA，LDA，和word2vec在內的多種主題模型演算法，支援流式訓練，並提供了諸如相似度計算，資訊檢索等一些常用任務

NLP自然語言處理入門-- 文本預處理Pre-processing

檢查 bag 領域影響 rds except clean numpy 我只引言自然語言處理NLP（nature language processing），顧名思義，就是使用計算機對語言文字進行處理的相關技術以及應用。在對文本做數據分析時，我們一大半的時間都會花在文本

初識NLP 自然語言處理（一）

系統語言數學實現一段這一如何其中 proc 接下來的一段時間，要深入研究下自然語言處理這一個學科，以期能夠帶來工作上的提升。學習如何實用python實現各種有關自然語言處理有關的事物，並了解一些有關自然語言處理的當下和新進的研究主題。 NLP，Natur

NLP自然語言處理中英文分詞工具集錦與基本使用介紹

一、中文分詞工具（1）Jieba （2）snowNLP分詞工具（3）thulac分詞工具（4）pynlp

NLP自然語言處理

# NLP ## 應用例子 - 垃圾郵件過濾 Spam Filtering - 機器翻譯 Machine Translation - 資訊檢索 Information Retrieval - 問答系統 Question Answering - 資訊提取 Information Extraction - 內

NLP自然語言處理例項：預測天氣冷暖

相關推薦