Python教程 - IT閱讀

大規模爬蟲流程總結

2018-10-04

爬蟲是一個比較容易上手的技術,也許花5分鐘看一篇文件就能爬取單個網頁上的資料。但對於大規模爬蟲,完全就是另一回事,並不是1*n這麼簡單,還會衍生出許多別的問題。系統的大規模爬蟲流程如圖所示。大規模資料採集流程圖先檢查是否有API API是網站官方提供的資料介面,如果通過呼叫API

tensorflow學習------文字分類詳解

2018-10-04

前言這幾天caffe2釋出了,支援移動端,我理解是類似微控制器的物聯網咖應該不是手機之類的,試想iphone7跑CNN,畫面太美~ 作為一個剛入坑的,甚至還沒入坑的人,咱們還是老實研究下tensorflow吧,雖然它沒有caffe好上手。tensorflow的特點我就不介紹了:

Seaborn python視覺化庫

2018-10-04

本篇內容主要涉及以下三個方面,閱讀時間<=10分鐘: distplot 柱狀圖 kdeplot 核密度曲線 conditional plot 條件圖 seaborn是matplotlib的高階版,對複雜圖表的支援較好,視覺化結果也非常吸引人。所用資料為泰坦尼克事件資料,下載地址:https:

抓取網頁非同步載入資料

2018-10-04

這裡,我用python抓取了knowone發現頁面的資料。非同步載入: 非同步載入可以實現網頁的瀑布流形式向網站進行一次請求,一次只傳部分資料。如:有些網頁不需要點選下一頁,其內容也可以源源不斷地載入。如何發現非同步載入?1、開啟瀏覽器,右鍵選擇“檢查”2、點選“Network”、“XHR”這樣在網

用KNN解決非線性迴歸問題

2018-10-04

一直以為KNN只是分類演算法,只能在分類上用,昨天突然想起用KNN試試做迴歸,最近有一批資料,通過4個特徵來預測1個值,原來用線性迴歸和神經網路嘗試過,準確率只能到40%左右。用KNN結合網格搜尋和交叉驗證,正確率達到了79%,沒錯,KNN解決迴歸問題也很贊。什麼是KNN KNN就是K近鄰演算法(k

Python字元編碼之理解

2018-10-04

在從普通程式設計師進階到優秀程式設計師的路上,字元編碼是一個不得不跨過去的坎,我們幾乎所有的程式都會涉及到字元處理,如果跨不過這個坎,那麼幾乎註定會面對一些坑。本篇文章試圖通過實際的例子來闡釋字元編碼解碼的過程,從而能夠更加清晰地認識程式到底是怎樣處理字元的。在進入正文之前,你需要先了解字符集和字元編碼的區別

python翻譯（來源有道）

2018-10-04

使用爬蟲來製作一個簡單的翻譯的東西,翻譯的來源是有道,可以實現從英文到中文,也可以從中文到英文。(其實就是爬取了有道的翻譯資訊) 翻譯例項 E:/>python test.py input the word you want to search: are are: 1:v. 是(be的第二人稱

通過 SSH 埠轉發搭建 Jupyter notebook 伺服器

2018-10-04

Jupyter Notebook 是一款允許使用者建立和分享文件的開源web應用。文件中支援Markdown文字解析、LaTex公式和互動式程式設計等功能。在資料科學、數值計算和機器學習等領域有著廣泛的應用。而且 Jupyter 也非常容易上手,安裝使用等基本問題請參考官網。本文將介紹的是如何在伺服器

合併樹形資料結構

2018-10-04

這是在公司寫的一段程式碼, 還是費了番心思的, 支援無限分級, 先把程式碼發出來, 後續把資料結構抽象出來, 再用協程優化一下, 相信是很好的程式碼, 然後我會在github上開源. class WebIndexDeviceList(ListAPIView): """首頁裝置分組

Python中str()與repr()函式的區別

2018-10-04

在 Python 中要將某一型別的變數或者常量轉換為字串物件通常有兩種方法,即 str() 或者 repr() 。 >>> a = 10 >>> type(str(a)) <class 'str'> >>> type(rep

使用sqlite3儲存奧斯卡金像獎提名資訊2

2018-10-04

在上一步驟的基礎上,使用sqlite3建立以下幾個表: ceremonies 儲存舉行時間和地點 movies actors movies_actors 用於儲存movies和actors間的多對多關係重點內容: 資料庫的連結/表的建立 commit() sqlite的特性,死鎖概念及原

Python儲存工作空間的資料（pickle your data）

2018-10-04

[toc] 通用方法 pickle python的pickle模組實現了基本的資料序列和反序列化。通過pickle模組的序列化操作我們能夠將程式中執行的物件資訊儲存到檔案中去,永久儲存;通過pickle模組的反序列化操作,我們能夠從檔案中建立上一次程式儲存的物件。python資料持久儲存:pickle模