1. 程式人生 > >用python爬取文章連結並分類

用python爬取文章連結並分類

環境:

OS:win10 x64

Python:3.5.1

PyCharm:5.0.3

為了方便學習,根據關鍵字過濾資料爬取下來,並做分類。

爬取jobbole

import requests
from bs4 import BeautifulSoup
import re
from operator import itemgetter
from multiprocessing.dummy import Pool as ThreadPool
import time

def FindoutMaxPageNumber():
    max = 1
    cer = re.compile('class=\"page-numbers\" href=\"(.*)\"')#找到一頁上所有的頁號
    soup = BeautifulSoup(requests.get("http://python.jobbole.com/all-posts/").text, "html.parser")
    strlist = cer.findall(soup.prettify())
    for link in set(strlist):
        link = link.strip('/')#去掉連結尾部的'/'
        cur = int(link[link.rindex('/')+1:], 10)#取得連結最後的數字,並轉化為int型
        if cur > max:
            max = cur
    return max

def myFilter(text):
    for item in remove:
        #if re.match(item, text, re.IGNORECASE):#只從字串的開始與正則表示式匹配
        if re.search(item, text, re.IGNORECASE):#將字串的所有字串嘗試與正則表示式匹配
            return True
    return False

def getPage(pageIndex):
    url = 'http://python.jobbole.com/all-posts/page/%d' % (pageIndex)
    sp = BeautifulSoup(requests.get(url).text, "html.parser")
    for tag in set(sp.find_all("a", class_="archive-title")):#找到一頁上中心區域列出的全部文章的tag
        if not myFilter(tag.get_text()):
            dic[tag.get_text()] = tag.get('href')

pool = ThreadPool(8) # Sets the pool size
dic = dict()
remove = ['django', 'flask', 'game', '遊戲', '2\.[a-z0-9A-Z_]']

#getPage(FindoutMaxPageNumber())
#start = time.time()
#for i in range(1, FindoutMaxPageNumber()+1):
#    getPage(i)
#print('Normal:', time.time() - start)

#start = time.time()
pool.map(getPage, range(1, FindoutMaxPageNumber()+1))
pool.close()
pool.join()
#print('multiprocessing:', time.time() - start)

cdi = sorted(dic.items(), key=itemgetter(0), reverse=False)
#cdi = sorted(dic.items(), key=lambda d:d[0], reverse=False)
for d,x in cdi:
    print(d+' '+x)

執行結果
10 個 Python IDE 和程式碼編輯器 http://python.jobbole.com/80478/
10 行 Python 程式碼寫的模糊查詢 http://python.jobbole.com/81775/
11個並不廣為人知,但值得了解的Python庫 http://python.jobbole.com/81000/
12306的變態驗證碼算得了什麼?我有Python神器! http://python.jobbole.com/83564/
12步輕鬆搞定python裝飾器 http://python.jobbole.com/81683/
13歲Python開發者寫給青少年的Python入門教程 http://python.jobbole.com/80379/
14個輕量級Python Web框架 http://python.jobbole.com/81134/
15個最受歡迎的Python開源框架 http://python.jobbole.com/72306/
2012年Linux Journal讀者選擇獎結果公佈 http://python.jobbole.com/31329/
2013年2月Web程式語言就業趨勢 http://python.jobbole.com/33825/
25本免費的Python電子書 http://python.jobbole.com/29281/
30 行 Python 程式碼搞定 X 演算法 http://python.jobbole.com/74000/
30個有關Python的小技巧 http://python.jobbole.com/63320/
3個開源的 Python Shell http://python.jobbole.com/81612/
500 行 Python 程式碼做一個英文解析器 http://python.jobbole.com/67009/
50行Python程式碼寫一個語言檢測器 http://python.jobbole.com/54707/
70 行 Python 程式碼編寫一個遞迴下降解析器 http://python.jobbole.com/83885/
9本免費的Python程式設計書 http://python.jobbole.com/765/
Dropbox 開源的 Python 直譯器 Pyston 0.4 釋出了 http://python.jobbole.com/82055/
Eric Raymond對於幾大開發語言的評價 http://python.jobbole.com/79421/
Go學習筆記:關於Java、Python、Go程式設計思想的不同 http://python.jobbole.com/44849/
Hadoop中的Python框架的使用指南 http://python.jobbole.com/83855/
IPython 4.0釋出:Jupyter和IPython分離後的首個版本 http://python.jobbole.com/81945/
IPython Notebook 和 Github 是怎樣改變了我的 Python 教學方法 http://python.jobbole.com/50927/
Ian Bicking:跟Python說再見 http://python.jobbole.com/63037/
Iconfinder 如何杜絕盜版,雜湊演算法檢測影象重複 http://python.jobbole.com/65914/
ML/NLP入門教程Python版(第一部分:文字處理) http://python.jobbole.com/81397/
MicroPython:針對微控制器的Python http://python.jobbole.com/81484/
PYTHON 原始碼閱讀 – STRING http://python.jobbole.com/83461/
PYTHON 原始碼閱讀 – 物件 http://python.jobbole.com/83443/
PYTHON 原始碼閱讀 – 型別 http://python.jobbole.com/83441/
Pandas透視表(pivot_table)詳解 http://python.jobbole.com/81212/
Peter Norvig:用 Python 解決數獨問題 http://python.jobbole.com/81621/
Pyston:Dropbox 正開發的開源 Python 直譯器 http://python.jobbole.com/65414/
Python 2013 精彩回顧:新聞、好文和資源 http://python.jobbole.com/59535/
Python 3 正在毀滅 Python http://python.jobbole.com/69811/
Python 3 能振興 Python http://python.jobbole.com/75158/
Python 3.5釋出:新增模組,效能優化,對開發者更友好 http://python.jobbole.com/82227/
Python HOWTOs 官方文件:Socket 程式設計 http://python.jobbole.com/81860/
Python Howto 之 logging 模組 http://python.jobbole.com/82221/
Python IDE:PyCharm中的那些實用功能 http://python.jobbole.com/51498/
Python yield 使用淺析 http://python.jobbole.com/32876/
Python 上下文管理器 http://python.jobbole.com/82289/
Python 不是 C http://python.jobbole.com/81904/
Python 與 Javascript 之比較 http://python.jobbole.com/81257/
Python 中 eval 帶來的潛在風險 http://python.jobbole.com/82770/
Python 中 import 的機制與實現 http://python.jobbole.com/82604/
Python 中的 is 和 id http://python.jobbole.com/49705/
Python 中的 property 屬性 http://python.jobbole.com/81967/
Python 中的類(上) http://python.jobbole.com/82297/
Python 中的類(下) http://python.jobbole.com/82312/
Python 中的類(中) http://python.jobbole.com/82308/
Python 中的貪婪排名演算法 http://python.jobbole.com/83933/
Python 中的程序、執行緒、協程、同步、非同步、回撥 http://python.jobbole.com/81692/
Python 中的閉包 http://python.jobbole.com/82296/
Python 之父在 EuroPython 大會上談論 Python http://python.jobbole.com/81951/
Python 程式碼效能優化技巧 http://python.jobbole.com/24197/
Python 入門到精通(1):Windows 搭建 Python 開發環境 http://python.jobbole.com/82331/
Python 入門到精通(2):基本語法(1) http://python.jobbole.com/82334/
Python 入門到精通(3):VS 2015 搭建開發環境 http://python.jobbole.com/82337/
Python 入門到精通(4):基本語法(2) http://python.jobbole.com/82340/
Python 入門到精通(5):Python運算子 http://python.jobbole.com/82706/
Python 關鍵字 yield 詳解 http://python.jobbole.com/28506/
Python 記憶體管理方式和垃圾回收演算法 http://python.jobbole.com/82446/
Python 函式相關 http://python.jobbole.com/82300/
Python 初學者的最佳學習資源 http://python.jobbole.com/82399/
Python 基於協同過濾的推薦 http://python.jobbole.com/83938/
Python 如何使基於 Java 的 StubHub 受益 http://python.jobbole.com/43976/
Python 安全編碼指南 http://python.jobbole.com/82746/
Python 實用技巧(上) http://python.jobbole.com/50420/
Python 物件(上) http://python.jobbole.com/82280/
Python 物件(下) http://python.jobbole.com/82285/
Python 並行任務技巧 http://python.jobbole.com/81690/
Python 開發者節省時間的 10 個方法 http://python.jobbole.com/81888/
Python 快速教程(基礎篇01):Hello World http://python.jobbole.com/82467/
Python 快速教程(基礎篇02):基礎資料型別 http://python.jobbole.com/82471/
Python 快速教程(基礎篇03):序列 http://python.jobbole.com/82490/
Python 快速教程(基礎篇04):運算 http://python.jobbole.com/82492/
Python 快速教程(基礎篇05): 縮排和選擇 http://python.jobbole.com/82523/
Python 快速教程(基礎篇06): 迴圈 http://python.jobbole.com/82525/
Python 快速教程(基礎篇07): 函式 http://python.jobbole.com/82529/
Python 快速教程(基礎篇08): 面向物件的基本概念 http://python.jobbole.com/82531/
Python 快速教程(基礎篇09): 面向物件的進一步拓展 http://python.jobbole.com/82550/
Python 快速教程(基礎篇10):反過頭來看看 http://python.jobbole.com/82552/
Python 快速教程(標準庫01):正則表示式 (re包) http://python.jobbole.com/82688/
Python 快速教程(標準庫02):時間與日期 (time, datetime包) http://python.jobbole.com/82690/
Python 快速教程(標準庫03):路徑與檔案 (os.path包, glob包) http://python.jobbole.com/82692/
Python 快速教程(標準庫04):檔案管理 (部分os包,shutil包) http://python.jobbole.com/82699/
Python 快速教程(標準庫05):儲存物件 (pickle包,cPickle包) http://python.jobbole.com/82701/
Python 快速教程(標準庫06):子程序 (subprocess包) http://python.jobbole.com/82711/
Python 快速教程(標準庫07):訊號 (signal包,部分os包) http://python.jobbole.com/82713/
Python 快速教程(標準庫08):多執行緒與同步 (threading包) http://python.jobbole.com/82718/
Python 快速教程(標準庫09):當前程序資訊 (os包) http://python.jobbole.com/82720/
Python 快速教程(標準庫10):多程序初步 (multiprocessing包) http://python.jobbole.com/82725/
Python 快速教程(標準庫11):多執行緒與同步 (threading包) http://python.jobbole.com/82733/
Python 快速教程(標準庫12):數學與隨機數 (math包,random包) http://python.jobbole.com/82736/
Python 快速教程(標準庫13):迴圈器 (itertools) http://python.jobbole.com/82740/
Python 快速教程(標準庫14):資料庫 (sqlite3) http://python.jobbole.com/82760/
Python 快速教程(標準庫):學習準備 http://python.jobbole.com/82686/
Python 快速教程(標準庫):走馬觀花 http://python.jobbole.com/82680/
Python 快速教程(深入篇01):特殊方法與多正規化 http://python.jobbole.com/82618/
Python 快速教程(深入篇02):上下文管理器 http://python.jobbole.com/82620/
Python 快速教程(深入篇03):物件的屬性 http://python.jobbole.com/82622/
Python 快速教程(深入篇04):閉包 http://python.jobbole.com/82624/
Python 快速教程(深入篇05): 裝飾器 http://python.jobbole.com/82626/
Python 快速教程(深入篇06): Python的記憶體管理 http://python.jobbole.com/82653/
Python 快速教程(網路01):原始Python伺服器 http://python.jobbole.com/82763/
Python 快速教程(網路02):Python伺服器進化 http://python.jobbole.com/82765/
Python 快速教程(補充篇01): Python的序列的方法 http://python.jobbole.com/82655/
Python 快速教程(補充篇02): Python小技巧 http://python.jobbole.com/82663/
Python 快速教程(補充篇03): Python內建函式清單 http://python.jobbole.com/82665/
Python 快速教程(補充篇04): Python簡史 http://python.jobbole.com/82671/
Python 快速教程(補充篇05):字串格式化 (%操作符) http://python.jobbole.com/82673/
Python 快速教程(補充篇06):Python之道 http://python.jobbole.com/82678/
Python 快速教程(進階篇01): 詞典 http://python.jobbole.com/82554/
Python 快速教程(進階篇02):文字檔案的輸入輸出 http://python.jobbole.com/82555/
Python 快速教程(進階篇03):模組 http://python.jobbole.com/82585/
Python 快速教程(進階篇04):函式的引數對應 http://python.jobbole.com/82588/
Python 快速教程(進階篇05):迴圈設計 http://python.jobbole.com/82590/
Python 快速教程(進階篇06):迴圈物件 http://python.jobbole.com/82592/
Python 快速教程(進階篇07):函式物件 http://python.jobbole.com/82597/
Python 快速教程(進階篇08):異常處理 http://python.jobbole.com/82599/
Python 快速教程(進階篇09):動態型別 http://python.jobbole.com/82616/
Python 快速教程:尾聲 http://python.jobbole.com/83433/
Python 效能分析入門指南 http://python.jobbole.com/74266/
Python 效能快速優化 http://python.jobbole.com/82002/
Python 新手常犯錯誤(第一部分) http://python.jobbole.com/42706/
Python 新手常犯錯誤(第二部分) http://python.jobbole.com/43826/
Python 標準庫 urllib2 的使用細節 http://python.jobbole.com/83696/
Python 格式化字串 http://python.jobbole.com/82292/
Python 原始碼閱讀 —— int http://python.jobbole.com/83464/
Python 原始碼閱讀——dict http://python.jobbole.com/83480/
Python 原始碼閱讀——tuple http://python.jobbole.com/83471/
Python 原始碼閱讀——垃圾回收機制 http://python.jobbole.com/83548/
Python 爬蟲的工具列表 http://python.jobbole.com/82633/
Python 的那些隱藏特性 http://python.jobbole.com/81081/
Python 程式設計師應該知道的 10 個庫 http://python.jobbole.com/52355/
Python 網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘兵器譜 http://python.jobbole.com/81153/
Python 自然語言處理(NLP)工具庫彙總 http://python.jobbole.com/81834/
Python 裝飾器 http://python.jobbole.com/82344/
Python 除錯工具 pudb 的使用指南 http://python.jobbole.com/82638/
Python 迭代器和生成器 http://python.jobbole.com/82320/
Python 面向物件(初級篇) http://python.jobbole.com/82023/
Python下用Scrapy和MongoDB構建爬蟲系統(1) http://python.jobbole.com/81320/
Python下用Scrapy和MongoDB構建爬蟲系統(2) http://python.jobbole.com/81280/
Python中setup.py一些不為人知的技巧 http://python.jobbole.com/80912/
Python中staticmethod和classmethod的差異 http://python.jobbole.com/83584/
Python中yield的解釋 http://python.jobbole.com/83610/
Python中何時使用斷言 http://python.jobbole.com/76285/
Python中使用內層函式的好處 http://python.jobbole.com/81679/
Python中內建的NotImplemented型別 http://python.jobbole.com/80913/
Python中備忘功能和裝飾器 http://python.jobbole.com/81107/
Python中如何使用*args和**kwargs http://python.jobbole.com/83476/
Python中匯入模組或包語句 http://python.jobbole.com/81187/
Python中迴圈語句中的else用法 http://python.jobbole.com/81063/
Python中的method http://python.jobbole.com/53989/
Python中的str與unicode處理方法 http://python.jobbole.com/81244/
Python中的上下文管理器 http://python.jobbole.com/64175/
Python中的函式詳解 http://python.jobbole.com/81646/
Python中的併發程式設計 http://python.jobbole.com/64560/
Python中的生產者消費者問題 http://python.jobbole.com/52412/
Python中的類和物件(中級) http://python.jobbole.com/81108/
Python中的類和物件(二):描述符 http://python.jobbole.com/81211/
Python中的高階資料結構 http://python.jobbole.com/65218/
Python中的預設引數 http://python.jobbole.com/81105/
Python中的預設引數值 http://python.jobbole.com/40088/
Python之父從Google離職,加入Dropbox http://python.jobbole.com/31146/
Python之父:為什麼Python陣列下標從0開始 http://python.jobbole.com/58018/
Python也可以很美 http://python.jobbole.com/20351/
Python程式碼微優化之加快查詢 http://python.jobbole.com/81210/
Python函式引數預設值的陷阱和原理深究 http://python.jobbole.com/81203/
Python函數語言程式設計指南(1):概述 http://python.jobbole.com/82163/
Python函數語言程式設計指南(2):函式 http://python.jobbole.com/82167/
Python函數語言程式設計指南(3):迭代器 http://python.jobbole.com/82171/
Python函數語言程式設計指南(4):生成器 http://python.jobbole.com/82178/
Python十分鐘入門 http://python.jobbole.com/23425/
Python後端相關技術/工具棧 http://python.jobbole.com/83486/
Python名稱空間和作用域窺探 http://python.jobbole.com/81367/
Python和資料科學的起步指南 http://python.jobbole.com/80853/
Python基礎-元組小結 http://python.jobbole.com/83863/
Python基礎-列表及列表解析小結 http://python.jobbole.com/83866/
Python基礎技術問題總結 http://python.jobbole.com/81233/
Python多程序處理:如何將大量資料放入有限記憶體 http://python.jobbole.com/80753/
Python多程序程式設計 http://python.jobbole.com/82045/
Python奇技淫巧 http://python.jobbole.com/82750/
Python字元編碼詳解 http://python.jobbole.com/82107/
Python官方文件:Descriptor 指南 http://python.jobbole.com/83562/
Python實現ftp常用操作[ftplib] http://python.jobbole.com/83446/
Python實現控制檯中的進度條 http://python.jobbole.com/83692/
Python實踐:提取文章摘要 http://python.jobbole.com/83839/
Python實踐:模組自動過載 http://python.jobbole.com/83844/
Python併發與並行的新手指南 http://python.jobbole.com/81260/
Python併發之threading模組 http://python.jobbole.com/80966/
Python開發指南:最佳實踐精選 http://python.jobbole.com/82752/
Python開發者在轉到Go語言之前需要了解什麼? http://python.jobbole.com/42908/
Python迴圈語句中的索引變數作用域 http://python.jobbole.com/81274/
Python效能優化的20條建議 http://python.jobbole.com/81956/
Python技巧和陷阱 http://python.jobbole.com/81486/
Python招聘需求與技能體系 http://python.jobbole.com/83638/
Python指南(1.1):挑選直譯器 http://python.jobbole.com/81064/
Python操作xml檔案(xml.etree.ElementTree) http://python.jobbole.com/83593/
Python資料分析入門 http://python.jobbole.com/81133/
Python資料結構——連結串列的實現 http://python.jobbole.com/83953/
Python檔案關閉機制詳解 http://python.jobbole.com/81477/
Python檔案管理 http://python.jobbole.com/83764/
Python模組學習 :pickle, cPickle 物件序列化/反序列化 http://python.jobbole.com/81509/
Python模組學習: re 正則表示式 http://python.jobbole.com/81558/
Python模組學習:atexit http://python.jobbole.com/81473/
Python模組學習:copy 物件拷貝 http://python.jobbole.com/81504/
Python模組學習:datetime http://python.jobbole.com/81482/
Python模組學習:filecmp 檔案比較 http://python.jobbole.com/81480/
Python模組學習:fileinput http://python.jobbole.com/81469/
Python模組學習:glob 檔案路徑查詢 http://python.jobbole.com/81552/
Python模組學習:hashlib hash加密 http://python.jobbole.com/81556/
Python模組學習:httplib HTTP協議客戶端實現 http://python.jobbole.com/81542/
Python模組學習:logging 日誌記錄 http://python.jobbole.com/81521/
Python模組學習:marshal 物件的序列化 http://python.jobbole.com/81506/
Python模組學習:random 隨機數生成 http://python.jobbole.com/81560/
Python模組學習:struct 資料格式轉換 http://python.jobbole.com/81554/
Python模組學習:subprocess 建立子程序 http://python.jobbole.com/81517/
Python模組學習:tempfile 臨時檔案(夾)操作 http://python.jobbole.com/81515/
Python模組學習:thread 多執行緒處理 http://python.jobbole.com/81544/
Python模組學習:threading 多執行緒控制和處理 http://python.jobbole.com/81546/
Python模組學習:time 日期時間處理 http://python.jobbole.com/81550/
Python模組學習:urllib http://python.jobbole.com/81478/
Python模組學習:zipfile zip檔案操作 http://python.jobbole.com/81519/
Python模組學習:zlib 資料壓縮 http://python.jobbole.com/81513/
Python模板-Jinja2 http://python.jobbole.com/83560/
Python模板-Mako http://python.jobbole.com/83635/
Python正則表示式指南 http://python.jobbole.com/75188/
Python正則表示式的七個使用範例 http://python.jobbole.com/74844/
Python原始碼閱讀-記憶體管理機制(一) http://python.jobbole.com/83533/
Python原始碼閱讀-記憶體管理機制(二) http://python.jobbole.com/83535/
Python原始碼閱讀-閉包的實現 http://python.jobbole.com/83545/
Python原始碼閱讀——list http://python.jobbole.com/83469/
Python熱點回顧第一期 http://python.jobbole.com/53346/
Python爬蟲入門(1):綜述 http://python.jobbole.com/81332/
Python爬蟲入門(2):爬蟲基礎瞭解 http://python.jobbole.com/81334/
Python爬蟲入門(3):Urllib庫的基本使用 http://python.jobbole.com/81336/
Python爬蟲入門(4):Urllib庫的高階用法 http://python.jobbole.com/81339/
Python爬蟲入門(5):URLError異常處理 http://python.jobbole.com/81341/
Python爬蟲入門(6):Cookie的使用 http://python.jobbole.com/81344/
Python爬蟲入門(7):正則表示式 http://python.jobbole.com/81346/
Python爬蟲入門(8):Beautiful Soup的用法 http://python.jobbole.com/81349/
Python爬蟲實戰(1):爬取糗事百科段子 http://python.jobbole.com/81351/
Python爬蟲實戰(2):百度貼吧帖子 http://python.jobbole.com/81353/
Python爬蟲實戰(3):計算大學本學期績點 http://python.jobbole.com/81357/
Python爬蟲實戰(4):抓取淘寶MM照片 http://python.jobbole.com/81359/
Python爬蟲實戰(5):模擬登入淘寶並獲取所有訂單 http://python.jobbole.com/81361/
Python狀況:為什麼PyPy是Python的未來? http://python.jobbole.com/39757/
Python的GIL是什麼鬼,多執行緒效能究竟如何 http://python.jobbole.com/81822/
Python的defaultdict模組和namedtuple模組 http://python.jobbole.com/80847/
Python的中文編碼問題 http://python.jobbole.com/80831/
Python的計數方式發展史 http://python.jobbole.com/83731/
Python的執行時方法補丁技術 http://python.jobbole.com/82357/
Python程式設計師必知必會的開發者工具 http://python.jobbole.com/58226/
Python程式設計師的10個常見錯誤 http://python.jobbole.com/68256/
Python程式設計師的常見錯誤 http://python.jobbole.com/69834/
Python程式設計師鮮為人知但你應該知道的16個問題 http://python.jobbole.com/82534/
Python程式的效能分析指南 http://python.jobbole.com/47619/
Python演算法:Counting 101 http://python.jobbole.com/81450/
Python演算法:分治法 http://python.jobbole.com/81461/
Python演算法:動態規劃 http://python.jobbole.com/81465/
Python演算法:圖 http://python.jobbole.com/81467/
Python演算法:基礎知識 http://python.jobbole.com/81445/
Python演算法:推導、遞迴和規約 http://python.jobbole.com/81453/
Python演算法:貪心策略 http://python.jobbole.com/81463/
Python演算法:遍歷 http://python.jobbole.com/81457/
Python執行緒指南 http://python.jobbole.com/82105/
Python編碼和Unicode http://python.jobbole.com/50345/
Python程式設計中使用Pillow來處理影象的基礎教程 http://python.jobbole.com/83685/
Python程式設計中常用的12種基礎知識總結 http://python.jobbole.com/48541/
Python程式設計中的反模式 http://python.jobbole.com/74252/
Python程式設計中需要注意的一些事 http://python.jobbole.com/19835/
Python程式語言的發展簡史 http://python.jobbole.com/77656/
Python自然語言處理 http://python.jobbole.com/80937/
Python自省(反射)指南 http://python.jobbole.com/82110/
Python裝飾器與面向切面程式設計 http://python.jobbole.com/82112/
Python裝飾器例項:呼叫引數合法性驗證 http://python.jobbole.com/82114/
Python解析xml[xml.dom] http://python.jobbole.com/83453/
Python解析xml大檔案(sax) http://python.jobbole.com/83713/
Python直譯器簡介(1):函式物件 http://python.jobbole.com/55327/
Python直譯器簡介(2):程式碼物件 http://python.jobbole.com/56300/
Python直譯器簡介(3):理解位元組碼 http://python.jobbole.com/56761/
Python直譯器簡介(4):動態語言 http://python.jobbole.com/57381/
Python直譯器簡介(5):深入主迴圈 http://python.jobbole.com/81660/
Python語言下的機器學習庫 http://python.jobbole.com/81135/
Python讀取修改ini配置檔案[ConfigParser] http://python.jobbole.com/83454/
Python超級程式設計師使用的開發工具 http://python.jobbole.com/59000/
Python趣文:Import Girlfriend http://python.jobbole.com/56878/
Python進階之“屬性(property)”詳解 http://python.jobbole.com/80955/
Python迭代器和生成器 http://python.jobbole.com/81881/
Python通用資料格式轉換工具 http://python.jobbole.com/83447/
Python通用郵件傳送(smtplib) http://python.jobbole.com/83719/
Python驗證碼識別處理例項 http://python.jobbole.com/83945/
Python高階特性(1):Iterators、Generators和itertools http://python.jobbole.com/66097/
Python高階特性(2):Closures、Decorators和functools http://python.jobbole.com/66895/
Python高階特性(3): Classes和Metaclasses http://python.jobbole.com/67748/
Python高階程式設計技巧 http://python.jobbole.com/61171/
Python,變調,電腦鋼琴 http://python.jobbole.com/72745/
Scrapy 輕鬆定製網路爬蟲 http://python.jobbole.com/73115/
Slashdot對Python之父的採訪 http://python.jobbole.com/47081/
Vim 7.4 計劃已公佈,具體釋出時間待定 http://python.jobbole.com/39429/
Y分鐘學會Python http://python.jobbole.com/80995/
Zed Shaw:一位老程式設計師的建議 http://python.jobbole.com/943/
[摘要]Python 最佳實踐指南 http://python.jobbole.com/83552/
fabric實現遠端操作和部署 http://python.jobbole.com/83716/
python greenlet背景介紹與實現機制 http://python.jobbole.com/77240/
python 執行緒之 Condition http://python.jobbole.com/82742/
python 面向物件(進階篇) http://python.jobbole.com/83747/
python:利用asyncio進行快速抓取 http://python.jobbole.com/63897/
python模組學習:Cookie http://python.jobbole.com/81492/
python模組學習:anydbm, shelve http://python.jobbole.com/81471/
python模組學習:smtplib 郵件傳送 http://python.jobbole.com/81540/
python生成漢字圖片字型檔 http://python.jobbole.com/81985/
“Hello world!” 混亂程式碼比賽第一名作品解析 http://python.jobbole.com/79737/
一個 11 行 Python 程式碼實現的神經網路 http://python.jobbole.com/82758/
一些簡單的Python測試題 http://python.jobbole.com/83641/
一次Python內部的探險 http://python.jobbole.com/81062/
一篇文章讓你徹底搞清楚Python中self的含義 http://python.jobbole.com/81921/
一行 Python 程式碼搞定一棵樹 http://python.jobbole.com/18159/
一行 Python 實現並行化 — 日常多執行緒操作的新思路 http://python.jobbole.com/81757/
一行程式碼完成並行任務 http://python.jobbole.com/58700/
一起寫一個 Web 伺服器(1) http://python.jobbole.com/81524/
一起寫一個 Web 伺服器(2) http://python.jobbole.com/81523/
一起寫一個Web伺服器(3) http://python.jobbole.com/81820/
與 Python 無縫整合:基本特殊方法 1 http://python.jobbole.com/81657/
為什麼 BIND 10 要用 C++ 和 Python 來寫 http://python.jobbole.com/34289/
為什麼Python中沒有Switch/Case語句? http://python.jobbole.com/82008/
為什麼Python對程式設計師重要? http://python.jobbole.com/13153/
為什麼“except:pass”是一個不好的Python程式設計習慣? http://python.jobbole.com/59854/
為什麼對陣列排序讓Python迴圈執行更快 http://python.jobbole.com/73819/
為什麼資料科學家們選擇了Python語言? http://python.jobbole.com/81039/
舉例講解 Python 中的死鎖、可重入鎖和互斥鎖 http://python.jobbole.com/82723/
也談如何閱讀程式原始碼 http://python.jobbole.com/81326/
人們對Python在企業級開發中的10大誤解 http://python.jobbole.com/80936/
從Theano到Lasagne:基於Python的深度學習的框架和庫 http://python.jobbole.com/81896/
從頭開始實現神經網路:入門 http://python.jobbole.com/82208/
從豆瓣電影批量獲取看過這部電影的使用者列表 http://python.jobbole.com/82383/
以 Python 為例項,介紹貝葉斯理論 http://python.jobbole.com/81720/
作為一個python開發者需要知道的關於伺服器的知識 http://python.jobbole.com/82009/
你所寫過的最好的Python指令碼是什麼? http://python.jobbole.com/75244/
你最喜愛的程式語言不夠好 http://python.jobbole.com/16231/
使用 Python 生成基於馬爾可夫鏈的偽隨機文字 http://python.jobbole.com/83908/
使用 Python 獲取 Linux 系統資訊 http://python.jobbole.com/44644/
使用 Python 進行穩定可靠的檔案操作 http://python.jobbole.com/44442/
使用IronPython整合Python和.NET http://python.jobbole.com/80982/
使用PyQt來編寫第一個Python GUI程式 http://python.jobbole.com/81276/
使用Python寫一個小小的專案監控 http://python.jobbole.com/80897/
使用Python和OpenCV在視訊中實時監測條形碼 http://python.jobbole.com/81130/
使用Python開發Chrome外掛 http://python.jobbole.com/81409/
使用Python的Socket模組構建一個UDP掃描工具 http://python.jobbole.com/81641/
使用Python的Supervisor來管理程序 http://python.jobbole.com/83799/
使用Python指令碼在Linux下實現部分Bash Shell的教程 http://python.jobbole.com/83924/
使用Python進行併發程式設計 http://python.jobbole.com/81255/
使用Vagrant搭建跨平臺的Python開發環境 http://python.jobbole.com/81861/
使用gettext模組翻譯Python3原始碼以支援國際化 http://python.jobbole.com/80925/
使用python/casperjs編寫終極爬蟲-客戶端App的抓取 http://python.jobbole.com/81995/
使用python掃描本地音樂並下載歌詞 http://python.jobbole.com/83680/
使用python爬蟲抓站的一些技巧總結:進階篇 http://python.jobbole.com/82000/
使用馬爾可夫模型自動生成文章 http://python.jobbole.com/81966/
值得關注的 10 個 Python 英文部落格 http://python.jobbole.com/81730/
做一個位元組碼追蹤器,從內部理解 Python 的執行過程 http://python.jobbole.com/81617/
像老大一樣優化Python http://python.jobbole.com/54057/
像老大一樣除錯Python http://python.jobbole.com/52171/
八大排序演算法的 Python 實現 http://python.jobbole.com/82270/
關於Python 3的一些想法 http://python.jobbole.com/54846/
關於Python日誌系統的幾點建議 http://python.jobbole.com/81132/
關於python中的setup.py http://python.jobbole.com/82077/
關於你不想知道的所有Python3 unicode特性 http://python.jobbole.com/73974/
再次介紹Into包:整潔地資料遷移 http://python.jobbole.com/81136/
再談PHP、Python與Ruby http://python.jobbole.com/43792/
寫給Python初學者的設計模式入門 http://python.jobbole.com/62023/
寫給已有程式設計經驗的 Python 初學者的總結 http://python.jobbole.com/79197/
函數語言程式設計實戰教程(Python版) http://python.jobbole.com/81075/
分析 Python 指令碼 http://python.jobbole.com/82004/
建立成功的Python專案 http://python.jobbole.com/12649/
初學者必知的Python中優雅的用法 http://python.jobbole.com/81393/
初步理解Python程序的訊號通訊 http://python.jobbole.com/83958/
利用 Python 練習資料探勘 http://python.jobbole.com/83563/
利用Python中的mock庫對Python程式碼進行模擬測試 http://python.jobbole.com/83922/
利用Python和OpenCV將URL直接轉換成OpenCV格式 http://python.jobbole.com/81131/
利用圖片指紋檢測高相似度圖片 http://python.jobbole.com/81277/
加速你的Python程式碼 http://python.jobbole.com/36701/
動態規劃用於解決重疊子問題的示例(Python版) http://python.jobbole.com/67588/
單身數學家如何通過資料探勘找真愛 http://python.jobbole.com/57618/
另一個Lambda表示式教程 http://python.jobbole.com/80954/
可愛的 Python : Python中函數語言程式設計,第一部分 http://python.jobbole.com/35028/
可愛的 Python : Python中函數語言程式設計,第二部分 http://python.jobbole.com/35042/
可愛的 Python : Python中的函數語言程式設計,第三部分 http://python.jobbole.com/35045/
各種 Python 實現的簡單介紹與比較 http://python.jobbole.com/82703/
同一個 bug 不要修復兩次 http://python.jobbole.com/64440/
圖解 Python 深拷貝和淺拷貝 http://python.jobbole.com/82294/
在 Python 中測試競爭條件 http://python.jobbole.com/81275/
在Linux中使用matplotlib進行科學畫圖 http://python.jobbole.com/81182/
在Python 3中實現型別檢查器 http://python.jobbole.com/81423/
在Python中使用線性迴歸預測資料 http://python.jobbole.com/81215/
在Python中處理分數 http://python.jobbole.com/81213/
在Python中對MySQL中的資料進行視覺化 http://python.jobbole.com/81110/
在Python中正確使用Unicode http://python.jobbole.com/80939/
在Raspberry Pi 2/B+上安裝Python和OpenCV http://python.jobbole.com/81106/
基於 Python 和 Scikit-Learn 的機器學習介紹 http://python.jobbole.com/81721/
基於Python的測試驅動開發實戰 http://python.jobbole.com/81305/
基於Python的行為驅動開發實戰 http://python.jobbole.com/81303/
複雜度為 O(1) 的「最不常用」快取演算法的 Python 實現 http://python.jobbole.com/82424/
大資料全棧式開發語言 – Python http://python.jobbole.com/81878/
好奇號火星車的一些計算機軟硬體資訊 http://python.jobbole.com/25037/
如何使用 50 行 Python 程式碼製作一個計算器 http://python.jobbole.com/83889/
如何使用 urllib 包獲取網路資源 http://python.jobbole.com/81398/
如何使用Python編寫一個Lisp直譯器 http://python.jobbole.com/47659/
如何入門 Python 爬蟲? http://python.jobbole.com/81296/
如何建立和使用Python CGI指令碼 http://python.jobbole.com/83788/
如何在Python中使用static、class、abstract方法(權威指南) http://python.jobbole.com/81595/
如何在Python中實現這五類強大的概率分佈 http://python.jobbole.com/81321/
如何成為Python高手 http://python.jobbole.com/955/
如何教新人程式設計:授人以漁(可他要是釣到河豚會死的) http://python.jobbole.com/58281/
如何用 Python 爬取需要登入的網站? http://python.jobbole.com/83588/
如何用 Python 追蹤 NBA 球員的移動軌跡 http://python.jobbole.com/82085/
如何用Python開發一個簡單的Webkit瀏覽器 http://python.jobbole.com/82715/
如何用程式解圖片迷宮? http://python.jobbole.com/62895/
如何獲得NumPy的最佳效能 http://python.jobbole.com/81310/
如果一切需要重學,2014年應該學哪些技術? http://python.jobbole.com/61248/
學習Python程式設計的11個資源 http://python.jobbole.com/71064/
孩子們為什麼要學Python程式設計 http://python.jobbole.com/17295/
定位Python built-in函式的原始碼實現 http://python.jobbole.com/82237/
對比Ruby和Python的垃圾回收(1) http://python.jobbole.com/60900/
對比Ruby和Python的垃圾回收(2):代式垃圾回收機制 http://python.jobbole.com/73300/
將Sublime Text 3設定為Python全棧開發環境 http://python.jobbole.com/81312/
小 200 行 Python 程式碼做了一個換臉程式 http://python.jobbole.com/82546/
常高偉:如何學習一門新的語言 http://python.jobbole.com/1322/
形象地解釋 Python 中的列表解析 http://python.jobbole.com/83884/
必看的 Python 視訊 http://python.jobbole.com/82605/
快速Python效能優化要點 http://python.jobbole.com/83628/
快速入門:十分鐘學會Python http://python.jobbole.com/43922/
怎樣寫一個拼寫檢查器(Python 版) http://python.jobbole.com/81675/
想理解Python的列表解析嗎?Think in Excel or SQL. http://python.jobbole.com/82087/
成人網站效能提升20倍之經驗談 http://python.jobbole.com/39323/
我不能勝任開發開源軟體 http://python.jobbole.com/16387/
我希望初學Python時就能知道的一些用法 http://python.jobbole.com/81020/
我希望早點就知道的10個Python用法 http://python.jobbole.com/80865/
我常用的 Python 除錯工具 http://python.jobbole.com/51062/
我常用的Python除錯工具(二) http://python.jobbole.com/52090/
我是如何在12周內成為一名程式設計師的 http://python.jobbole.com/8464/
我是如何在8周內自學程式設計的 http://python.jobbole.com/25858/
我理解的 Python 最佳實踐 http://python.jobbole.com/82939/
探索 Python(1): Python 的內建數值型別 http://python.jobbole.com/82498/
探索 Python(2): 探索 Python 型別的層次結構 —— 瞭解物件和容器 http://python.jobbole.com/82502/
探索 Python(3): 探索 Python 型別的層次結構 —— 使用字串 http://python.jobbole.com/82505/
探索 Python(4): 探索 Python 型別的層次結構 —— 使用列表 http://python.jobbole.com/82510/
探索 Python(5): 用 Python 程式設計 —— 控制流 http://python.jobbole.com/82513/
探索 Python(6): 用 Python 程式設計 —— 興趣 http://python.jobbole.com/82517/
提升 Python 程式效能的 6 個技巧 http://python.jobbole.com/81035/
提高你的Python能力:理解單元測試 http://python.jobbole.com/55180/
教你用Python建立瀑布圖 http://python.jobbole.com/81259/
資料專家必知必會的 7 款 Python 工具 http://python.jobbole.com/81746/
資料科學的完整學習路徑(Python版) http://python.jobbole.com/80981/
資料結構&演算法實踐—Bogo排序 http://python.jobbole.com/83709/
資料結構&演算法實踐—氣泡排序及改進 http://python.jobbole.com/83510/
資料結構&演算法實踐—地精排序及改進 http://python.jobbole.com/83728/
資料結構&演算法實踐—堆排序 http://python.jobbole.com/83722/
資料結構&演算法實踐—奇偶排序 http://python.jobbole.com/83540/
資料結構&演算法實踐—插入排序 http://python.jobbole.com/83726/
資料結構&演算法實踐—梳子排序 http://python.jobbole.com/83530/
資料結構&演算法實踐—選擇排序 http://python.jobbole.com/83711/
資料結構&演算法實踐—雞尾酒排序 http://python.jobbole.com/83504/
文字向量空間模型 http://python.jobbole.com/81311/
無需作業系統直接執行 Python 程式碼 http://python.jobbole.com/81420/
既然PyPy的速度是CPython的6.3倍,難道我不應該放棄CPython轉用PyPy? http://python.jobbole.com/49341/
最好的Python機器學習庫 http://python.jobbole.com/83605/
有史以來最出彩的程式語言名字 http://python.jobbole.com/42999/
機器學習之用Python從零實現貝葉斯分類器 http://python.jobbole.com/81019/
機器學習演算法原理之人工神經元和單層神經網路 http://python.jobbole.com/81278/
構建健壯 Python 包的 5 個簡單規則 http://python.jobbole.com/81579/
檢測Python程式執行效率及記憶體和CPU使用的7種方法 http://python.jobbole.com/80754/
每個 Python 程式設計師都要知道的日誌實踐 http://python.jobbole.com/81666/
每個程式設計師都應該學習使用Python或Ruby http://python.jobbole.com/1141/
淺談 Python 的 with 語句 http://python.jobbole.com/82494/
深入 Python 列表的內部實現 http://python.jobbole.com/82549/
深入 Python 整數物件的實現 http://python.jobbole.com/82632/
深入瞭解 Python 字串物件的實現 http://python.jobbole.com/83732/
深入分析 Python 的垃圾回收機制 http://python.jobbole.com/82061/
深入理解Python中的生成器 http://python.jobbole.com/81911/
深入理解非同步Web伺服器 Tornado http://python.jobbole.com/83826/
深刻理解Python中的元類(metaclass) http://python.jobbole.com/21351/
漫畫:為什麼 C 被踢出窗外? http://python.jobbole.com/56762/
潛在的Python陷阱 http://python.jobbole.com/81564/
熱門 Python 應用 The Fuck 是如何工作的 http://python.jobbole.com/82528/
愛上 SQLAlchemy 的 10 個理由 http://python.jobbole.com/82453/
理解 Python 中的執行緒 http://python.jobbole.com/52060/
理解 Python 位元組碼 http://python.jobbole.com/80815/
理解Python的迭代器 http://python.jobbole.com/81916/
理解python中的裝飾器 http://python.jobbole.com/83625/
用 GDB 排查 Python 程式故障 http://python.jobbole.com/82232/
用 Opencv 和 Python 對汪星人做模糊檢測 http://python.jobbole.com/83702/
用 Python 從零開始寫一個簡單的直譯器(1) http://python.jobbole.com/82206/
用 Python 從零開始寫一個簡單的直譯器(2) http://python.jobbole.com/82423/
用 Python 從零開始寫一個簡單的直譯器(3) http://python.jobbole.com/82445/
用 Python 從零開始寫一個簡單的直譯器(4) http://python.jobbole.com/82455/
用 Python 做了一個豆瓣使用者讀書短評下載工具 http://python.jobbole.com/82374/
用 Python 做單詞拼寫檢查 http://python.jobbole.com/83804/
用 Python 建立 NBA 得分圖表 http://python.jobbole.com/81968/
用 Python 製作 Powerpoint 簡報 http://python.jobbole.com/82394/
用 Python 和 OpenCV 檢測和跟蹤運動物件 http://python.jobbole.com/81593/
用 Python 和 OpenCV 檢測圖片上的條形碼 http://python.jobbole.com/80448/
用 Python 將文字轉為圖片 http://python.jobbole.com/81983/
用 Python 繪製音樂圖譜 http://python.jobbole.com/81186/
用 Python 編寫一個國際象棋 AI 程式 http://python.jobbole.com/80007/
用 Python 指令碼實現對 Linux 伺服器的監控 http://python.jobbole.com/54563/
用 RAKE 和 Maui 做 NLP 關鍵詞提取的教程 http://python.jobbole.com/82230/
用 kNN 演算法預測豆瓣電影使用者的性別 http://python.jobbole.com/82379/
用AIML開發人工智慧聊天機器人 http://python.jobbole.com/82007/
用K-均值聚類來探索顧客細分 http://python.jobbole.com/83498/
用Pandas完成Excel中常見的任務 http://python.jobbole.com/80870/
用Pandas完成Excel中常見的任務(2) http://python.jobbole.com/80972/
用Python寫一個FUSE(使用者態檔案系統)檔案系統 http://python.jobbole.com/51268/
用Python寫一個簡單的Web框架 http://python.jobbole.com/83817/
用Python和MoviePy將資料動態視覺化 http://python.jobbole.com/81185/
用Python和OpenCV建立一個圖片搜尋引擎的完整指南 http://python.jobbole.com/80860/
用Python在地圖上模擬疫情擴散 http://python.jobbole.com/80938/
用Python處理視訊 http://python.jobbole.com/58257/
用Python實現K-近鄰演算法 http://python.jobbole.com/83794/
用Python挖掘Linux系統 http://python.jobbole.com/80869/
用Python的 __slots__ 節省9G記憶體 http://python.jobbole.com/52420/
用python爬蟲抓站的一些技巧總結 http://python.jobbole.com/81997/
用主題模型視覺化分析911新聞(Python版) http://python.jobbole.com/81279/
用樹莓派 + Python + OpenCV 實現家庭監控和移動目標探測(下) http://python.jobbole.com/81645/
用語音寫程式碼比鍵盤更快 http://python.jobbole.com/45781/
由使用者輸入系列對稱的點的解決方案 http://python.jobbole.com/82248/
白話 Tornado 原始碼(2):待請求階段 http://python.jobbole.com/82145/
白話 Tornado 原始碼(3):請求來了 http://python.jobbole.com/82165/
白話 Tornado 原始碼(4):褪去模板外衣的前戲 http://python.jobbole.com/82127/
白話 Tornado 原始碼(5):褪去模板的外衣 http://python.jobbole.com/82176/
白話tornado原始碼(1):一個指令碼引發的血案 http://python.jobbole.com/82095/
移植到 Python 3 http://python.jobbole.com/83848/
給Python初學者的一些技巧 http://python.jobbole.com/32748/
程式語言擬人化:Java、C++、Python、Ruby、PHP、C#、JS http://python.jobbole.com/63311/
網路爬蟲剖析,以Pyspider為例 http://python.jobbole.com/81109/
自己動手寫貝葉斯分類器給圖書分類 http://python.jobbole.com/81764/
行為驅動開發在 Python 開發測試中的應用 http://python.jobbole.com/82580/
解密 Python 的描述符(descriptor) http://python.jobbole.com/81899/
讓 Python 更快地進行驗證 http://python.jobbole.com/81833/
讓Python程式碼更快執行的 5 種方法 http://python.jobbole.com/81252/
設定 Sublime Text 的 Python 開發環境 http://python.jobbole.com/40660/
詳解Python中的下劃線 http://python.jobbole.com/81129/
詳解在 Python 中解析並修改XML內容的方法 http://python.jobbole.com/82775/
說說Python中的幾個內建函式和表推導 http://python.jobbole.com/81905/
誰說不能用Python寫出讓人迷惑的程式碼? http://python.jobbole.com/1414/
超酷演算法:基數估計 http://python.jobbole.com/78255/
趣文:Python程式設計師的進化史 http://python.jobbole.com/15005/
趣文:如果程式語言是女人(新編版) http://python.jobbole.com/44736/
通過pymongo測試MongoDB的高可用性 http://python.jobbole.com/81638/
通過示例學習Python列表推導 http://python.jobbole.com/80823/
重寫Reddit http://python.jobbole.com/79097/
陳皓:程式碼執行的效率 http://python.jobbole.com/23773/
陳皓:程式設計師技術練級攻略 http://python.jobbole.com/1101/
零基礎學習PDB命令列除錯Python程式碼 http://python.jobbole.com/81184/
零基礎自學用Python 3開發網路爬蟲(一) http://python.jobbole.com/77821/
零基礎自學用Python 3開發網路爬蟲(三): 偽裝瀏覽器君 http://python.jobbole.com/77830/
零基礎自學用Python 3開發網路爬蟲(二): 用到的資料結構簡介以及爬蟲Ver1.0 alpha http://python.jobbole.com/77825/
零基礎自學用Python 3開發網路爬蟲(五): 使用第三方模組快速抓取與解析 http://python.jobbole.com/81102/
零基礎自學用Python 3開發網路爬蟲(四): 登入 http://python.jobbole.com/77878/
需求驅動學習之Python(如何編寫Python指令碼替換檔案中的多行字元?) http://python.jobbole.com/81417/
非典型性吐槽:親愛的Python,你為何如此醜陋 http://python.jobbole.com/18629/
高效能的Python擴充套件(1) http://python.jobbole.com/78859/
高效能的Python擴充套件(2) http://python.jobbole.com/79331/
高效能的Python擴充套件(3) http://python.jobbole.com/80005/
高階正則表示式技術(Python版) http://python.jobbole.com/65605/

爬取dataunion

import requests
from bs4 import BeautifulSoup
import re
from operator import itemgetter
from multiprocessing.dummy import Pool as ThreadPool

def FindoutMaxPageNumber():
    soup = BeautifulSoup(requests.get("http://dataunion.org/").text, "html.parser")
    link = soup.find("a", {"title": ["最末頁"]})['href']
    return int(link[link.rindex('/')+1:], 10)

def myFilter(text):
    for item in add:
        #if re.match(item, text, re.IGNORECASE):#只從字串的開始與正則表示式匹配
        if re.search(item, text, re.IGNORECASE):#將字串的所有字串嘗試與正則表示式匹配
            return True
    return False

def getPage(pageIndex):
    url = 'http://dataunion.org/page/%d' % (pageIndex)
    sp = BeautifulSoup(requests.get(url).text, "html.parser")
    for tag in set(sp.find_all("h2", class_="mecctitle")):
        if myFilter(tag.get_text()):
            cer = re.compile('href=\"(.*)\"')
            strlist = cer.findall(tag.prettify())
            dic[tag.get_text().strip()] = strlist[0]

pool = ThreadPool(8) # Sets the pool size
dic = dict()
add = ['cnn','deep','theano', '影象', '卷積', '機器學習', '深度學習','特徵','提取','識別','caffe']

pool.map(getPage, range(1, FindoutMaxPageNumber()+1))
pool.close()
pool.join()

cdi = sorted(dic.items(), key=itemgetter(0), reverse=False)
#cdi = sorted(dic.items(), key=lambda d:d[0], reverse=False)
for d,x in cdi:
    print(d+' '+x)
執行結果
2015年科技預測:深度學習和機器智慧將席捲世界 http://dataunion.org/5918.html
2016:深度學習的未來 http://dataunion.org/21069.html
20個頂尖的 Python 語言機器學習開源專案 http://dataunion.org/19321.html
33頁PPT:關於機器學習的若干理論問題 http://dataunion.org/2011.html
46頁PPT | 方法論:如何通過機器學習技術來保護隱私 http://dataunion.org/2052.html
47頁PPT:基於大資料和深度學習的短文字互動 http://dataunion.org/2267.html
50個數據科學和機器學習速查表 http://dataunion.org/20083.html
62頁PPT:隨機數值代數: 回顧及在機器學習中的若干進展 http://dataunion.org/2376.html
8步從Python白板到專家,從基礎到深度學習 http://dataunion.org/15057.html
Adam:大規模分散式機器學習框架 http://dataunion.org/19871.html
Amazon Web開展機器學習服務,使用者可在雲端學習預測模型 http://dataunion.org/15096.html
Azure機器學習平臺的擴充套件和R程式設計 http://dataunion.org/11085.html
CMU邢波教授:機器學習與醫療大資料,及大規模機器學習系統的開發 http://dataunion.org/21108.html
CNN卷積神經網路應用於人臉識別(詳細流程+程式碼實現) http://dataunion.org/17618.html
Caffe 深度學習框架上手教程 http://dataunion.org/9188.html
Convolution Neural Network (CNN) 原理與實現 http://dataunion.org/12090.html
DMLC深盟分散式深度機器學習開源平臺解析 http://dataunion.org/18124.html
Deep Learning and Shallow Learning http://dataunion.org/12896.html
Deep Learning 模型是如何學習和表示詞、短語、句子和篇章的? http://dataunion.org/19554.html
DeepFace——Facebook的人臉識別 http://dataunion.org/20010.html
DeepID人臉識別演算法之三代 http://dataunion.org/17149.html
DeepMind背後的人工智慧:深度學習原理初探 http://dataunion.org/1548.html
EasyPR:一個開源的中文車牌識別系統 http://dataunion.org/13512.html
Facebook 開源的深度學習模組介紹 http://dataunion.org/8375.html
Facebook人工智慧負責人Yann LeCun談深度學習的侷限性 http://dataunion.org/19897.html
Geoffrey Hinton 是這個人,把“深度學習”從邊緣課題變成Google等網路巨頭仰賴的核心技術 http://dataunion.org/3543.html
Google翻譯是如何把深度學習“塞進”手機的? http://dataunion.org/20240.html
GraphLab Create:更簡單更強大的深度學習 http://dataunion.org/6367.html
Guesswork:機器學習注意力應集中於客戶 http://dataunion.org/613.html
Hadoop 2.0 上深度學習的解決方案 http://dataunion.org/8770.html
Iconfinder 如何杜絕盜版,雜湊演算法檢測影象重複 http://dataunion.org/15022.html
Image classification with deep learning常用模型 http://dataunion.org/11913.html
Image classification的幾個常見CNN model http://dataunion.org/6444.html
Kaggle 機器學習競賽冠軍及優勝者的原始碼彙總 http://dataunion.org/14892.html
Kaggle上的一次比賽:利用機器學習進行惡意程式碼分類 http://dataunion.org/20505.html
Mike Jordan 推薦的13本機器學習書籍 http://dataunion.org/8230.html
Mllib機器學習工具包在Hadoop上的使用 http://dataunion.org/5544.html
NLP大神推薦的機器學習入門書單(附大量百度網盤電子書) http://dataunion.org/12565.html
Python 兵器譜:網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘 (轉載) http://dataunion.org/367.html
Python 網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘兵器譜 http://dataunion.org/9005.html
Python機器學習庫scikit-learn實踐 http://dataunion.org/20953.html
Python語言下的機器學習庫 http://dataunion.org/12410.html
Ramp:快速開發機器學習原型 http://dataunion.org/5031.html
R語言與機器學習學習筆記(分類演算法) http://dataunion.org/672.html
Scala更適合用於大資料處理和機器學習 http://dataunion.org/2785.html
Spark 1.5.0釋出:新增機器學習演算法工具,擴充套件Spark R API http://dataunion.org/20751.html
Which GPU to use for deep learning? http://dataunion.org/15891.html
Wolfram推出了影象識別引擎,卻不幸淪為大眾調戲物件… http://dataunion.org/17310.html
cxxnet和大規模深度學習 http://dataunion.org/12555.html
mlpack:可伸縮C++機器學習庫 http://dataunion.org/4953.html
​兔子和分散式機器學習 http://dataunion.org/8867.html
​機器學習程式碼心得(二):迭代器和流水處理 http://dataunion.org/6290.html
《機器學習實戰》作者Peter Harrington:如何學好機器學習 http://dataunion.org/3603.html
《自然》深度機器學習未來將怎樣改變人類生活 http://dataunion.org/12498.html
「人臉識別」很火,但你不知道的還有很多 http://dataunion.org/17080.html
【內推】機器學習工程師-15K~30K-北京-估值上億美元大資料信用評估公司 http://dataunion.org/10367.html
【對話機器學習大神Michael Jordan】前言 http://dataunion.org/1442.html
【強烈推薦!】深度學習閱讀清單 http://dataunion.org/5741.html
【急聘】深度學習技術專家-薪酬開放-杭州 http://dataunion.org/14864.html
【數盟內推】機器學習演算法工程師-10K~25K-成都/北京-A輪千萬級大資料公司 http://dataunion.org/6393.html
【轉載】機器學習中的數學(1)-迴歸(regression)、梯度下降(gradient descent) http://dataunion.org/312.html
【轉載】機器學習中的數學(2)-線性迴歸,偏差、方差權衡 http://dataunion.org/317.html
【轉載】機器學習中的數學(3)-模型組合(Model Combining)之Boosting與Gradient Boosting http://dataunion.org/320.html
【轉載】機器學習中的數學(4)-線性判別分析(LDA), 主成分分析(PCA) http://dataunion.org/323.html
【轉載】機器學習中的數學(5)-強大的矩陣奇異值分解(SVD)及其應用 http://dataunion.org/326.html
一文讀懂機器學習,大資料/自然語言處理/演算法全有了…… http://dataunion.org/6331.html
一篇關於機器學習的溫和指南 http://dataunion.org/20783.html
萬能的Quora啊,請告訴我:你用機器學習都做了什麼? http://dataunion.org/20452.html
為什麼一些機器學習模型需要對資料進行歸一化? http://dataunion.org/15046.html
為什麼機器學習廣泛的用在谷歌的廣告系統中,而很少用在搜尋排序中? http://dataunion.org/13374.html
為什麼統計學家、機器學習專家解決同一問題的方法差別那麼大? http://dataunion.org/20616.html
為什麼說資料分析、機器學習、物聯網要放一起才玩的轉 http://dataunion.org/20179.html
喬丹Reddit訪談實錄:統計學和機器學習不能分開 http://dataunion.org/1545.html
雲安全公司利用自然語言處理識別釣魚網站 http://dataunion.org/11901.html
雲視鏈、谷歌、微軟都在說的虹膜識別,到底是什麼? http://dataunion.org/20288.html
網際網路公司機器學習、資料探勘類的職位面試主要考察哪些? http://dataunion.org/11448.html
亞馬遜等網際網路巨頭的“雲+機器學習”之路要怎麼走? http://dataunion.org/14276.html
京東DNN Lab首席科學家:京東深度學習應用及最新進展 http://dataunion.org/5846.html
人工智慧\機器學習\統計學\資料探勘之間有什麼區別? http://dataunion.org/12251.html
人工智慧和機器學習領域有哪些有趣的開源專案? http://dataunion.org/2954.html
人工智慧,機器學習,統計學,資料探勘之間有什麼區別? http://dataunion.org/8576.html
人臉識別必有一戰:騰訊背後的人臉識別技術支援團隊——優圖 http://dataunion.org/19379.html
人臉識別技術大總結(1)——Face Detection & Alignment http://dataunion.org/14010.html
人臉識別還不夠,FBI要研究紋身識別 http://dataunion.org/20526.html
人臉識別通過公共場所的攝像頭能抓住逃犯嚒? http://dataunion.org/14099.html
人臉驗證 DeepID 演算法實踐 http://dataunion.org/17917.html
什麼是機器學習:一次權威定義之旅 http://dataunion.org/9966.html
從How-Old.net到TwinsOrNot.net,看人臉識別技術是怎麼 high 起來的 http://dataunion.org/19866.html
從感知攝像機看影象識別技術的具體行業應用 http://dataunion.org/19880.html
從技能到特徵,全面解碼資料科學家 http://dataunion.org/1359.html
從機器學習的視角來看人性中的“偏激” http://dataunion.org/18036.html
從統計學角度來看深度學習:遞迴廣義線性模型 http://dataunion.org/17764.html
傳12306圖片驗證12小時內被破解,機器自動識別驗證碼的原理是怎麼樣的? http://dataunion.org/12514.html
伯克利:探索深度學習在科學界的應用 http://dataunion.org/20925.html
使用GPU和Theano加速深度學習 http://dataunion.org/20365.html
克服了這些磨難,深度學習將更加優秀! http://dataunion.org/20086.html
入門科普:天天喊深度學習,到底深度學習是啥? http://dataunion.org/17834.html
八一八Leo Breiman,一位深深地影響了機器學習界的奇人 http://dataunion.org/16511.html
八一八深度學習的這三十年曆程! http://dataunion.org/19598.html
關於Andrew Ng『應用機器學習的建議』的學習筆記 http://dataunion.org/14308.html
關於人工智慧(機器學習、深度學習、強人工智慧……)的二十件事 http://dataunion.org/17234.html
關於推薦系統中的特徵工程 http://dataunion.org/13206.html
減少部署痛苦:七種基於雲端計算的機器學習服務 http://dataunion.org/14296.html
分析了全球855家公司,看人工智慧產業(ML/影象識別/NLP/推薦引擎)的發展現狀 http://dataunion.org/20500.html
利用GPU和Caffe訓練神經網路 http://dataunion.org/19699.html
加速深度學習研發的幾個常用方法 http://dataunion.org/20129.html
十個值得一試的開源深度學習框架 http://dataunion.org/21119.html
十張圖解釋機器學習的基本概念 http://dataunion.org/9512.html
卷積神經網路初探 http://dataunion.org/20942.html
卷積網路訓練太慢?卷積網路之父Yann LeCun:已解決CIFAR-10,目標 ImageNet http://dataunion.org/8339.html
史上最強論戰第二彈:一線大牛關於人工智慧和深度學習的討論 http://dataunion.org/19849.html
各種程式語言的深度學習庫整理大全! http://dataunion.org/20798.html
吳恩達談百度深度學習:為什麼要建中文神經網路 http://dataunion.org/10254.html
四大機器學習降維演算法:PCA、LDA、LLE、Laplacian Eigenmaps http://dataunion.org/13451.html
國際貿易支付工具PayPal,使用深度學習和監測工作打擊欺詐 http://dataunion.org/14275.html
影象卷積與濾波的一些知識點 http://dataunion.org/20981.html
影象處理和影象識別中常用的329個OpenCV函式 http://dataunion.org/20333.html
影象區域性特徵點檢測演算法綜述 http://dataunion.org/14125.html
影象特徵提取三大法寶:HOG特徵,LBP特徵,Haar特徵 http://dataunion.org/20584.html
影象的稀疏表示——ScSPM和LLC的總結 http://dataunion.org/9755.html
影象識別四大影象庫比較:OpenCV/FreeImage/CImg/CxImage http://dataunion.org/20307.html
影象識別神器Deep Dream的前世今生 http://dataunion.org/20932.html
影象驗證碼和大規模影象識別技術 http://dataunion.org/21090.html
在機器學習方面使用 R + Hadoop 方案真的有那麼好? http://dataunion.org/16326.html
在機器學習模型執行時保持高效的方法 http://dataunion.org/11647.html
基於 Python 和 Scikit-Learn 的機器學習介紹 http://dataunion.org/20071.html
基於Python的卷積神經網路和特徵提取 http://dataunion.org/20587.html
基於SVM與人工神經網路的車牌識別系統 http://dataunion.org/18209.html
基於Spark的機器學習經驗 http://dataunion.org/21012.html
基於分散式雲的機器學習 http://dataunion.org/11977.html
基於機器學習方法的POI品類推薦演算法 http://dataunion.org/4211.html
基於混沌的數字影象加密演算法 http://dataunion.org/17038.html
基於面部表情的情緒識別,讓計算機再感性一點 http://dataunion.org/8201.html
大資料/資料探勘/推薦系統/機器學習相關資源 http://dataunion.org/21072.html
大資料日誌分析的成功取決於機器學習 http://dataunion.org/1148.html
大資料時代,機器學習機制正在崛起…… http://dataunion.org/619.html
大資料預測的四大特徵 http://dataunion.org/806.html
大資料+機器學習+平臺,Dato拿了1850萬美元B輪融資 http://dataunion.org/6532.html
大神親傳:26條深度學習的金科玉律! http://dataunion.org/20811.html
大量 Deep Learning 學習資源! http://dataunion.org/17663.html
如何在Hadoop 2.0上實現深度學習? http://dataunion.org/11887.html
如何看待深度學習? http://dataunion.org/20893.html
如何選擇機器學習分類器? http://dataunion.org/13026.html
如何選擇機器學習演算法? http://dataunion.org/16495.html
它將是你的第二大腦——長文講述谷歌深度學習的故事 http://dataunion.org/10570.html
例項詳解機器學習如何解決問題 http://dataunion.org/10588.html
常用的機器學習&資料探勘知識(點)總結 http://dataunion.org/14926.html
常見面試之機器學習演算法思想簡單梳理 http://dataunion.org/5341.html
乾貨整理:深度學習 vs 機器學習 vs 模式識別 http://dataunion.org/13071.html
乾貨:形而上的機器學習 http://dataunion.org/2974.html
乾貨:深度學習 vs 概率圖模型 vs 邏輯學 http://dataunion.org/16436.html
乾貨:結合Scikit-learn介紹幾種常用的特徵選擇方法 http://dataunion.org/14072.html
開發者成功玩轉機器學習的十大訣竅! http://dataunion.org/20003.html
開源機器學習工具scikit-learn入門 http://dataunion.org/12228.html
張夏天:揭祕 TalkingData 的大規模機器學習的應用 http://dataunion.org/19768.html
當機器學習遇上計算機視覺(上) http://dataunion.org/10227.html
當機器學習遇上計算機視覺(下) http://dataunion.org/10232.html
當機器學習遇到計算機視覺 http://dataunion.org/15984.html
微軟牛津計劃——屌爆了的自然資料處理解決方案(人臉/語音識別/計算機視覺/NLP) http://dataunion.org/20598.html
微軟黑科技:影象識別系統錯誤率已低於人類 http://dataunion.org/11065.html
微軟:我家的深度學習超越了人類和Google http://dataunion.org/10929.html
心情識別技術:你不說,它也知道 http://dataunion.org/15268.html
總結Python正文提取的工具包(轉) http://dataunion.org/424.html
情緒也是一種虛擬貨幣?告訴你情緒識別真正的應用前景! http://dataunion.org/8329.html
想入門機器學習、資料探勘,我該怎麼做? http://dataunion.org/19877.html
想搞機器學習,不會特徵工程?你TM逗我那! http://dataunion.org/20276.html
我在面試機器學習、大資料崗位時遇到的各種問題 http://dataunion.org/20682.html
手把手,74行程式碼實現手寫數字識別 http://dataunion.org/20992.html
技術向:一文讀懂卷積神經網路CNN http://dataunion.org/11692.html
技術篇:預測建模、監督機器學習和模式分類概覽 http://dataunion.org/16027.html
推薦一些從零開始學習機器學習演算法的方法 http://dataunion.org/20758.html
推薦這六本關於機器學習的書籍,並說說它們的優缺點 http://dataunion.org/20692.html
推薦!國外程式設計師整理的機器學習資源大全 http://dataunion.org/3560.html
教程:使用Amazon Machine Learning構建機器學習預測模型 http://dataunion.org/15245.html
斯坦福大學公開課 :機器學習全套視訊教程(免費) http://dataunion.org/5941.html
斯坦福深度學習博士,手把手教你用Javascript寫神經網路和SVM http://dataunion.org/2668.html
無處可藏:Facebook開發無臉識別技術 http://dataunion.org/19765.html
易用的深度學習框架Keras簡介及使用 http://dataunion.org/16787.html
智冠女神董事長:做手靜脈生物識別認證技術領跑者 http://dataunion.org/951.html
最流行的4個機器學習資料集 http://dataunion.org/9232.html
有趣的機器學習:最簡明入門指南 http://dataunion.org/9969.html
未來,語音識別可能應用於哪些商業化場景? http://dataunion.org/10046.html
本週最受資本追捧的兩家機器學習創業公司 http://dataunion.org/2680.html
機器學習(Machine Learning)&深度學習(Deep Learning)資料彙總 http://dataunion.org/8463.html
機器學習+影象處理還原梵高《星空》全貌 http://dataunion.org/3076.html
機器學習API Top 10:AT&T Speech、IBM Watson和Google Prediction http://dataunion.org/20392.html
機器學習與統計學是互補的嗎? http://dataunion.org/21087.html
機器學習專家與統計學家觀點上有哪些不同? http://dataunion.org/15992.html
機器學習中導數最優化方法(基礎篇) http://dataunion.org/11752.html
機器學習中的數學(1):迴歸(regression)、梯度下降(gradient descent) http://dataunion.org/8807.html
機器學習中的數學(2):線性迴歸,偏差、方差權衡 http://dataunion.org/8880.html
機器學習中的數學(3):模型組合(Model Combining)之Boosting與Gradient Boosting http://dataunion.org/9142.html
機器學習中的數學(4)-線性判別分析(LDA), 主成分分析(PCA) http://dataunion.org/9366.h