用python爬取文章連結並分類
阿新 • • 發佈:2019-01-28
環境:
OS:win10 x64
Python:3.5.1
PyCharm:5.0.3
為了方便學習,根據關鍵字過濾資料爬取下來,並做分類。
爬取jobbole
import requests from bs4 import BeautifulSoup import re from operator import itemgetter from multiprocessing.dummy import Pool as ThreadPool import time def FindoutMaxPageNumber(): max = 1 cer = re.compile('class=\"page-numbers\" href=\"(.*)\"')#找到一頁上所有的頁號 soup = BeautifulSoup(requests.get("http://python.jobbole.com/all-posts/").text, "html.parser") strlist = cer.findall(soup.prettify()) for link in set(strlist): link = link.strip('/')#去掉連結尾部的'/' cur = int(link[link.rindex('/')+1:], 10)#取得連結最後的數字,並轉化為int型 if cur > max: max = cur return max def myFilter(text): for item in remove: #if re.match(item, text, re.IGNORECASE):#只從字串的開始與正則表示式匹配 if re.search(item, text, re.IGNORECASE):#將字串的所有字串嘗試與正則表示式匹配 return True return False def getPage(pageIndex): url = 'http://python.jobbole.com/all-posts/page/%d' % (pageIndex) sp = BeautifulSoup(requests.get(url).text, "html.parser") for tag in set(sp.find_all("a", class_="archive-title")):#找到一頁上中心區域列出的全部文章的tag if not myFilter(tag.get_text()): dic[tag.get_text()] = tag.get('href') pool = ThreadPool(8) # Sets the pool size dic = dict() remove = ['django', 'flask', 'game', '遊戲', '2\.[a-z0-9A-Z_]'] #getPage(FindoutMaxPageNumber()) #start = time.time() #for i in range(1, FindoutMaxPageNumber()+1): # getPage(i) #print('Normal:', time.time() - start) #start = time.time() pool.map(getPage, range(1, FindoutMaxPageNumber()+1)) pool.close() pool.join() #print('multiprocessing:', time.time() - start) cdi = sorted(dic.items(), key=itemgetter(0), reverse=False) #cdi = sorted(dic.items(), key=lambda d:d[0], reverse=False) for d,x in cdi: print(d+' '+x)
執行結果
10 個 Python IDE 和程式碼編輯器 http://python.jobbole.com/80478/ 10 行 Python 程式碼寫的模糊查詢 http://python.jobbole.com/81775/ 11個並不廣為人知,但值得了解的Python庫 http://python.jobbole.com/81000/ 12306的變態驗證碼算得了什麼?我有Python神器! http://python.jobbole.com/83564/ 12步輕鬆搞定python裝飾器 http://python.jobbole.com/81683/ 13歲Python開發者寫給青少年的Python入門教程 http://python.jobbole.com/80379/ 14個輕量級Python Web框架 http://python.jobbole.com/81134/ 15個最受歡迎的Python開源框架 http://python.jobbole.com/72306/ 2012年Linux Journal讀者選擇獎結果公佈 http://python.jobbole.com/31329/ 2013年2月Web程式語言就業趨勢 http://python.jobbole.com/33825/ 25本免費的Python電子書 http://python.jobbole.com/29281/ 30 行 Python 程式碼搞定 X 演算法 http://python.jobbole.com/74000/ 30個有關Python的小技巧 http://python.jobbole.com/63320/ 3個開源的 Python Shell http://python.jobbole.com/81612/ 500 行 Python 程式碼做一個英文解析器 http://python.jobbole.com/67009/ 50行Python程式碼寫一個語言檢測器 http://python.jobbole.com/54707/ 70 行 Python 程式碼編寫一個遞迴下降解析器 http://python.jobbole.com/83885/ 9本免費的Python程式設計書 http://python.jobbole.com/765/ Dropbox 開源的 Python 直譯器 Pyston 0.4 釋出了 http://python.jobbole.com/82055/ Eric Raymond對於幾大開發語言的評價 http://python.jobbole.com/79421/ Go學習筆記:關於Java、Python、Go程式設計思想的不同 http://python.jobbole.com/44849/ Hadoop中的Python框架的使用指南 http://python.jobbole.com/83855/ IPython 4.0釋出:Jupyter和IPython分離後的首個版本 http://python.jobbole.com/81945/ IPython Notebook 和 Github 是怎樣改變了我的 Python 教學方法 http://python.jobbole.com/50927/ Ian Bicking:跟Python說再見 http://python.jobbole.com/63037/ Iconfinder 如何杜絕盜版,雜湊演算法檢測影象重複 http://python.jobbole.com/65914/ ML/NLP入門教程Python版(第一部分:文字處理) http://python.jobbole.com/81397/ MicroPython:針對微控制器的Python http://python.jobbole.com/81484/ PYTHON 原始碼閱讀 – STRING http://python.jobbole.com/83461/ PYTHON 原始碼閱讀 – 物件 http://python.jobbole.com/83443/ PYTHON 原始碼閱讀 – 型別 http://python.jobbole.com/83441/ Pandas透視表(pivot_table)詳解 http://python.jobbole.com/81212/ Peter Norvig:用 Python 解決數獨問題 http://python.jobbole.com/81621/ Pyston:Dropbox 正開發的開源 Python 直譯器 http://python.jobbole.com/65414/ Python 2013 精彩回顧:新聞、好文和資源 http://python.jobbole.com/59535/ Python 3 正在毀滅 Python http://python.jobbole.com/69811/ Python 3 能振興 Python http://python.jobbole.com/75158/ Python 3.5釋出:新增模組,效能優化,對開發者更友好 http://python.jobbole.com/82227/ Python HOWTOs 官方文件:Socket 程式設計 http://python.jobbole.com/81860/ Python Howto 之 logging 模組 http://python.jobbole.com/82221/ Python IDE:PyCharm中的那些實用功能 http://python.jobbole.com/51498/ Python yield 使用淺析 http://python.jobbole.com/32876/ Python 上下文管理器 http://python.jobbole.com/82289/ Python 不是 C http://python.jobbole.com/81904/ Python 與 Javascript 之比較 http://python.jobbole.com/81257/ Python 中 eval 帶來的潛在風險 http://python.jobbole.com/82770/ Python 中 import 的機制與實現 http://python.jobbole.com/82604/ Python 中的 is 和 id http://python.jobbole.com/49705/ Python 中的 property 屬性 http://python.jobbole.com/81967/ Python 中的類(上) http://python.jobbole.com/82297/ Python 中的類(下) http://python.jobbole.com/82312/ Python 中的類(中) http://python.jobbole.com/82308/ Python 中的貪婪排名演算法 http://python.jobbole.com/83933/ Python 中的程序、執行緒、協程、同步、非同步、回撥 http://python.jobbole.com/81692/ Python 中的閉包 http://python.jobbole.com/82296/ Python 之父在 EuroPython 大會上談論 Python http://python.jobbole.com/81951/ Python 程式碼效能優化技巧 http://python.jobbole.com/24197/ Python 入門到精通(1):Windows 搭建 Python 開發環境 http://python.jobbole.com/82331/ Python 入門到精通(2):基本語法(1) http://python.jobbole.com/82334/ Python 入門到精通(3):VS 2015 搭建開發環境 http://python.jobbole.com/82337/ Python 入門到精通(4):基本語法(2) http://python.jobbole.com/82340/ Python 入門到精通(5):Python運算子 http://python.jobbole.com/82706/ Python 關鍵字 yield 詳解 http://python.jobbole.com/28506/ Python 記憶體管理方式和垃圾回收演算法 http://python.jobbole.com/82446/ Python 函式相關 http://python.jobbole.com/82300/ Python 初學者的最佳學習資源 http://python.jobbole.com/82399/ Python 基於協同過濾的推薦 http://python.jobbole.com/83938/ Python 如何使基於 Java 的 StubHub 受益 http://python.jobbole.com/43976/ Python 安全編碼指南 http://python.jobbole.com/82746/ Python 實用技巧(上) http://python.jobbole.com/50420/ Python 物件(上) http://python.jobbole.com/82280/ Python 物件(下) http://python.jobbole.com/82285/ Python 並行任務技巧 http://python.jobbole.com/81690/ Python 開發者節省時間的 10 個方法 http://python.jobbole.com/81888/ Python 快速教程(基礎篇01):Hello World http://python.jobbole.com/82467/ Python 快速教程(基礎篇02):基礎資料型別 http://python.jobbole.com/82471/ Python 快速教程(基礎篇03):序列 http://python.jobbole.com/82490/ Python 快速教程(基礎篇04):運算 http://python.jobbole.com/82492/ Python 快速教程(基礎篇05): 縮排和選擇 http://python.jobbole.com/82523/ Python 快速教程(基礎篇06): 迴圈 http://python.jobbole.com/82525/ Python 快速教程(基礎篇07): 函式 http://python.jobbole.com/82529/ Python 快速教程(基礎篇08): 面向物件的基本概念 http://python.jobbole.com/82531/ Python 快速教程(基礎篇09): 面向物件的進一步拓展 http://python.jobbole.com/82550/ Python 快速教程(基礎篇10):反過頭來看看 http://python.jobbole.com/82552/ Python 快速教程(標準庫01):正則表示式 (re包) http://python.jobbole.com/82688/ Python 快速教程(標準庫02):時間與日期 (time, datetime包) http://python.jobbole.com/82690/ Python 快速教程(標準庫03):路徑與檔案 (os.path包, glob包) http://python.jobbole.com/82692/ Python 快速教程(標準庫04):檔案管理 (部分os包,shutil包) http://python.jobbole.com/82699/ Python 快速教程(標準庫05):儲存物件 (pickle包,cPickle包) http://python.jobbole.com/82701/ Python 快速教程(標準庫06):子程序 (subprocess包) http://python.jobbole.com/82711/ Python 快速教程(標準庫07):訊號 (signal包,部分os包) http://python.jobbole.com/82713/ Python 快速教程(標準庫08):多執行緒與同步 (threading包) http://python.jobbole.com/82718/ Python 快速教程(標準庫09):當前程序資訊 (os包) http://python.jobbole.com/82720/ Python 快速教程(標準庫10):多程序初步 (multiprocessing包) http://python.jobbole.com/82725/ Python 快速教程(標準庫11):多執行緒與同步 (threading包) http://python.jobbole.com/82733/ Python 快速教程(標準庫12):數學與隨機數 (math包,random包) http://python.jobbole.com/82736/ Python 快速教程(標準庫13):迴圈器 (itertools) http://python.jobbole.com/82740/ Python 快速教程(標準庫14):資料庫 (sqlite3) http://python.jobbole.com/82760/ Python 快速教程(標準庫):學習準備 http://python.jobbole.com/82686/ Python 快速教程(標準庫):走馬觀花 http://python.jobbole.com/82680/ Python 快速教程(深入篇01):特殊方法與多正規化 http://python.jobbole.com/82618/ Python 快速教程(深入篇02):上下文管理器 http://python.jobbole.com/82620/ Python 快速教程(深入篇03):物件的屬性 http://python.jobbole.com/82622/ Python 快速教程(深入篇04):閉包 http://python.jobbole.com/82624/ Python 快速教程(深入篇05): 裝飾器 http://python.jobbole.com/82626/ Python 快速教程(深入篇06): Python的記憶體管理 http://python.jobbole.com/82653/ Python 快速教程(網路01):原始Python伺服器 http://python.jobbole.com/82763/ Python 快速教程(網路02):Python伺服器進化 http://python.jobbole.com/82765/ Python 快速教程(補充篇01): Python的序列的方法 http://python.jobbole.com/82655/ Python 快速教程(補充篇02): Python小技巧 http://python.jobbole.com/82663/ Python 快速教程(補充篇03): Python內建函式清單 http://python.jobbole.com/82665/ Python 快速教程(補充篇04): Python簡史 http://python.jobbole.com/82671/ Python 快速教程(補充篇05):字串格式化 (%操作符) http://python.jobbole.com/82673/ Python 快速教程(補充篇06):Python之道 http://python.jobbole.com/82678/ Python 快速教程(進階篇01): 詞典 http://python.jobbole.com/82554/ Python 快速教程(進階篇02):文字檔案的輸入輸出 http://python.jobbole.com/82555/ Python 快速教程(進階篇03):模組 http://python.jobbole.com/82585/ Python 快速教程(進階篇04):函式的引數對應 http://python.jobbole.com/82588/ Python 快速教程(進階篇05):迴圈設計 http://python.jobbole.com/82590/ Python 快速教程(進階篇06):迴圈物件 http://python.jobbole.com/82592/ Python 快速教程(進階篇07):函式物件 http://python.jobbole.com/82597/ Python 快速教程(進階篇08):異常處理 http://python.jobbole.com/82599/ Python 快速教程(進階篇09):動態型別 http://python.jobbole.com/82616/ Python 快速教程:尾聲 http://python.jobbole.com/83433/ Python 效能分析入門指南 http://python.jobbole.com/74266/ Python 效能快速優化 http://python.jobbole.com/82002/ Python 新手常犯錯誤(第一部分) http://python.jobbole.com/42706/ Python 新手常犯錯誤(第二部分) http://python.jobbole.com/43826/ Python 標準庫 urllib2 的使用細節 http://python.jobbole.com/83696/ Python 格式化字串 http://python.jobbole.com/82292/ Python 原始碼閱讀 —— int http://python.jobbole.com/83464/ Python 原始碼閱讀——dict http://python.jobbole.com/83480/ Python 原始碼閱讀——tuple http://python.jobbole.com/83471/ Python 原始碼閱讀——垃圾回收機制 http://python.jobbole.com/83548/ Python 爬蟲的工具列表 http://python.jobbole.com/82633/ Python 的那些隱藏特性 http://python.jobbole.com/81081/ Python 程式設計師應該知道的 10 個庫 http://python.jobbole.com/52355/ Python 網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘兵器譜 http://python.jobbole.com/81153/ Python 自然語言處理(NLP)工具庫彙總 http://python.jobbole.com/81834/ Python 裝飾器 http://python.jobbole.com/82344/ Python 除錯工具 pudb 的使用指南 http://python.jobbole.com/82638/ Python 迭代器和生成器 http://python.jobbole.com/82320/ Python 面向物件(初級篇) http://python.jobbole.com/82023/ Python下用Scrapy和MongoDB構建爬蟲系統(1) http://python.jobbole.com/81320/ Python下用Scrapy和MongoDB構建爬蟲系統(2) http://python.jobbole.com/81280/ Python中setup.py一些不為人知的技巧 http://python.jobbole.com/80912/ Python中staticmethod和classmethod的差異 http://python.jobbole.com/83584/ Python中yield的解釋 http://python.jobbole.com/83610/ Python中何時使用斷言 http://python.jobbole.com/76285/ Python中使用內層函式的好處 http://python.jobbole.com/81679/ Python中內建的NotImplemented型別 http://python.jobbole.com/80913/ Python中備忘功能和裝飾器 http://python.jobbole.com/81107/ Python中如何使用*args和**kwargs http://python.jobbole.com/83476/ Python中匯入模組或包語句 http://python.jobbole.com/81187/ Python中迴圈語句中的else用法 http://python.jobbole.com/81063/ Python中的method http://python.jobbole.com/53989/ Python中的str與unicode處理方法 http://python.jobbole.com/81244/ Python中的上下文管理器 http://python.jobbole.com/64175/ Python中的函式詳解 http://python.jobbole.com/81646/ Python中的併發程式設計 http://python.jobbole.com/64560/ Python中的生產者消費者問題 http://python.jobbole.com/52412/ Python中的類和物件(中級) http://python.jobbole.com/81108/ Python中的類和物件(二):描述符 http://python.jobbole.com/81211/ Python中的高階資料結構 http://python.jobbole.com/65218/ Python中的預設引數 http://python.jobbole.com/81105/ Python中的預設引數值 http://python.jobbole.com/40088/ Python之父從Google離職,加入Dropbox http://python.jobbole.com/31146/ Python之父:為什麼Python陣列下標從0開始 http://python.jobbole.com/58018/ Python也可以很美 http://python.jobbole.com/20351/ Python程式碼微優化之加快查詢 http://python.jobbole.com/81210/ Python函式引數預設值的陷阱和原理深究 http://python.jobbole.com/81203/ Python函數語言程式設計指南(1):概述 http://python.jobbole.com/82163/ Python函數語言程式設計指南(2):函式 http://python.jobbole.com/82167/ Python函數語言程式設計指南(3):迭代器 http://python.jobbole.com/82171/ Python函數語言程式設計指南(4):生成器 http://python.jobbole.com/82178/ Python十分鐘入門 http://python.jobbole.com/23425/ Python後端相關技術/工具棧 http://python.jobbole.com/83486/ Python名稱空間和作用域窺探 http://python.jobbole.com/81367/ Python和資料科學的起步指南 http://python.jobbole.com/80853/ Python基礎-元組小結 http://python.jobbole.com/83863/ Python基礎-列表及列表解析小結 http://python.jobbole.com/83866/ Python基礎技術問題總結 http://python.jobbole.com/81233/ Python多程序處理:如何將大量資料放入有限記憶體 http://python.jobbole.com/80753/ Python多程序程式設計 http://python.jobbole.com/82045/ Python奇技淫巧 http://python.jobbole.com/82750/ Python字元編碼詳解 http://python.jobbole.com/82107/ Python官方文件:Descriptor 指南 http://python.jobbole.com/83562/ Python實現ftp常用操作[ftplib] http://python.jobbole.com/83446/ Python實現控制檯中的進度條 http://python.jobbole.com/83692/ Python實踐:提取文章摘要 http://python.jobbole.com/83839/ Python實踐:模組自動過載 http://python.jobbole.com/83844/ Python併發與並行的新手指南 http://python.jobbole.com/81260/ Python併發之threading模組 http://python.jobbole.com/80966/ Python開發指南:最佳實踐精選 http://python.jobbole.com/82752/ Python開發者在轉到Go語言之前需要了解什麼? http://python.jobbole.com/42908/ Python迴圈語句中的索引變數作用域 http://python.jobbole.com/81274/ Python效能優化的20條建議 http://python.jobbole.com/81956/ Python技巧和陷阱 http://python.jobbole.com/81486/ Python招聘需求與技能體系 http://python.jobbole.com/83638/ Python指南(1.1):挑選直譯器 http://python.jobbole.com/81064/ Python操作xml檔案(xml.etree.ElementTree) http://python.jobbole.com/83593/ Python資料分析入門 http://python.jobbole.com/81133/ Python資料結構——連結串列的實現 http://python.jobbole.com/83953/ Python檔案關閉機制詳解 http://python.jobbole.com/81477/ Python檔案管理 http://python.jobbole.com/83764/ Python模組學習 :pickle, cPickle 物件序列化/反序列化 http://python.jobbole.com/81509/ Python模組學習: re 正則表示式 http://python.jobbole.com/81558/ Python模組學習:atexit http://python.jobbole.com/81473/ Python模組學習:copy 物件拷貝 http://python.jobbole.com/81504/ Python模組學習:datetime http://python.jobbole.com/81482/ Python模組學習:filecmp 檔案比較 http://python.jobbole.com/81480/ Python模組學習:fileinput http://python.jobbole.com/81469/ Python模組學習:glob 檔案路徑查詢 http://python.jobbole.com/81552/ Python模組學習:hashlib hash加密 http://python.jobbole.com/81556/ Python模組學習:httplib HTTP協議客戶端實現 http://python.jobbole.com/81542/ Python模組學習:logging 日誌記錄 http://python.jobbole.com/81521/ Python模組學習:marshal 物件的序列化 http://python.jobbole.com/81506/ Python模組學習:random 隨機數生成 http://python.jobbole.com/81560/ Python模組學習:struct 資料格式轉換 http://python.jobbole.com/81554/ Python模組學習:subprocess 建立子程序 http://python.jobbole.com/81517/ Python模組學習:tempfile 臨時檔案(夾)操作 http://python.jobbole.com/81515/ Python模組學習:thread 多執行緒處理 http://python.jobbole.com/81544/ Python模組學習:threading 多執行緒控制和處理 http://python.jobbole.com/81546/ Python模組學習:time 日期時間處理 http://python.jobbole.com/81550/ Python模組學習:urllib http://python.jobbole.com/81478/ Python模組學習:zipfile zip檔案操作 http://python.jobbole.com/81519/ Python模組學習:zlib 資料壓縮 http://python.jobbole.com/81513/ Python模板-Jinja2 http://python.jobbole.com/83560/ Python模板-Mako http://python.jobbole.com/83635/ Python正則表示式指南 http://python.jobbole.com/75188/ Python正則表示式的七個使用範例 http://python.jobbole.com/74844/ Python原始碼閱讀-記憶體管理機制(一) http://python.jobbole.com/83533/ Python原始碼閱讀-記憶體管理機制(二) http://python.jobbole.com/83535/ Python原始碼閱讀-閉包的實現 http://python.jobbole.com/83545/ Python原始碼閱讀——list http://python.jobbole.com/83469/ Python熱點回顧第一期 http://python.jobbole.com/53346/ Python爬蟲入門(1):綜述 http://python.jobbole.com/81332/ Python爬蟲入門(2):爬蟲基礎瞭解 http://python.jobbole.com/81334/ Python爬蟲入門(3):Urllib庫的基本使用 http://python.jobbole.com/81336/ Python爬蟲入門(4):Urllib庫的高階用法 http://python.jobbole.com/81339/ Python爬蟲入門(5):URLError異常處理 http://python.jobbole.com/81341/ Python爬蟲入門(6):Cookie的使用 http://python.jobbole.com/81344/ Python爬蟲入門(7):正則表示式 http://python.jobbole.com/81346/ Python爬蟲入門(8):Beautiful Soup的用法 http://python.jobbole.com/81349/ Python爬蟲實戰(1):爬取糗事百科段子 http://python.jobbole.com/81351/ Python爬蟲實戰(2):百度貼吧帖子 http://python.jobbole.com/81353/ Python爬蟲實戰(3):計算大學本學期績點 http://python.jobbole.com/81357/ Python爬蟲實戰(4):抓取淘寶MM照片 http://python.jobbole.com/81359/ Python爬蟲實戰(5):模擬登入淘寶並獲取所有訂單 http://python.jobbole.com/81361/ Python狀況:為什麼PyPy是Python的未來? http://python.jobbole.com/39757/ Python的GIL是什麼鬼,多執行緒效能究竟如何 http://python.jobbole.com/81822/ Python的defaultdict模組和namedtuple模組 http://python.jobbole.com/80847/ Python的中文編碼問題 http://python.jobbole.com/80831/ Python的計數方式發展史 http://python.jobbole.com/83731/ Python的執行時方法補丁技術 http://python.jobbole.com/82357/ Python程式設計師必知必會的開發者工具 http://python.jobbole.com/58226/ Python程式設計師的10個常見錯誤 http://python.jobbole.com/68256/ Python程式設計師的常見錯誤 http://python.jobbole.com/69834/ Python程式設計師鮮為人知但你應該知道的16個問題 http://python.jobbole.com/82534/ Python程式的效能分析指南 http://python.jobbole.com/47619/ Python演算法:Counting 101 http://python.jobbole.com/81450/ Python演算法:分治法 http://python.jobbole.com/81461/ Python演算法:動態規劃 http://python.jobbole.com/81465/ Python演算法:圖 http://python.jobbole.com/81467/ Python演算法:基礎知識 http://python.jobbole.com/81445/ Python演算法:推導、遞迴和規約 http://python.jobbole.com/81453/ Python演算法:貪心策略 http://python.jobbole.com/81463/ Python演算法:遍歷 http://python.jobbole.com/81457/ Python執行緒指南 http://python.jobbole.com/82105/ Python編碼和Unicode http://python.jobbole.com/50345/ Python程式設計中使用Pillow來處理影象的基礎教程 http://python.jobbole.com/83685/ Python程式設計中常用的12種基礎知識總結 http://python.jobbole.com/48541/ Python程式設計中的反模式 http://python.jobbole.com/74252/ Python程式設計中需要注意的一些事 http://python.jobbole.com/19835/ Python程式語言的發展簡史 http://python.jobbole.com/77656/ Python自然語言處理 http://python.jobbole.com/80937/ Python自省(反射)指南 http://python.jobbole.com/82110/ Python裝飾器與面向切面程式設計 http://python.jobbole.com/82112/ Python裝飾器例項:呼叫引數合法性驗證 http://python.jobbole.com/82114/ Python解析xml[xml.dom] http://python.jobbole.com/83453/ Python解析xml大檔案(sax) http://python.jobbole.com/83713/ Python直譯器簡介(1):函式物件 http://python.jobbole.com/55327/ Python直譯器簡介(2):程式碼物件 http://python.jobbole.com/56300/ Python直譯器簡介(3):理解位元組碼 http://python.jobbole.com/56761/ Python直譯器簡介(4):動態語言 http://python.jobbole.com/57381/ Python直譯器簡介(5):深入主迴圈 http://python.jobbole.com/81660/ Python語言下的機器學習庫 http://python.jobbole.com/81135/ Python讀取修改ini配置檔案[ConfigParser] http://python.jobbole.com/83454/ Python超級程式設計師使用的開發工具 http://python.jobbole.com/59000/ Python趣文:Import Girlfriend http://python.jobbole.com/56878/ Python進階之“屬性(property)”詳解 http://python.jobbole.com/80955/ Python迭代器和生成器 http://python.jobbole.com/81881/ Python通用資料格式轉換工具 http://python.jobbole.com/83447/ Python通用郵件傳送(smtplib) http://python.jobbole.com/83719/ Python驗證碼識別處理例項 http://python.jobbole.com/83945/ Python高階特性(1):Iterators、Generators和itertools http://python.jobbole.com/66097/ Python高階特性(2):Closures、Decorators和functools http://python.jobbole.com/66895/ Python高階特性(3): Classes和Metaclasses http://python.jobbole.com/67748/ Python高階程式設計技巧 http://python.jobbole.com/61171/ Python,變調,電腦鋼琴 http://python.jobbole.com/72745/ Scrapy 輕鬆定製網路爬蟲 http://python.jobbole.com/73115/ Slashdot對Python之父的採訪 http://python.jobbole.com/47081/ Vim 7.4 計劃已公佈,具體釋出時間待定 http://python.jobbole.com/39429/ Y分鐘學會Python http://python.jobbole.com/80995/ Zed Shaw:一位老程式設計師的建議 http://python.jobbole.com/943/ [摘要]Python 最佳實踐指南 http://python.jobbole.com/83552/ fabric實現遠端操作和部署 http://python.jobbole.com/83716/ python greenlet背景介紹與實現機制 http://python.jobbole.com/77240/ python 執行緒之 Condition http://python.jobbole.com/82742/ python 面向物件(進階篇) http://python.jobbole.com/83747/ python:利用asyncio進行快速抓取 http://python.jobbole.com/63897/ python模組學習:Cookie http://python.jobbole.com/81492/ python模組學習:anydbm, shelve http://python.jobbole.com/81471/ python模組學習:smtplib 郵件傳送 http://python.jobbole.com/81540/ python生成漢字圖片字型檔 http://python.jobbole.com/81985/ “Hello world!” 混亂程式碼比賽第一名作品解析 http://python.jobbole.com/79737/ 一個 11 行 Python 程式碼實現的神經網路 http://python.jobbole.com/82758/ 一些簡單的Python測試題 http://python.jobbole.com/83641/ 一次Python內部的探險 http://python.jobbole.com/81062/ 一篇文章讓你徹底搞清楚Python中self的含義 http://python.jobbole.com/81921/ 一行 Python 程式碼搞定一棵樹 http://python.jobbole.com/18159/ 一行 Python 實現並行化 — 日常多執行緒操作的新思路 http://python.jobbole.com/81757/ 一行程式碼完成並行任務 http://python.jobbole.com/58700/ 一起寫一個 Web 伺服器(1) http://python.jobbole.com/81524/ 一起寫一個 Web 伺服器(2) http://python.jobbole.com/81523/ 一起寫一個Web伺服器(3) http://python.jobbole.com/81820/ 與 Python 無縫整合:基本特殊方法 1 http://python.jobbole.com/81657/ 為什麼 BIND 10 要用 C++ 和 Python 來寫 http://python.jobbole.com/34289/ 為什麼Python中沒有Switch/Case語句? http://python.jobbole.com/82008/ 為什麼Python對程式設計師重要? http://python.jobbole.com/13153/ 為什麼“except:pass”是一個不好的Python程式設計習慣? http://python.jobbole.com/59854/ 為什麼對陣列排序讓Python迴圈執行更快 http://python.jobbole.com/73819/ 為什麼資料科學家們選擇了Python語言? http://python.jobbole.com/81039/ 舉例講解 Python 中的死鎖、可重入鎖和互斥鎖 http://python.jobbole.com/82723/ 也談如何閱讀程式原始碼 http://python.jobbole.com/81326/ 人們對Python在企業級開發中的10大誤解 http://python.jobbole.com/80936/ 從Theano到Lasagne:基於Python的深度學習的框架和庫 http://python.jobbole.com/81896/ 從頭開始實現神經網路:入門 http://python.jobbole.com/82208/ 從豆瓣電影批量獲取看過這部電影的使用者列表 http://python.jobbole.com/82383/ 以 Python 為例項,介紹貝葉斯理論 http://python.jobbole.com/81720/ 作為一個python開發者需要知道的關於伺服器的知識 http://python.jobbole.com/82009/ 你所寫過的最好的Python指令碼是什麼? http://python.jobbole.com/75244/ 你最喜愛的程式語言不夠好 http://python.jobbole.com/16231/ 使用 Python 生成基於馬爾可夫鏈的偽隨機文字 http://python.jobbole.com/83908/ 使用 Python 獲取 Linux 系統資訊 http://python.jobbole.com/44644/ 使用 Python 進行穩定可靠的檔案操作 http://python.jobbole.com/44442/ 使用IronPython整合Python和.NET http://python.jobbole.com/80982/ 使用PyQt來編寫第一個Python GUI程式 http://python.jobbole.com/81276/ 使用Python寫一個小小的專案監控 http://python.jobbole.com/80897/ 使用Python和OpenCV在視訊中實時監測條形碼 http://python.jobbole.com/81130/ 使用Python開發Chrome外掛 http://python.jobbole.com/81409/ 使用Python的Socket模組構建一個UDP掃描工具 http://python.jobbole.com/81641/ 使用Python的Supervisor來管理程序 http://python.jobbole.com/83799/ 使用Python指令碼在Linux下實現部分Bash Shell的教程 http://python.jobbole.com/83924/ 使用Python進行併發程式設計 http://python.jobbole.com/81255/ 使用Vagrant搭建跨平臺的Python開發環境 http://python.jobbole.com/81861/ 使用gettext模組翻譯Python3原始碼以支援國際化 http://python.jobbole.com/80925/ 使用python/casperjs編寫終極爬蟲-客戶端App的抓取 http://python.jobbole.com/81995/ 使用python掃描本地音樂並下載歌詞 http://python.jobbole.com/83680/ 使用python爬蟲抓站的一些技巧總結:進階篇 http://python.jobbole.com/82000/ 使用馬爾可夫模型自動生成文章 http://python.jobbole.com/81966/ 值得關注的 10 個 Python 英文部落格 http://python.jobbole.com/81730/ 做一個位元組碼追蹤器,從內部理解 Python 的執行過程 http://python.jobbole.com/81617/ 像老大一樣優化Python http://python.jobbole.com/54057/ 像老大一樣除錯Python http://python.jobbole.com/52171/ 八大排序演算法的 Python 實現 http://python.jobbole.com/82270/ 關於Python 3的一些想法 http://python.jobbole.com/54846/ 關於Python日誌系統的幾點建議 http://python.jobbole.com/81132/ 關於python中的setup.py http://python.jobbole.com/82077/ 關於你不想知道的所有Python3 unicode特性 http://python.jobbole.com/73974/ 再次介紹Into包:整潔地資料遷移 http://python.jobbole.com/81136/ 再談PHP、Python與Ruby http://python.jobbole.com/43792/ 寫給Python初學者的設計模式入門 http://python.jobbole.com/62023/ 寫給已有程式設計經驗的 Python 初學者的總結 http://python.jobbole.com/79197/ 函數語言程式設計實戰教程(Python版) http://python.jobbole.com/81075/ 分析 Python 指令碼 http://python.jobbole.com/82004/ 建立成功的Python專案 http://python.jobbole.com/12649/ 初學者必知的Python中優雅的用法 http://python.jobbole.com/81393/ 初步理解Python程序的訊號通訊 http://python.jobbole.com/83958/ 利用 Python 練習資料探勘 http://python.jobbole.com/83563/ 利用Python中的mock庫對Python程式碼進行模擬測試 http://python.jobbole.com/83922/ 利用Python和OpenCV將URL直接轉換成OpenCV格式 http://python.jobbole.com/81131/ 利用圖片指紋檢測高相似度圖片 http://python.jobbole.com/81277/ 加速你的Python程式碼 http://python.jobbole.com/36701/ 動態規劃用於解決重疊子問題的示例(Python版) http://python.jobbole.com/67588/ 單身數學家如何通過資料探勘找真愛 http://python.jobbole.com/57618/ 另一個Lambda表示式教程 http://python.jobbole.com/80954/ 可愛的 Python : Python中函數語言程式設計,第一部分 http://python.jobbole.com/35028/ 可愛的 Python : Python中函數語言程式設計,第二部分 http://python.jobbole.com/35042/ 可愛的 Python : Python中的函數語言程式設計,第三部分 http://python.jobbole.com/35045/ 各種 Python 實現的簡單介紹與比較 http://python.jobbole.com/82703/ 同一個 bug 不要修復兩次 http://python.jobbole.com/64440/ 圖解 Python 深拷貝和淺拷貝 http://python.jobbole.com/82294/ 在 Python 中測試競爭條件 http://python.jobbole.com/81275/ 在Linux中使用matplotlib進行科學畫圖 http://python.jobbole.com/81182/ 在Python 3中實現型別檢查器 http://python.jobbole.com/81423/ 在Python中使用線性迴歸預測資料 http://python.jobbole.com/81215/ 在Python中處理分數 http://python.jobbole.com/81213/ 在Python中對MySQL中的資料進行視覺化 http://python.jobbole.com/81110/ 在Python中正確使用Unicode http://python.jobbole.com/80939/ 在Raspberry Pi 2/B+上安裝Python和OpenCV http://python.jobbole.com/81106/ 基於 Python 和 Scikit-Learn 的機器學習介紹 http://python.jobbole.com/81721/ 基於Python的測試驅動開發實戰 http://python.jobbole.com/81305/ 基於Python的行為驅動開發實戰 http://python.jobbole.com/81303/ 複雜度為 O(1) 的「最不常用」快取演算法的 Python 實現 http://python.jobbole.com/82424/ 大資料全棧式開發語言 – Python http://python.jobbole.com/81878/ 好奇號火星車的一些計算機軟硬體資訊 http://python.jobbole.com/25037/ 如何使用 50 行 Python 程式碼製作一個計算器 http://python.jobbole.com/83889/ 如何使用 urllib 包獲取網路資源 http://python.jobbole.com/81398/ 如何使用Python編寫一個Lisp直譯器 http://python.jobbole.com/47659/ 如何入門 Python 爬蟲? http://python.jobbole.com/81296/ 如何建立和使用Python CGI指令碼 http://python.jobbole.com/83788/ 如何在Python中使用static、class、abstract方法(權威指南) http://python.jobbole.com/81595/ 如何在Python中實現這五類強大的概率分佈 http://python.jobbole.com/81321/ 如何成為Python高手 http://python.jobbole.com/955/ 如何教新人程式設計:授人以漁(可他要是釣到河豚會死的) http://python.jobbole.com/58281/ 如何用 Python 爬取需要登入的網站? http://python.jobbole.com/83588/ 如何用 Python 追蹤 NBA 球員的移動軌跡 http://python.jobbole.com/82085/ 如何用Python開發一個簡單的Webkit瀏覽器 http://python.jobbole.com/82715/ 如何用程式解圖片迷宮? http://python.jobbole.com/62895/ 如何獲得NumPy的最佳效能 http://python.jobbole.com/81310/ 如果一切需要重學,2014年應該學哪些技術? http://python.jobbole.com/61248/ 學習Python程式設計的11個資源 http://python.jobbole.com/71064/ 孩子們為什麼要學Python程式設計 http://python.jobbole.com/17295/ 定位Python built-in函式的原始碼實現 http://python.jobbole.com/82237/ 對比Ruby和Python的垃圾回收(1) http://python.jobbole.com/60900/ 對比Ruby和Python的垃圾回收(2):代式垃圾回收機制 http://python.jobbole.com/73300/ 將Sublime Text 3設定為Python全棧開發環境 http://python.jobbole.com/81312/ 小 200 行 Python 程式碼做了一個換臉程式 http://python.jobbole.com/82546/ 常高偉:如何學習一門新的語言 http://python.jobbole.com/1322/ 形象地解釋 Python 中的列表解析 http://python.jobbole.com/83884/ 必看的 Python 視訊 http://python.jobbole.com/82605/ 快速Python效能優化要點 http://python.jobbole.com/83628/ 快速入門:十分鐘學會Python http://python.jobbole.com/43922/ 怎樣寫一個拼寫檢查器(Python 版) http://python.jobbole.com/81675/ 想理解Python的列表解析嗎?Think in Excel or SQL. http://python.jobbole.com/82087/ 成人網站效能提升20倍之經驗談 http://python.jobbole.com/39323/ 我不能勝任開發開源軟體 http://python.jobbole.com/16387/ 我希望初學Python時就能知道的一些用法 http://python.jobbole.com/81020/ 我希望早點就知道的10個Python用法 http://python.jobbole.com/80865/ 我常用的 Python 除錯工具 http://python.jobbole.com/51062/ 我常用的Python除錯工具(二) http://python.jobbole.com/52090/ 我是如何在12周內成為一名程式設計師的 http://python.jobbole.com/8464/ 我是如何在8周內自學程式設計的 http://python.jobbole.com/25858/ 我理解的 Python 最佳實踐 http://python.jobbole.com/82939/ 探索 Python(1): Python 的內建數值型別 http://python.jobbole.com/82498/ 探索 Python(2): 探索 Python 型別的層次結構 —— 瞭解物件和容器 http://python.jobbole.com/82502/ 探索 Python(3): 探索 Python 型別的層次結構 —— 使用字串 http://python.jobbole.com/82505/ 探索 Python(4): 探索 Python 型別的層次結構 —— 使用列表 http://python.jobbole.com/82510/ 探索 Python(5): 用 Python 程式設計 —— 控制流 http://python.jobbole.com/82513/ 探索 Python(6): 用 Python 程式設計 —— 興趣 http://python.jobbole.com/82517/ 提升 Python 程式效能的 6 個技巧 http://python.jobbole.com/81035/ 提高你的Python能力:理解單元測試 http://python.jobbole.com/55180/ 教你用Python建立瀑布圖 http://python.jobbole.com/81259/ 資料專家必知必會的 7 款 Python 工具 http://python.jobbole.com/81746/ 資料科學的完整學習路徑(Python版) http://python.jobbole.com/80981/ 資料結構&演算法實踐—Bogo排序 http://python.jobbole.com/83709/ 資料結構&演算法實踐—氣泡排序及改進 http://python.jobbole.com/83510/ 資料結構&演算法實踐—地精排序及改進 http://python.jobbole.com/83728/ 資料結構&演算法實踐—堆排序 http://python.jobbole.com/83722/ 資料結構&演算法實踐—奇偶排序 http://python.jobbole.com/83540/ 資料結構&演算法實踐—插入排序 http://python.jobbole.com/83726/ 資料結構&演算法實踐—梳子排序 http://python.jobbole.com/83530/ 資料結構&演算法實踐—選擇排序 http://python.jobbole.com/83711/ 資料結構&演算法實踐—雞尾酒排序 http://python.jobbole.com/83504/ 文字向量空間模型 http://python.jobbole.com/81311/ 無需作業系統直接執行 Python 程式碼 http://python.jobbole.com/81420/ 既然PyPy的速度是CPython的6.3倍,難道我不應該放棄CPython轉用PyPy? http://python.jobbole.com/49341/ 最好的Python機器學習庫 http://python.jobbole.com/83605/ 有史以來最出彩的程式語言名字 http://python.jobbole.com/42999/ 機器學習之用Python從零實現貝葉斯分類器 http://python.jobbole.com/81019/ 機器學習演算法原理之人工神經元和單層神經網路 http://python.jobbole.com/81278/ 構建健壯 Python 包的 5 個簡單規則 http://python.jobbole.com/81579/ 檢測Python程式執行效率及記憶體和CPU使用的7種方法 http://python.jobbole.com/80754/ 每個 Python 程式設計師都要知道的日誌實踐 http://python.jobbole.com/81666/ 每個程式設計師都應該學習使用Python或Ruby http://python.jobbole.com/1141/ 淺談 Python 的 with 語句 http://python.jobbole.com/82494/ 深入 Python 列表的內部實現 http://python.jobbole.com/82549/ 深入 Python 整數物件的實現 http://python.jobbole.com/82632/ 深入瞭解 Python 字串物件的實現 http://python.jobbole.com/83732/ 深入分析 Python 的垃圾回收機制 http://python.jobbole.com/82061/ 深入理解Python中的生成器 http://python.jobbole.com/81911/ 深入理解非同步Web伺服器 Tornado http://python.jobbole.com/83826/ 深刻理解Python中的元類(metaclass) http://python.jobbole.com/21351/ 漫畫:為什麼 C 被踢出窗外? http://python.jobbole.com/56762/ 潛在的Python陷阱 http://python.jobbole.com/81564/ 熱門 Python 應用 The Fuck 是如何工作的 http://python.jobbole.com/82528/ 愛上 SQLAlchemy 的 10 個理由 http://python.jobbole.com/82453/ 理解 Python 中的執行緒 http://python.jobbole.com/52060/ 理解 Python 位元組碼 http://python.jobbole.com/80815/ 理解Python的迭代器 http://python.jobbole.com/81916/ 理解python中的裝飾器 http://python.jobbole.com/83625/ 用 GDB 排查 Python 程式故障 http://python.jobbole.com/82232/ 用 Opencv 和 Python 對汪星人做模糊檢測 http://python.jobbole.com/83702/ 用 Python 從零開始寫一個簡單的直譯器(1) http://python.jobbole.com/82206/ 用 Python 從零開始寫一個簡單的直譯器(2) http://python.jobbole.com/82423/ 用 Python 從零開始寫一個簡單的直譯器(3) http://python.jobbole.com/82445/ 用 Python 從零開始寫一個簡單的直譯器(4) http://python.jobbole.com/82455/ 用 Python 做了一個豆瓣使用者讀書短評下載工具 http://python.jobbole.com/82374/ 用 Python 做單詞拼寫檢查 http://python.jobbole.com/83804/ 用 Python 建立 NBA 得分圖表 http://python.jobbole.com/81968/ 用 Python 製作 Powerpoint 簡報 http://python.jobbole.com/82394/ 用 Python 和 OpenCV 檢測和跟蹤運動物件 http://python.jobbole.com/81593/ 用 Python 和 OpenCV 檢測圖片上的條形碼 http://python.jobbole.com/80448/ 用 Python 將文字轉為圖片 http://python.jobbole.com/81983/ 用 Python 繪製音樂圖譜 http://python.jobbole.com/81186/ 用 Python 編寫一個國際象棋 AI 程式 http://python.jobbole.com/80007/ 用 Python 指令碼實現對 Linux 伺服器的監控 http://python.jobbole.com/54563/ 用 RAKE 和 Maui 做 NLP 關鍵詞提取的教程 http://python.jobbole.com/82230/ 用 kNN 演算法預測豆瓣電影使用者的性別 http://python.jobbole.com/82379/ 用AIML開發人工智慧聊天機器人 http://python.jobbole.com/82007/ 用K-均值聚類來探索顧客細分 http://python.jobbole.com/83498/ 用Pandas完成Excel中常見的任務 http://python.jobbole.com/80870/ 用Pandas完成Excel中常見的任務(2) http://python.jobbole.com/80972/ 用Python寫一個FUSE(使用者態檔案系統)檔案系統 http://python.jobbole.com/51268/ 用Python寫一個簡單的Web框架 http://python.jobbole.com/83817/ 用Python和MoviePy將資料動態視覺化 http://python.jobbole.com/81185/ 用Python和OpenCV建立一個圖片搜尋引擎的完整指南 http://python.jobbole.com/80860/ 用Python在地圖上模擬疫情擴散 http://python.jobbole.com/80938/ 用Python處理視訊 http://python.jobbole.com/58257/ 用Python實現K-近鄰演算法 http://python.jobbole.com/83794/ 用Python挖掘Linux系統 http://python.jobbole.com/80869/ 用Python的 __slots__ 節省9G記憶體 http://python.jobbole.com/52420/ 用python爬蟲抓站的一些技巧總結 http://python.jobbole.com/81997/ 用主題模型視覺化分析911新聞(Python版) http://python.jobbole.com/81279/ 用樹莓派 + Python + OpenCV 實現家庭監控和移動目標探測(下) http://python.jobbole.com/81645/ 用語音寫程式碼比鍵盤更快 http://python.jobbole.com/45781/ 由使用者輸入系列對稱的點的解決方案 http://python.jobbole.com/82248/ 白話 Tornado 原始碼(2):待請求階段 http://python.jobbole.com/82145/ 白話 Tornado 原始碼(3):請求來了 http://python.jobbole.com/82165/ 白話 Tornado 原始碼(4):褪去模板外衣的前戲 http://python.jobbole.com/82127/ 白話 Tornado 原始碼(5):褪去模板的外衣 http://python.jobbole.com/82176/ 白話tornado原始碼(1):一個指令碼引發的血案 http://python.jobbole.com/82095/ 移植到 Python 3 http://python.jobbole.com/83848/ 給Python初學者的一些技巧 http://python.jobbole.com/32748/ 程式語言擬人化:Java、C++、Python、Ruby、PHP、C#、JS http://python.jobbole.com/63311/ 網路爬蟲剖析,以Pyspider為例 http://python.jobbole.com/81109/ 自己動手寫貝葉斯分類器給圖書分類 http://python.jobbole.com/81764/ 行為驅動開發在 Python 開發測試中的應用 http://python.jobbole.com/82580/ 解密 Python 的描述符(descriptor) http://python.jobbole.com/81899/ 讓 Python 更快地進行驗證 http://python.jobbole.com/81833/ 讓Python程式碼更快執行的 5 種方法 http://python.jobbole.com/81252/ 設定 Sublime Text 的 Python 開發環境 http://python.jobbole.com/40660/ 詳解Python中的下劃線 http://python.jobbole.com/81129/ 詳解在 Python 中解析並修改XML內容的方法 http://python.jobbole.com/82775/ 說說Python中的幾個內建函式和表推導 http://python.jobbole.com/81905/ 誰說不能用Python寫出讓人迷惑的程式碼? http://python.jobbole.com/1414/ 超酷演算法:基數估計 http://python.jobbole.com/78255/ 趣文:Python程式設計師的進化史 http://python.jobbole.com/15005/ 趣文:如果程式語言是女人(新編版) http://python.jobbole.com/44736/ 通過pymongo測試MongoDB的高可用性 http://python.jobbole.com/81638/ 通過示例學習Python列表推導 http://python.jobbole.com/80823/ 重寫Reddit http://python.jobbole.com/79097/ 陳皓:程式碼執行的效率 http://python.jobbole.com/23773/ 陳皓:程式設計師技術練級攻略 http://python.jobbole.com/1101/ 零基礎學習PDB命令列除錯Python程式碼 http://python.jobbole.com/81184/ 零基礎自學用Python 3開發網路爬蟲(一) http://python.jobbole.com/77821/ 零基礎自學用Python 3開發網路爬蟲(三): 偽裝瀏覽器君 http://python.jobbole.com/77830/ 零基礎自學用Python 3開發網路爬蟲(二): 用到的資料結構簡介以及爬蟲Ver1.0 alpha http://python.jobbole.com/77825/ 零基礎自學用Python 3開發網路爬蟲(五): 使用第三方模組快速抓取與解析 http://python.jobbole.com/81102/ 零基礎自學用Python 3開發網路爬蟲(四): 登入 http://python.jobbole.com/77878/ 需求驅動學習之Python(如何編寫Python指令碼替換檔案中的多行字元?) http://python.jobbole.com/81417/ 非典型性吐槽:親愛的Python,你為何如此醜陋 http://python.jobbole.com/18629/ 高效能的Python擴充套件(1) http://python.jobbole.com/78859/ 高效能的Python擴充套件(2) http://python.jobbole.com/79331/ 高效能的Python擴充套件(3) http://python.jobbole.com/80005/ 高階正則表示式技術(Python版) http://python.jobbole.com/65605/
爬取dataunion
執行結果import requests from bs4 import BeautifulSoup import re from operator import itemgetter from multiprocessing.dummy import Pool as ThreadPool def FindoutMaxPageNumber(): soup = BeautifulSoup(requests.get("http://dataunion.org/").text, "html.parser") link = soup.find("a", {"title": ["最末頁"]})['href'] return int(link[link.rindex('/')+1:], 10) def myFilter(text): for item in add: #if re.match(item, text, re.IGNORECASE):#只從字串的開始與正則表示式匹配 if re.search(item, text, re.IGNORECASE):#將字串的所有字串嘗試與正則表示式匹配 return True return False def getPage(pageIndex): url = 'http://dataunion.org/page/%d' % (pageIndex) sp = BeautifulSoup(requests.get(url).text, "html.parser") for tag in set(sp.find_all("h2", class_="mecctitle")): if myFilter(tag.get_text()): cer = re.compile('href=\"(.*)\"') strlist = cer.findall(tag.prettify()) dic[tag.get_text().strip()] = strlist[0] pool = ThreadPool(8) # Sets the pool size dic = dict() add = ['cnn','deep','theano', '影象', '卷積', '機器學習', '深度學習','特徵','提取','識別','caffe'] pool.map(getPage, range(1, FindoutMaxPageNumber()+1)) pool.close() pool.join() cdi = sorted(dic.items(), key=itemgetter(0), reverse=False) #cdi = sorted(dic.items(), key=lambda d:d[0], reverse=False) for d,x in cdi: print(d+' '+x)
2015年科技預測:深度學習和機器智慧將席捲世界 http://dataunion.org/5918.html
2016:深度學習的未來 http://dataunion.org/21069.html
20個頂尖的 Python 語言機器學習開源專案 http://dataunion.org/19321.html
33頁PPT:關於機器學習的若干理論問題 http://dataunion.org/2011.html
46頁PPT | 方法論:如何通過機器學習技術來保護隱私 http://dataunion.org/2052.html
47頁PPT:基於大資料和深度學習的短文字互動 http://dataunion.org/2267.html
50個數據科學和機器學習速查表 http://dataunion.org/20083.html
62頁PPT:隨機數值代數: 回顧及在機器學習中的若干進展 http://dataunion.org/2376.html
8步從Python白板到專家,從基礎到深度學習 http://dataunion.org/15057.html
Adam:大規模分散式機器學習框架 http://dataunion.org/19871.html
Amazon Web開展機器學習服務,使用者可在雲端學習預測模型 http://dataunion.org/15096.html
Azure機器學習平臺的擴充套件和R程式設計 http://dataunion.org/11085.html
CMU邢波教授:機器學習與醫療大資料,及大規模機器學習系統的開發 http://dataunion.org/21108.html
CNN卷積神經網路應用於人臉識別(詳細流程+程式碼實現) http://dataunion.org/17618.html
Caffe 深度學習框架上手教程 http://dataunion.org/9188.html
Convolution Neural Network (CNN) 原理與實現 http://dataunion.org/12090.html
DMLC深盟分散式深度機器學習開源平臺解析 http://dataunion.org/18124.html
Deep Learning and Shallow Learning http://dataunion.org/12896.html
Deep Learning 模型是如何學習和表示詞、短語、句子和篇章的? http://dataunion.org/19554.html
DeepFace——Facebook的人臉識別 http://dataunion.org/20010.html
DeepID人臉識別演算法之三代 http://dataunion.org/17149.html
DeepMind背後的人工智慧:深度學習原理初探 http://dataunion.org/1548.html
EasyPR:一個開源的中文車牌識別系統 http://dataunion.org/13512.html
Facebook 開源的深度學習模組介紹 http://dataunion.org/8375.html
Facebook人工智慧負責人Yann LeCun談深度學習的侷限性 http://dataunion.org/19897.html
Geoffrey Hinton 是這個人,把“深度學習”從邊緣課題變成Google等網路巨頭仰賴的核心技術 http://dataunion.org/3543.html
Google翻譯是如何把深度學習“塞進”手機的? http://dataunion.org/20240.html
GraphLab Create:更簡單更強大的深度學習 http://dataunion.org/6367.html
Guesswork:機器學習注意力應集中於客戶 http://dataunion.org/613.html
Hadoop 2.0 上深度學習的解決方案 http://dataunion.org/8770.html
Iconfinder 如何杜絕盜版,雜湊演算法檢測影象重複 http://dataunion.org/15022.html
Image classification with deep learning常用模型 http://dataunion.org/11913.html
Image classification的幾個常見CNN model http://dataunion.org/6444.html
Kaggle 機器學習競賽冠軍及優勝者的原始碼彙總 http://dataunion.org/14892.html
Kaggle上的一次比賽:利用機器學習進行惡意程式碼分類 http://dataunion.org/20505.html
Mike Jordan 推薦的13本機器學習書籍 http://dataunion.org/8230.html
Mllib機器學習工具包在Hadoop上的使用 http://dataunion.org/5544.html
NLP大神推薦的機器學習入門書單(附大量百度網盤電子書) http://dataunion.org/12565.html
Python 兵器譜:網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘 (轉載) http://dataunion.org/367.html
Python 網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘兵器譜 http://dataunion.org/9005.html
Python機器學習庫scikit-learn實踐 http://dataunion.org/20953.html
Python語言下的機器學習庫 http://dataunion.org/12410.html
Ramp:快速開發機器學習原型 http://dataunion.org/5031.html
R語言與機器學習學習筆記(分類演算法) http://dataunion.org/672.html
Scala更適合用於大資料處理和機器學習 http://dataunion.org/2785.html
Spark 1.5.0釋出:新增機器學習演算法工具,擴充套件Spark R API http://dataunion.org/20751.html
Which GPU to use for deep learning? http://dataunion.org/15891.html
Wolfram推出了影象識別引擎,卻不幸淪為大眾調戲物件… http://dataunion.org/17310.html
cxxnet和大規模深度學習 http://dataunion.org/12555.html
mlpack:可伸縮C++機器學習庫 http://dataunion.org/4953.html
兔子和分散式機器學習 http://dataunion.org/8867.html
機器學習程式碼心得(二):迭代器和流水處理 http://dataunion.org/6290.html
《機器學習實戰》作者Peter Harrington:如何學好機器學習 http://dataunion.org/3603.html
《自然》深度機器學習未來將怎樣改變人類生活 http://dataunion.org/12498.html
「人臉識別」很火,但你不知道的還有很多 http://dataunion.org/17080.html
【內推】機器學習工程師-15K~30K-北京-估值上億美元大資料信用評估公司 http://dataunion.org/10367.html
【對話機器學習大神Michael Jordan】前言 http://dataunion.org/1442.html
【強烈推薦!】深度學習閱讀清單 http://dataunion.org/5741.html
【急聘】深度學習技術專家-薪酬開放-杭州 http://dataunion.org/14864.html
【數盟內推】機器學習演算法工程師-10K~25K-成都/北京-A輪千萬級大資料公司 http://dataunion.org/6393.html
【轉載】機器學習中的數學(1)-迴歸(regression)、梯度下降(gradient descent) http://dataunion.org/312.html
【轉載】機器學習中的數學(2)-線性迴歸,偏差、方差權衡 http://dataunion.org/317.html
【轉載】機器學習中的數學(3)-模型組合(Model Combining)之Boosting與Gradient Boosting http://dataunion.org/320.html
【轉載】機器學習中的數學(4)-線性判別分析(LDA), 主成分分析(PCA) http://dataunion.org/323.html
【轉載】機器學習中的數學(5)-強大的矩陣奇異值分解(SVD)及其應用 http://dataunion.org/326.html
一文讀懂機器學習,大資料/自然語言處理/演算法全有了…… http://dataunion.org/6331.html
一篇關於機器學習的溫和指南 http://dataunion.org/20783.html
萬能的Quora啊,請告訴我:你用機器學習都做了什麼? http://dataunion.org/20452.html
為什麼一些機器學習模型需要對資料進行歸一化? http://dataunion.org/15046.html
為什麼機器學習廣泛的用在谷歌的廣告系統中,而很少用在搜尋排序中? http://dataunion.org/13374.html
為什麼統計學家、機器學習專家解決同一問題的方法差別那麼大? http://dataunion.org/20616.html
為什麼說資料分析、機器學習、物聯網要放一起才玩的轉 http://dataunion.org/20179.html
喬丹Reddit訪談實錄:統計學和機器學習不能分開 http://dataunion.org/1545.html
雲安全公司利用自然語言處理識別釣魚網站 http://dataunion.org/11901.html
雲視鏈、谷歌、微軟都在說的虹膜識別,到底是什麼? http://dataunion.org/20288.html
網際網路公司機器學習、資料探勘類的職位面試主要考察哪些? http://dataunion.org/11448.html
亞馬遜等網際網路巨頭的“雲+機器學習”之路要怎麼走? http://dataunion.org/14276.html
京東DNN Lab首席科學家:京東深度學習應用及最新進展 http://dataunion.org/5846.html
人工智慧\機器學習\統計學\資料探勘之間有什麼區別? http://dataunion.org/12251.html
人工智慧和機器學習領域有哪些有趣的開源專案? http://dataunion.org/2954.html
人工智慧,機器學習,統計學,資料探勘之間有什麼區別? http://dataunion.org/8576.html
人臉識別必有一戰:騰訊背後的人臉識別技術支援團隊——優圖 http://dataunion.org/19379.html
人臉識別技術大總結(1)——Face Detection & Alignment http://dataunion.org/14010.html
人臉識別還不夠,FBI要研究紋身識別 http://dataunion.org/20526.html
人臉識別通過公共場所的攝像頭能抓住逃犯嚒? http://dataunion.org/14099.html
人臉驗證 DeepID 演算法實踐 http://dataunion.org/17917.html
什麼是機器學習:一次權威定義之旅 http://dataunion.org/9966.html
從How-Old.net到TwinsOrNot.net,看人臉識別技術是怎麼 high 起來的 http://dataunion.org/19866.html
從感知攝像機看影象識別技術的具體行業應用 http://dataunion.org/19880.html
從技能到特徵,全面解碼資料科學家 http://dataunion.org/1359.html
從機器學習的視角來看人性中的“偏激” http://dataunion.org/18036.html
從統計學角度來看深度學習:遞迴廣義線性模型 http://dataunion.org/17764.html
傳12306圖片驗證12小時內被破解,機器自動識別驗證碼的原理是怎麼樣的? http://dataunion.org/12514.html
伯克利:探索深度學習在科學界的應用 http://dataunion.org/20925.html
使用GPU和Theano加速深度學習 http://dataunion.org/20365.html
克服了這些磨難,深度學習將更加優秀! http://dataunion.org/20086.html
入門科普:天天喊深度學習,到底深度學習是啥? http://dataunion.org/17834.html
八一八Leo Breiman,一位深深地影響了機器學習界的奇人 http://dataunion.org/16511.html
八一八深度學習的這三十年曆程! http://dataunion.org/19598.html
關於Andrew Ng『應用機器學習的建議』的學習筆記 http://dataunion.org/14308.html
關於人工智慧(機器學習、深度學習、強人工智慧……)的二十件事 http://dataunion.org/17234.html
關於推薦系統中的特徵工程 http://dataunion.org/13206.html
減少部署痛苦:七種基於雲端計算的機器學習服務 http://dataunion.org/14296.html
分析了全球855家公司,看人工智慧產業(ML/影象識別/NLP/推薦引擎)的發展現狀 http://dataunion.org/20500.html
利用GPU和Caffe訓練神經網路 http://dataunion.org/19699.html
加速深度學習研發的幾個常用方法 http://dataunion.org/20129.html
十個值得一試的開源深度學習框架 http://dataunion.org/21119.html
十張圖解釋機器學習的基本概念 http://dataunion.org/9512.html
卷積神經網路初探 http://dataunion.org/20942.html
卷積網路訓練太慢?卷積網路之父Yann LeCun:已解決CIFAR-10,目標 ImageNet http://dataunion.org/8339.html
史上最強論戰第二彈:一線大牛關於人工智慧和深度學習的討論 http://dataunion.org/19849.html
各種程式語言的深度學習庫整理大全! http://dataunion.org/20798.html
吳恩達談百度深度學習:為什麼要建中文神經網路 http://dataunion.org/10254.html
四大機器學習降維演算法:PCA、LDA、LLE、Laplacian Eigenmaps http://dataunion.org/13451.html
國際貿易支付工具PayPal,使用深度學習和監測工作打擊欺詐 http://dataunion.org/14275.html
影象卷積與濾波的一些知識點 http://dataunion.org/20981.html
影象處理和影象識別中常用的329個OpenCV函式 http://dataunion.org/20333.html
影象區域性特徵點檢測演算法綜述 http://dataunion.org/14125.html
影象特徵提取三大法寶:HOG特徵,LBP特徵,Haar特徵 http://dataunion.org/20584.html
影象的稀疏表示——ScSPM和LLC的總結 http://dataunion.org/9755.html
影象識別四大影象庫比較:OpenCV/FreeImage/CImg/CxImage http://dataunion.org/20307.html
影象識別神器Deep Dream的前世今生 http://dataunion.org/20932.html
影象驗證碼和大規模影象識別技術 http://dataunion.org/21090.html
在機器學習方面使用 R + Hadoop 方案真的有那麼好? http://dataunion.org/16326.html
在機器學習模型執行時保持高效的方法 http://dataunion.org/11647.html
基於 Python 和 Scikit-Learn 的機器學習介紹 http://dataunion.org/20071.html
基於Python的卷積神經網路和特徵提取 http://dataunion.org/20587.html
基於SVM與人工神經網路的車牌識別系統 http://dataunion.org/18209.html
基於Spark的機器學習經驗 http://dataunion.org/21012.html
基於分散式雲的機器學習 http://dataunion.org/11977.html
基於機器學習方法的POI品類推薦演算法 http://dataunion.org/4211.html
基於混沌的數字影象加密演算法 http://dataunion.org/17038.html
基於面部表情的情緒識別,讓計算機再感性一點 http://dataunion.org/8201.html
大資料/資料探勘/推薦系統/機器學習相關資源 http://dataunion.org/21072.html
大資料日誌分析的成功取決於機器學習 http://dataunion.org/1148.html
大資料時代,機器學習機制正在崛起…… http://dataunion.org/619.html
大資料預測的四大特徵 http://dataunion.org/806.html
大資料+機器學習+平臺,Dato拿了1850萬美元B輪融資 http://dataunion.org/6532.html
大神親傳:26條深度學習的金科玉律! http://dataunion.org/20811.html
大量 Deep Learning 學習資源! http://dataunion.org/17663.html
如何在Hadoop 2.0上實現深度學習? http://dataunion.org/11887.html
如何看待深度學習? http://dataunion.org/20893.html
如何選擇機器學習分類器? http://dataunion.org/13026.html
如何選擇機器學習演算法? http://dataunion.org/16495.html
它將是你的第二大腦——長文講述谷歌深度學習的故事 http://dataunion.org/10570.html
例項詳解機器學習如何解決問題 http://dataunion.org/10588.html
常用的機器學習&資料探勘知識(點)總結 http://dataunion.org/14926.html
常見面試之機器學習演算法思想簡單梳理 http://dataunion.org/5341.html
乾貨整理:深度學習 vs 機器學習 vs 模式識別 http://dataunion.org/13071.html
乾貨:形而上的機器學習 http://dataunion.org/2974.html
乾貨:深度學習 vs 概率圖模型 vs 邏輯學 http://dataunion.org/16436.html
乾貨:結合Scikit-learn介紹幾種常用的特徵選擇方法 http://dataunion.org/14072.html
開發者成功玩轉機器學習的十大訣竅! http://dataunion.org/20003.html
開源機器學習工具scikit-learn入門 http://dataunion.org/12228.html
張夏天:揭祕 TalkingData 的大規模機器學習的應用 http://dataunion.org/19768.html
當機器學習遇上計算機視覺(上) http://dataunion.org/10227.html
當機器學習遇上計算機視覺(下) http://dataunion.org/10232.html
當機器學習遇到計算機視覺 http://dataunion.org/15984.html
微軟牛津計劃——屌爆了的自然資料處理解決方案(人臉/語音識別/計算機視覺/NLP) http://dataunion.org/20598.html
微軟黑科技:影象識別系統錯誤率已低於人類 http://dataunion.org/11065.html
微軟:我家的深度學習超越了人類和Google http://dataunion.org/10929.html
心情識別技術:你不說,它也知道 http://dataunion.org/15268.html
總結Python正文提取的工具包(轉) http://dataunion.org/424.html
情緒也是一種虛擬貨幣?告訴你情緒識別真正的應用前景! http://dataunion.org/8329.html
想入門機器學習、資料探勘,我該怎麼做? http://dataunion.org/19877.html
想搞機器學習,不會特徵工程?你TM逗我那! http://dataunion.org/20276.html
我在面試機器學習、大資料崗位時遇到的各種問題 http://dataunion.org/20682.html
手把手,74行程式碼實現手寫數字識別 http://dataunion.org/20992.html
技術向:一文讀懂卷積神經網路CNN http://dataunion.org/11692.html
技術篇:預測建模、監督機器學習和模式分類概覽 http://dataunion.org/16027.html
推薦一些從零開始學習機器學習演算法的方法 http://dataunion.org/20758.html
推薦這六本關於機器學習的書籍,並說說它們的優缺點 http://dataunion.org/20692.html
推薦!國外程式設計師整理的機器學習資源大全 http://dataunion.org/3560.html
教程:使用Amazon Machine Learning構建機器學習預測模型 http://dataunion.org/15245.html
斯坦福大學公開課 :機器學習全套視訊教程(免費) http://dataunion.org/5941.html
斯坦福深度學習博士,手把手教你用Javascript寫神經網路和SVM http://dataunion.org/2668.html
無處可藏:Facebook開發無臉識別技術 http://dataunion.org/19765.html
易用的深度學習框架Keras簡介及使用 http://dataunion.org/16787.html
智冠女神董事長:做手靜脈生物識別認證技術領跑者 http://dataunion.org/951.html
最流行的4個機器學習資料集 http://dataunion.org/9232.html
有趣的機器學習:最簡明入門指南 http://dataunion.org/9969.html
未來,語音識別可能應用於哪些商業化場景? http://dataunion.org/10046.html
本週最受資本追捧的兩家機器學習創業公司 http://dataunion.org/2680.html
機器學習(Machine Learning)&深度學習(Deep Learning)資料彙總 http://dataunion.org/8463.html
機器學習+影象處理還原梵高《星空》全貌 http://dataunion.org/3076.html
機器學習API Top 10:AT&T Speech、IBM Watson和Google Prediction http://dataunion.org/20392.html
機器學習與統計學是互補的嗎? http://dataunion.org/21087.html
機器學習專家與統計學家觀點上有哪些不同? http://dataunion.org/15992.html
機器學習中導數最優化方法(基礎篇) http://dataunion.org/11752.html
機器學習中的數學(1):迴歸(regression)、梯度下降(gradient descent) http://dataunion.org/8807.html
機器學習中的數學(2):線性迴歸,偏差、方差權衡 http://dataunion.org/8880.html
機器學習中的數學(3):模型組合(Model Combining)之Boosting與Gradient Boosting http://dataunion.org/9142.html
機器學習中的數學(4)-線性判別分析(LDA), 主成分分析(PCA) http://dataunion.org/9366.h