生產者消費者模型爬取某金融網站資料!Python無所不爬!
那麼這個模型和爬蟲有什麼關係呢?其實,爬蟲可以認為是一個生產者,它不斷從網站爬取資料,爬取到的資料就是食物;而所得資料需要消費者進行資料清洗,把有用的資料吸收掉,把無用的資料丟棄。
以上便是對生產者消費者模型的簡單介紹了,下面針對本次爬取任務予以詳細說明。
分析站點
http://www.cfachina.org/cfainfo/organbaseinfoServlet?all=personinfo
從網址及網頁內容可以提取出以下資訊:
網址
獲取機構名稱
獲取機構資訊對應的網頁數量
每個機構的資料量是不等的,幸好每個頁面都包含了當前頁面數及總頁面數。使用以下程式碼即可獲取頁碼數。
獲取當前頁面從業人員資訊
確定爬取方案
一般的想法當然是逐頁爬取主頁資訊,然後獲取每頁所有機構對應的網頁連結,進而繼續爬取每個機構資訊。
但是由於該網站的機構資訊網址具有明顯的規律,我們根據每個機構的編號便可直接得到每個機構每個資訊頁面的網址。所以具體爬取方案如下:
main
主函式用於建立和啟動生產者執行緒和消費者執行緒,同時為生產者執行緒提供機構編號佇列。
原始碼
原始碼圖如果看不清,請儲存到本地觀看!原始碼群:125240963
相關推薦
生產者消費者模型爬取某金融網站資料!Python無所不爬!
那麼這個模型和爬蟲有什麼關係呢?其實,爬蟲可以認為是一個生產者,它不斷從網站爬取資料,爬取到的資料就是食物;而所得資料需要消費者進行資料清洗,把有用的資料吸收掉,把無用的資料丟棄。以上便是對生產者消費者模型的簡單介紹了,下面針對本次爬取任務予以詳細說明。分析站點http://www.cfachina.org/
selenium 爬取某基金網站資料
# coding: utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.get( 'http://fund.eastmoney.com/data/f
java爬取某電影網站資料
使用jsoup獲取動態網站的資料 部分程式碼: /** * 獲取分類的所有相對連結地址 和名稱,儲存到map中,返回資料 * */ public class GetMoviesName { private String url; H
批量爬取某圖片網站的圖片
批量爬取某圖片網站的圖片 宣告:僅用於爬蟲學習,禁止用於商業用途謀取利益 1、網頁解析 (1)開啟veer首頁,F12(谷歌瀏覽器),輸入關鍵字,點選搜尋,點選檢視如圖畫圈位置 (2)檢視search中的Headers,找到請求的URL和請求的paylo
python 3 爬取某小說網站小說,註釋詳細
每一行都有註釋,不多解釋了 import requests from bs4 import BeautifulSoup import os if __name__ == '__main__': # 要下載的網頁 url = 'https://www.b
用Python Scrapy爬取某電影網站並存儲入mysql
爬取目標:javlib,使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。 首先定義items.pyimport scrapy class Av
用python爬取某視訊網站彈幕
文章以bilibili的《變態王子與不笑貓》(這是一部正常的日漫,請放心觀看)為例,爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上,確實花了點時間,最好找到了也有點恍然大悟,再就是請求彈幕的連結地址,也需要去所有請求裡找,耐心很重要。最後,採用多執行緒
爬取某招聘網站的招聘資訊(獵聘)
這該找工作了,俗話說的胡奧,金九銀十嘛。一個一個招聘資訊找著看,有點麻煩。所以心動了下,不如把我想找的資訊都爬取下來,直接sql語句查詢所有相關資訊,多方便,是吧~ 注: 如果start-urls只設置一個的話,那麼只會爬取等於或者小於40條資料
Python3.7爬蟲 大量爬取某小說網站小說並寫入mysql(持續完善中...) 未解決問題:mysql長時間新增超過百萬條數據表鎖甚至崩潰
oot req val page src sele 爬蟲 use uwa 練手之作 代碼中還有很多問題 持續完善中 渣渣阿裏T5 99包郵服務器只開了6個進程 #encoding:utf-8 import requests # 請求 from lxml import
程式設計師的福利:使用WebCollector爬取某美女網站上的圖片
程式設計師的福利:使用WebCollector爬取某美女網站上的圖片 0x00 需求 某網站,有海量美女圖片,裡面預設是按美女的英文名字(A-Z)排序的。估算了一下,至少也得有3000+位美女照片,每位的照片數目從幾十張到幾百張不等。瀏覽了幾天,才瀏覽了很少的一部分。心想,
爬取不得姐網站,利用多執行緒來爬取
利用到的庫 time, requests, lxml, queue, threading 功能 爬取不得姐網站中前二十頁的段子資料 import time import requests from lxml import etree from queue
HtmlUnit java爬蟲入門 真實案例講解 爬取電商網站資料
最近利用空閒時間幫朋友做了個爬取幾個電商網站的資料的小程式 使用的是htmlUnit 自我感覺htmlUnit爬取的速度和穩定性還是很不錯的 所以寫一篇博文介紹下htmlUnit的使用相關 也算記錄一下 這是該網站的主頁面 具體的思路是 獲取商品所在的div 通過div獲
爬蟲有多好玩?所見即所爬!抓取網頁、圖片、文章!無所不爬!
一,首先看看Python是如何簡單的爬取網頁的 1,準備工作 專案用的BeautifulSoup4和chardet模組屬於三方擴充套件包,如果沒有請自行pip安裝,我是用pycharm來做的安裝,下面簡單講下用pycharm安裝chardet和BeautifulSou
python爬取人臉識別圖片資料集/python爬去圖片/python爬蟲
本人長期出售超大量微博資料、旅遊網站評論資料,並提供各種指定資料爬取服務,Message to [email protected] 前言 最近在做機器學習下的人臉識別的學習,機器學習這個東西有點暴力,很大程度上靠訓練的資料量來決定效果。為了找資
python 爬蟲爬取某網站的漫畫
文章目錄 宣告 前言 思路 流程 程式 結果 宣告 為了表示對網站的尊重,已將網站地址隱藏,下載的漫畫之前我就看過了,所以也會刪掉,絕不侵犯網站的利益。 前言
python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源,你懂的
Queue(佇列物件) queue是python3中的標準庫,可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考 對於資源,加鎖是個重要的環節。因為python原生的list,dict等,都是not
python3.6爬蟲案例:爬取某網站所有PPT(下)。
上篇部落格:python3.6爬蟲案例:爬取某網站所有PPT(上)給大家介紹了爬取(http://www.1ppt.com/)網站中的ppt檔案,爬下來的檔案如下:所以,我們就要考慮將其名稱修改為其在網頁中顯示的名字,並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的
爬取某網站的所有烏雲漏洞文章,儲存為pdf檔案
鼎鼎大名的烏雲,存在了6年左右,就停擺了,真是可惜。。。 這是從某個網站看到的烏雲文章,爬取儲存下來以作學習使用 建立一個資料夾wooyun,把下面的程式碼儲存到一個檔案如test.py,放在該檔案裡面 # -*- coding: utf-8 -*- im
python定向爬蟲——爬取某代理Ip網站上的所有ip
爬取一個網站的基本過程 確定目標 –> 分析目標 –> 編寫程式 -> 執行爬蟲 分析目標: url 格式 資料格式 網頁編碼 分析目標資料在原始碼裡的結構,以便在獲取整個頁面原始碼後,可以利用正則進行匹配。
進擊的Python【第九章】:paramiko模塊、線程與進程、各種線程鎖、queue隊列、生產者消費者模型
password locking form maxsize 廁所 sorted [0 hostname nbsp 一、paramiko模塊 他是什麽東西? paramiko模塊是用python語言寫的一個模塊,遵循SSH2協議,支持以加密和認證的方式,進行遠程服務器的連