爬蟲案例—中基協數據爬取

阿新 • • 發佈：2018-12-19

class size api 部分 javascrip post enc encoding type

因為工作原因，需要爬取相關網站的數據，包括中基協網站和天眼查部分數據。

一、中基協網站

爬取思路：

1.查看目標頁：http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50

發現有隨機數字串（刷新反爬措施），以及頁碼和每頁信息條數，可以用來拼接爬取url

用一個循環爬取所有展示頁面，用到requests庫以及random函數生成隨機數

返回的是json數據，直接用request的json函數解析數據。

2.save函數用來保存目標頁面的詳細數據，可根據需要爬取。

 1 import requests
 2 import random
 3 import json
 4  
 5 def save(school_datas):
 6     for data1 in school_datas:
 7         # print(data)
 8         id = data1[‘id‘]
 9         managerName = data1[‘managerName‘]
10         artificialPersonName = data1[‘artificialPersonName‘]
11         regAdrAgg = data1[‘ 
regAdrAgg‘]
12         registerNo = data1[‘registerNo‘]
13         print(id, managerName, artificialPersonName, regAdrAgg,registerNo)
14  
15 for i in range(0, 427):
16     print("第%s頁====================="%str(i))
17     header={
18             ‘Accept‘:‘application/json, text/javascript, */*; q=0.01‘,
19 
             ‘Accept-Encoding‘:‘gzip, deflate‘,
20             ‘Connection‘:‘keep-alive‘,
21             ‘Host‘:‘gs.amac.org.cn‘,
22             ‘Origin‘:‘http://gs.amac.org.cn‘,
23             ‘Referer‘:‘http://gs.amac.org.cn/amac-infodisc/res/pof/manager/managerList.html‘,
24             ‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36‘
25             }
26     r=random.random()
27     print(str(r))
28     
30     # json={"rand":‘0.0045470034372876444‘,"page":str(i),"size":"50"}
31     # http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=1&size=50
32     # data= requests.post("http://gs.amac.org.cn/amac-infodisc/api/pof/manager",json={‘rand‘:str(r),‘page‘:str(i),‘size‘:‘50‘},headers=header)#.json()
33     url="http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50"
34     data= requests.post(url%i,json={‘rand‘:str(r),‘page‘:str(i),‘size‘:‘50‘}).json()
35   
40     
41     # print (type(r))
42     # print (r.status_code)
43 
45     # print (r.cookies)
46     # print(r.text,"\n")
47     # print(r.json())
48 
55 
56     print("每一頁信息條數——>", len(data[‘content‘]))
57     print("全部信息條數——>", data["totalElements"])
58     print("每頁有——>", data["size"])
59     print("總頁數-->>", data["totalPages"])
60 
61     school_datas = data["content"]
62     save(school_datas)

爬蟲案例—中基協數據爬取

class size api 部分 javascrip post enc encoding type 因為工作原因，需要爬取相關網站的數據，包括中基協網站和天眼查部分數據。一、中基協網站爬取思路： 1.查看目標頁：http://gs.amac.org.cn/am

爬蟲案例—中基協資料爬取

因為工作原因，需要爬取相關網站的資料，包括中基協網站和天眼查部分資料。一、中基協網站爬取思路： 1.檢視目標頁：http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&am

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

大規模數據爬取 -- Python

code xtra data format find() 數據 {} __name__ -m Python書寫爬蟲，目的是爬取所有的個人商家商品信息及詳情，並進行數據歸類分析整個工作流程圖：第一步：采用自動化的方式從前臺頁面獲取所有的頻道 from bs4

模擬登陸+數據爬取 (python+selenuim)

ref section ext 可能 https text entity 數據爬取 span 以下代碼是用來爬取LinkedIn網站一些學者的經歷的，僅供參考，註意：不要一次性大量爬取會被封號，不要問我為什麽知道 #-*- coding:utf-8 -*- from se

獲取數據——爬取某微博評論

t_sql 希望 udf mysq reat root utf lee execute 微博評論API 想要爬取某一條微博的評論，首先會想到微博官方提供的API，但是不巧的是，官方提供的api能夠獲取的評論數量有限，不足以分析，那怎麽辦呢？我們想到了網頁端，手機端的微博

Python 爬蟲工程師必學 App數據抓取實戰

數據 pin 登錄開頭 pan 任務字段 www 哪些第1章課程介紹介紹課程目標、通過課程能學習到的內容、學會這些技能能做什麽，對公司業務有哪些幫助，對個人有哪些幫助。介紹目前app數據抓取有哪些困難，面臨的挑戰，本實戰課程會利用哪些工具來解決這些問題，以及本實戰課

百度地圖POI數據爬取，突破百度地圖API爬取數目“400條“的限制11。

XML response city 代碼實現 append api json highlight inf 1.POI爬取方法說明 1.1AK申請　　登錄百度賬號，在百度地圖開發者平臺的API控制臺申請一個服務端的ak,主要用到的是Place API.檢校方式可設置成I

scrapy框架基於CrawlSpider的全站數據爬取

管道 3.2 函數 actor odi ins sta 實戰括號引入提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸回調p

數據爬取(1)

好的 div ima 拖拽學習app 爬蟲 nbsp 工具作用一學習app數據爬取的目的二作用企業: 個人: 　　1 技能提升　　 2 面試必問三 app數據好抓嗎四 app爬蟲工程師技術儲備

python&php數據抓取、爬蟲分析與中介，有網址案例

網絡數據抓取不定 pytho span article 抓取取數據 data- 近期在做一個網絡爬蟲程序。後臺使用python不定時去抓取數據。前臺使用php進行展示站點是：http://se.dianfenxiang.com python&a

我是怎樣把反反爬蟲把數據爬下來的

ie 6 nav 解決讓我 tom safari 判斷 head 5.0 　　最近看到公司的商務一條一條的從某個網站上復制數據到excel裏,於是乎就打算寫個爬蟲把那個網站的數據都爬下來.一般的流程是模擬用戶訪問->獲取數據->解析頁面元素->balab

網站爬取-案例二：天貓爬取( 第一卷：首頁數據抓取)

img .com 我想提供商網站 col class scoller bubuko 說到網站數據的爬取，目前為止我見過最復雜的就是天貓了，現在我想對它進行整站的爬取我們先來看下天貓主頁的界面天貓頁面很明顯是動態頁面所以我們需要用selenium模塊首先

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

js讀取本地txt文件中的json數據

input option cti nbsp code tails span details logs list.txt內容 [ {"optionKey":"1", "optionValue":"Canon in D"}, {"optionKey":"2", "op

java中的基本數據類型存放位置

兩個內存地址及其 java 原因成員變量調用變量名引用變量一：在方法中聲明的變量，即該變量是局部變量，每當程序調用方法時，系統都會為該方法建立一個方法棧，其所在方法中聲明的變量就放在方法棧中，當方法結束系統會釋放方法棧，其對應在該方法中聲明的變量隨著棧的銷毀

JSON運用——PHP中使用json數據格式定義字面量對象的方法

data tro 數據格式 json格式使用 iat 進行對象人的目前，在PHP中是不支持字面量命名法。前端的小夥伴都知道，在JS中用字面量定義一個對象的方法可以如下： var o = { ‘name‘ : ‘Tom‘ , ‘url‘ : ‘www.baidu.

Linux RPC中XDR 外部數據編碼實例

urn upd 外部模式字符 structure 常用計算 sin 網上找了很多XDR編碼的內容，但是大多都是介紹相關的，很少有編程實例。因為分布式的課程學習了XDR外部數據編碼，並應用在了RPC遠程過程調用的實現中。本篇博客先暫時描述XDR相關，下一篇將介紹Sock

爬蟲案例—中基協數據爬取

因為工作原因，需要爬取相關網站的數據，包括中基協網站和天眼查部分數據。

一、中基協網站

相關推薦