爬網頁資料

阿新 • • 發佈：2018-12-18

import re #匯入正則表示式模組
import requests #python HTTP客戶端 編寫爬蟲和測試伺服器經常用到的模組
import random #隨機生成一個數，範圍[0,1]
import os

def mkdir(path):
    # 判斷路徑是否存在
    # 存在     True
    # 不存在   False
    isExists=os.path.exists(path)
 
    # 判斷結果
    if not isExists:
        os.makedirs(path) 
 
        print (path+' 建立成功 
')
        return True
    else:
        # 如果目錄存在則不建立，並提示目錄已存在
        print (path+' 目錄已存在')
        return False
        
        
        
#定義函式方法
def spiderPic(html,keyword):
    print('正在查詢 ' + keyword +' 對應的圖片,下載中，請稍後......')
    for addr in re.findall('"objURL":"(.*?)"',html,re.S):     #查詢URL
        print 
('正在爬取URL地址：'+str(addr)[0:30]+'...')  #爬取的地址長度超過30時，用'...'代替後面的內容
 
        try:
            pics = requests.get(addr,timeout=10)  #請求URL時間（最大10秒）
        except requests.exceptions.ConnectionError:
            print('您當前請求的URL地址出現錯誤')
            continue
        
        creatDir = 'D:\\資料\\年齡性別\\myPaData\\woman\\ 
' + keyword
        mkdir(creatDir)
        fq = open(creatDir + '\\' +(keyword+'_'+str(random.randrange(0,1000,4))+'.jpg'),'wb')     #下載圖片，並儲存和命名
        fq.write(pics.content)
        fq.close()
 
#python的主方法
if __name__ == '__main__':
    #word = input('請輸入你要搜尋的圖片關鍵字：')
    f = open("D:\\資料\\年齡性別\\myPaData\\woman.txt")
    s=f.read()
    s1 = re.split(' ', s) #利用正則函式進行分割
    
    for word in s1:
        print (word)
        result = requests.get('http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=' + word)
        spiderPic(result.text,word)

爬網頁資料

import re #匯入正則表示式模組 import requests #python HTTP客戶端編寫爬蟲和測試伺服器經常用到的模組 import random #隨機生成一個數，範圍[0,1] import os def mkdir(path): # 判斷路徑是否存在

JavaWEB學習記錄--HtmlUnit爬網頁資料

Java–HtmlUnit爬網頁資料標籤（空格分隔）： java 一直使用免費的SS賬號,但是一定時間都過期,還要手動去換密碼之類的,身為程式設計師,就決定讓這一切都自動化. htmlunit是一款開源的java 頁面分析工具，讀取頁面後，可以有

你沒有看錯，爬網頁資料，C# 也可以像 Jquery 那樣

## 一：背景 ### 1. 講故事前段時間搞了一個地方性民生資訊號，資訊嘛，都是我抄你的，你抄官媒的，小市民都喜歡奇聞異事，所以就存在一個需求，如何去定向抓取奇聞異事的地方號上的新聞，其實做起來很簡單，用邏輯迴歸即可，這篇主要討論如何去抓取，在 C# 中大家都知道抓取通用的庫是 HtmlAgili

selenium+python爬取資料跳轉網頁

專案要做一個四個層級欄的資料抓取，而且點選查詢後資料會在新跳出的網頁。原始碼如下註釋解釋 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.15

Python3+Selenium爬取動態網頁資料

背景：有時候想獲取網頁的資訊，然後下載裡面的圖片資料等等遇到的問題：有時一些網頁是動態的，一些內容是通過js非同步拉取，甚至拉取時間是懶載入的，例如滾動到元素位置的時候才載入解決方案：這個時候就需要Selenium神器了 Selenium 是什麼？一句話

無搜尋條件根據url獲取網頁資料(java爬取網頁資料)

jsoup jar包 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3<

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

最近有一個任務抓取如下圖的網頁資料要獲取前一天的資料進行翻頁抓取資料並存入資料庫如果就只是抓取當前頁的資料沒有條件和翻頁資料這個就比較簡單了但是要選取前一天的資料,還有分頁資料一開始的思路就想錯了(開始想的是觸發查詢按鈕和

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

摘要大多數APP裡面返回的是json格式資料，或者一堆加密過的資料。這裡以超級課程表APP為例，抓取超級課程表裡使用者發的話題。 1 抓取APP資料包方法詳細可以參考這篇博文：http://my.oschina.net/jhao104/blog/605963 得到超級課程表

java網頁資料爬取

java網頁資料爬取寫在前面書籤全部匯出爬取前的處理開始爬取並儲存 java網頁資料爬取寫在前面在瀏覽器書籤中有許多經典的東西，有時候什麼忘記了需要去

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

pom檔案  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

cheerio爬取網頁資料，儲存到MySQL資料庫

最近在做物流專案成本分析，需要爬取柴油價格資料，使用到了cheerio，cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js，獲取HTML頁面資料 var http = require("http"); function gethtml(url,

Python爬取網頁資料並匯入表格

import requests import time import random import socket import http.client from bs4 import BeautifulSoup import csv def getContent(url

python初學-爬取網頁資料

python初學-爬取網頁資料 1,獲取網頁原始碼 import urllib url = 'http://www.163.com' wp = urllib.urlopen(url) file_content = wp.read() print file_content 2,

爬取網頁資料出現中文亂碼 UTF-8中文亂碼

在用python爬取網頁資料時，獲取的中文資料出現亂碼情況第一種情況：沒有宣告編碼格式，即沒有進行 encoding = 'utf-8' 編碼宣告例如下圖，在獲取資料中<

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料

前言其實爬蟲的思路很簡單，但是對於很多初學者而言，看得懂，但是自己寫的時候就不知道怎麼去分析了！說實話還是寫少了，自己不要老是抄程式碼，多動手！本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位

Python如何爬取動態網頁資料

1.引言說到爬網頁，我們一般的操作是先檢視原始碼或者審查元素，找到資訊所在節點，然後用 beautifulsoup/xpth/re 來獲取資料，這是我們對付靜態網頁的常用手段。但大家也知

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

1：閒話少說,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=. 參考的資料:http://blog.csdn.net/lmj6235

【騰訊TMQ】如何輕鬆爬取網頁資料

一、引言在實際工作中，難免會遇到從網頁爬取資料資訊的需求，如：從微軟官網上爬取最新發布的系統版本。很明顯這是個網頁爬蟲的工作，所謂網頁爬蟲，就是需要模擬瀏覽器，向網路伺服器傳送請求以便將網路資源從網路流中讀取出來，儲存到本地，並對這些資訊做些簡單提取，將我們

爬網頁資料

相關推薦