汽車之家資料爬取:文章連結//圖片//標題

阿新 • • 發佈：2018-12-23

(1)打印出來的東西亂碼,如何處理這個問題?

import requests

response=requests.get(
    url='https://www.autohome.com.cn/beijing/'          #最新的地址是可以出來的
    # url='https://www.autohome.com.cn/news/'               #老的地址會出現亂碼問題
)
print(response.text)

(2)

import requests

response=requests.get(
    # url='https://www.autohome.com.cn/beijing/'          #最新的地址是可以出來的 

    url='https://www.autohome.com.cn/news/'               #老的地址會出現亂碼問題
)
# response.encoding='utf-8'       #(utf-8)這個地方又做了一下處理:依然部分亂碼
response.encoding='gbk'       #(gbk)這個地方又做了一下處理:依然部分亂碼

print(response.text)

(3)

import requests
response=requests.get(
    # url='https://www.autohome.com.cn/beijing/'          #最新的地址是可以出來的 

    url='https://www.autohome.com.cn/news/'               #老的地址會出現亂碼問題
)
# response.encoding='utf-8'       #(utf-8)這個地方又做了一下處理:依然部分亂碼
# response.encoding='gbk'       #(gbk)這個地方又做了一下處理:依然部分亂碼

response.encoding=response.apparent_encoding   #注意在這裡預設就是utf-8
                                               # 
這裡和寫gbk是一樣的
print(response.text)

(4)

import requests
from bs4 import BeautifulSoup
response=requests.get(
    # url='https://www.autohome.com.cn/beijing/'          #最新的地址是可以出來的
    url='https://www.autohome.com.cn/news/'               #老的地址會出現亂碼問題
)

response.encoding=response.apparent_encoding   #注意在這裡預設就是utf-8
                                                 #這裡和寫gbk是一樣的
soup=BeautifulSoup(response.text,features='html.parser')       #第一步把文字轉換成物件
                                        #後邊的features=表示以什麼引擎,或者以什麼方式轉換
                                        #python內建的引數是'html.parser'   #這個是預設的
                                        #python的第三方引數'features='lxml',需要額外安裝才能使用
                                        #實際生產中都是會用lxml,效能會更好一些
target=soup.find(id='auto-channel-lazyload-article')
target.find('li')   #根據標籤來尋找
#繼續尋找
print(target)

(5)目前的最終版(後期有待完善)　　注意註釋

import requests
from bs4 import BeautifulSoup
response=requests.get(
    # url='https://www.autohome.com.cn/beijing/'          #最新的地址是可以出來的
    url='https://www.autohome.com.cn/news/'               #老的地址會出現亂碼問題
)

response.encoding=response.apparent_encoding   #注意在這裡預設就是utf-8
                                                 #這裡和寫gbk是一樣的
soup=BeautifulSoup(response.text,features='html.parser')       #第一步把文字轉換成物件
                                        #後邊的features=表示以什麼引擎,或者以什麼方式轉換
                                        #python內建的引數是'html.parser'   #這個是預設的
                                        #python的第三方引數'features='lxml',需要額外安裝才能使用
                                        #實際生產中都是會用lxml,效能會更好一些
target=soup.find(id='auto-channel-lazyload-article')
# obj=target.find('li')   #根據標籤來尋找
                        #只找到一個標籤927530<li>

li_list=target.find_all('li')   #找所有的li標籤
                                #繼續尋找
                                #此時li_list是個列表,
for i in li_list:
    a=i.find('a')
    # print(a.attrs)      #有些標籤是沒有a標籤的,所以報錯
    if a:
        print(a.attrs.get('href'))
        txt=a.find('h3')
        print(txt)      #url+文字     #拿到後放到app或者資料庫中
        img=a.find('img')
        print(img.get('src'))       #圖片連結

(6)

#同學案例       #有問題
import requests
from bs4 import BeautifulSoup
url='https://www.autohome.com.cn/news/'
response=requests.get(url)
response.encoding=response.apparent_encoding
# soup=BeautifulSoup(response.text,'lxml',)   #沒有安裝所以報錯
soup=BeautifulSoup(response.text,'html.parser',)   #沒有安裝lxml模組所以報錯

print(soup.title.text)

#結果:【圖】最新汽車新聞_資訊_汽車之家

汽車之家資料爬取:文章連結//圖片//標題

(1)打印出來的東西亂碼,如何處理這個問題? import requests response=requests.get( url='https://www.autohome.com.cn/beijing/' #最新的地址是可以出來的 # url='https://

用python爬取文章連結並分類

環境： OS：win10 x64 Python：3.5.1 PyCharm：5.0.3 為了方便學習，根據關鍵字過濾資料爬取下來，並做分類。爬取jobbole import requests from bs4 import BeautifulSoup import

pyspider框架之ajax資料爬取

pyspider框架之記錄1 由於公司業務需求，目前做的爬蟲就是爬取全國各個政府釋出的各種政策，平時寫的程式碼，沒有多少想寫成部落格的，後續可能都會寫出來，今天遇到了一個政府網站採用了ajax非同步更新技術，那就做個記錄吧。。目標政府的url地址為http

鏈家資料爬取＋地圖找房

一、鏈家資料爬取（由於鏈家二手房搜尋結果有100頁的限制，也就是隻能搜到3000條結果，因此，我將按照城區搜尋結果進行爬取）首先從搜尋結果頁面獲得二手房詳情頁面的url，儲存到apartment_url.csv中 # -*- coding: utf-8 -*- impo

Python練習 scrapy 爬取汽車之家文章

autohome.py #spider檔案 # -*- coding: utf-8 -*- import scrapy from Autohome.items import AutohomeItem class AutohomeSpider(scrapy.Spider)

python入門-----爬取汽車之家新聞,---自動登錄抽屜並點贊,

ike color div標簽 pla spa art com col 3-9 爬取汽車之家新聞,代碼如下 import requests res=requests.get(url=‘https://www.autohome.com.cn/news/‘) #向汽車直接

爬取汽車之家

ref article brush att split channel odin lazy com import requests from bs4 import BeautifulSoup response = requests.get(‘https://www.aut

python3 爬取汽車之家所有車型操作步驟

題記: 　　網際網路上關於使用python3去爬取汽車之家的汽車資料（主要是汽車基本引數，配置引數，顏色引數，內飾引數）的教程已經非常多了，但大體的方案分兩種：　　1.解析出汽車之家某個車型的網頁，然後正則表示式匹配出混淆後的資料物件與混淆後的js，並對混淆後的js使用pyv8進行解析返回

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

爬取汽車之家北京二手車資訊

爬取汽車之家北京二手車資訊經測試，該網站：https://www.che168.com/beijing/list/ 反爬機制較低，僅需要偽造請求頭設定爬取速率，但是100頁之後需要登入，登入之後再爬要慎重，一不小心就會永久封號。爬取的資料以各種型別存放，下面展示儲存到mysql資料

汽車之家網站為例-爬蟲的編寫，爬取圖片

汽車之家圖片的爬取汽車之家有很多汽車的點評、價格、圖片等資訊，那麼怎麼才能編寫一個爬蟲來獲得我們所需要的資訊呢，很簡單，兩個工具便可以了，一個網頁解析工具requests，一個正則匹配工具re

Python爬取最新反爬蟲汽車之家口碑

本人剛學Python沒幾天,程式碼可能比較醜陋, 大牛不要噴用的Python2.7.2, 因為PyV8最高支援2.7.2, js混淆部分用的PyV8直接執行的js 原理已經寫過一篇了,這裡不再贅述了.可以看我的這篇目錄結構如下: fonts資料夾負責存放下載的字型檔案

python爬蟲實戰爬取汽車之家上車型價格

相關庫 import pymysql import pymysql.cursors from bs4 import BeautifulSoup import requests import random

使用Java抓取解析汽車之家車型配置資料

因為公司業務需求，需要獲取汽車之家的車型配置資料如下圖：由於汽車之家沒做防爬策略，只是資料給混淆了，這裡主要說解析資料。通過儲存頁面，配置項的資料是通過JS動態生成的。在頁面的第572行左右，有配置項的json格式資料主要的配置

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

python爬蟲——爬取汽車之家新聞

按F12審查一下元素：找到了對應的資訊。而且發現要爬取的圖片都在id=auto-channel-lazyload-article的div標籤下的li標籤裡。 li標籤下的a標籤就是新聞的url；image標籤，src就是獲取圖片的url；請求圖片地

使用python抓取汽車之家車型資料

import requests import pymysql HOSTNAME = '127.0.0.1' USERNAME = 'root' PASSWORD = 'zyndev' DATABASE = 'zyndev_new' brand = 'ht

汽車之家店鋪資料抓取 DotnetSpider實戰[一]

一、背景春節也不能閒著，一直想學一下爬蟲怎麼玩，網上搜了一大堆，大多都是Python的，大家也比

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

java 開發用到網路爬蟲，抓取汽車之家網站全部資料經歷

經歷了兩個禮拜的折騰，某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。說一下我的犯罪經歷，之前公司總是抓取某某網站資料，可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為，導致我們的抓取功能報錯，逐步跟蹤，發現我們之前是在人家的網站，通過Webh

汽車之家資料爬取:文章連結//圖片//標題

相關推薦