1. 程式人生 > >python3 爬蟲實戰之爬取網易新聞APP端

python3 爬蟲實戰之爬取網易新聞APP端

(一)使用工具

這裡使用了火狐瀏覽器的user-agent外掛,不懂的可以點這裡火狐外掛使用

image.png

(二)爬蟲操作步驟:

百度 網易新聞並選擇

步驟一:

image.png

步驟二:

image.png

步驟三:

image.png

步驟四:

image.png

最後一步:

image.png

注意點:

(1)網易新聞型別,一共是下面的幾種:

{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}

(2)新聞翻頁動作:
從0-10 ——> 10-10
步數為10,0起步

我們試著從0頁開始獲取一下(瀏覽器輸入一下):

image.png

很好的json,有沒有。下面開始coding,不多說,直接看程式碼。

(三) 程式碼編寫部分:

使用環境:win10 python3 scrapy

這裡給出了spider檔案部分

# -*- coding: utf-8 -*-
# @Time    : 2018/5/23 13:56
# @Author  : 蛇崽
# @Email   : [email protected]
# @File    : wangyi3g.py
import json

import re
import scrapy
from bs4 import BeautifulSoup


class
Wangyi3GSpider(scrapy.Spider):
name = 'wangyi3g' allowed_domains = ['3g.163.com'] start_urls = ['http://3g.163.com/touch/news/'] baseurl = 'http://3g.163.com/touch/reconstruct/article/list/BD29LPUBwangning/{}-10.html' def parse(self, response): # 10 20 for page in range(0,80,10): jsonurl = self.baseurl.format(page) yield
scrapy.Request(jsonurl,callback=self.parse_li_json) def parse_li_json(self,response): res = response.body.decode('utf-8') print(res) res = str(res).replace('artiList(','') res = res.replace(')','') j = json.loads(res) datas = j['BD29LPUBwangning'] print(datas) for data in datas: title = data['title'] ptime = data['ptime'] url = data['url'] source = data['source'] print(title,ptime,url,source) if url: yield scrapy.Request(url,callback=self.parse_detail) def parse_detail(self,response): soup = BeautifulSoup(response.body,'lxml') content = soup.find('div','content') image_urls = re.findall(r'data-src="(.*?)"', str(content)) # print(image_urls)

image.png

以上就是網易新聞APP爬蟲程式碼的實現,更多技術學習交流可檢視主頁加群。我們一起學習。

更多部落格文章請訪問:

相關推薦

python3 爬蟲實戰新聞APP

(一)使用工具 這裡使用了火狐瀏覽器的user-agent外掛,不懂的可以點這裡火狐外掛使用 (二)爬蟲操作步驟: 百度 網易新聞並選擇 步驟一: 步驟二: 步驟三: 步驟四: 最後一步: 注意點: (1

菜鳥學爬蟲新聞

學習了python基本語法後,對爬蟲產生了很大的興趣,廢話不多說,今天來爬取網易新聞,實戰出真知。 開啟網易新聞(https://news.163.com/)可以發現新聞分為這樣的幾個板塊: 這次選擇國內板塊來爬取文章。 1.準備 環境:python3 編譯器:PyChar

[python3.6]爬蟲實戰淘女郎圖片

原博主地址:http://cuiqingcai.com/1001.html 原博是python2.7寫的,並且隨著淘寶程式碼的改版,原博爬蟲已經不可用。 參考 http://minstrel.top/TaoBaoMM 這位博主跟我一樣最近正在學習爬蟲。 1 定個小目標 l

Python3[爬蟲實戰] scrapy汽車家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才,崔大神的部落格,試著嘗試一下爬取一個網站的全部內容,福利吧網站現在已經找不到了,然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站,女人都喜歡車,更何況男人呢。(

Python3爬蟲實戰大眾點評某地區所有酒店相關資訊

歷時一下午加一晚上,終於把這個爬蟲程式碼寫好,後面還有很多想完善的地方(譬如資料儲存用redis、使用多執行緒加快速度、爬取圖片、細分資料等等),待有空再做更改,下面是具體的步驟與思路: 工具:PyC

Python進階(十八)-Python3爬蟲小試牛刀CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程!http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章,轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Python爬蟲實戰鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入 開始鏈家爬蟲的時候,瞭解到需要實現模擬登入,不登入不能爬取三個月之內的資料,目前暫未驗證這個說法是否正確,這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程,花了一個週末的時間,部分問題暫未解決。 思路介

Python爬蟲實戰B站番劇資訊(詳細過程)

目標:爬取b站番劇最近更新 輸出格式:名字+播放量+簡介 那麼開始擼吧~ 用到的類庫: requests:網路請求 pyquery:解析xml文件,像使用jquery一樣簡單哦~ 1.分析頁面佈局,找到需要爬取的內

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一:雲歌單資訊,並存入mysql中

最近,需要使用Java進行爬蟲編寫,就去學了Java的爬蟲。因為之前學習了Scrapy框架,所以學Java的爬蟲使用了WebMagic框架,這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件:  這個框架是國人開發的,所以說明文件都是中文,簡單易懂。

Python3網路爬蟲:Scrapy入門實戰動態網頁圖片

Python版本: python3.+ 執行環境: Mac OS IDE: pycharm 一 前言 二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析 三 網頁分析

爬蟲基本介紹 && python3 爬蟲新聞排行榜

爬蟲基本介紹 1. 什麼是爬蟲? 爬蟲是請求⽹網站並提取資料的⾃自動化程式 2. 爬蟲的基本流程 發起請求 通過HTTP庫向目標站點發起請求,即傳送一個Request,請求可以包含額外的headers等資訊,等待伺服器器響應。 解析內容

Python3.7 爬蟲(三)使用 Urllib2 與 BeautifulSoup4 雲音樂歌單

廢話 在前面的的部落格中我們已經能夠使用 python3 配合自帶的庫或者第三方庫抓取以及解析網頁,我們今天來試試抓取網易雲音樂的歌單資訊 分析網頁 我們現在來分析網頁 點選右側介面中的 Network 進入網路請求分析介面,如下:

如何用Python爬蟲雲音樂歌曲

今天 http 分享圖片 分享 圖片 分分鐘 參考 down 技術 今天小編帶大家一起來利用Python爬取網易雲音樂,分分鐘將網站上的音樂down到本地。 跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了,在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python爬蟲雲音樂歌詞

網易雲歌詞 Python網絡爬蟲 網絡爬蟲 前幾天小編給大家分享了數據可視化分析,在文尾提及了網易雲音樂歌詞爬取,今天小編給大家分享網易雲音樂歌詞爬取方法。 本文的總體思路如下: 找到正確的URL,獲取源碼; 利用bs4解析源碼,獲取歌曲名和歌曲ID; 調用網易雲歌曲API,獲取歌詞; 將歌詞寫入

java實現爬蟲歌單資訊

之前一直對爬蟲很好奇,覺得它很神祕,而我有個朋友是做爬蟲的,最近有空就向他學習了一下,並試著寫了個小程式。 首先是獲得httpclient物件及httpresponse物件,此兩者是用於傳送請求及接受資料。 CloseableHttpClient httpClient

python3.基礎雲音樂【超詳細版】

簡單學習了python爬蟲之後,我們就可以嘿咻嘿咻了...因為平時就是用網易雲聽的歌,也喜歡看歌裡的評論,所以就爬網易雲音樂評論吧! 正式進入主題 首先還是去找目標網頁並開始分析網頁結構,如下 上面的三個箭頭都是所要找的資料,分別是評論使用者,評論和點贊數,都可以用正則表示式找出來,接下來繼續找怎樣

python 爬蟲 嚴選全網商品價格評論資料

1.獲取商品目錄 在Chrome瀏覽器開發者工具中,可以找到目錄的JS地址: http://you.163.com/xhr/globalinfo//queryTop.json  得到商品資料 def get_categoryList():

【Python】【爬蟲、騰訊、新浪、搜狐新聞到本地

這個實驗主要爬取新聞網站首頁的新聞內容儲存到本地,爬取內容有標題、時間、來源、評論數和正文。 工具:python 3.6 谷歌瀏覽器 爬取過程: 一、安裝庫:urllib、requests、BeautifulSoup 1、urllib庫:Urlli

Java爬蟲汽車車型庫

最近由於工作需要,寫了一個小的爬蟲,主要用於爬取網易汽車車型庫(http://product.auto.163.com/)上的不同品牌/車標(共175個車標)下不同車系(共1650個系列)的的圖片(各八張) 程式碼下載 程式碼如下: 共CarBra

python3程式設計08-爬蟲實戰網路圖片

本篇部落格爬取內容如下: 爬取校花網的圖片   準備工作: 1.安裝python3 2.安裝pycharm 3.安裝Scrapy,參考:Scrapy安裝   cmd命令新建Scrapy工程 1. 在D:\PythonProjects目錄下新建