爬蟲 - 動態分頁抓取遊民星空的資訊 - bs4

阿新 • • 發佈：2018-11-09

# coding=utf-8
# !/usr/bin/env python
'''
    author: dangxusheng
    desc  :  動態分頁抓取 遊民星空 的資訊
    date  : 2018-08-29
'''

import requests
from bs4 import BeautifulSoup
import json
import time


url = "https://www.gamersky.com/news/"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36 Qiyu/2.1.1.1 
",
    "Referer": "https://www.gamersky.com/news/"
}


# 獲取每一頁
def once_page_info(page_index=1):
    time_stramp = str(time.time()).replace('.', '')[0:13]
    time_stramp = str(time_stramp)
    # 分頁提取
    url = "https://db2.gamersky.com/LabelJsonpAjax.aspx?callback=jQuery18308266280560965529_1541308409652&jsondata=%7B%22type%22%3A%22updatenodelabel%22%2C%22isCache%22%3Atrue%2C%22cacheTime%22%3A60%2C%22nodeId%22%3A%2211007%22%2C%22isNodeId%22%3A%22true%22%2C%22page%22%3A 
" + str(
        page_index) + "%7D&_=" + time_stramp
    r = requests.get(url, headers=headers)
    # 返回回來的資料,內部是json字串格式,但是開頭和結尾有一部分干擾字串,去除即可
    now_page_html = json.loads(r.text[41:-2])['body']
    soup = BeautifulSoup(now_page_html, 'html.parser')
    # ul = soup.find('ul', attrs={"class": "pictxt contentpaging"}) 

    li_list = soup.find_all('li')
    ls = []
    for once_li in li_list:
        once_type = once_li.find('a', attrs={'class': 'dh'}).string
        once_type = once_type if once_type != None else "暫無型別"

        once_title = once_li.find('a', attrs={'class': 'tt'}).string
        once_title = once_title if once_title != None else "暫無標題"

        once_info = once_li.find('div', attrs={'class': 'txt'}).string
        once_info = once_info if once_info != None else "暫無簡介"

        once_time = once_li.find('div', attrs={'class': 'time'}).string
        once_visited = once_li.find('div', attrs={'class': 'visit gshit'}).string
        once_comment = once_li.find('div', attrs={'class': 'pls cy_comment'}).string
        once_img_url = once_li.find('img', attrs={'class': 'pe_u_thumb'}).attrs['src']
        ls.append(
            {'type': once_type, 'title': once_title, 'info': once_info, 'time': once_time, 'visited': once_visited,
             'comment': once_comment, 'img_url': once_img_url})
    return ls


# 儲存每一個的內容
def save_to_file(all_info):
    with open('./gemersky.txt', 'a', encoding='utf-8') as file:
        for o in all_info:
            # 按照指定格式儲存
            file.write("%s::%s::%s::%s::%s::%s::%s\n"%(o['type'],o['title'],o['time'],o['visited'],o['comment'],o['img_url'],o['info']))


for i in range(1, 10):
    page_info = once_page_info(i)
    save_to_file(page_info)
    print('第%i頁下載完成' % i)

爬蟲 - 動態分頁抓取遊民星空的資訊 - bs4

# coding=utf-8 # !/usr/bin/env python ''' author: dangxusheng desc : 動態分頁抓取遊民星空的資訊 date : 2018-08-29 ''' import requests from bs4 impo

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容

1，引言在Python網路爬蟲內容提取器一文我們詳細講解了核心部件：可插拔的內容提取器類gsExtractor。本文記錄了確定gsExtractor的技術路線過程中所做的程式設計實驗。這是第二部分，第一部分實驗了用xslt方式一次性提取靜態網頁內容並轉換成xml格式。留下了

爬取動態分頁數據案例

標題頁碼 [] use 當前 sap list style 內容需求：爬取東方財富證券http://kuaixun.eastmoney.com/ssgs.html的財經新聞數據1.爬取頁面中的標題和對應的內容：【標題】內容2.進行分頁操作，爬取當前頁面所有頁碼對應的

簡易資料分析 12 | Web Scraper 翻頁——抓取分頁器翻頁的網頁

這是簡易資料分析系列的第 12 篇文章。前面幾篇文章我們介紹了 Web Scraper 應對各種翻頁的解決方法，比如說修改網頁連結載入資料、點選“更多按鈕“載入資料和下拉自動載入資料。今天我們說說一種更常見的翻頁型別——分頁器。本來想解釋一下啥叫分頁器，翻了一堆定義覺得很繁瑣，大家也不是第一年上網了，

小白爬蟲第一彈之抓取妹子圖【更新版】

mozilla dir mac print 1.0 bsp 實例化 com def 最近對爬蟲感興趣，參考了 http://cuiqingcai.com/3179.html 這篇文章，琢磨的小試身手，但是按照原文發現圖片下載下來全是打不開的圖片，這不是我想要的啊，嘗試

實現多進程爬蟲的數據抓取

multi 函數返回參數 style 核數返回舉例 lis 導入要實現多進程爬蟲的數據抓取，要用到庫multiprocessing並導入Pool: from multiprocessing import Pool 接著導入進程池 pool = Pool(pro

【PHP爬蟲】curl+simple_html_dom 抓取百度最新消息新聞標題，來源，URL

work getc spec 標題 hasattr url format protect include <title>新聞轉載統計</title> <script> function submit(){ wd=d

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

爬蟲-python實現的抓取騰訊視頻所有電影

mar read light else highlight 電影 %s find 圖片用python實現的抓取騰訊視頻所有電影的爬蟲 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import

Python爬蟲9-----實例-抓取上海高級人民法院網開庭公告數據

web bsp 實例上海取數 tro arc http 融合通過前面的文章已經學習了基本的爬蟲知識，通過這個例子進行一下練習，畢竟前面文章的知識點只是一個一個單獨的散知識點，需要通過實際的例子進行融合。分析網站其實爬蟲最重要的是前面的分析網站，只有對要爬取

JPA 分頁以及取尾相關操作----------pageable(通用Mysql、Oracle)

公司有些專案需要通用mysql與oracle，如果分別維護兩套程式碼，就會很麻煩，但是在mysql環境下用limit來進行分頁以及取最後一條資料這種類似的操作，到oracle資料庫是不能用的。所以就要用到pageable &n

python3 django動態分頁引發的list切片下標越界問題

顯示動態作者方式頁碼 django 比較獲取數據解決起先是扒了一個包，動態分頁的，但這個包分頁之前要加載全部的數據，我這東西後臺是個爬蟲，不一定瀏覽的完所以這麽做有點浪費資源，於是我改造了一下。 # :param obj_count: 獲得條目總數# :pa

爬蟲的增量式抓取和資料更新

爬蟲的增量式抓取和資料更新頁面爬的多了，量上去了之後，就會遇到其他的問題，其實不管做什麼技術量大了都會有問題。一般情況下，我認為解決"大量"問題的思路有兩個：一種是著力於優化系統的能力，讓原本只能一分鐘處理100條的系統提升到一分鐘1000條之類的，在我看來並行、分散式、叢

HTML動態分頁函式

HTML動態分頁函式 public class PageBarHelper{ /// <summary> /// 動態分頁函式 /// </summary> /// <param name="p

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

爬蟲原理與資料抓取-----HTTP和HTTPS的請求與響應

HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）：是一種釋出和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）簡單講是HTTP的安全版，在HTTP下加入

爬蟲原理與資料抓取----- urllib2：GET請求和POST請求

urllib2預設只支援HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 和 urllib2 都是接受URL請求的相關模組，但是提供了不同的功能。兩個最顯著的不同如下： urllib 僅可以接受URL，不能建立設定了headers 的Request 類例項

反爬蟲-python3.6抓取貓眼電影資訊

思路分解： 1.頁面資訊 url:http://maoyan.com/cinema/24311?poi=164257570 檢視資訊發現價格存在亂碼現象：重新整理頁面找到亂碼的URL，下載woff格式檔案：方法：複製URL：右鍵單擊轉

爬蟲—01-爬蟲原理與資料抓取

爬蟲的更多用途 12306搶票網站上的頭票簡訊轟炸關於Python網路爬蟲，我們需要學習的有： Python基礎語法學習（基礎知識）對HTML頁面的內容抓取（資料抓取）對HTML頁面的資料提取（資料提取） Scrapy框架以及scrapy-redis分散式策略（第三方框架）爬蟲(Spider

爬蟲 - 動態分頁抓取 遊民星空 的資訊 - bs4

相關推薦

爬蟲 - 動態分頁抓取遊民星空的資訊 - bs4