python爬蟲——requests抓取某電影網站top100

阿新 • • 發佈：2019-02-04

今天閒的沒事，學習了一下爬蟲方面的知識，然後用requests庫實現了抓取貓眼網站top100電影，還是挺有意思的。

最近用到python比較多，也算是加強了python的運用吧 :-）

import  requests
from requests.exceptions import RequestException
import re
import json
from multiprocessing import pool  # 引入程序池，多程序抓取

def get_one_page(url):
     try:
        headers={
            "user-agent" 
: "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
        }
        response=requests.get(url,headers=headers)
        # check the status_code,if success,return the HTML code.
        if response.status_code==200:
            return response.text
        return 
 None
     except RequestException:
         return None

# macth movie info in each HTML
def parse_source_page(html):
    # re.S表示.可以匹配換行符
    pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                        +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>' 

                        +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    all_items=re.findall(pattern,html)
  #   print("一共抓取到"+str(len(all_items))+"個電影")
    for item in all_items:
        yield {
            "index":item[0],
            "image_url":item[1],
            "movie_name":item[2],
            "stars":item[3].strip()[3:],
            "show_time":item[4].strip()[5:],
            "rate":item[5]+item[6]
        }

# content是包含n個dict型別的列表，需要用json.dumps()轉為str型別
def save_info_to_file(content,filename):
    file=open(filename,"a",encoding="utf-8")
    for i in range(len(content)):
        file.write(json.dumps(content[i],ensure_ascii=False)+"\n")
    file.close()

def main(offset):
    url="https://maoyan.com/board/4?offset="+str(offset)
    html=get_one_page(url)
    item_list=[]
    for item in parse_source_page(html):
        print(item)
        item_list.append(item)
    save_info_to_file(item_list,"movies_top.txt")

if __name__=="__main__":
    # 多執行緒抓取,但抓取到的內容不一定是rank 1-100
    # spider_pool=pool.Pool()
    # spider_pool.map(main,[i*10 for i in range(10)])
    for i in range(10):
        main(i*10)

抓取記錄

python爬蟲——requests抓取某電影網站top100

今天閒的沒事，學習了一下爬蟲方面的知識，然後用requests庫實現了抓取貓眼網站top100電影，還是挺有意思的。最近用到python比較多，也算是加強了python的運用吧 :-） imp

Python爬蟲之抓取貓眼電影TOP100

執行平臺：windowsPython版本：Python 3.7.0IDE:Sublime Text瀏覽器：Chrome瀏覽器思路： 1.檢視網頁原始碼 2.抓取單頁內容 3.正則表示式提取資訊

python+rabbitMQ抓取某婚戀網站用戶數據

arm art header 留言 ima 數據轉換公司頁面進行 “總是向你索取卻不曾說謝謝你～～～～”，在博客園和知乎上面吸收了很多知識，以後也會在這裏成長，這裏挺好，謝謝博客園和知乎，所以今天也把自己在項目期間做的東西分享一下，希望對朋友們有所幫助。。。。廢

python requests抓取貓眼電影

def res b- int nic status () tle proc 1. 網址：http://maoyan.com/board/4? 2. 代碼： 1 import json 2 from multiprocessing import Po

用Python Scrapy爬取某電影網站並存儲入mysql

爬取目標：javlib，使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。首先定義items.pyimport scrapy class Av

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

Python爬蟲：抓取手機APP的數據

sig ner ont sele ebo span fail pytho 抓取摘要: 大多數APP裏面返回的是json格式數據，或者一堆加密過的數據。這裏以超級課程表APP為例，抓取超級課程表裏用戶發的話題。 1、抓取APP數據包方法詳細可以參考這篇博文：

使用webpasser抓取某笑話網站整站內容

實現標題失效 idt 策略 .net see jsoup 目標使用webpasser框架抓取某一笑話網站整站內容。webpasser是一款可配置的爬蟲框架，內置頁面解析引擎，可快速配置出一個爬蟲任務。配置方式將頁面解析和數據存儲分離，如果目標網站改版，也可以快速修復。

python爬蟲之抓取代理伺服器IP

轉載請標明出處： http://blog.csdn.net/hesong1120/article/details/78990975 本文出自:hesong的專欄前言使用爬蟲爬取網站的資訊常常會遇到的問題是，你的爬蟲行為被對方識別了，對方把你的IP遮蔽了，返回

使用golang+代理IP+goquery開發爬蟲（爬取國外電影網站）

package main import ( "fmt" "github.com/PuerkitoBio/goquery" "net/http" "net/url" "time" "strconv"

Python爬蟲專案--爬取某寶男裝資訊

本次爬取用到的知識點有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目標網站 1. 開啟某寶首頁, 輸入"男裝"後點擊"搜尋", 則跳轉到"男裝"的搜尋介面. 2. 空白處"右擊"再點選"檢查"審查網頁元素, 點選"Network". 1) 找到對應的URL, URL

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

專案github地址：https://github.com/kocor01/spider_cloub/ Python版本為3.6 最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖使用了 jieba分詞，雲圖用word

python爬蟲，抓取新浪科技的文章（beautifulsoup+mysql）

這幾天的辛苦沒有白費，總算完成了對新浪科技的文章抓取，除非沒有新的內容了，否則會一直爬取新浪科技的文章。想了解更多可以關注我的github:https://github.com/libp/WebSpider 如果想要資料庫表結構可以留下郵箱~ # -*- coding:

python爬蟲，爬取貓眼電影top100

import requests from bs4 import BeautifulSoup url_list = [] all_name = [] all_num = [] all_actor = [] all_score = [] class Product_url():

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

[python爬蟲入門]爬取豆瓣電影排行榜top250

要爬取內容的是豆瓣網的電影排行top250: https://movie.douban.com/top250, 將電影名和評分爬取下來並輸出, 如下圖: 使用了tkinter做了簡單頁面然後分析如何爬取內容: 首先爬取標題: 檢視原始碼後, 發現標

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

Python爬蟲：抓取手機APP資料

1、抓取APP資料包得到超級課程表登入的地址：http://120.55.151.61/V2/StudentSkip/loginCheckV4.action 表單：表單中包括了使用者名稱和密碼，當然都是加密過了的，還有一個裝置資訊，直接

python爬蟲：抓取頁面上的超連結

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間. 頁面上的超連結在HTML中，超

python爬蟲——requests抓取某電影網站top100

今天閒的沒事，學習了一下爬蟲方面的知識，然後用requests庫實現了抓取貓眼網站top100電影，還是挺有意思的。

相關推薦