使用python爬蟲——爬取淘寶圖片和知乎內容

阿新 • • 發佈：2018-12-24

本文主要內容：

目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論
最簡單的爬蟲——如下python程式碼
爬取淘寶上模特圖片
爬取知乎的資料，需偽裝成GoogleBot去爬，否則ip會被封掉，並通過MySQLdb儲存到自己建的資料庫中
爬取https://www.v2ex.com社群下的所有討論話題

目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論

有2種實現方案：
1、使用pyspider開源框架，安裝好pyspider並啟動後，預設是本地的5001埠，新建一個爬蟲專案，寫下如下python程式碼實踐爬去知乎的問題和評論資料，同時使用python-mysql，把爬到的資料存到自己建的一個數據庫，把資料留給自己使用分析哈哈！
2、使用urllib,PyQuery,requests,BeautifulSoup等庫自己實現一個簡單的爬蟲,可以爬取圖片下載下來，存到資料庫，或者爬取文字

本文共4部分：

寫一個最簡單的爬蟲
爬取淘寶上的模特圖片
爬取知乎上的內容，並通過MySQLdb儲存到自己建的資料庫中
爬取https://www.v2ex.com社群下的所有討論話題

最簡單的爬蟲——如下python程式碼

import requests
import re
from bs4 import BeautifulSoup
def most_simple_crawl():
    # 最簡單的爬蟲
    content = requests.get('http://www.qiushibaike.com').content
    soup = BeautifulSoup(content, 'html.parser')
    for div in soup.find_all('div', {'class': 'content'}):
        print div.text.strip()
        
if __name__ == '__main__':
        most_simple_crawl()

爬取淘寶上模特圖片

# coding=utf-8
import re
import urllib2
import urllib


def crawl_taobao():
    # 淘寶上搜索的關鍵詞
    key = "比基尼"
    key = urllib2.quote(key)
    headers = ("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0")
    opener = urllib2.build_opener()
    opener.addheaders = [headers]
    urllib2.install_opener(opener)
    # 分頁爬取
    for i in range(0, 4):
        url = "https://s.taobao.com/search?q=" + key
        data = urllib2.urlopen(url).read().decode("utf-8", "ignore")
        pat = 'pic_url":"//(.*?)"'
        imagelist = re.compile(pat).findall(data)
        # 爬取每一頁中所有的圖片
        for j in range(0, len(imagelist)):
            thisimg = imagelist[j]
            thisimgurl = "http://" + thisimg
            # 儲存到自己電腦的D盤
            savefile = 'D:/pic/' + str(i) + str(j) + '.jpg'
            urllib.urlretrieve(thisimgurl, filename=savefile)


if __name__ == '__main__':
    crawl_taobao()

爬取知乎的資料，需偽裝成GoogleBot去爬，否則ip會被封掉，並通過MySQLdb儲存到自己建的資料庫中

from pyspider.libs.base_handler import *
import MySQLdb
import random

class Handler(BaseHandler):
    crawl_config = {
        'headers':{
          'User-Agent':'GoogleBot',
          'Host':'www.zhihu.com',
        }
    }
    
    def __init__(self):
         self.db = MySQLdb.connect('localhost', 'root', '123456', 'onlineq', charset='utf8')
    # 把爬到的知乎問題存到自己建的資料庫中
    def add_question(self,title,content,comment_count):
        try:
            cursor=self.db.cursor()
            sql = 'insert into question(title, content, user_id, created_date,comment_count)values ("%s","%s", %d,now(),%d)'%(title,content,random.randint(20,26),comment_count)
            print sql
            cursor.execute(sql)
            qid= cursor.lastrowid
            print qid
            self.db.commit()
            return qid
        except Exception, e:
            self.db.rollback()
        return 0
    # 把爬到的問題評論存到自己建的資料庫中
    def add_comment(self,qid, comment):
        try:
            cursor=self.db.cursor()
            sql='insert into comment (content, entity_type, entity_id, user_id, created_date) values("%s",100,%d,%d ,now())' % (comment, qid,random.randint(20,26))
            print sql
            cursor.execute(sql)
            self.db.commit()
        except Exception, e:
            print e
            self.db.rollback()
        
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://www.zhihu.com/topic/19552330/top-answers', callback=self.index_page,validate_cert=False)
    
        
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[data-za-detail-view-element_name="Title"]').items():
            self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False)

    @config(priority=2)
    def detail_page(self, response):
        title = response.doc('h1.QuestionHeader-title').text()
        content = response.doc('span.RichText.ztext').html()
        items = response.doc('span.RichText.ztext.CopyrightRichText-richText').items()
        if content==None:
            content = ''
        content = content.replace('"','\\"')
        qid=self.add_question(title,content,sum(1 for x in items))
        for each in response.doc('span.RichText.ztext.CopyrightRichText-richText').items():
            self.add_comment(qid,each.html().replace('"','\\"'))
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

爬取https://www.v2ex.com社群下的所有討論話題


from pyspider.libs.base_handler import *
import random
import MySQLdb

class Handler(BaseHandler):
    crawl_config = {
    }

    def __init__(self):
         self.db = MySQLdb.connect('localhost', 'root', '123456', 'onlineq', charset='utf8')
    
    def add_question(self,title,content):
        try:
            cursor=self.db.cursor()
            sql = 'insert into question(title, content, user_id, created_date,comment_count)values ("%s","%s", %d,now(),0)'%(title,content,random.randint(20,22))
            print sql
            cursor.execute(sql)
            print cursor.lastrowid
            self.db.commit()
        except Exception, e:
            self.db.rollback()
    
    
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://www.v2ex.com/', callback=self.index_page,validate_cert=False)
        

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="https://www.v2ex.com/?tab="]').items():
            self.crawl(each.attr.href, callback=self.tab_page,validate_cert=False)
            

    @config(priority=2)
    def tab_page(self, response):
        for each in response.doc('a[href^="https://www.v2ex.com/go/"]').items():
            self.crawl(each.attr.href, callback=self.board_page,validate_cert=False)
            

    @config(priority=2)
    def board_page(self, response):
        for each in response.doc('a[href^="https://www.v2ex.com/t/"]').items():
            url=each.attr.href
            if url.find('#reply')>0:
                url=url[0:url.find('#')]
            self.crawl(url, callback=self.detail_page,validate_cert=False)
        for each in response.doc('a.page_normal').items():
            self.crawl(each.attr.href, callback=self.board_page,validate_cert=False)
            
            
    @config(priority=2)
    def detail_page(self, response):
        title = response.doc('h1').text()
        content = response.doc('div.topic_content').html().replace('"','\\"')
        self.add_question(title,content)
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

Python爬蟲(第一季)之爬取淘寶圖片

一、分析規律第一頁時第二頁時s=48,第三頁時s=96（每頁為48的倍數）當q=外套時（q為關鍵字）用於每頁圖片的正則表達目標二、走起…… 匯入

Python爬取淘寶店鋪和評論

adg 測試工具 .exe .html bar lis 界面參數 bdr 1 安裝開發需要的一些庫 (1) 安裝mysql 的驅動：在Windows上按win+r輸入cmd打開命令行，輸入命令pip install pymysql，回車即可。 (2) 安裝自動化測試的驅動

python爬蟲爬取百度圖片

爬蟲爬取百度圖片因公司業務需要，而且公司人手不足，我這個測試工程師需要臨時客串一下其他職位，所以，由我來爬取百度圖片。說明 1、最近稍微有點兒忙，沒顧得上整理。而且程式碼量比較少，所以註釋比較少。 2、如果需要直接使用我的程式碼，請將相應路徑檔名稱更改。具體

python爬蟲爬取好看的圖片

遇到好看的圖片你還在一張張用滑鼠點選儲存？作為一個IT從業者那就out了。。。必須高大上起來今天給大家介紹如何用爬蟲爬取好看的圖片，話不多說，開始。。。。。首先小夥伴們需要確保自己已經安裝了python和pip，並且已經配置好了環境變數，接下來需要安裝今天所用到的第

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

python網路爬蟲學習(六)利用Pyspider+Phantomjs爬取淘寶模特圖片

一.新的問題與工具平時在淘寶上剁手的時候，總是會看到各種各樣的模特。由於自己就讀於一所男女比例三比一的工科院校……寫程式碼之餘看看美女也是極好的放鬆方式。但一張一張點右鍵–另存為又顯得太過麻煩而且不切實際，畢竟圖片太多了。於是，我開始考慮用萬能的pyth

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：

目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論

最簡單的爬蟲——如下python程式碼

爬取淘寶上模特圖片

爬取知乎的資料，需偽裝成GoogleBot去爬，否則ip會被封掉，並通過MySQLdb儲存到自己建的資料庫中

爬取https://www.v2ex.com社群下的所有討論話題

相關推薦