Python爬蟲系列：騰訊課堂Scrapy爬蟲

阿新 • • 發佈：2019-01-30

業務需求：

需要爬取騰訊課堂IT.網際網路類別下的雲端計算大資料子類別下的所有課程資料：

課程名稱、價格、購買人數、機構名稱

1、編寫item.py檔案

定義要爬取的資料欄位：

import scrapy

class TxktcrawlerItem(scrapy.Item):
    # define the fields for your item here like:
    title=scrapy.Field()
    users=scrapy.Field()
    price=scrapy.Field()
    agency=scrapy.Field()

2、在mysql中建表

因為需要將爬取到的資料儲存到mysql中，所以首先在mysql中建表：

use test;

create table txkt(
	id int unsigned auto_increment primary key,
    title char(50),
    users int(10),
    price float(10),
    agency char(50)
);

3、編寫pipelines.py檔案

將爬取到的資料儲存到mysql中

import pymysql

class TxktcrawlerPipeline(object):
    def __init__(self):
        self.conn=pymysql.connect(host="127.0.0.1",
                                  user="sunbin",
                                  passwd="100200",
                                  db="test",
                                  charset="utf8")

    def process_item(self, item, spider):
        for j in range(1,len(item["title"])):
            title=item["title"][j]
            users=item["users"][j]
            price=item["price"][j]
            agency=item["agency"][j]
            cursor = self.conn.cursor()
            sql="insert into txkt(title,users,price,agency) values('"+title+"','"+users+"','"+ \
                price+"','"+agency+"');"
            cursor.execute(sql)
            self.conn.commit()
        return item

    def close_spider(self,spider):
        self.conn.close()

4、settings.py檔案設定

開啟pipelines

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'txktcrawler.pipelines.TxktcrawlerPipeline': 300,
}

5、spiders檔案編寫

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from txktcrawler.items import TxktcrawlerItem

class TxktSpider(scrapy.Spider):
    name = 'txkt'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2007']

    def parse(self, response):
        item=TxktcrawlerItem()
        item['title']=response.xpath('//div[@class="market-bd market-bd-6 course-list course-card-list-multi-wrap"]//h4[@class="item-tt"]/a/@title').extract()
        print(item['title'])
        item['users']=response.xpath('//span[@class="line-cell item-user"]/text()').extract()
        print(item['users'])
        item['price']=response.xpath('//div[@class="item-line item-line--bottom"]/span/text()').extract()
        print(item['price'])
        item['agency']=response.xpath('//span[@class="item-source"]/a/@title').extract()
        print(item['agency'])
        yield item

        for i in range(1,35):
            nexturl="https://ke.qq.com/course/list?mt=1001&st=2007&task_filter=0000000&&page="+str(i)
            yield Request(nexturl,callback=self.parse)

說明：利用for迴圈爬取全部35頁的資料~

6、爬取結果示例

Python爬蟲系列：騰訊課堂Scrapy爬蟲

業務需求：需要爬取騰訊課堂IT.網際網路類別下的雲端計算大資料子類別下的所有課程資料：課程名稱、價格、購買人數、機構名稱1、編寫item.py檔案定義要爬取的資料欄位：import scrapy class TxktcrawlerItem(scrapy.Item):

Scrapy網路爬蟲系列教程（一） | Scrapy爬蟲框架的開發環境搭建

本文主要介紹一下Scrapy爬蟲框架的開發環境搭建。主要有： Python的安裝，IDE的選擇，MySQL及Navicat的安裝，開發環境Virtualenv、Virtualenvwrapper的搭建以及Scrapy的安裝。 Pytho

騰訊課堂1：使用Jmeter內置的錄制功能進行錄制

bsp family logs -1 figure mil 宋體報錯 conf 1、設置http代理服務器打開火狐——點擊選項——高級——網絡——設置設置完成點擊確定 2、查看端口是否被占用的命令 netstat -ano 3、排除模式 .*\.gif .*

Python爬蟲系列：判斷目標網頁編碼的幾種方法

qpi data- tps 分享運行 ofo html nbsp 來看在爬取網頁內容時，了解目標網站所用編碼是非常重要的，本文介紹幾種常用的方法，並使用幾個網站進行簡單測試。代碼運行結果：從不同國家的幾個網站測試結果來看，utf8使用的較多（對於純英文網站，用什

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

Python程式設計：騰訊防水牆原理淺析與Flask結合測試

騰訊防水牆地址：https://007.qq.com/ 基本原理：前端認證 + 後端認證前端認證前端引數： id : 元素的id(必須) data-appid : AppID(必須) data-cbfn : 回撥函式名(必須) data-biz-state : 業務自

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

Python爬蟲系列：京東商品爬蟲

需求：爬取京東手機頻道的手機商品資訊：名稱、價格、評論數、商家名稱等這裡涉及2個問題需要解決。 1、手機圖片的爬取和儲存 2、手機價格的爬取與儲存（因為手機價格是非同步載入的，無法從網頁原始碼中直接獲取）圖片的爬取和儲存 import re

騰訊課堂——IMWeb訓練營： Day4 作業

騰訊課堂 —— IMWeb訓練營：Day4 作業要求：製作一張類似於三國殺的卡片，主要考察CSS中position、z-index等的理解和運用。效果圖：程式碼： <!DOCTYPE HTML> <html> <head&g

Python爬蟲---爬取騰訊動漫全站漫畫

[TOC] ##操作環境 1. 編譯器：pycharm社群版 2. python 版本：anaconda python3.7.4 3. 瀏覽器選擇：Google瀏覽器 4. 需要用到的第三方模組：requests , lxml , selenium , time , bs4,os ##網頁分析 ###明確目標

騰訊課堂的物理實驗（2017計蒜客初賽第三場）

text ram amp tex 方向 top names rip des A題在騰訊課堂的物理課上，進行了一個有趣的物理實驗。在一個長度為 LL 米的光滑軌道上，小車 A 在 00 時刻以 1\mathrm{m/s}1m/s 的速度從左端出發向右運動，小車 B 在

騰訊課堂老師qq號碼轉換成 teacherid

col style eache log pre code spa 轉換轉換成 result = 215696775^858006833 if(result<0){ result=4294967296+result; } alert(result); 騰訊課堂老師

騰訊副總裁姚星：騰訊AI Lab將致力打造通往AGI之路

騰訊 AI 背景：3月15日，騰訊AI Lab第二屆學術論壇在深圳舉行，聚焦人工智能在醫療、遊戲、多媒體內容、人機交互等四大領域的跨界研究與應用。全球30位頂級AI專家出席，對多項前沿研究成果進行了深入探討與交流。今天，騰訊副總裁姚星在騰訊AI Lab主辦的第二屆學術論壇上表示，AI Lab未來將致力

從研究到應用：騰訊AI Lab的自然語言理解和生成

智能語言 AI 3月16日在騰訊AILab第二屆學術論壇上，騰訊AI Lab高級研究員李菁博士介紹了實驗室目前在NLP方面重點關註的兩大方向——如何理解和生成自然語言，並介紹了實驗室的相關研究和應用成果。自然語言的理解自然語言理解的目標是使得機器能夠像人一樣進行閱讀。機器不能像人一樣通過直覺和感知來理

扣響AI服務細分化之門：騰訊超級大腦的三項差異能力

騰訊AI我們為什麽要研究AI？為什麽科技企業乃至各國政府都紛紛大規模地投入資金來支持AI研究？並不僅僅是因為它很好玩兒，以及身上所附帶的天然的類人感覺。最重要的是，它將給我們的生活、生產方式帶來巨大的變化。AI復興的十幾年裏，尤其是最近幾年，它已經逐步走出了實驗室和論文，開始滲入了人們的生活當中。而隨著研發技

從教務網爬蟲程序到騰訊雲上的運行

pytho 創建輸入 ubunt 雲服務 test CP user ann 從教務網爬蟲程序到騰訊雲上的運行主要內容有以下幾方面： pip3以及相關python包的安裝 mysql數據庫的連接以及相關操作騰訊雲服務器的設置與連接，文件傳輸等操作 pip3以及相關p

魔方與通行證：騰訊的AI是怎麽in All的？

In 革命情況下 font class 中心有效幫助研究 All到底在哪？自騰訊在2017年11月提出“AI in All”的戰略目標之後，很多人評論者都提出了這個問題。可謂短時間就引發了多方討論。有人認為這只是一句戰略口號，也有人覺得其中隱含著騰訊在AI時代的顛覆

JavaSE環境下的shiro（源自騰訊課堂）

height 授權 http 輸出日誌 14. mage src 下載 ssi Shiro作用：認證（登錄）、授權（鑒權）、加密（用戶名/密碼加密）、會話管理（session）、Web集成、緩存 apache官網可以下載　　圖一　　圖二

Python爬蟲系列：騰訊課堂Scrapy爬蟲

相關推薦