Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

阿新 • • 發佈：2017-08-03

start table ise utf-8 action jpg yield star root

爬取目標：使用scrapy爬取所有課程數據，分別為

1.課程名 2.課程簡介 3.課程等級 4.學習人數

並存入MySQL數據庫（目標網址 http://www.imooc.com/course/list）

技術分享

一.導出數據文件到本地

1.新建imooc項目

1 scrapy startproject imooc

2.修改 items.py，添加項目item

1 from  scrapy import Item,Field
2 class ImoocItem(Item):
3     Course_name=Field()#課程名稱
4     Course_content=Field()# 
課程內容
5     Course_level=Field()#課程等級
6     Course_attendance=Field()#課程學習人數

3.在 spiders目錄下制作爬蟲

vi imooc_spider.py

 1 # -*- coding: utf-8 -*-
 2 from scrapy.spiders import CrawlSpider
 3 from scrapy.selector import Selector
 4 from imooc.items import ImoocItem
 5 from scrapy.http import Request
 6 
 
 7 
 8 class Imooc(CrawlSpider):
 9     name=‘imooc‘
10     allowed_domains = [‘imooc.com‘]
11     start_urls = []
12     for pn in range(1,31):
13         url = ‘http://www.imooc.com/course/list?page=%s‘ % pn
14         start_urls.append(url)
15 
16     def parse(self,response):
17         item=ImoocItem()
 
18         selector=Selector(response)
19         Course = selector.xpath(‘//a[@class="course-card"]‘)
20 
21         for eachCourse in Course:
22             Course_name = eachCourse.xpath(‘div[@class="course-card-content"]/h3[@class="course-card-name"]/text()‘).extract()[0]
23             Course_content = eachCourse.xpath(‘div[@class="course-card-content"]/div[@class="clearfix course-card-bottom"]/p[@class="course-card-desc"]/text()‘).extract()
24             Course_level = eachCourse.xpath(‘div[@class="course-card-content"]/div[@class="clearfix course-card-bottom"]/div[@class="course-card-info"]/span/text()‘).extract()[0]
25             Course_attendance = eachCourse.xpath(‘div[@class="course-card-content"]/div[@class="clearfix course-card-bottom"]/div[@class="course-card-info"]/span/text()‘).extract()[1]
26             item[‘Course_name‘] = Course_name
27             item[‘Course_content‘] = ‘;‘.join(Course_content)
28             item[‘Course_level‘] = Course_level
29             item[‘Course_attendance‘] = Course_attendance
30             yield item

4.現在可以運行爬蟲把數據導出來，現在以cvs格式測試

1 scrapy crawl imooc -o data.csv -t csv

查看文件

技術分享

二.爬取數據並存入MySQL數據庫

1.這裏使用MySQL數據庫存儲數據，需要用到 MySQLdb包，確保已經安裝

首先建立數據庫和表

--創建數據庫
create database imooc DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

--創建表
create table imooc_info2(
title varchar(255) NOT NULL COMMENT ‘課程名稱‘,
content varchar(255) NOT NULL COMMENT ‘課程簡介‘,
level varchar(255) NOT NULL COMMENT ‘課程等級‘,
sums int  NOT NULL COMMENT ‘課程學習人數‘
)

2.修改pipelines.py

 1 # -*- coding: utf-8 -*-
 2 
 3 # Define your item pipelines here
 4 #
 5 # Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
 6 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
 7 
 8 
 9 import json
10 from twisted.enterprise import adbapi
11 from scrapy import log
12 import MySQLdb
13 import MySQLdb.cursors
14 import codecs
15 
16 class ImoocPipeline(object):
17     def __init__(self):
18         self.file = codecs.open(‘imooc.json‘, ‘w‘, encoding=‘utf-8‘)
19     def process_item(self, item, spider):
20         line = json.dumps(dict(item), ensure_ascii=False) + "\n"
21         self.file.write(line)
22         return item
23     def spider_closed(self, spider):
24         self.file.close()
25 
26 class MySQLPipeline(object):
27 
28     def __init__(self):
29         self.dbpool = adbapi.ConnectionPool("MySQLdb",
30                                            db = "imooc",            # 數據庫名
31                                            user = "root",           # 數據庫用戶名
32                                            passwd = "hwfx1234",     # 密碼
33                                            cursorclass = MySQLdb.cursors.DictCursor,
34                                            charset = "utf8",
35                                            use_unicode = True
36                                            )
37     def process_item(self, item, spider):
38         query = self.dbpool.runInteraction(self._conditional_insert, item)
39         query.addErrback(self.handle_error)
40         return item
41 
42     def _conditional_insert(self, tb, item):
43         tb.execute(""" insert into imooc_info2 (title,content,level,sums) values (%s,%s,%s,%s)""",(item[‘Course_name‘],item[‘Course_content‘],item[‘Course_level‘],item[‘Course_attendance‘]))
44         log.msg("Item data in db: %s" % item, level=log.DEBUG)
45 
46     def handle_error(self, e):
47         log.err(e)

3.修改setting.py

加入MySQL配置，添加pipelines.py 內新建類

 1 # start MySQL database configure setting
 2 MYSQL_HOST = ‘localhost‘
 3 MYSQL_DBNAME = ‘imooc‘
 4 MYSQL_USER = ‘root‘
 5 MYSQL_PASSWD = ‘hwfx1234‘
 6 # end of MySQL database configure setting
 7 ITEM_PIPELINES = {
 8             ‘imooc.pipelines.ImoocPipeline‘: 300,
 9             ‘imooc.pipelines.MySQLPipeline‘: 300,
10                 }

4.開始爬蟲

1 scrapy crawl imooc

查看數據庫表數據，數據已經入庫。

技術分享

總結：scrapy簡單的應用，還沒考慮反爬蟲、分布式等問題，還需要多練習。

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

Python爬蟲-爬取慕課網課程

Python爬取網路圖片使用正則表示式解析Html格式的檔案(其他更好的方法以後會繼續更新) 獲取慕課網課程圖片從網站上獲取課程圖片首先檢視頁面html程式碼圖2 html程式

爬蟲小練手-爬取慕課網首頁的圖片

#!/usr/bin/python #-*- coding:utf-8 -*- import re import requests import Queue import threading import urllib from bs4 import BeautifulSo

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

運用scrapy爬取鏈家網房價並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。

scrapy爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。xiaohuawang/items.py: 專

網路爬蟲-使用Scrapy爬取千圖網素材

話說好久好久好久沒寫過scrapy的demo了，已經快忘得差不多了，今天一個小老弟讓我幫他看看怎麼大量快速爬取千圖網的素材，我進網站看了看，一是沒有什麼反爬措施，二是沒有封ip的限制，那這種情況，鐵定用scrapy這個非同步框架最舒服了，於是花了十幾分鍾看了看自

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

爬蟲專案：scrapy爬取暱圖網全站圖片

一、建立專案、spider，item以及配置setting建立專案：scrapy startproject nitu建立爬蟲：scrapy genspider -t basic nituwang nipic.com寫個item：# -*- coding: utf-8 -*-

Scrapy爬取淘寶網資料的嘗試

因為想學習資料庫，想要獲取較大量的資料，第一個想到的自然就是淘寶。。。。其中有大量的商品資訊，淘寶網反爬措施還是比較多，特別是詳情頁面還有噁心的動態內容該例子中使用Scrapy框架中的基礎爬蟲(CrawlSpider還有點沒搞清楚= = b) 先貼上整體程式碼 impo

Scrapy爬取拉勾網職位資訊

很多網站都用了一種叫做Ajax（非同步載入）的技術，通常我們會發現這種網頁，打開了，先給你看上面一部分東西，然後剩下的東西再慢慢載入，也就是區域性載入。所以你可以看到很多網頁，瀏覽器中的網址沒變，但是資料照樣是可以更新的。這對我們正確爬取資料造成了一定影響，我們

scrapy爬取當當網

enable eight mongodb tle () bject field div pipe 春節已經臨近了尾聲，也該收收心了。博客好久都沒更新了，自己在年前寫的爬蟲也該“拿”出來了。本次爬取的目標是當當網，獲取當當網所有的書籍信息。采用sc

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

學習Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊，我爬取的北京地區的酒店，由於網站更新，原文中的一些方法已經不再適用，我的工作是在該文指導下重寫了一個爬蟲。爬蟲無非分為這幾塊：分析目標、下載頁面、解析頁面、儲存內容，其中下載頁面不提。

Scrapy爬取拉鉤網的爬蟲（爬取整站CrawlSpider）

經過我的測試，拉鉤網是一個不能直接進行爬取的網站，由於我的上一個網站是扒的介面，所以這次我使用的是scrapy的整站爬取，貼上當時的程式碼（程式碼是我買的視訊裡面的，但是當時是不需要登陸就可以爬取的）： class LagouSpider(CrawlSpider):

使用 Scrapy 爬取去哪兒網景區資訊

Scrapy 是一個使用 Python 語言開發，為了爬取網站資料，提取結構性資料而編寫的應用框架，它用途廣泛，比如：資料探勘、監測和自動化測試。安裝使用終端命令 pip install Scrapy 即可。 Scrapy 比較吸引人的地方是：我們可以根據需求對其進行修改，它提供了多種型別的爬蟲基類，如：Ba

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

慕課網免費基礎課程連結總結---後期持續更新

2.專案管理利器——maven http://www.imooc.com/learn/443 3.JAVA遇見HTML——JSP篇(tomcat) http://www.imooc.com/learn/166 4. 版本管理工具介紹—Git篇 http

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

相關推薦