python3爬蟲豆瓣top250圖書（並儲存到mysql資料庫）

阿新 • • 發佈：2018-12-10

參考上篇文章

附上程式碼：

import requests
from bs4 import BeautifulSoup
import mysql.connector


def get_pages_link():
    # 插入到資料庫
    conn = mysql.connector.connect(user='root', password='root', database='test')
    cursor = conn.cursor()

    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36',
        'Connection': 'keep-alive'
    }

    for item in range(0, 250, 25):
        url = "https://book.douban.com/top250?start={}".format(item)
        web_data = requests.get(url, headers=header)
        soup = BeautifulSoup(web_data.content, 'lxml')
        for movie in soup.select('.item'):
            href = movie.find('a')["href"]
            name = movie.get_text().strip()[:20].strip()  # 片名
            star = movie.select('.rating_nums')[0].text  # 評分
            people = movie.select('.star > span')[2].text.replace("(\n", "").replace(")", "").strip()  # 評價人數
            try:
                quote = movie.select('.inq')[0].text
            except:
                print('沒有quote哦')
                quote = None
            data = {
                # 'url': href,
                '評分': star,
                '評價人數': people,
                '片名': name,
                '名言': quote
            }
            sql = 'insert into bookdoubantop250(score,name,quote,people) values (%f,"%s","%s","%s")' % (
                float(star), name, quote, people)
            cursor.execute(sql)
            conn.commit()
            print(data)
            # print(movie)
        print('\n' + '-' * 50 + '\n')
    # 關閉資料庫
    cursor.close()
    conn.close


if __name__ == '__main__':
    get_pages_link()

python3爬蟲豆瓣top250圖書（並儲存到mysql資料庫）

參考上篇文章附上程式碼： import requests from bs4 import BeautifulSoup import mysql.connector def get_pages_link(): # 插入到資料庫 conn = mysql

python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

所用到的模組（需要提前安裝好）： requests、BeautifulSoup、lxml、mysql.connector（或者pymysql也可以，如果不想插入到資料庫，只需要將裡邊相關的程式碼刪除）（程式碼下邊將貼出本文beautifulsoup的使用）程式碼

Java資料採集：Xpath解析 + WebMagic案例：採集豆瓣豆列電影資訊儲存MySql資料庫

Maven的安裝與設定環境變數 2. 設定環境變數新建變數MAVEN_HOME，值為Maven的目錄X:\XXX\apache-maven-XXX 將%MAVEN_HOME%\bin新增到Path變數下 3. 檢測：執行CMD，輸入mvn -v後可以看到Mave

ASP.NET MVC檔案上傳下載Demo（檔案儲存在資料庫）

ASP.NET MVC檔案上傳下載Demo（檔案儲存在SQL Server資料庫中）如圖：後期考慮到安全問題，可以用MD5加密，生成加密資料庫連線字串，替換Web.config檔案中字串即可，如圖：如果

封裝類之MYSQLHelper（C#連線MySql資料庫）

using System; using System.Collections; using System.Configuration; using MySql.Data; using MySql.Data.MySqlClient; using System.Da

java版超市管理系統。swing~（java連線mysql資料庫）

/* * 完成於2016.12.14 * 知識點:（1）java與mysql連線語句的掌握 * （2）swing窗體的構建 * (3)在people類裡運用了列表框。(ps:還有一個小問題沒有解決。那就是點選列表框響應兩次。網上的方法不知道怎麼運用。希望有大神來教教我。提前謝謝啦~

python3爬蟲連結+表格+圖片（本地+csv+mongodb儲存）

# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import re import csv import time from pymongo import MongoClient client = Mon

python3爬蟲連結+表格+圖片（本地+csv儲存）

# -*- coding: utf-8 -*- import urllib.request import http.cookiejar from bs4 import BeautifulSoup import requests import csv import time import re i

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

Python3爬蟲豆瓣電影TOP250將電影名寫入到EXCEL

大家好，我是你們的老朋友澤哥，最近在學習Python3.6，於是興起寫了個小小的爬蟲附上截圖！我們要獲得TOP250對應的電影名，開啟F12對HTML報文進行解讀電影名對應的HTML程式碼如下： <span class="title">肖申克的

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

Forward團隊-爬蟲豆瓣top250項目-需求分析

利用進行程序 ref war 參考資料豆瓣api per 運用一、　　需求：1、爬取豆瓣電影top250. 　　　　　2、獲取電影名稱,排名,分數,簡介,導演,演員。　　　　　3、將爬取到的數據保存，以便隨時查看。　　　　　3、可以將獲取到的數據展示給用戶。

Forward團隊-爬蟲豆瓣top250項目-團隊編程項目開發環境搭建過程

es2017 搭建項目開發需要爬蟲編程搭建過程 pycha 開發需要python環境開發軟件、開發環境安裝： python2.7.5：安裝pycharm（社區版）： Forward團隊-爬蟲豆瓣top250項目-團隊編程項目

團隊-爬蟲豆瓣top250項目-項目進度

rate .com top 取圖 line 標題 ring target 處理註：正則表達式在線檢測工具：http://tool.oschina.net/regex/ 進程： 1.源代碼HTML 　　#將url轉換為HTML源碼def getHtml(url):

團隊-爬蟲豆瓣top250項目-模塊測試過程

完整過程 tps 單元 clas 說明豆瓣模塊 com 項目托管平臺地址:https://gitee.com/ningshuyoumeng/TuanDui-PaChongDouBantop250XiangMu-MoKuaiKaiFa 模塊測試: 獲取內面內容功能,測試

Forward團隊-爬蟲豆瓣top250項目-模塊開發過程

托管 git {} clas 模塊開發 4.0 else html 粘貼項目托管平臺地址:https://github.com/xyhcq/top250 開發模塊功能: 原網頁代碼分析功能,開發時間:1小時,得到了程序所需要的網頁源代碼 def getHTMLText

Forward團隊-爬蟲豆瓣top250項目-模塊開發測試

開發測試 for image ima 模塊開發 clas http alt 技術項目托管平臺地址:https://github.com/xyhcq/top250 開發模塊功能: 整合代碼：控制是否將信息顯示出來測試方法:運行代碼 Forward團隊-爬蟲豆瓣t

團隊-爬蟲豆瓣top250項目-模塊開發過程

style 托管 bsp 豆瓣 index urn 構造其他 range 項目托管平臺地址:https://github.com/gengwenhao/GetTop250.git 開發模塊功能: "get_urls()生成前250電影的頁面地址"功能,開發時間:1天(小時

團隊-爬蟲豆瓣top250項目-開發文檔

代碼 pre range datalist com res odin .com 評分 https://gitee.com/npq115/pachong/blob/master/savedata.py 項目：團隊-爬蟲豆瓣top250 我負責的模塊：data 存儲處理好的抓取

python3爬蟲豆瓣top250圖書（並儲存到mysql資料庫）

相關推薦