Python爬蟲之爬取知乎帖子並儲存到mysql(以及遇到問題和解決方法)
爬取問題標題並儲存到資料庫:
程式碼:
# coding=utf-8
import urllib
import urllib2
import re
import MySQLdb
#connect()方法用於建立與資料庫的連線,裡面可以指定引數,這一步只是連線到了資料庫,操作資料庫還是需要下面的遊標
conn = MySQLdb.connect(host='localhost',db='article',user='root',passwd='psw105',charset='utf8')
#通過獲取到的conn資料庫的cursor方法建立遊標
cur = conn.cursor()
url = 'https://www.zhihu.com/topic/19607535/top-answers'
print url
request = urllib2.Request(url=url)
response = urllib2.urlopen(request, timeout=20)
#得到網頁的html程式碼
result = response.read()
print result
#re模組的findall方法可以以列表的形式返回匹配的字串,re.S表示多行匹配<a target="_blank" data-za-detail-view-element_name="Title" href="/question/36258497/answer/67785088">《琅琊榜》最打動你的細節是哪個?</a>
#使用re模組的正則表示式,將目標字串存入list
list = re.findall('<a target="_blank" data-za-detail-view-element_name="Title"(.*?)/a>',result,re.S)
print list
#正則表示式也是個難點
p = '>(.*?)<'
for x in list:
title = re.search(p,x,re.S).group(1)
hot = "insert into test(title) values('%s')" % title
print hot
cur.execute(hot)
#提交資料到資料庫
conn.commit()
#關閉資料庫連線
conn.close()
資料庫:
遇到問題:
第一次儲存出現亂碼
解決方法:
資料庫連線引數沒有指定編碼格式:
如下圖增加引數:charset=’utf8’ 問題解決! 第二次存入就正常了。
相關推薦
Python爬蟲之爬取知乎帖子並儲存到mysql(以及遇到問題和解決方法)
爬取問題標題並儲存到資料庫: 程式碼: # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co
用JAVA實現一個爬蟲,爬取知乎的上的內容(程式碼已無法使用)
在學習JAVA的過程中寫的一個程式,處理上還是有許多問題,爬簡單的頁面還行,複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容,使用正則匹配頁面內容獲得所需的資訊存入檔案,使用正則尋找這個頁面中可訪問的URL,使用佇列儲存未訪問的URL
【Python資料分析】簡單爬蟲,爬取知乎神回覆
歡迎加入Python學習交流QQ群:535993938 禁止閒聊 ! 名額有限 ! 非喜勿進 ! 看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾,
Python爬蟲之爬取煎蛋網妹子圖
創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲(未使用框架,僅供娛樂)獲取並下載煎蛋網妹子圖指定頁面或全部圖片,並將圖片下載到磁盤。 首先導入模塊:urllib.request、re、os import
python3 學習 3:python爬蟲之爬取動態載入的圖片,以百度圖片為例
轉: https://blog.csdn.net/qq_32166627/article/details/60882964 前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片
教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!
一.出發點: 之前在知乎看到一位大牛(二胖)寫的一篇文章:python爬取知乎最受歡迎的妹子(大概題目是這個,具體記不清了),但是這位二胖哥沒有給出原始碼,而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址 二.準備:
Python爬蟲之爬取各大幣交易網站公告——靜態網站.md
Python爬蟲之爬取各大幣交易網站公告——靜態網站 瞭解爬蟲之後,我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理,提取我們想要的東西。 靜態網站,我們往往利用requests庫提取網站html資訊,再通過正則表示式或BeautifulSoup庫提取我們
python學習(7):python爬蟲之爬取動態載入的圖片,以百度圖片為例
前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片到本地。 當我們在看百度圖片時,右鍵–檢查–Elements,點選箭頭,再用箭頭點選圖片時
Python爬蟲之爬取動態頁面資料
很多網站通常會用到Ajax和動態HTML技術,因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。 先看看如何分辨網站時靜態的還是動態的,正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的,簡便的方法就是在
Python爬蟲之爬取瓜子二手車資訊- requests方法
最近在做二手車市場資料分析,試著爬取瓜子二手車在售車輛資訊,做一下記錄 大致思路如下: 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊: car_model = Field() # 車型資訊 registe
python scrapy框架爬取知乎提問資訊
前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述
Python爬蟲之模擬登陸知乎
在chrome瀏覽器下抓取登陸過程的包(注意把Preserve log勾上): 表單的結構主要包括_xsrf, password, phone_num 我們要找到_xsrf的值,重新載入zhihu.
Python爬蟲之爬取內涵吧段子(urllib.request)
引言 在寒假開始的時候就打算學習爬蟲了,但是沒有想到一入坑到現在還沒有出坑,說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的,比較古老,所以我只用了一兩次就轉向了requests了
小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容
tps python 分享 列表 scrapy 網頁 pytho 分享圖片 介紹 *準備工作: 爬取的網址:https://www.jianshu.com/p/7353375213ab 爬取的內容:下圖中python庫介紹的內容列表,並將其鏈接的文章內容寫進文本文件中 小
菜鳥寫Python實戰:Scrapy完成知乎登入並儲存cookies檔案用於請求他頁面(by Selenium)
一、前言 現在知乎的登入請求越來越複雜了,通過f12調出瀏覽器網路請求情況分析request引數,似乎不再簡單可知了,因為知乎很多請求引數都字元加密顯示了,如下圖,我們很難再知道發起請求時要傳遞什麼引數給它。 二、思路 我們知道知乎一些內容是需要登入才能看到,因
爬蟲03 爬取堆糖圖片並儲存到本地
# -*- coding: utf-8 -*- import urllib import urllib2 import re i=0 page = 1 url = 'http://www.duitan
python爬蟲——爬取知乎上自己關注的問題
與之前爬的網站圖片的不同的是,現在爬取的是要自己個人的關注的東西,所以需要做到模擬登入。模擬登入的原理是登入網站後,在瀏覽器上獲取儲存的cookies資訊,填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了,對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把
Python爬蟲(入門+進階)學習筆記 1-6 瀏覽器抓包及headers設定(案例一:爬取知乎)
爬蟲的一般思路:抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理 本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析:使用谷歌瀏覽器開發者工具分析網頁的請求測試:測試URL請求中每個引數的作用,找出控制翻頁等功能的引數重複:多次重複
Python爬蟲爬取知乎小結
最近學習了一點網路爬蟲,並實現了使用python來爬取知乎的一些功能,這裡做一個小的總結。網路爬蟲是指通過一定的規則自動的從網上抓取一些資訊的程式或指令碼。我們知道機器學習和資料探勘等都是從大量的資料出發,找到一些有價值有規律的東西,而爬蟲則可以幫助我們解決
知乎爬蟲之爬取專欄資訊
接著昨天的模擬登陸,今天來爬取一下專欄資訊 我們將對專欄https://zhuanlan.zhihu.com/Entertainmentlaw進行抓取 首先還是進行抓包分析,可以發現這裡有我們想要的專欄的名稱,作者,關注人數等資訊 然後我們看一下訊息頭