1. 程式人生 > >Python爬取網頁資訊並且儲存到MySQL資料庫

Python爬取網頁資訊並且儲存到MySQL資料庫

今天在執行一小Python爬取某網頁的資訊的時候,結果,報錯了,根據錯誤,應該是資料庫連線失敗,密碼有錯誤

檢查程式密碼應該沒錯呀,然後直接訪問資料庫,我的天,試了好多次,都快放棄自己了,昨晚明明成功的呀

然後開啟Navicat,檢視昨晚設定的連線屬性,沒錯呀,密碼就是1234566

然後陷入怪圈模式

突然,靈感xiu的一下就來了,Navicat昨晚設定的是連線虛擬機器上的MySQL的,密碼確實是123456

那本地使用者呢,讓我想想,我設定密碼了嗎?

突然想起來,Navicat不是已經連線到資料庫了嘛,我可以直接查看錶呀,也有root許可權的

哇,開啟mysql資料庫,可以看到一個名為user的資料表

突然覺得黎明的曙光過來了,哈哈哈,這裡高興一秒鐘

進入user資料表,激動人心的時刻就要到啦,密碼密碼,我來啦

我的天,hmm,這個主機名不就是我虛擬機器名稱嘛,它-竟-然-是-沒-有-設-置-密-碼-的,此時我的內心是崩潰的,我先去找個地冷靜冷靜

但還是要工作了~

登陸mysql

哇,它真的成功了呢!!!!!!!!!!!!這裡響起掌聲!!!!!!!!!!!!!

修改程式中的連線資料庫中的引數,繼續執行程式,果然,又出錯了

1366錯誤,這又是什麼鬼,快扶我起來,我還可以堅持

對於第一次連資料庫的我來說,兩眼一抹黑,轉頭立馬去找我最親愛的度娘,原來是資料庫的編碼格式和你連線時設定的編碼格式是不一樣的,連線的時候,charset設定的是utf-8,為的是可以儲存中文。

得了,還是去看看資料庫的編碼吧

資料庫預設的編碼格式,latin,得了,明白了,立馬改編碼格式,轉去找我熟悉的Navicat

改成utf-8就可以啦,再去檢視檢視是否可以了,嗯,都乖乖的變成了utf-8格式了

應該沒有別的問題了吧,行嘞,繼續執行

我的天,又出來一名刺客

貌似是執行插入語句的時候出現了問題,我只看到“Data too long for column”意思就是,對於這一屬性列來說,資料量太大,不能插入到資料庫中去,回想我的表的設計,varchar(100),經常使用的型別,度娘,我又來啦

原來對於資料量大的屬性列來說,可以選用TEXT型別,它可以儲存更長的資料量,檢視資料庫中是否插入資料了,結果卻是是呢,最起碼也插進去了一條吧

話不多說,轉身去修改變數型別

不管了,繼續執行

啊,真的成-功-了!!!!!!

我的老心臟呀,好艱辛的過程呀!!!!

再去看看資料庫

至此,我人生的第一個爬蟲就告一段落了!!!!

相關推薦

Python網頁資訊並且儲存MySQL資料庫

今天在執行一小Python爬取某網頁的資訊的時候,結果,報錯了,根據錯誤,應該是資料庫連線失敗,密碼有錯誤 檢查程式密碼應該沒錯呀,然後直接訪問資料庫,我的天,試了好多次,都快放棄自己了,昨晚明明成功的呀 然後開啟Navicat,檢視昨晚設定的連線屬性,沒錯呀,密碼就是

python網頁資訊

一、簡單瞭解html網頁 1.推薦瀏覽器: 使用Chrome瀏覽器,在檢查元素中可以看到HTML程式碼和css樣式。 2.網頁構成: 網頁的內容主要包括三個部分:javascript主要針對功能,html針對結構,css針對樣式。在本地檔案中通常是三部分,html+imag

第十講:Python網頁圖片並儲存到本地,包含次層頁面

上一講我們講到了從暱圖網的首頁下載圖片到本地,但是我們發現首頁上面的大部分連結其實都可以進入到二級頁面。 在二級頁面裡面,我們也

cheerio網頁資料,儲存MySQL資料庫

最近在做物流專案成本分析,需要爬取柴油價格資料,使用到了cheerio,cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js,獲取HTML頁面資料 var http = require("http"); function gethtml(url,

python 3.3 網頁資訊 小例

# -*- coding:gb2312 -*-     import urllib.request source_stram = urllib.request.urlopen("http://www.12306.cn/mormhweb/kyfw/") #save_path=

python根據標籤網頁資訊

這裡以豆瓣TOP250為案例,爬取網頁資訊import requests#python HTTP客戶端庫,編寫爬蟲和測試伺服器響應資料會用到的類庫 import re from bs4 import B

[python] 常用正則表示式網頁資訊及分析HTML標籤總結

這篇文章主要是介紹Python爬取網頁資訊時,經常使用的正則表示式及方法。它是一篇總結性文章,實用性比較大,主要解決自己遇到的爬蟲問題,也希望對你有所幫助~ 當然如果會Selenium基於自動化測試爬蟲、BeautifulSoup分析網頁DOM節點,這就更方便了,但本文更多

簡單的python網頁字串內容並儲存

最近想試試python的爬蟲庫,就找了個只有字串的的網頁來爬取。網址如下: 開啟後看到是一些歌名還有hash等資訊。按照hash|filename的方式存在檔案裡,先貼程式碼 #coding=utf-8 import urllib import re import

Python爬蟲 BeautifulSoup抓網頁資料 並儲存資料庫MySQL

最近剛學習Python,做了個簡單的爬蟲,作為一個簡單的demo希望幫助和我一樣的初學者 程式碼使用python2.7做的爬蟲  抓取51job上面的職位名,公司名,薪資,釋出時間等等 直接上程式碼,程式碼中註釋還算比較清楚 ,沒有安裝mysql需要遮蔽掉相關程式碼:#!/u

python網頁包含動態js資訊(3.7 +,2.7+)

post_param = {'action': '', 'start': '0', 'limit': '1'} return_data =

python網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式,一個小小的爬蟲,抓取百科詞條網頁的jpg圖片。下面就是我的代碼,作為參考: #coding=utf-8 # __author__ = ‘Hinfa‘ im

Python 網頁中JavaScript動態添加的內容(二)

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install seleniumphantomjs(是

第一週、學會網頁資訊總結

目標:爬取網頁,獲得自己需要的資訊步驟:1. 匯入需要的模組2. 利用request向目標網站獲得網頁資訊3. 用BeautifulSoup解析所獲得的網頁 3. 獲得需要的資訊所在的標籤內容 4. 精簡標籤獲得關鍵資訊5. 獲得關鍵資訊之後,再處理(比如比大小)1、匯入需要的模組BeautifulSoup模

Python網頁的圖片資料

本案例是基於PyCharm開發的,也可以使用idea。 在專案內新建一個python檔案TestCrawlers.py TestCrawlers.py # 匯入urllib下的request模組 import urllib.request # 匯入正則匹配包 import re

python網頁(簡易)

爬取的照片資訊 from urllib import request import re def getResponse(url):  url_request =  request.Request(url)  url_response = request.u

Python天氣資訊並定時傳送給微信好友(異地戀神器)!!

效果 前言 中國天氣網: http://www.weather.com.cn/ 點選右上角的具體的天氣資料 想獲取哪個城市的天氣,就搜尋城市進行切換 這裡以青島為例 可以看到此時url為: http://www.weather.com.cn/weat

Python網頁所有小說

Python爬取網頁所有小說 python 2.7.15 練習beautifulsoup的使用 不瞭解bs的可以先看一下這個bs文件 一、看URL的規律 因為是要爬取網頁上所有的小說,所以不僅要獲取網頁的URL,還要獲取網頁裡的連線們的URL。它們一般是有規律的,如果沒有的話就用

python 網頁的通用程式碼框架

爬取網頁的通用程式碼框架就是一組程式碼 它可以準確的 可靠的爬取網頁上的內容。 但是這樣的語句不是一定成立的,因為網路連線有風險。 常見的異常有: 而raise_for_status方法可以返回所引發的httperror異常。 爬取網頁的框架程式碼如下: import

Python 網頁中JavaScript動態新增的內容(二)

使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install selenium phantomjs(是一種無介面的瀏覽器,用於完成網頁的渲染)下載:http://phantomjs.or

Python 網頁中JavaScript動態新增的內容(一)

當我們進行網頁爬蟲時,我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼,我們必須經過渲染處理才能獲得原始資料。此時,如果我們仍採用常規方法從中抓取資料,那麼我們將一無所獲。那麼,通過Web kit可以簡單解決這個