爬取我的愛書

阿新 • • 發佈：2018-12-10

一、機制：例如在瀏覽器中輸入www.baidu.com回車，實際是由瀏覽器找到這個網址所對應的IP地址，向IP地址的伺服器傳送一個請求，伺服器會給一個響應，通過HTTP協議進行通訊。

二、HTTP協議是Hyper Text Transfer Protocol（超文字傳輸協議）的縮寫,是從WWW 伺服器傳輸超文字到本地瀏覽器的傳送協議

HTTP最初的目的是為了提供一種釋出和接收HTML頁面的方法，HTTP是一個客戶端和伺服器端請求和應答的標準（TCP）。客戶端是終端使用者，伺服器端是網站。通過使用Web流量器、網路爬蟲或者其它的工具，客戶端發起一個到伺服器上指定埠的HTTP請求。

三、爬蟲爬取資料的原理：

構造一個請求
傳送請求，獲取伺服器端的響應
從響應內容裡提取我們所需要的特定資料

四、爬蟲的作用和應用場景：

在資訊時代，面對海量資料，我們需要一種高效便捷的手段來幫助我們進行資料分析和獲取。

五、原始碼：

 #!/usr/bin/python
 #coding:utf-8
 '''
 爬取書籍
 '''
 
 import urllib2
 
 import re
 
 from bs4 import BeautifulSoup

 #根據指定url獲取伺服器端響應
 def OpenPage(url):
     Myheaders = {}
     #urllib2.Request 構造請求
     req = urllib2.Request(url,headers=Myheaders)
     #相當於，在瀏覽器的位址列，輸入了網址,url是網址，headers=Myheaders用關鍵字引數賦值（因為Request不只2個引數，如果不用關鍵字引數賦值，有可能會賦到別的引數上）
 
     #啟用請求，獲取響應,獲取類文字檔案物件
     f = urllib2.urlopen(req)
     #伺服器端響應類文字物件，通過read()方法讀取響應內容
     data = f.read()
     #ignore replace xml..replace
     return data.decode("GBK",errors="ignore").encode("utf-8")
 
 def Test1():
     url = "http://www.shengxu6.com/book/2967.html"
     print OpenPage(url)
 
 #從主頁解析資料，獲取各個章節的跳轉連結url
 def ParseMainPage(page):
     #呼叫爬蟲庫提供的相關方法，進行資料分析
 
 #print type(page)#解析之前列印標籤格式（是字串）
 
     #html.parser, python自帶的html解析引擎,Beaut ifulSoup是爬蟲庫的一種
     soup = BeautifulSoup(page,"html.parser")
 #print type(soup)#解析之後列印標籤格式（格式化之後變成BeautifulSoup類）格式化目的是給我們提供操作方法html
 
     #find_all方法在全文內容裡搜尋符合內容的標籤，返回一個列表
     #檢索所有的href屬性（鍵值對）值中包含read字串的標籤
     GetA = soup.find_all(href=re.compile("read"))#compile是正則表示式物件編譯成字串
     #因為標籤內部屬性是鍵值對的方式href=""
 #print GetA[0]["href"]列印href屬性值,不管什麼屬性都可以取
 
     #UrlList = []空的是可以往裡面追加
     #for item in GetA:遍歷item，取到遍歷元素的類
     #UrlList.append("http://www.shengxu6.com" + item["href"])
     #return UrlList
     return ["http://www.shengxu6.com" + item["href"] for item in GetA]#和上面4行一個意思，等價
 
 def Test2():
     url = "http://www.shengxu6.com/book/2967.html"
     page = OpenPage(url)
     print ParseMainPage(page)
 
 #解析一個章節內容，獲取標題和正文
 def ParseDetailPage(page):
     #先進行格式化
     soup = BeautifulSoup(page,"html.parser")
 
  #find_all方法在全文內容裡搜尋符合內容的標籤，返回一個列表
     #get_text() 方法，用於獲取標籤正文
     Title = soup.find_all(class_="panel-heading")[0].get_text()
     Content = soup.find_all(class_="content-body")[0].get_text() #正文
 #<div class="panel-body content-body content-ext">正文</div>
 #Div標籤，class類=“panel-body”
     return Title,Content
 
 def Test3():
     url = "http://www.shengxu6.com/read/2967_2008175.html"
     page = OpenPage(url)
     print ParseDetailPage(page)
 
 #寫到檔案
 def WriteDataToFile(data):
     #f = open("output.txt","a+")
     #f.close()
 #忘記關閉檔案，提供一個上下文管理器with open()as f
     with open("output.txt","a+") as f:#用追加寫（原因是不可能只有一個章節）
         f.write(data)
 
 def Test4():
     WriteDataToFile("dnaidnasod")
 
 if __name__ == "__main__":
     url = raw_input("請輸入要爬取的小說地址:")
     #開啟主頁獲取主頁內容
     page = OpenPage(url)#根據指定url獲取伺服器端響應
     print "Clone Begin"#列印開始爬取
     UrlList = ParseMainPage(page)#從主頁解析資料，獲取各個章節的跳轉連結url
     for item in UrlList:#遍歷
         #每個item都是一個章節的url地址
         detail = OpenPage(item)#開啟每一個章節
         #解析章節內容,獲取標題和正文
         Title,Content = ParseDetailPage(detail)
         print "Clone " + Title#列印進度，爬到哪一章
         data = "\n\n" + Title + "\n\n" + Content#“\n\n”空格，串起來有問題，Title Content在網頁上響應的內容是Unicode碼，我們自己寫的是ascii碼“\n\n”
         #將資料寫入檔案
         WriteDataToFile(data.encode("utf-8"))#解決上面問題
     print "Clone Done"#列印關閉爬取

利用python爬取我愛我家租賃房源資訊

主要思路： 1.通過get方法向伺服器提交head檔案和cookie資訊（通過在chrome網頁上面登入之後獲取，避免了通過賬號密碼模擬登陸的繁瑣過程），實現模擬登陸的效果 2.訪問網頁，通過萬能的正則匹配到所需要的資訊具體演算法有3步驟： 1.從租賃房源的第一頁至第10

利用BeautifulSoup爬取我愛我家的租房資料

因為之前對BeautifulSoup一直不是很熟悉，剛好身邊的朋友同事在找房子，就想著能不能自己寫個爬蟲爬一下資料，因此就寫了這個爬蟲。基本都是邊看書邊寫的，不過也沒什麼好講的。直接粘程式碼了。

爬取我的愛書

一、機制：例如在瀏覽器中輸入www.baidu.com回車，實際是由瀏覽器找到這個網址所對應的IP地址，向IP地址的伺服器傳送一個請求，伺服器會給一個響應，通過HTTP協議進行通訊。二、HTTP協議是Hyper Text Transfer Protocol（超文字傳輸協議

以爬取“我要愛死你”貴州行政區劃為例，淺析lxml中etree的用法

lxml是python中一個非常強大的解析庫。其中的etree更是常常用來判斷網頁中某一節點是否存在，並獲取相應的文字或屬性。一、用法詳解 1、匯入etree import requests from lxml import etree 2、獲取網頁資訊並生成etree選擇

爬取我喜歡的小說

set imp link 需要 line .html lsp sci @class 看個小說，各種廣告煩人，自己寫個爬蟲爬到本地 #首先創個爬蟲 -創建 CrawlSpider 爬蟲 scrapy genspider -c crawl [爬蟲名字] [域名] #setti

我愛我家房源資訊爬取

我愛我家房源資訊獲取無特殊爬取需求 import requests from lxml import etree from mysql_link import mysql_connect def get_5i5j(count): mysql_

xpath匹配爬取房源資訊（我愛我家）

# requests包 import requests # xpath包 from lxml import etree # 本地mysql包（mysql_def包下mysql_conn函式） from mysql_def import mysql_conn # 定義url,

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

使用selenium 多線程爬取愛奇藝電影信息

連接獲取 ict 容易出錯 span column 分享圖片 odi attribute 使用selenium 多線程爬取愛奇藝電影信息轉載請註明出處。爬取目標：每個電影的評分、名稱、時長、主演、和類型爬取思路：源文件：（有註釋） from seleniu

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

誰說Python不能爬取APP上面的數據？看我把快手視頻弄到手！

網絡設置 5.5 .com 熱門 user imp 9.4 type prev 設置代理，重啟，下一步，查看本機ip 手機打開網絡設置通過代理服務器；設置好，刷新快手app 看到請求，去找自己要用的，非了九牛二虎之力找到了

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

利用Python爬取幾百萬github數據！這些源碼都是我的囊中之物！

.py .com exchange 非阻塞問題判斷 recursion 異步調用 direct 進群：548377875 即可獲取數十套PDF哦！看到這麽簡單的流程，內心的第一想法就是先簡單的寫一個遞歸實現唄，要是性能差再慢慢優化，所以第一

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

我的第一個爬蟲，爬取北京地區短租房信息

爬取 connect except links 效率 chrom cti clas 爬蟲 # 導入程序所需要的庫。import requestsfrom bs4 import BeautifulSoupimport time# 加入請求頭偽裝成瀏覽器headers = {

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

部落格搬家系列（四）-爬取簡書文章

部落格搬家系列（四）-爬取簡書文章一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https:/

Python實現爬取好友頭像拼接成大圖！這不就暴露了我的好友了！

前言筆者無意間發現一個有趣的第三方庫itchat,itchat模組是一位叫little codersh的大神寫的模組，附上大神的github地址,有興趣的朋友可以去嘗試玩一下itchat模組，很有趣的！！！ https://github.com/littlecodersh/ItChat

爬取我的愛書

相關推薦