簡單小爬蟲（一）

阿新 • • 發佈：2019-01-09

為了完成期末作業打算去爬一下漫畫臺這個網站

http://www.manhuatai.com/zhiyinmanke.html

一個挺不錯的網站

目標是爬取漫畫臺主要模組版塊的漫畫名稱

然後輸入漫畫名稱來檢視漫畫章節

首先使用的是python3

from bs4 import BeautifulSoup as bs 
from urllib import request

來介紹一下beautifulsoup 庫包

eautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為簡單，所以不需要多少程式碼就可以寫出一個完整的應用程式。
Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。你不需要考慮編碼方式，除非文件沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python直譯器，為使用者靈活地提供不同的解析策略或強勁的速度。

來介紹一下urllib 庫包

使用urllib庫包中的request模擬瀏覽器傳送請求

開始吧

匯入庫包

from bs4 import BeautifulSoup as bs 
from urllib import request

from bs4 import BeautifulSoup as bs  #將匯入的模組命名為bs方便後面使用

模擬瀏覽器傳送請求

def get_url(url):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
	request1 = request.Request(url, headers=headers) 
	respond=request.urlopen(request1)
	html=respond.read().decode('utf-8')
	return html

設定頭部資訊讓模擬更加真實

檢視瀏覽器hearer資訊

谷歌瀏覽器右鍵 ->檢查->

request.Request(url,header=)

第一個引數是網站地址第二引數傳入一個字典

返回一個request物件

respond=request.urlopen(request1)

使用返回request物件的urlopen()方法傳送請求

得到返回的網頁程式碼可以使用

print(request.urlopen())列印網頁程式碼

檢視網頁的編碼方式

html=respond.read().decode('utf-8')
	return html

此網頁是使用utf-8的編碼

使用decode（'utf-8'）

解碼變成unicode編碼

並返回網頁程式碼

第二步將網頁程式碼使用beautifulsoup 解析網頁程式碼

將網頁程式碼通過標籤的層級關係解析成樹形結構方便搜尋

def parser_html(html):
	#print(html)
	soup=bs(html,'html.parser')#建立beautisoup物件，
	ul_list=soup.find_all('a',class_='sdiv')
	page_dic={'':''}#儲存連結與漫畫名稱
	for i in ul_list:
		print(i['href'],i['title'])
		page_dic[str(i['href'])]=i['title']
	for k,v in page_dic.items():
			print(k,v)
	return page_dic

首先建立beautifulsoup物件

有兩個引數第一個引數是網頁程式碼，第二個是解析模式

返回物件

通過使用物件的fina_all()方法，會返回一個resultset集合元素為tag物件

檢視網頁程式碼發現：

資料是這樣隱藏在這裡的 a標籤 class名稱為sdiv中

於是便使用find_all(a,class="sdiv" 尋找標籤

儲存在page_dic 這個字典中連結作為鍵，名稱作為值

使用迴圈輸出資料

第三步通過輸入的名稱組合成新的url地址

def href_comb(page_dic):
	href='http://www.manhuatai.com'
	name=input('請輸入漫畫名')
	for k,v in page_dic.items():
		if(name==v):
			print(name)
			href1=k
	return href+href1

有沒有發現什麼規律？

我們就只需將我們的字典中的‘鍵’組合進去再發送請求就可以獲得網頁程式碼了

第四步再次向伺服器傳送請求

href=href_comb(page_dic)
		print(href)
		topic_html=get_url(href)

第五步再次進行解析

def search_top(html):
	s=bs(html,'html.parser')
	topic1=s.find_all('ul',id='topic1')
	#print(len(topic1))
	topic1_a=topic1[0].find_all('a')
	for i_a in topic1_a:
		print(i_a.string)

先找到ul id 名稱的標籤，然後再尋找a標籤

並列印

任務完成

附上全部程式碼

from bs4 import BeautifulSoup as bs 
from urllib import request
import urllib
from selenium import webdriver
import time
from selenium.webdriver.support.ui import Select
def get_url(url):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
	request1 = request.Request(url, headers=headers) 
	respond=request.urlopen(request1)
	html=respond.read().decode('utf-8')
	return html



def parser_html(html):
	#print(html)
	soup=bs(html,'html.parser')#建立beautisoup物件，
	ul_list=soup.find_all('a',class_='sdiv')
	print(type(ul_list))
	page_dic={'':''}#儲存連結與漫畫名稱
	for i in ul_list:
		print(i['href'],i['title'])
		page_dic[str(i['href'])]=i['title']
	for k,v in page_dic.items():
			print(k,v)
	return page_dic

'''
取出網站，進行拼接

'''
def href_comb(page_dic):
	href='http://www.manhuatai.com'
	while 1:
		try:
			name=input('請輸入漫畫名')
			for k,v in page_dic.items():
				if(name==v):
					print(name)
					href1=k
					return href+href1
		except Exception as e:
			print("輸入不規範，請重新輸入")
				


		
'''
尋找章節
'''
def search_top(html):
	s=bs(html,'html.parser')
	topic1=s.find_all('ul',id='topic1')
	print(len(topic1))
	topic1_a=topic1[0].find_all('a')
	for i_a in topic1_a:
		print(i_a.string,i_a['href'])
	while 1:
		try:
			srting_top=input("請輸入需要檢視的章節")
			for i_a in topic1_a:
				if srting_top==i_a.string:
					return 'http://www.manhuatai.com'+i_a['href']
		except Exception as e:
			print("輸入錯誤，請再次輸入需要檢視的章節")
		
	
	'''
尋找圖片連結
'''


if __name__ == '__main__':
	while 1:
		html=get_url('http://www.manhuatai.com/zhiyinmanke.html')
		page_dic=parser_html(html)
		href=href_comb(page_dic)
		print(href)
		topic_html=get_url(href)
		topic_href=search_top(topic_html)
		print(topic_href)
		get_pict_src(topic_href)
		#save_picture(get_pict_src(topic_href))
		targer=input("是否退出，退出請輸入1，繼續檢視請輸入2")
		if targer==1:
			break
	#

簡單小爬蟲（一）

為了完成期末作業打算去爬一下漫畫臺這個網站 http://www.manhuatai.com/zhiyinmanke.html 一個挺不錯的網站目標是爬取漫畫臺主要模組版塊的漫畫名稱然後輸入漫畫名稱來檢視漫畫章節首先使用的是python3 from bs4 impo

簡單小爬蟲（二）

針對上個爬蟲小程式後續做了一些修改增加了一些功能功能：開啟瀏覽器進行觀看首先我們要安裝 selenium Selenium也是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。支援的瀏覽器包括IE、Mozilla Firefox、Moz

關於if..else..及for迴圈的簡單小練習（一）

作為程式化結構設計語言，C語言的三種語句結構：迴圈結構，順序結構，選擇結構就顯得尤其的重要。在簡單的學習過迴圈結構後，我們應該對幾種迴圈語句有了簡單的瞭解和運用了，接下來，我們就做幾道簡

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python爬蟲（一）：編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢話不多說，進入正文！

scrapy爬蟲框架簡單入門例項（一）

scrapy是一個用於爬取網站資料，提取結構性資料的python應用框架。爬取的資料一般用於資料分析，資料處理，儲存歷史資料等。scrapy的整體架構大致如下：主要包括了以下元件：引擎(Scrapy) 用來處理整個系統的資料流, 觸發事務(框架核心) 排程器(

dotnetcore爬蟲（一）簡單獲取頁面資訊

我們就不多講理論了，直接拿出程式碼，嘗試嘗試就知道需要用到什麼知識了。畢竟實踐是檢驗真理的唯一標準。 using System; using System.Net.Http; namespace dotnetcoreHttpClient { class Program

scrapy專利爬蟲（一）——scrapy簡單介紹

scrapy專利爬蟲（一）——scrapy簡單介紹概述 scrapy是一款方便，快捷的開源爬蟲框架。 An open source and collaborative framework for extracting the data you need from w

Python3 爬蟲（一）-- 簡單網頁抓取

序一直想好好學習一下Python爬蟲，之前斷斷續續的把Python基礎學了一下，悲劇的是學的沒有忘的快。只能再次拿出來濾了一遍，趁熱打鐵，借鑑眾多大神的爬蟲案例，加入Python網路爬蟲的學習大軍~~~ 爬蟲之前在著手寫爬蟲之前，要先把其需要的知識線路理清楚。

小程序初體驗：手把手教你寫出第一個小程序（一）

輸入框個人創建公測快速 nsh 成功 too 調用本文筆者將根據quick start中的範例代碼，帶大家簡單地剖析一下小程序的運行方式，並介紹小程序開發中一些通用的特性，帶著大家一步步寫出自己的小程序。適用對象：前端初學者，對小程序開發感興趣者 tip

Javascript基礎簡單匯總（一）：元素獲取

問題元素節點 all push 傳說 length [] nbsp 文檔在頁面腳本中，如果要對頁面元素進行操作，那麽我們就要獲取到這個元素那麽在獲取元素之前首先得要了解什麽是DOM（document object model）在DOM，元素是以節點的形式表示的，每

salesforce零基礎學習（七十二）項目中的零碎知識點小總結（一）

gin 不同 grant dmi ima -m ron 角色 com 項目終於告一段落，雖然比較苦逼，不過也學到了好多知識，總結一下，以後當作參考。一.visualforce標簽中使用html相關的屬性使用曾經看文檔沒有看得仔細，導致開發的時候走了一些彎路。還好得到

Java小故事（一）

時間 abs 十年 caption out 創建 long ger i++ 1 import java.util.Date; //導入包 2 public class Test11 { 3

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

UESTC 1697 簡單GCD問題（一）篩法

ans input 所有枚舉 miss space 輸出 data- ios 簡單GCD問題（一） Time Limit: 1500/500MS (Java/Others) Memory Limit: 65535/65535KB (J

分布式爬蟲（一）------------------分布式爬蟲概述

解決構圖 .com 系統使用 alt 分享管理器資源分布式爬蟲概述什麽是分布式爬蟲：　　　　　多個爬蟲分布在不同的服務器上，通過狀態管理器進行統一調度，達到像URL去重等功能的爬蟲系統　　分布式爬蟲的優點　　1）充分利用多臺機器的寬帶加速

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

從零開始利用vue-cli搭建簡單音樂網站（一）

路徑 nod .com mman csdn desc blog -a where 最近在學習vue框架，練習了一些例子之後，想著搭建一個vue項目，了解到官方有提供一個vue-cli工具來搭建項目腳手架，嘗試了一下，寫下博客來記錄一下。一、工具環境 1、node.js 6

每天一點爬蟲（一）

get請求 red 網站 gpo 額外正常主機 mysql 會有　　開始爬蟲之旅。認識爬蟲　　網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，spider），是一種按照一定的規則，自動地抓取互聯網信息的程序或者腳本。通俗的講就是通過程序自動去獲取web頁面上自己想要的數據

Objective-C 和 Swift 混編項目的小 Tips（一）

markdown nag tomat tac 發現 tps tor ips 名稱本文主要閑聊一些 Objective-C 和 Swift 混編項目帶來的一些潛規則，希望能幫到對此感到疑惑的朋友。下面我們開始進入主題：命名官方 Guide 上只是簡單敘述（Usin

簡單小爬蟲（一）

為了完成期末作業打算去爬一下漫畫臺這個網站

首先使用的是python3

開始吧

模擬瀏覽器傳送請求

第二步 將網頁程式碼使用beautifulsoup 解析網頁程式碼

有兩個引數第一個引數是網頁程式碼，第二個是解析模式

第三步通過輸入的名稱組合成新的url地址

第四步 再次向伺服器傳送請求

第五步 再次進行解析

任務完成

相關推薦

第二步將網頁程式碼使用beautifulsoup 解析網頁程式碼

第四步再次向伺服器傳送請求

第五步再次進行解析