python爬蟲【一】爬取文字

阿新 • • 發佈：2018-12-23

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩

也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows

py官網下載的是原生版本https://www.python.org/

本文爬取文字使用原生python進行演示

爬蟲的原理就是模仿人類登入不同的網頁然後使用開發者工具來獲得伺服器傳回的資訊將其按照特定格式儲存起來

簡單說就是ETL（資料獲取extract，資料轉換translation，資料儲存loading）

如果文中的程式碼直接複製進py的編輯器會打亂呢就先copy到notepad++ 然後在copy到編輯器就ok了

我們以chrome瀏覽器為示例

首先我們開啟一個頁面右鍵檢查或者使用f12

點選重新整理/或按下f5我們可以看到伺服器返回的內容

我們可以看到我們需要的內容

這裡可以看到一個get我們要注意這裡有了這些經驗我們就可以開始利用無所不能的python來完成這些過程

我們在安裝過程中一定要注意是在cmd下安裝不能再python環境下安裝！！！

py環境會失敗

開啟cmd輸入

pip install requests
pip install beautifulsoup4

同理安裝 anaconda 的庫

然後安裝jypyter

下面安裝完成後只需要輸入

會自動開啟瀏覽器我們通過一個port訪問自己電腦然後可以建立python的專案

下面我們開始寫一個程式模擬人類點選的過程

但是因為我們爬取文字等拿原生py就可以做到我們就不使用anaconda作為案例了

下面我們開啟notepad++這個文字編輯器有中文版並且免費

https://notepad-plus-plus.org/

或者直接使用py的idle互動式編譯器

在這裡直接複製網址

我們執行就可以獲取獲取網頁html的所有內容

這樣我們的第一隻爬蟲就寫好了，但是怎樣獲取到我們需要的資訊呢？

import requests
res = requests.get('http://www.jinyongwang.com/shen/781.html')
res.encoding = 'utf-8'
print(res.text)

點選f5執行我們會發現程式會卡死這是因為我們開啟的文字太多了

所以我們需要將爬取的文字放入二進位制檔案

並且刪除標籤選擇正確的內容

現在我們強行關閉shell

加入程式碼可以爬出前500行的程式碼

import requests
url='http://www.jinyongwang.com/shen/781.html'
r = requests.get(url,timeout=30)
type(r) 		#檢視型別
print(r.text[:500])	#顯示前500位元組內容
print(r.status_code)    #顯示狀態碼

下面我們使用beautifulsoup

先來看html的結構

bs4套件的使用模板

import requests
from bs4 import BeautifulSoup
url = 'https://python123.io/ws/demo.html' 
r =  requests.get(url,timeout=30)
r.encoding = r.apparent_encoding      
#分析頁面內容，以中文編碼顯示
html = r.text
soup = BeautifulSoup(html, 'html.parser') 

#訪問head、body、a、p、b
soup.find_all(‘a’)、soup.body.contents、soup.prettify()

使用beautifulsoup尋找標籤

url = http://news.qq.com/a/20170504/012032.htm
div.hd	L131
div.a_info	L135
P.text	L164


title = soup.select("div.hd > h1")
time = soup.select("div.a_Info > span.a_time")
paras = soup.select("div.Cnt-Main-Article-QQ > p.text")

我們注意py中是不需要宣告變數的

尋找特定的HTML標籤

找到h1標籤的文字

soup = BeautifulSoup(html_sample)

header = soup.select('h1')  #h1可以改成任意標籤

print(header)

print(header[0])            #去除中括號保留標籤和文字

print(header[0].text)       #去除標籤保留文字

尋找特定css元素

id類

id名前加#

 alink = soup('#title')

print(laink)

class類

class名前加.

soup = BeautifulSoup(html_sample)

for link in soup.select('.link'):

    print(link)

取得標籤中的屬性

取得所有a標籤的連結

a tag找出所有herf（超連結）的連結

a = '<a herf="#" qwe=123 asd=456>i am a link</a>'
soup = BeautifulSoup(a,'html.parser')
print(soup.select('a')[0]['href'])
print(soup.select('a')[0]['qwe'])

儲存文字檔案

fo = open("text.txt", "w+")
    fo.writelines(title[0].get_text() + "\n")
    fo.writelines(time[0].get_text() + "\n")
    for para in paras:
        if len(para) > 0:
            fo.writelines(para.get_text() + "\n\n")
    fo.writelines(author[0].get_text() + '\n')
    fo.close()

於是我們將程式碼結合寫出一個爬蟲將小說寫入二進位制檔案中

import re
import requests
from bs4 import BeautifulSoup
def getHTML(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def getContent(url):
    html = getHTML(url)
    soup = BeautifulSoup(html,'html.parser')
    title = soup.select('div.mbtitle')
    paras_tmp = soup.select('p')
    paras = paras_tmp[3:]
    return paras

def saveFile(text):
    f=open('novel.txt','w')
    for t in text:
        if len(t) > 0:
            f.writelines(t.get_text() + "\n\n")
    f.close()
    
def main():
    url = 'http://www.jinyongwang.com/shen/781.html'
    text = getContent(url)
    saveFile(text)

main()

執行完出現我們需要的文件

開啟就是我們需要的文字了

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

python爬蟲【二】爬取新聞

在一個新聞站點或者絢麗的網頁會有許多id和class 我們可以通過觀察來看到我們需要的資訊在那些id和class下但是這裡介紹兩種快速便捷的方法第一種使用谷歌瀏覽器自帶的開發者工具或者安裝infolite外掛安裝方法看這篇https:/

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)

在京東的單個產品頁面上，通過檢視原始碼檢查html，可以看到 <span class="p-price"><span>￥</span><span class="price J-p-1279836"></sp

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

【爬蟲入門5】爬取酷狗TOP500

#coding utf-8 import time import requests from bs4 import BeautifulSoup class spider_KG_top500(object): def __init__(self):

【爬蟲入門】【非同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 # 多執行緒/多程序：提高程式碼的執行效率，放在爬蟲中就是提高爬取效率。因為可以使用多個程序同時對多個頁面發起請求。 # 之前的糗事百科/51job同步執行：按照先後順序一個一個執行。 from urllib.request import urlopen from ur

【爬蟲入門】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

【爬蟲入門】【正則表示式】【非同步】爬取人人車車輛資訊1.0

【爬蟲入門】【正則表示式】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

【爬蟲入門】【Json】爬取智聯招聘

爬蟲中也會經常會遇到以JSON資料返回內容的網站，這種網站不再需要使用正則表示式匹配文字，直接分析網站是否含有介面返回JSON，如果有，直接使用json.load()對json字串進行解析就可以獲取資料。 # pip install requests:比較流行的第三方請求庫 #https

【Python還能幹嘛】爬取微信好友頭像完成馬賽克拼圖（千圖成像）～

馬賽克拼圖何謂馬賽克拼圖（千圖成像），簡單來說就是將若干小圖片平湊成為一張大圖，如下圖路飛一樣，如果放大看你會發現裡面都是一些海賊王裡面的圖片。 Our Tragets 爬取所有微信好友的頭像

python開發【一】初始python

cpu 指令處理器 pyc 本質 ges jvm 用c語言實現動態一，C 和 Python、Java、C#區別 C語言：代碼編譯得到機器碼，機器碼在處理器上直接執行，每一條指令控制CPU工作其他語言：代碼編譯得到字節碼，虛擬機執行字節碼並轉換

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python學習【一】：初次見面

學習解釋器 fig 轉換迷茫新的制作交流第三方庫一、Python的歷史與機遇 1、前世今生　　Python是一種面向對象、直譯式計算機程序設計語言，由荷蘭人Guido van Rossum發明於1989年，1991年發行第一個公開發行版。它常被昵稱為膠水語言

Python爬蟲【五】Scrapy分布式原理筆記

啟動 size inf p s 集合內存運行請求 max Scrapy單機架構在這裏scrapy的核心是scrapy引擎，它通過裏面的一個調度器來調度一個request的隊列，將request發給downloader，然後來執行request請求但是這些requ

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

python爬蟲【一】爬取文字

相關推薦