python 解析html中的link

阿新 • • 發佈：2019-02-10

htmllib.HTMLParser

#!/usr/bin/env python
import cStringIO
import formatter
from htmllib import HTMLParser
import urllib

url = "http://blog.csdn.net/Lyq3413/article/details/76577465"
user_name = "proxy_account"
passwd = "proxy_pwd"
proxy_base = "proxy.example.net:8080"
proxy = "http://%s:%[email protected]%s" 
 % (user_name, passwd, proxy_base)
proxies = {"http": proxy, "https": proxy}
f = urllib.urlopen(url, proxies=proxies) #需要代理
#f = urllib.urlopen(url) #不需要代理可以直接這麼寫
data = f.read()
f.close()
parser = HTMLParser(formatter.AbstractFormatter(
    formatter.DumbWriter(cStringIO.StringIO())))
parser.feed(data)
parser.close 
()
print parser.anchorlist

這段程式碼的工作方式中，最重要的是parser 類不進行I/O，它只處理一個formatter 物件。
Python 只有一個formatter 物件，即formatter.AbstractFormatter，用來解析資料並使用writer
物件來分配其輸出內容。同樣，Python 只有一個有用的writer 物件，即formatter.DumbWriter。
可以為該物件提供一個可選的檔案物件，表示將輸出寫入檔案。如果不提供這個檔案物件，
則會寫入標準輸出，但後者一般不是所期望的。為了不讓輸出寫到標準輸出，先例項化一個
cStringIO 物件。StringIO 物件會吸收掉這些輸出

HTMLParser.HTMLParser

from HTMLParser import HTMLParser
from cStringIO import StringIO
from urllib2 import urlopen
import urllib2
from urlparse import urljoin


url = "http://blog.csdn.net/lyq3413/article/details/76577465"
user_name = "proxy_account"
passwd = "proxy_pwd"
proxy = "http://%s:%[email protected]:8080" % (user_name, passwd)
proxies = {"http": proxy, "https": proxy}
proxy_handler = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)
f = urlopen(url)
data = StringIO(f.read())
f.close()

class AnchorParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag != 'a':
            return
        if not hasattr(self, 'data'):
            self.data = []
        for attr in attrs:
            if attr[0] == 'href':
                self.data.append(attr[1])

parser = AnchorParser()
parser.feed(data.read().decode('utf-8'))
for link in parser.data:
    print urljoin(url, link)

BeautifulSoup

BeautifulSoup不是標準庫需要單獨安裝
pip 工具安裝：
$pip install BeautifulSoup

from BeautifulSoup import BeautifulSoup, SoupStrainer

links = BeautifulSoup(data, parseOnlyThese=SoupStrainer('a'))

python 解析html中的link

python 解析html中的link

python 解析html網頁

python解析網頁中js動態添加的內容

C# 解析html中篩選class的問題

python解析HTML之:PyQuery庫的介紹與使用

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

python處理html中的以&#開頭的編碼

Python解析html的幾種操作方式

Python解析HTML定位元素（內容）HTMLParser demo

python解析網頁中javascript動態新增的內容一

關於利用Jsoup解析HTML中；變成非傳統空格或亂碼問題解決方法

python解析URL中含有特殊符號的地址

Java使用Jsoup解析Html中標籤，新增屬性。

python解析html提取資料，並生成word文件

關於HTML中link元素的onload屬性總結

用python解析html

html中link的用法

解析html中連結url，並下載在指定目錄

python 解析html網址內容

Python中利用xpath解析HTML

python 解析html中的link

相關推薦