1. 程式人生 > >python學習筆記——爬蟲中提取網頁中的信息

python學習筆記——爬蟲中提取網頁中的信息

個數 傳輸 自由 tro 不一定 很多 set 字符串 2.4

1 數據類型

網頁中的數據類型可分為結構化數據半結構化數據非結構化數據三種

1.1 結構化數據

常見的是MySQL,表現為二維形式的數據

1.2 半結構化數據

是結構化數據的一種形式,並不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結構。常見的半結構數據有HTML,XML和JSON等,實際上是以樹或者圖的結構來存儲的。

<person>

<name>A</name>

<age>13</age>

<class>aid1710</class>

<gender>female</gender>

</person>

結點中屬性的順序是不重要的,不同的半結構化數據的屬性的個數是不一定一樣的

這樣的數據格式,可以自由地表達很多有用的信息,包括自描述信息(元數據)。所以,半結構化數據的擴展性很好,特別適合於在互聯網中大規模傳播。

1.3 非結構化數據

就是沒有固定結構的數據。各種文檔、圖片、視頻/音頻等都屬於非結構化數據。對於這類數據,我們一般直接整體進行存儲,而且一般存儲為二進制的數據格式;除了結構化和半結構數據之外的數據都是非結構化數據

2 關於XML,HTML,DOM和JSON文件

2.1 XML

XML(Extentsible Markup Language)(可擴展標記語言),是用來定義其它語言的一種元語言,其前身是SGML(標準通用標記語言)。它沒有標簽集(tagset),也沒有語法規則(grammatical rule),但是它有句法規則(syntax rule)。任何XML文檔對任何類型的應用以及正確的解析都必須是良構的(well-formed),即每一個打開的標簽都必須有匹配的結束標簽,不得含有次序顛倒的標簽,並且在語句構成上應符合技術規範的要求。XML文檔可以是有效的(valid),但並非一定要求有效。所謂有效文檔是指其符合其文檔類型定義(DTD)的文檔。如果一個文檔符合一個模式(schema)的規定,那麽這個文檔是模式有效的(schema valid)。

2.2 HTML

HTML(Hyper Text Mark-up Language)即超文本標記語言,是WWW的描述語言。

2.3 DOM

文檔對象模型(Document Object Model,簡稱DOM),是W3C組織推薦的處理可擴展標誌語言的標準編程接口。在網頁上,組織頁面(或文檔)的對象被組織在一個樹形結構中,用來表示文檔中對象的標準模型就稱為DOM

2.4 JSON

JSON(JavaScript Object Notation, JS對象標記) 是一種輕量級的數據交換格式。它基於 ECMAScript (w3c制定的JS規範)的一個子集,采用完全獨立於編程語言的文本格式來存儲和表示數據。簡潔和清晰的層次結構使得 JSON 成為理想的數據交換語言。 易於人閱讀和編寫,同時也易於機器解析和生成,並有效地提升網絡傳輸效率

JSON是 JS對象的字符串表示法,它使用文本表示一個 JS 對象的信息,本質是一個字符串

3 提取網頁中的信息

python學習筆記——爬蟲中提取網頁中的信息