第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節爬蟲基礎知識介紹

阿新 • • 發佈：2018-11-24

第一，爬蟲能做什麼？作用是啥？簡單的介紹幾種，以便於瞭解。

1. 搜尋引擎---百度、google、垂直領域搜尋引擎

2. 推薦引擎---今日頭條

3. 機器學習的資料樣本

4. 資料分析(如金融資料分析)、輿情分析等

第二，技術選型（為什麼要使用scrapy而不是requests+beautifulsoup？）

1. requests和beautifulsoup都是庫， scrapy是框架

2. scrapy框架中可以加入requests和beautifulsoup

3. scrapy基於twisted，效能是最大的優勢

4. scrapy方便擴充套件，提供了很多內建的功能

5. scrapy內建的css和xpath selector非常方便， beautifulsoup最大的缺點就是慢

第三，網頁分類

1. 靜態網頁

2. 動態網頁

3.webservice(restapi)

第四，爬蟲的第一步就是網站的結構解析，只有清楚瞭解了網站的結構才能很好的進行資料的爬取。以伯樂網為例子，分析網站的結構，如下圖：

第四，爬蟲常使用的演算法有哪些？下面使用同一組圖來解析對比兩鍾演算法。發現了一篇這個演算法分析寫的很清晰的一篇文章，有需要大家可以移步到此部落格檢視！

1.深度優先演算法和實現

深度優先輸出

A、B、D、E、I、C、F、G、H（遞迴實現）

演算法的虛擬碼如下：

def  depth_ tree(tree node) :
     if  tree_ node  is  not None :
          print (tree_ node._ data)
          if  tree_ node._ left  is not None :
              return depth_ tree(tree_ node._ left)
          if  tree_ node._ right  is  not None :
              return depth_ tree(tree_ node._ right )

2.廣度優先演算法和實現

廣度優先輸出 A、B、C、D、E、F、G、H、I

演算法的虛擬碼如下：

def level_ queue(root) :
      "利用佇列實現樹的廣度有先遍歷"
    if root is None:
       return
    my_ _queue = [ ]node = root
    my_ queue . append(node)
    While my_ _queue:
        node = my_ .queue .pop(O)
        print (node.elem)
        if node.lchild is not None:
            my_ queue . append(node . lchild)
        if  node. rchild is not None :
            my_ queue . append (node. rchild)

第五，資料爬取策略

1. url拼接分析(適用於所有資料的列表頁和搜尋關鍵詞的獲取)

2. 通用爬蟲(廣度優先和深度優先實現)

第六，爬蟲更新策略

1. 根據網站權重分配爬蟲資源

2. 根據last-modify-date、content-length欄位判斷

3. 對網站內容做一個指紋

第七，爬蟲去重策略

1. 將訪問過的url儲存到資料庫中

2. 將訪問過的url儲存到set中，只需要o(1)的代價就可以查詢url（100000000*2byte*50個字元/1024/1024/1024 = 9G）

3. url經過md5等方法雜湊後儲存到set中

4.用bitmap方法，將訪問過的url通過hash函式對映到某一位

5. bloomfilter方法對bitmap進行改進, 多重hash函式降低衝突

這塊都是給了個大致的思路，裡面具體每一點的瞭解，還請各位仔細檢視資料學習！

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節爬蟲基礎知識介紹

第一，爬蟲能做什麼？作用是啥？簡單的介紹幾種，以便於瞭解。 1. 搜尋引擎---百度、google、垂直領域搜尋引擎 2. 推薦引擎---今日頭條 3. 機器學習的資料樣本 4. 資料分析(如金融資料分析)、輿情分析等第二，技術選型（為什麼要使用scrapy而不是request

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節建立第一個scrapy專案

scrapy可以執行在python2.7、python3.3或者是更高的版本上；首先我們借用之前的知識，建立一個python環境。然後在此python環境中建立我們的scrapy專案。這裡你如果不理解的可以給你們大個比方，python版本就好比是

第一章 python分散式爬蟲打造搜尋引擎環境搭建第一節 CentOS7環境下pycharm的安裝和使用

時下最流行的大資料想必大家都很耳熟了，作為程式設計師，我們需要不時的夯實一下自己的知識！在接下來的一個月內，我會在此記錄下自己學習的點點滴滴，一來方便自己日後檢視，二來給初學者提供點學習思路！堅持就是勝利，你比別人差的只是每天的點滴積累！想要開始

第一章 python分散式爬蟲打造搜尋引擎環境搭建第二節 CentOS7環境下Mysql的安裝

CentOS7環境下Mysql的安裝方式有很多，可以用壓縮包安裝，也可以在聯網的情況下直接命令下載安裝！此篇文章將介紹一下如何通過命令安裝mysql資料庫！下面的程式碼都是親自實驗可用的，可以方便快捷的安裝mysql。第一， MySQL的

第二章 python分散式爬蟲打造搜尋引擎環境搭建第二節正則表示式的學習和編寫練習

第一，正則表示式介紹 1. 為什麼必須會正則表示式？關於正則表達的詳細介紹可檢視一篇官網的技術文件！正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合

第一章 python分散式爬蟲打造搜尋引擎環境搭建第三節Navicat遠端連線虛擬機器裡mysql教程

上一節，我們已經成功安裝了mysql,這一節比較簡單，內容也比較少，在配置中遇到的一些問題我也將在之後的文章中給出解決和解釋，一些很低階的問題，希望大家以後可以避免！第一步：開啟Navicat，做連線配置，如下圖所示：這裡有個小

第一章 python分散式爬蟲打造搜尋引擎環境搭建第四節Centos7安裝python3詳細步驟

今天來講解一下Linux系統下如何安裝python3版本！眾所周知，centos7自帶python2.7的版本，這個版本被系統很多程式所依賴，所以不建議刪除，如果使用最新的Python3那麼我們知道編譯安裝原始碼包和系統預設包之間是沒有任何影響的

第一章 python分散式爬蟲打造搜尋引擎環境搭建第三節Navicat遠端連線虛擬機器裡mysql教程

上一節，我們已經成功安裝了mysql,這一節比較簡單，內容也比較少，在配置中遇到的一些問題我也將在之後的文章中給出解決和解釋，一些很低階的問題，希望大家以後可以避免！第一步：開啟Navicat，做連線配置，如下圖所示：這裡有個小插曲，就是在查IP的時

Python 第一節入門基礎知識

.com 比較運算符邏輯運算符技術 http 圖片 ont python back Python的優勢： Linux自帶Python Python在數據處理及自動化方面有優勢。 Python運算符算術運算符賦值運算符比較運算符邏輯運

Python分散式爬蟲打造搜尋引擎完整版-基於Scrapy、Redis、elasticsearch和django打造一個完整的搜尋引擎網站

Python分散式爬蟲打造搜尋引擎基於Scrapy、Redis、elasticsearch和django打造一個完整的搜尋引擎網站https://github.com/mtianyan/ArticleSpider 未來是什麼時代？是資料時代！資料分析服務、網際網路金融，資

Python分散式爬蟲打造搜尋引擎(聚焦Python分散式爬蟲必學框架Scrapy 打造搜尋引擎)

完整版請聯絡QQ 8960531 第1章課程介紹介紹課程目標、通過課程能學習到的內容、和系統開發前需要具備的知識 1-1 python分散式爬蟲打造搜尋引擎簡介第2章 windows下搭建開發環境介紹專案開發需要安裝的開發軟體、 python虛擬vir

Python分散式爬蟲打造搜尋引擎網站（含課件&程式碼）

未來是什麼時代？是資料時代！資料分析服務、網際網路金融，資料建模、自然語言處理、醫療病例分析……越來越多的工作會基於資料來做，而爬蟲正是快速獲取資料最重要的方式，相比其它語言，Python爬蟲更簡單、高效 ----------------------課程目錄--

Python分散式爬蟲打造搜尋引擎網站分享

未來是什麼時代？是資料時代！資料分析服務、網際網路金融，資料建模、自然語言處理、醫療病例分析……越來越多的工作會基於資料來做，而爬蟲正是快速獲取資料最重要的方式，相比其它語言，Python爬蟲更簡單、高效 ----------------------課程目錄---------------------

Python分散式爬蟲打造搜尋引擎完整版

視訊地址：https://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-3743739073.23.701b5e9093l6ux&id=573972529897 視訊地址：https://item.taobao.com/item.htm?spm=a1z

第二章 Python基礎知識

固定 list 如何獲取思路加減乘除方法 oat nal 既然第1章第一個Pyhton程序 Pyhton的兩種執行方式：交互式與腳本文件 1.1 交互式 l 交互式模式直接在Windows或者Linux環境下打開Python解釋器執行。優點：

第二章 python中重要的數據結構（下）

alt 檢查 testin and 淺復制 .py remove arr cti 二、元組(tuple)：不可變序列　跟list一樣，也是一種序列，唯一不同的是，元組元素不能被修改，通常用(, ,)表示元組，也可以不加括號。 1 #創建元組 2 >>&

Python培訓知識總結系列- 第二章Python數據結構第一部分，列表與for循環

數據結構 hello actual 答案系列 define print count man 列表與循環問題編寫一個函數 tag_count，其參數以字符串列表的形式列出。該函數應該返回字符串中有多少個 XML 標簽。XML 是類似於 HTML 的數據語言。你可以通過一

Python培訓知識總結系列- 第二章Python數據結構第二部分，字符串拼接

拼接連接 pytho 適用場景必須不可第二章但是通過 python字符串連接的三種方法及其效率、適用場景詳解python字符串連接的方法，一般有以下三種:方法1：直接通過加號(+)操作符連接website=& 39;python& 39;+&am

Python培訓知識總結系列- 第二章Python數據結構第四部分-字典操作

... 哈希 int lis san 變量 ems python python字典 python字典鍵值對的添加和遍歷添加鍵值對首先定義一個空字典 dic={}1直接對字典中不存在的key進行賦值來添加 dic[‘name‘]=‘zhangsan‘dic{‘name‘:

Python培訓知識總結系列- 第二章Python數據結構第三部分-字典，集合

而是結構 move 原子返回總結刪除添加元素 pen 編寫一個函數 remove_duplicates，該函數將列表作為參數，並返回一個包含源列表中唯一元素的新列表。新列表中未重復出現的元素可采用任何順序。target=[]def remove_duplicate

第二章 python分散式爬蟲打造搜尋引擎環境搭建 第一節爬蟲基礎知識介紹

相關推薦

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節爬蟲基礎知識介紹