網頁去重演算法 怎麼和搜尋引擎演算法做鬥爭
網頁去重演算法-怎麼和搜尋引擎演算法做鬥爭,不知道大家有沒有仔細去研究過搜尋引擎爬蟲抓取的一個過程,這裡可以簡單的說一下:
一、定(要知道你準備在哪個範圍或者網站去搜索);百度提交,合作DNS,已有爬蟲入口
二、爬(將所有的網站的內容全部爬下來)
三、取(分析資料,去掉對我們沒用處的資料); 去重:Shingle演算法》SuperShinge演算法》I-Match演算法》SimHash演算法
四、存(按照我們想要的方式儲存和使用)
五、表(可以根據資料的型別通過一些圖示展示)
搜尋引擎簡單的看就是抓取到頁面到資料庫,然後儲存頁面到資料庫,到資料庫取出頁面進行展現,所以這裡面是有很多演算法的,到現在搜尋引擎為了防止作弊,更好的滿足使用者需求對很多演算法已經進行改進,具體的有哪些基礎演算法大家可以自己去了解(點選: SEO演算法 -進行了解 )。今天主要講的是原始碼去重,也就是第三部取。
通過上面幾個步驟可以瞭解到,搜尋引擎不可能把網際網路上的所有頁面都儲存到資料庫,在把你的頁面存到資料庫之前是要對你的頁面進行檢查的,檢查你的頁面是否跟已經儲存的頁面重複了,這也是很多seoer要去做偽原創增加收錄機率的原因。
根據去重的基礎演算法可以瞭解到頁面去重它是分程式碼去重和內容去重的,如果我把別人網站的模板程式原封不動的拿過來做網站,那我需要怎麼做程式碼去重呢?今天分享一下怎麼做程式碼去重。

如圖,可以看到在每個模板的class後面加上自己的特徵字元,這樣是既不不影響css樣式,又可以做到程式碼去重的效果,欺騙搜尋引擎,告訴它我這是你沒有見過的程式碼程式。
很多東西說出來簡單,都是經過很多實操總結出來的,大家需要多去操作,那給大家提一下發散的問題。
如果去重演算法有效的話,網際網路上面這麼多相同程式的網站他們的程式碼幾乎相同(很多程式用相同的模板:織夢,帝國等),他們的權重排名為什麼都可以做的很好?
去重演算法他有一個發展升級的,簡單的說就是最開始的Shingle演算法,到後面的SuperShinge演算法再升級到I-Match演算法之後到SimHash演算法,現在每個搜尋引擎的演算法都是在這些基礎的演算法上面進行升級改進,我們可以瞭解大致的原理。
簡單點說就是搜尋引擎給每個頁面一個指紋,每個頁面分層很多個小模組,由很多個小模組組成一個頁面,就像指紋一樣由很多條線組成。
知道這個原理的話我們就知道現在大家所做的偽原創是沒有用的,打亂段落順序,改一些詞,是不會影響頁面指紋的。
真正的可以做到抄別人內容,還不被判定為重複內容要怎麼去做呢?
首先了解一個機制,搜尋引擎儲存的頁面資料他是分層級的,簡單點說就是你輸入一個搜尋詞的時候它優先排名的是優質層的資料,其次再是普通層,劣質層。平時看到的很多高權重平臺他的內頁的排名也可以超過很多網站首頁有這裡面的原因。
當2個網站程式程式碼幾乎相同,內容也幾乎相同的時候,搜尋引擎怎麼去發現他們是重複的呢?
因為搜尋引擎儲存的資料量很大,不可能每儲存一個新頁面就把之前所有儲存的頁面拿出來對比,那他只能是通過演算法判斷拿出與新頁面標題描述相關的優質層的頁面,來與新頁面進行重複度對比。如果重複度達到某個值那麼他就會被判斷為重複內容,就被去重演算法給去掉不被收錄,如果沒有被判定為重複內容則被收錄到劣質層。當你想對這個新頁面做優化讓他的排名有所提,進入到優質層,那它相應的要求也會提升,它會調取更多的頁面資料出來,與其進行對比,而不僅僅是通過調取相關標題描述的資料。這樣的話就會被搜尋引擎發現,它不是原創的,通過綜合的一個評估不給予它進入到優質層。
這也是我們看到的一個現象,為什麼很多抄的內容可以收錄,但是沒辦法獲得好的排名。
如果我們抄了一篇文章,但是我們用了不同的標題,那對於搜尋引擎來說,他在劣質層裡面沒辦法發現他是重複的。這也是解釋很多奇怪的現象,比如圖中:

一個克隆的網站,因為標題的不同,搜尋引擎在抓取去重過程中沒有發現它,但是之後如果這個頁面想要進去到優質層資料庫,它就會被發現是重複的,不會給予好的排名展現。
總結:市面上面的偽原創工具是沒有用的,沒有影響要頁面的指紋,如果非要抄別人的修改標題即可,但是不會獲得好的排名。在新站初期可以用改標題的方法增加收錄,增加網站蜘蛛,中期開始要自己做內容,為獲得好的排名展現做鋪墊。
那如果就是想抄別人的內容,放到自己的網站上面,怎麼把它變成優質的內容?文章轉載:https://leosem.com/