1. 程式人生 > >新網站百度不收錄?老司機教你三個套路

新網站百度不收錄?老司機教你三個套路


很多站長都會遇到這個問題,網站開發完成上線後,百度一直不收錄。

即使收錄也只是收錄個首頁,內頁很難快速被收錄。如何解決這個問題?

搜尋引擎的進化

網際網路早期,網站數量有限,所以人工整理是可行的,比如就有DMOZ這樣的人工編輯的網站資料庫,分門別類的整理好各種網址。

後來全球網站數量爆炸性增長,人工整理就不現實了,於是有了網路爬蟲(也叫蜘蛛)代替人工去訪問抓取網站,這就是最原始的搜尋引擎。

雖然網際網路是一個網狀結構,但是抓取整個網際網路上的所有網站還是有難度的,首先要解決的問題就是如何發現這些網站。

為了解決這個問題,搜尋引擎都會有一個基礎的網站資料庫,從這裡的網站開始爬取,希望能抓取整個網際網路上的資訊。而且依靠連結之間的引用關係和使用的連結文字來計算網頁的權重,從而能對搜尋結果排序。比如Google的PageRank演算法。

Yahoo算是非常早的搜尋引擎,它就使用DMOZ的網站作為爬蟲的抓取起點,而且我懷疑Google也使用DMOZ資料,因為10多年前做網站時,大家都希望自己的網站能被DMOZ收錄,甚至賄賂DMOZ的編輯人員。

還有那時候大家都拼命交換友情連結,PR值高的網站就是大爺。這背後對應著網站的收錄速度和排名高低。

一個新網站,如果有PR值高的網站給你加友情連結,很快網站就可以被抓取收錄。

早期網際網路內容貧乏,隨便做個網站,找有權重的網站交換友情連結,這些搜尋引擎爬蟲都如飢似渴的抓取收錄。

可現在網際網路上的內容太多了(Google的總索引頁面數477億左右)),搜尋引擎也變得越來越挑剔,所以新站起流量越來越難了。

那怎麼解決新網站的百度收錄問題呢?

借屍還魂法

用新註冊的域名做網站,從被百度收錄到有排名需要很長的時間。

就像你遇到一個陌生人,你完全不知道他的底細,考核觀察的時間就會很長。

所以希望網站快速被收錄,建議花錢買老域名,而且最好選域名註冊歷史久、沒有不良記錄、各大搜索引擎還有殘留索引記錄的為佳。

什麼叫“沒有不良記錄”?

域名沒有做過黃、賭、毒、醫療等違法或灰色行業。

檢視域名歷史頁面,請科學上網訪問:http://archive.org/

多點選一些網頁快照,看看年初的月份,再看看近期的快照。還有一點就是,檢視快照時候,右鍵檢視下頁面原始碼,看底部的友情連結部分有沒有違法網站,避免選擇被黑過的網站。

而且如果一個域名長達一年多沒有做過網站,可能也要放棄。

關於購買老域名,可以上聚名網或其他提供老域名搶注或交易的網站,平均價格在100-200之間。

基礎的域名資料,比如百度權重,各個搜尋引擎的收錄情況,可以使用愛站SEO助手或自己寫程序抓取。

以上技巧很實用,前段時間跟一個朋友學的。

投懷送抱法

不收錄,那我們要主動投懷送抱。百度站長平臺提供了四種方式來提交抓取請求。

1、主動推送:最為快速的提交方式。適用場景:把網站當天新產生的連結通過這種方式推給百度,保證新連結可以及時被百度收錄。

在站長平臺後臺點選“網頁抓取”->“連結提交”可以看到具體的使用說明,百度提供有curl、php和ruby等樣例程式碼。

2、自動推送:最為方便的提交方式。

使用方法:將自動推送的JS程式碼加到網站每個頁面裡,當有使用者訪問這個頁面時,頁面連結就會自動推送給百度。可以配合主動推送使用。

程式碼如下:

<script>
(function(){
    var bp = document.createElement('script');
    var curProtocol = window.location.protocol.split(':')[0];
    if (curProtocol === 'https') {
        bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';        
    }
    else {
        bp.src = 'http://push.zhanzhang.baidu.com/push.js';
    }
    var s = document.getElementsByTagName("script")[0];
    s.parentNode.insertBefore(bp, s);
})();
</script>

3、Sitemap:傳統提交方式。

很多網站CMS都提供生成Sitemap的功能,如果沒有的話,需要藉助工具或自己寫程式碼生成。通過Sitemap告訴百度蜘蛛哪些網頁希望被抓取。

百度Sitemap支援3種格式:txt文字格式、xml格式、Sitemap索引格式。

如果是小網站,頁面數量小於5萬,可以使用txt或xml格式的sitemap檔案放到網站根目錄下就可以。

http://www.xxx.com/sitemap.txthttp://www.xxx.com/sitemap.xml

如果是網頁數量超過5萬,可以網址拆分成5萬為一組的xml檔案,然後放到Sitemap索引檔案中,通過站長平臺提交給百度。

具體格式參考百度官方說明:Sitemap提交工具站長資訊百度站長平臺

Sitemap提交方式收錄速度慢於主動推送。

4、手動提交:最偷懶的後臺提交方式。

通過百度站長後臺手動提交,一次只能提交20個網址。但這裡有原創提交入口,原創內容可以通過這裡提交。

有幾個問題需要注意:

  1. 主動提交Sitemap有利於百度對你網站內容的識別抓取,但不一定會收錄所有網址,頁面質量高才會收錄。
  2. 重複提交沒有用,反而會浪費主動推送配額。
  3. 有專門的移動版Sitemap格式,需要按百度要求格式製作提交。

老司機帶帶我

搜尋引擎雖然越來越高階,但是爬蟲(蜘蛛)的基本原理並沒有大變化。

想要頁面被收錄,就需要蜘蛛訪問抓取頁面,如果沒有蜘蛛光顧,網站被收錄就無從談起。

所以主動推廣,交換連結依然是加快收錄的有效手段。

如果你有一個百度抓取頻率很高的網站,在主要頁面上增加連結文字指向新站,引導蜘蛛抓取你的新站。

有“老司機”帶路,就是不一樣。

還有些人會用一些黑帽手法,比如蜘蛛池,利用抓取的漏洞把百度蜘蛛困在資源站中,最後匯出外鏈到新站以加快收錄。

總結

建網站只是萬里長征第一步。如何推廣,如何獲取流量,如何給使用者帶來價值是更值得深入討論的問題。以後我們慢慢講。

文章來源:IT擺渡網---一個IT實時問答系統--快速解決你的任何IT問題,無需等待!