1. 程式人生 > >一個有趣的現象,既然是知識產出還是有必要宣告下原創最好【蝦扯蛋系列】

一個有趣的現象,既然是知識產出還是有必要宣告下原創最好【蝦扯蛋系列】

原創宣告:作者:Arnold.zhao  部落格園地址:https://www.cnblogs.com/zh94 

偶然的一次發現

【    

  1、記錄一下部落格園的文章被別的網站爬取後,如何才能在最佳的位置保留原創連結的方式

  2、看一下各大網站對所爬取後的文章的處理和玩法;

 

偶然的一次時間Google上搜索一些資料,突然看到了自己曾經在部落格園釋出過的文章,但是點開後文章內容竟然不是在自己的部落格園內,而是在另外一個網站內,此時便突然意識到,喲西,部落格園的文章被別的網站爬蟲了;

如下圖所示:來源是一個叫做Python量化投資的網站,過分的是原創的文章連結只是在底部輕描淡寫了一個簡單的URL地址,便沒有再說明其它原創的資訊,並且底部還有一個“讚賞”的按鈕,這。。尼瑪就有些過分了啊,於是在有些許氣憤之下,開始以自己的部落格名為搜尋關鍵詞開始了漫漫的檢索之路;;

 

 

以自己的部落格園名稱作為Google的搜尋的keyword後,發現的第二個網站是一個叫做 “BBSMAX” 的網站,如下圖所示,這個網站也是比較過分的,竟然連原創連結都沒有標識,只是在頭部標識了作者名稱“Dearzh”。。。。

 

 

接著在另外一個“ e-learn”的網站上看到了被爬取的第三個文章 ,不過較好的是,該網站的處理方式還是有些細膩的,在文章的底部,單獨以新的style樣式,展示了對應的文章來源,及URL地址資訊,如下圖所示:

 

重點來了

 此時在接著進行文章檢視時,還是在“bbsmax”上面發現了一外一篇本人的文章,不過不同的是,文章底部給了很明顯的文章出處,如下圖所示:

文章底部給了很明顯的作者名稱,以及文章的原文連結。。。。所以,問題來了。為什麼都是來自於部落格園的文章,按照“BBSMAX”網站的尿性,為何會在這篇文章下保留了

極為明顯的原創地址呢???? 原因只有一個,“BBSMAX”網站在爬取內容後,將原創宣告的標識,按照正文內容的方式進行了收錄,而並沒有當做標識進行刪除;

 

 一般情況下,我們都會使用部落格園自帶的預設簽名的方式,來宣告原創連結,簡單Chrome F12確認了對應的DOM結構,部落格園內的預設簽名都是以<div id="MySignature"/>的方式展示對應的簽名信息,且每次重新整理文章後,DOM所對應的ID都是沒有動態變化的,所以對於一般的網站爬蟲來說,在獲取到對應的文章中所有BODY內容後,一般都可以選擇直接remove掉對應的DOM元素即可,這樣原本屬於你的文章,就會被重新定義原創資訊;

 

儘管網際網路上無祕密,並且文章從釋出開始就是為了幫助更多也存在類似問題的朋友,但當看到部落格內容被別人輕易爬取後,還不宣告原創連結,這還是有些過分的,所以,為了避免出現這種情況,可以採用如下幾個方案,來重新定義原創連結資訊:(反爬取就不要想啦,這個必須由部落格園的開發同學自己解決才行)

1、在文章的開頭處直接宣告對應的作者資訊,如:作者:Arnold.zhao 部落格園地址:https://www.cnblogs.com/zh94 (是要在自己的文章開始書寫時進行宣告,而不是採用簽名預設宣告的方式)

2、在文章的結尾處宣告作者資訊,但需自己書寫 div 元素標籤進行宣告(總之,目的就是為了避免部落格園自身的簽名方式)

3、如果還想使用 部落格園的簽名方式做統一的原創宣告,那麼也可以申請下部落格園的JS許可權(獲取JS的許可權後,可以每次在載入文章的時候,replice掉對應的ID="MySignature"的元素,將ID更改為隨機的一個 值),通過這種方式,對於部分網站先載入完後,再獲取DOM等結構資料的爬蟲則也是有效的。

 

到此,整個文章想要描述的內容就已經結束了,碼字不易,所以其它部落格園的兄弟在寫文章的時候,對於原創宣告的方式,也是的確需要關注一下滴;

 

最後宣告一點,本人對於爬蟲的這種操作其實是並不反感的,畢竟部落格園的資訊本身就是公開透明可取的,而且更多的內容被其它網站進行收錄後,也的確會增加搜尋引擎的權重,可以Help到更多需要幫助的同學,所以,對於Author來講,這是好事;

當我在以部落格名進行檢索的時候,看到了以前的一些文章內容被自動轉換為繁體字收錄到其他網站上面時,內心還是有些觸動的,感覺似乎有默默的幫助到港澳臺的同胞,這。。。。為祖國統一做了默默的貢獻啊。。。。加油

 

相關推薦

一個有趣現象既然知識產出還是有必要宣告原創最好系列

原創宣告:作者:Arnold.zhao  部落格園地址:https://www.cnblogs.com/zh94  偶然的一次發現 【       1、記錄一下部落格園的文章被別的網站爬取後,如何才能在最佳的位置保留原創連結的方式   2、看一下各大網

冰山一角部落格園曾經輝煌過的時代系列

[原創宣告:作者:Arnold.zhao 部落格園地址:https://www.cnblogs.com/zh94](https://www.cnblogs.com/zh94) 我發現部落格園有很多的"老人",他們都很有故事,透過“心內求法”的一篇“逃離CSDN”的文章我彷彿看到了10年 前部落格時代剛剛來

輸入一個年月日日期給出上一天和一天的日期

要求輸入一個代表年月日的8位整數, 計算出其上一天和下一天是什麼日期 2月分閏年和平年 這裡用的是if-else分支結構分情況計算上一天和下一天的日期 public class Demo { public static void main(String[]

實現了一個壓縮演算法在資料高度壓縮的前提還可以快速查詢 key

最近寫了一個演算法,可用於 (key,value) 儲存,key 當然是 string 型別。 用一個 2.3G 的 url 集合做測試,如果不計 value 佔用的空間,key 集合的儲存空間可以被壓縮70倍!壓縮後整個資料結構僅佔31M記憶體!壓縮率比 bzip2 還要高。 本質性的不同於: gzip,

黑帽SEO系列基礎知識

【黑帽SEO系列】基礎知識 發表於 2016-10-09 | 分類於 黑產研究 | 熱度 3320 ℃   SEO全稱為搜尋引擎優化,是指通過站內優化、站外優化等方式,提升搜尋引擎收錄排名。既然有SEO技術,便會有相應的從業人員,他們被稱為白帽SEO,專指通過公正SEO手法,幫助提升站點排名

IT人士健康系列長期與電腦打交道如何預防肩周炎?

在釋出【IT人士健康系列】第一篇文章介紹IT人士如何預防滑鼠手後,在微信公眾號(運維派微信公眾號:yunweipai)中收到不了不少朋友的點贊,所以今天繼續該系列文章,希望大家除了有紮實的專業技能,也要有個健康的身體:) 對於從事IT領域的朋友們,每天面對電腦的時間遠遠超出一般上班族、白領人士,因此

IT人士健康系列操作電腦的10個小細節讓你避免滑鼠手

由於關注“運維派”的大多是IT人群,除了關注技術和資訊,還得關注下自身的身體健康,所以後續“運維派”會陸續推出系列關注IT人健康的文章,今天就給大家講講如何避免得滑鼠手,10個使用電腦的注意事項要知道: 1、顯示屏放置在身體前面的高度以不使頭部上下移動為宜,當坐正之後,雙眼應與螢幕處於平行直線上,

SparkStreaming部分:updateStateByKey運算元(包含從Linux端獲取資料flatmap切分maptopair分類寫入到本地建立的資料夾中)Java版純程式碼

package com.bjsxt; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction;

面試算法系列逆序輸出一個單鏈表

將一個單鏈表的內容逆序輸出,考慮到當一個連結串列的元素列印之前將該元素的前一個元素列印,運用這個思路可以使用遞迴來實現該功能,(不過該方法仍然存在,問題,當連結串列過長會導致棧溢位問題)程式碼如下: </pre><pre name="code" clas

BAT面試題系列Java面試必考題JVM的最完整詳解深度解析背後原理

JVM是BAT面試中的Java必考題目。   想要完美解答JVM相關

Java面試題系列:Java基礎知識面試題看這一篇就夠了(持續更新)

文中面試題從茫茫網海中精心篩選,如有錯誤,歡迎指正! 1.前言 ​ 參加過社招的同學都瞭解,進入一家公司面試開發崗位時,填寫完個人資訊後,一般都會讓先做一份筆試題,然後公司會根據筆試題的回答結果,確定要不要繼續此次面試,如果答的不好,有些公司可能會直接說“技術經理或者總監在忙,你先回去等通知吧”,有些公司

Java面試題系列:Java基礎知識面試題看這一篇就夠了

路徑 拼接 i++ misc min 中新 dem 總結 內容 文中面試題從茫茫網海中精心篩選,如有錯誤,歡迎指正! 1.前言 參加過社招的同學都了解,進入一家公司面試開發崗位時,填寫完個人信息後,一般都會讓先做一份筆試題,然後公司會根據筆試題的回答結果,確定要不要繼續此

Java面試題系列:Java基礎知識常見面試題匯總 第二篇

csdn false 2.3 als 報警器 對象創建 第一篇 extend java 文中面試題從茫茫網海中精心篩選,如有錯誤,歡迎指正! 第一篇鏈接:【Java面試題系列】:Java基礎知識常見面試題匯總 第一篇 1.JDK,JRE,JVM三者之間的聯系和區別 你

Java面試題系列:Java基礎知識常見面試題彙總 第二篇

文中面試題從茫茫網海中精心篩選,如有錯誤,歡迎指正! 第一篇連結:【Java面試題系列】:Java基礎知識常見面試題彙總 第一篇 1.JDK,JRE,JVM三者之間的聯絡和區別 你是否考慮過我們寫的xxx.java檔案被誰編譯,又被誰執行,又為什麼能夠跨平臺執行? 1.1基本概念 JVM:Java V

asp.net core 系列6 實戰之 一個專案的完整結構

# 0. 前言 在《asp.net core 系列》之前的幾篇文章中,我們簡單瞭解了路由、控制器以及檢視的關係以及靜態資源的引入,讓我們對於asp.net core mvc專案有了基本的認識。不過,這些並不是 asp.net core mvc專案的全部內容,剩下的內容我將結合實戰專案為大家講解其中的知識。現

VID 與 PVID 的簡單概述附上一個有趣案例

vlan PVID VID 重要前提,交換機內部的幀都是會打tag的 PVID:port-based vlan id pvid是交換機上的概念,說的是進入該端口的報文如果沒有打vlan id就按pvid的值打上 PVID是基於端口的VLAN ID,一個端口可以屬於多個vlan(trunk 口),

關於JAVA多線程的一個有趣現象

有趣的 決定 sleep zed sync end AR 但是 執行 模擬一個售票系統,或者銀行取錢。 class 銀行{   synchronized getmoney(){     //這裏要sleep,為了延緩速度。   } } class 顧客 extend

一個有趣的小知識-church計數

style 小知識 知識 code lam pre pan bsp spa (define zero (lambda(f) (lambda(x)x))) (define (add-1 n) (lambda(f)(lambda(x)(f((n f)x))))

給18小萌新的一個有趣的小問題取石子問題

題目描述: 現在地上橫著一排放了N堆石頭(N是偶數),每一堆石頭的個數不確定(但是總數和為奇數)。 然後兩個人輪流取石頭,規則是一次只能取一堆,而且只能取首位,最後誰拿到的石頭多誰取勝,請問如果你先手的話,你是否有一個必勝的策略? 題解: 答案當然是有的,那麼這個思路是怎麼樣的呢

移動開發----biubiu一個有趣的EditText

BiuEditText biu,biu,一個有趣的EditText 直接看效果 and Usage Step 1 三個類: ONE(主VIEW): package me.james.biuedittext;