1. 程式人生 > >百度谷歌都作惡,但到底哪家技術更厲害?你會選擇用哪個?

百度谷歌都作惡,但到底哪家技術更厲害?你會選擇用哪個?

這裡寫圖片描述
策劃編輯 | Vincent
作者 | Vincent
編輯 | Natalie
AI 前線導讀: 前幾日,人民日報在推特和 Facebook 上釋出歡迎谷歌迴歸的訊息,並強調前提是要遵守中國的法律。耐人尋味的是,這兩個平臺上的訊息沒多久就全部刪除。

根據外媒 The Intercept 的訊息,谷歌搜尋極有可能是通過與中國企業“合作”的方式迴歸中國。據知情人士透露,谷歌內部已經完成了一個可以通過中國政府審查的“閹割版”搜尋引擎,內部專案代號“Dragonfly”。

雖然不知道這次谷歌迴歸是否能成真,但在隨之而來的谷歌百度之爭中,大部分網友已經出現了對谷歌“一邊倒”的支援。誠然,百度一直以來故事與“事故”頗多而飽受批評,但作為很多人心中的“白月光”,谷歌其實也做過不少糟心事。

更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)
都在罵百度,那是你們忘了谷歌的惡
如果你是網路老鳥,相信你還記得谷歌退出中國前給中國網民留下深刻不良印象的那件事兒。

簡單回顧一下:2010 年初,有使用者在谷歌自定義介面上的“搜尋熱詞榜”上,看到了排名第一的熱詞竟然是“Chinese people eating babies”,意為:中國人吃嬰兒。

現在大家可能會會心一笑:嗨,不就是個梗嗎。但是在當時,這件事可是引發了軒然大波。只要搜尋“中國人”就會出現“吃嬰兒”的頭條訊息,彷彿是個中國人就會吃嬰兒一樣,簡直可以認為是惡意抹黑了。美籍華人維權社團從 2009 年開始就這一事件投訴谷歌,一直到 2016 年,谷歌方面才回復律師,詞條得以刪除。

還記得谷歌曾經的口號是“不作惡”,這樣看來,種族歧視似乎不在谷歌的“作惡辭典”之中?

百度在幾年前因“魏則西事件”受到了網友的強烈譴責與抵制,還因此牽出一堆違規經營的“莆田系”醫院,之後百度承諾要對搜尋引擎進行整改,但仍然有眼尖的網友發現搜尋的結果中“偶爾”會冒出一些莫名其妙的廣告。

有人會說百度是自討苦吃,觸碰了最危險的底線:醫療,哪知道谷歌又何嘗不是在醫藥行業賺到過盆滿鉢滿。

早在 2003 年,谷歌就因為網路藥品廣告問題接到美國國會三個不同委員會的調查質詢。2004 年 7 月,就在谷歌上市前一個月,由於美國參議員計劃通過兩項監管網路藥店的法案,谷歌負責全球網路廣告的副總裁謝莉爾·桑德伯格 (SherylSandberg) 還趕赴首都華盛頓就這一問題作證。

但隨後發生的系列負面事件顯示,儘管谷歌高層早就意識 到非法藥品廣告的問題,但這家全球最大的搜尋引擎依然會不時捲入負面訊息。

2009 年爆出的大衛·惠特克 (David Whitaker) 事件則讓谷歌在這一問題上首次形象掃地,也讓谷歌真正意識到虛假網路廣告的危害以及搜尋引擎對公眾的責任感。同樣在那一年,百度也被曝出過虛假醫療廣告事件。

AI 前線注:2006 年,因為金融欺詐等罪名數次入獄的惠特克從美國偷渡到墨西哥,做起了開網店賣假藥的生意。惠特克把純淨水貼上類固醇的標籤,通過谷歌 AdWords 打廣告,以每瓶 1000 美元的價格從墨西哥賣給美國顧客。2008 年,惠特克被遣送回美國。他對美國司法部供述稱谷歌的客服在明知他的“藥品”不符合美國法律的情況下,主動指導他避開谷歌的審查機制,在網上投放假藥廣告。

2011 年 8 月,就在谷歌宣佈收購摩托羅拉移動的那個月,谷歌與美國司法部就非法網路藥店廣告一事達成和解,谷歌為此支付了當時企業最高額的企業罰金——5 億美元。

經歷過一些事情,才能意識到什麼是正確的路線,個人成長如此,對一家公司來說更是這樣。兩家搜尋引擎在各種各樣的風浪中不斷前進著,雖然偶有互相超越,但總體態勢是向上的。可是,對於使用者來說,這些負面事件深深地刻進了他們的心裡,這樣的搜尋引擎,有些人表示再也不敢相信了。

搜尋技術哪家好?看專家怎麼說
百度與谷歌都曾作過“惡”,人們似乎很容易用這些事情作為評判的標杆,按你胃(anyway),不管你想從什麼角度來評價這兩家公司的好壞,那是你的自由,我們的任務是從技術層面上來告訴各位讀者如何來評判他們的區別。

2006 年,有人做過這樣的比較。

這裡寫圖片描述

上圖是 2007 年有人做過的百度和谷歌使用者眼球追蹤的對比圖。簡單來說,圖上綠色的點就是使用者眼球瀏覽的記錄,從上圖能夠看出:百度使用者雖然很高的機率下能夠在第一條結果就得到自己想要的答案,但是瀏覽整個頁面的概率遠高於谷歌。

十年前的比較,似乎谷歌在搜尋結果的精準度上略勝百度一籌,但是十年過去了,事情還是這樣的嗎?

近幾日,一組百度和谷歌的搜尋結果對比圖又火了。

這裡寫圖片描述

同樣的詞彙,在谷歌搜圖上找到的就是雪白的場景或者顏色,而百度出現的確實各種不可描述(已打碼),雖然經過 AI 前線編輯的實測發現百度並沒有出現上述情況,不知道是因為“求生欲”還是其他原因。

但是,僅僅因為同一詞語搜出不同結果就判定搜尋引擎的好壞未免太過武斷。AI 前線因此採訪到了一些技術專家,請他們來幫忙解答一下:怎樣評價搜尋引擎的好壞?

微博計算機大 V龍星鏢局 告訴我們:從技術角度來講,有一系列專業的做法去比較兩個不同搜尋產品的各方面指標,如召回率,準確率,多樣性,停留時間等等,業界也有一些第三方機構、學術研究機構會做專業的評測,可以參考。

但要注意的是,搜尋結果質量的評測是個值得好好討論的問題:一方面抽樣的 query 是否足夠多,代表了大部分使用者的需求;另一方面,相關性並不完全是一個可以說得清楚的標準,而且可能部分是因人而異的標準。如果有機構想從事評測這方面的工作,個人覺得利用“眾包”方式來解決以上兩個問題是值得嘗試的。

對於谷歌和百度兩家搜尋引擎的排序系統,他認為從公開可見的技術方案來看差異不大,但也不排除有些核心機密沒有公開出來。但他認為 技術方案上的大差異不足以造成兩家明顯的不同,更多是產品、運營甚至公司文化上的差異。

他進而補充道:“另外我特別想說的一點是,使用者使用行為對搜尋排序影響非常大,技術方案的先進性更多體現在猜使用者的意圖,擬合用戶的習慣。據我瞭解,在中國,百度和谷歌的核心使用者是有天然差異的,這就可能造成即使同樣的技術方案,排出來的東西也是有差異的。”

而接受 AI 前線採訪的另一位來自達觀資料的專家則表示:搜尋引擎受語言種類的影響很大,谷歌作為覆蓋全球各類語種的搜尋引擎,在索引庫的大小方面有天然的優勢,因此在搜尋英文或其它非中文內容時效果比百度明顯領先。在中文搜尋領域,百度和谷歌的系統對文字語義理解的方式也各不相同,因此結果也一定存在差異。

另外,達觀技術專家認為,需要特別指出的是:搜尋引擎給出的結果,是由兩部分合並組成的,一部分是從網頁庫中搜出的自然結果,另一部分是從廣告庫中匹配出的廣告。

搜尋引擎會把這兩部分的結果合併在一起後最終呈現給使用者。搜尋引擎的主要利潤來自後者,因此廣告匹配技術的取捨非常重要,需要在保護好使用者體驗和贏得商業收入方面儘可能做好平衡。百度之前引起很大爭議的地方主要也是在這裡。最理想的方式是通過更精準優質的廣告匹配技術,讓使用者真正認可搜出的結果,幫客戶找到所需的資訊。

有不少人認為:在中國環境和中文條件下,中國人研發的本土化搜尋引擎或許更好用。對於這個觀點,達觀資料的專家認為:中文自然語言理解有很多獨特的地方,中國人當然應該更懂怎樣讓計算機系統更好地解讀中文背後的含義,也更理解中文網民的搜尋意圖。另外中國網民巨大的用量和積累的海量行為資料對訓練出更優質的搜尋系統也大有裨益。

他補充道:“雖然我們歡迎國際巨頭積極參與市場競爭,促進行業健康發展,但也同樣期待核心技術能掌握在中國人手上。”

最後,我們再回過頭來聊聊搜尋結果的問題。

上文中,我們提到:不同的使用者搜尋出來的結果可能不同。對此,達觀資料的專家告訴我們:根據使用者的過往瀏覽行為實現“千人千面”的個性化結果是幾乎所有搜尋引擎都在使用的技術。

龍星鏢局則進一步告訴我們:目前 各家搜尋引擎都不同程度地考慮了個性化因素,搜出來的結果是受非個性化和個性化兩方面共同作用的。在確定性 query 上,個性化策略起的作用有限。但不確定性 query 上,個性化策略可能造成肉眼可見的差異。但無論如何,做不做個性化,個性化因素影響多少都不關鍵,最關鍵的還是為使用者服務,找出來使用者更想要的內容。

到此我們簡單總結一下上述大 V 專家們的發言:

由於搜尋引擎的個性化技術,導致了搜尋結果的差異;

谷歌和百度各有各的技術專長,百度在中文搜尋更勝一籌,谷歌則強在英文結果;

如何評價搜尋引擎的好壞是很複雜的問題,僅憑搜尋結果來下結論不是很嚴謹。

就算回來,谷歌還會是老大嗎?
8 月 6 日,人民日報在推特、Facebook 等海外社交平臺上發文,歡迎谷歌迴歸中國,但是前提是要遵守中國的法律。隨後還附上了一篇名為《穩定是中國網際網路開放的前提》的文章連結。

文章提到:谷歌當初離開中國的選擇是一個失誤,這八年來中國網際網路的發展十分迅猛,我們十分歡迎谷歌迴歸,但守法是前提。

正如這篇文章提到的,在谷歌離開中國大陸的這 8 年時間裡,除了網際網路,谷歌的老對手百度也在不斷髮展,李彥巨集對此事也在朋友圈中進行了回覆:2010 年,百度在國內的市場份額已佔到 70%。

而現在,2018 年,百度所佔的市場份額應該更高了。

從搜尋引擎的使用人群來看,熱衷於使用谷歌的大都是技術從業者,或者是學生群體。這些人會使用一些“科學上網”工具,同時由於谷歌搜尋結果裡英文資料比較豐富,所以這一群體偏好谷歌更多。

這裡寫圖片描述
圖片內容來自微博

通過對一些技術人的採訪,我們總結出了技術人對百度和谷歌的三種態度:

兩款搜尋引擎當年都用過,百度當時確實對中文搜尋體驗比谷歌好很多,一個“你可能還要找” 功能就已經強出太多了,這麼多年過去了,百度的優勢只會更大。

不用非此即彼,兩個一起用沒有一點毛病,事實上現在我也是同時用百度/必應/谷歌。現在喊谷歌喊得最凶的未必將來是真用谷歌的。

對於學術狗來說,谷歌迴歸是大好事。

其實,對於國內的非研究或學術的一般使用者來說,百度其實也是夠用的,查一些中文資料,百度完全沒有問題。而這一類人群佔到了百度使用者的大多數,他們當中有的或許完全沒用過甚至不知道其它搜尋引擎的存在,這一類群體也給百度帶來了不小的市場。

但是,對於百度來說,谷歌這個對手的武器可不止搜尋引擎這一項。

谷歌翻譯曾經被人詬病為“靈魂翻譯”,結果總是驢脣不對馬嘴,但是加入神經網路的谷歌翻譯現在可謂是智慧翻譯界的標杆產品,短篇文章翻譯幾乎不用人工校對。

此外,谷歌知名的深度學習框架 TensorFlow 已經佔有了巨大的市場份額,百度出品的 paddlepaddle 想要趕超似乎有些困難。

與此同時,李飛飛、Jeff Dean 頻繁來到中國,在深圳、北京等地開展宣講會,與清華等知名高校的學生接觸,似乎也在不斷放出訊號,人才資源的爭奪對百度來說也是一份壓力。

不過,對於百度來說,這份壓力或許是一件好事兒,大 V 龍星鏢局認為:首先肯定是歡迎谷歌迴歸中國,服務中國使用者。不過,目前我只看到要回歸的訊息,但具體什麼時候迴歸,哪些產品迴歸,以什麼樣的方式迴歸都還沒有定論。但我始終認為拋開政治因素,谷歌遲早會重新撿起中國市場的,因為這裡的商業利益太大了。

能否威脅到百度的地位不太好說,這個關鍵點要看能多大程度上奪得中國使用者的芳心。如果只是迴歸中文搜尋的話,個人認為比較難。百度的強大不止在於搜尋,更在於圍繞搜尋建立的周邊生態,如貼吧、知道、地圖、音樂、視訊等都是很好的護城河。

達觀資料的專家也表示:從使用者的角度來看,一個存在競爭的市場是健康和有益的,也能夠推動整個搜尋行業的技術和體驗以更快速度前進。谷歌如果迴歸,一定會在短時間內搶佔一塊可觀的市場份額,長期來看,則會起到“鯰魚效應”,擾動中國搜尋市場往更健康的方向發展。

百度曾經有過不好,但是作為國內使用者,雖然嘴上說著一萬個不好用,但是心裡還是希望它能更好,只是這樣的希望真的經不起三番五次的消耗,問題當然會出現,但正視問題,並積極處理問題才是關鍵。

而對於谷歌,雖然好用,但真的迴歸之後,我們迎來的是否會是一個經過修剪、“閹割”的,不完整的谷歌呢?答案几乎是必然的。

最後,用達觀資料的專家在採訪中的一段話作結:

搜尋廣告本身並沒有錯,因為如果廣告內容就是能滿足使用者的需求,那是兩全其美的好事情。但是如果為了追求更高的廣告收益,而放鬆對所出廣告結果的管控,通過虛假方式騙取使用者對廣告的點選,這就傷害使用者對搜尋引擎的信任了。我們都希望掌握著巨大流量的搜尋引擎,能扮演好到客觀公正的“知識領路人”的角色,而不是利益驅動的帶路黨。

參考連結

相關推薦

作惡到底哪家技術厲害選擇哪個?

策劃編輯 | Vincent 作者 | Vincent 編輯 | Natalie AI 前線導讀: 前幾日,人民日報在推特和 Facebook 上釋出歡迎谷歌迴歸的訊息,並強調前提是要遵守中國的法律。耐人尋味的是,這兩個平臺上的訊息沒多久就全部刪除。

Twitter這麼多短連結服務(Short Url)到底哪家強?

一、短連結是什麼 短連結,通俗來說,就是將長的URL網址,通過程式計算等方式,轉換為簡短的網址字串。 它的原理也非常簡單,就是採用 Domain Redirect(域名重定向) ,將一個域名自動跳轉到另一個域名。 根據wikipedia描述,短連結的方案最

蘋果們的殊途同歸:平臺化發展的必然與可能

開發套件 圖片 原因 傳統 單單 window 數據 iphone 開發平臺 一年一度的百度AI開發者大會,是下半年最值得期待的科技盛會之一。作為AI企業的龍頭,百度在開發者方面所展示出的動向,在世界範圍內都牽動著產業的神經。在這次百度AI開發者大會上,出現了一種非常有趣的

JQUERY仿智慧提示

   若使用jquery智慧提示,則主要使用Ajax動態呼叫後臺。   仿百度谷歌智慧提示,說實話,本篇部落格仿的不太縝密,有待繼續完善。   仿百度谷歌智慧提示,思路主要如下:  

【JanelSirry's Blog】很多東西但是很多不能所以需要自己來實踐,作為筆記而記錄方便自己檢視也方便分享喜歡的加關注!

百度統計 [removed] var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.

使用nutch搭建類似/的搜尋引擎

Nutch是基於Lucene實現的搜尋引擎。包括全文搜尋和Web爬蟲。Lucene為Nutch提供了文字索引和搜尋的API。 1.有資料來源,需要為這些資料提供一個搜尋頁面。最好的方式是直接從資料庫中取出資料並用Lucene API 建立索引,因為你不需要從別

離線地圖解決方案(離線地圖下載)

離線地圖解決方案,除了買地圖資料,使用專業的ArcGIS來做外,也可以使用GMap.Net來做。 使用了GMap一年了,也有了一些積累,開發了一個可以下載ArcGIS、百度、谷歌、高德、騰訊SOSO、天地圖、Here等地圖的地圖下載器。 百度和google地圖載入顯示如下: 百度普通地圖: 百

  收錄規則 優化技巧 SEO …

網站被百度拔毛,這是很正常的事情。現在踏踏實實做網站不容易,希望這篇文章對大家有所幫助! 鳥站前幾天被百度降權。我很鬱悶,我的站主要的流量都是從百度來的。這對我來說無疑是個大轉變,日3000IP一下變成日800IP 心裡不是滋味。今天我的站又恢復了青春。現在我總結一下自己針對百度降權的一點經驗。 首先收錄被百

Hexo個人部落格站點被收錄

精心寫一篇博文但是沒人看怎麼辦呢?百度搜不到,谷歌搜不到?別慌,還需要將你的網站提交到百度和谷歌。 在開始之前,你可以按照以下格式在百度和谷歌搜尋下你的網站: 注意:提交到谷歌需要科學上網。 提交百度搜索引擎 ps:可能需要個人資訊認證,

[圖文講解]強大的搜尋技巧360搜狗什麼的就是渣渣

首先推薦篇關於谷歌搜尋的大體文章給大家看看,望大家對谷歌搜尋有個初步的印象和了解  善用GOOGLE  --  從入門到精通 (DOC 簡體字版由網站下載,原作者不詳) 修正版:方煒 臺大生機系   一 GOOGLE 簡介 二 GOOGLE 特色 三 基本搜尋: +,

Genymotion的安裝與使用(附雲盤下載地址全套無需註冊Genymotion即可使用)

jsb 模式 分享 center c盤 操作 註冊 virtual 需求 http://blog.csdn.net/scythe666/article/details/70216144 附百度雲盤下載地址 :http://pan.baidu.com/s/1jHPG

Genymotion的安裝與使用(附雲盤下載地址全套無需註冊Genymotion即可使用)(轉)

完成 人的需求 window 基本 title water align 執行文件 b2c 附百度雲盤下載地址 :http://pan.baidu.com/s/1jHPG7h8 1.Genymotion的安裝包。 Genymotion的所有文件都放在了Androi

自動開啟在排名前50的歌曲中找出其中排名上升的歌曲和演唱者

from selenium import webdriver#chromedriver本機路徑driver = webdriver.Chrome(r"F:\webdriver\chromedriver.exe")driver.implicitly_wait(5)# open target webdriver.

被墻怎樣給瀏覽器加入迅雷下載插件

模式 ott 下載 chrome 程序 lan 宋體 能夠 font 首先須要下載這個迅雷下載插件。下載地址是:http://pan.baidu.com/s/1G0F2e 本來在谷歌的擴展程序裏面能夠搜索到這個插件的,但被墻了之後()。訪問不了。也就下載不到了,辛虧在網

2017雲大會一口氣發布100+消息(無數雲服務)

res 站點 exce 查找 跑步 remine rain 多租戶 ceo 投遞人 itwriter 發布於 2017-03-15 18:37 評論(1) 有576人閱讀 原文鏈接 [收藏] « »   為期 3 天的谷歌雲 2017 大會

免費訪問:搜索Gmail郵箱Chrome商店

blog 使用 extension image not chrom tro note google 分享個免費的google的服務的方法 1,插件下載: http://note.youdao.com/noteshare?id=6a3e52f8d4ccf63c751eedd

WebUploader上傳圖片圖片回顯編輯查看

set 唯一性 original 無需 同名 sch nag fin enum 頁面前端使用的是bootstrap,java後端springMVC , 上傳用的WebUploader,先說說上傳圖片,回顯編輯圖片在下一篇 如果僅僅只需要上傳圖片,不需要回顯進行編輯圖片,使用

地圖 彈窗效果標註總顯示在左上角

scroll coder 自動 poi level edr local board 放大縮小 現象一: 地圖彈窗先隱藏 ->顯示地圖彈窗->設置marker -> 設置centerAndZoom   看效果標註層定點位置有問題(因顯隱),中心點還是相對

發現一波黒帽seo神操作通過打開跳廣告其他方式訪問正常。下面分析原理。

排名 javascrip 別人 訪問 廣告 簡單 方式 jsonp onload 朋友網站被黑了,但是不是低級黑,雖然最後發現原理很簡單,但是對於普通seo來說還是有些奇妙哦。而且不影響收錄和排名,站長只管優化,黒帽偷偷得利! 情況是在百度打開收錄的頁面,打開後,會跳到別人