馬蜂窩被捅這48小時
#文章來源 財經天下週刊,原標題《58凶險》,作者 裘雪瓊,編輯 王曉玲。更多精彩資訊請登陸眾籌之家www.zczj.com,或關注微信公眾號(ID:zczhijia)。
UGC平臺之間互相抄襲內容,對於業內人士來說本來不算什麼祕密,這個週末這個內幕突然被揭開一角。
10月21日,一篇《獨家|估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》刷屏網路。
這篇資料分析文章指出,成立於2006年、已獲得4輪融資的馬蜂窩旅遊,2100萬條點評中有1800萬條是抄襲的。
10月21日中午,《財經天下》週刊聯絡馬蜂窩公關人員,對方表示“正在蒐集證據,會給到大家”。多家媒體得到了類似回覆。
10月21日晚,小聲比比又釋出了第二篇馬蜂窩爆料,文中稱,“在文章發出來8個小時以後,我起床之後驚奇的發現,昨天我們文章中提及的賬號,全都搜不到了。”
10月22日上午7點50分,螞蜂窩在官方微博釋出宣告。該宣告表示,螞蜂窩網站上有關本地服務的評論僅佔總體資料的2.91%,涉嫌虛假點評的資料佔整體使用者的比重微乎其微,且“已對這部分賬號進行清理”。在螞蜂窩上,核心資料為遊記攻略,佔比高達78.91%。
關於遊記和問答中的違規廣告行為,馬蜂窩稱平均每週處理2,6000條違規廣告資訊,查封15,000個違規賬號,“自媒體將不法商家的違規行為歸結於馬蜂窩,與事實嚴重不符。”
這篇文章於10月20日晚間釋出於個人微信賬號“小聲比比”,其創始人梓泉此前是某家入口網站的新媒體總監。“我不是資料的挖掘者,我只是負責講故事的人。”他告訴《財經天下》週刊。
負責進行資料探勘的是乎睿資料。
在上述文章的末尾,有一段關於這個團隊的官方介紹:“乎睿資料是一支致力於通過技術改善生活的年輕團隊。成員畢業或就讀於賓大、康奈爾、伊利諾伊香檳分校等高等院校,精通人工智慧、自然語言處理、大資料分析等技術,曾在谷歌、臉書等一線企業任職,擁有豐富的研發與領導經驗及多項專利,並曾於AAAI、NAACL、ACL等頂級學術會議發表論文,聯絡郵箱:[email protected]”。
《財經天下》週刊在企查查網站上發現,2018年1月,深圳市乎睿資料有限公司註冊成立,法人代表為吳昊。公司註冊資本102萬元,三個股東——吳昊、費之曄、聶震均持股33.3%。
這篇起底馬蜂窩的爆款資料文章是如何誕生的?10月21日下午,《財經天下》週刊就此對話梓泉。
抄襲手段太低階
《財經天下》週刊:你們是什麼時候,如何發現馬蜂窩的點評資料存在造假現象的?
梓泉:是乎睿資料這個團隊,大概在4個月以前發現的,因為吃外賣吃壞肚子,去差評反遭詆譭,因此想做一個分辨餐飲點評真實性的模型去參賽,當時他們只是想用馬蜂窩的資料做機器訓練,但是後來發現,裡頭的資料有大問題。他們是這週一(10月15日)找到我的。
《財經天下》週刊:從發現到決定做這個選題,據你所知,乎睿資料做了哪些調查核實、蒐集分析?
梓泉:其實這個資料並不難抓。但馬蜂窩的點評板塊並不是主打,所以大家都沒有注意到。
乎睿資料發現一些資料(有)比較明顯的異常。原話是“資料的活躍曲線有很明顯的爆發和消失”,文章中我們配上了資料圖,可以看到它的使用者增長曲線波動不太正常。
隨後他們開始做比較全量的查詢,發現(馬蜂窩)搬運和抄襲的現象非常嚴重,而且非常拙劣。我們已經把抄襲的標準定得非常嚴格,間或性抄襲是不算抄襲的。比如我把三條點評拼起來變成一條。
我們不是說,抄襲了一個其他平臺點評賬號留言,就定性為抄襲。我們是把一個抄襲了150個不同的大眾點評賬號的馬蜂窩賬號定為抄襲的。
這是為了避免使用者有兩個賬號,在大眾點評發,也在馬蜂窩發。但是你如果與150個大眾點評賬號的內容都……可以認為你是有意的,是吧?
《財經天下》週刊:乎睿資料找到你的時候,你一開始覺得可信嗎?
梓泉:我當時比較懷疑的是,(抄襲)手段有點拙劣。抄得太業餘。我覺得挺意外的。
《財經天下》週刊:乎睿資料有沒有告訴你,為什麼選中馬蜂窩資料進行機器訓練?
梓泉:沒有,只是微信上聊天的時候,他們說當時正好看到了馬蜂窩的廣告。
《財經天下》週刊:那你問了嗎?
梓泉:沒有。我覺得這個挺make sense的,挺正常的。
《財經天下》週刊:你用過馬蜂窩平臺嗎?
梓泉:有啊。OTA類似網站那麼多,我個人的使用感覺是沒什麼非要用馬蜂窩的理由。
《財經天下》週刊:你和乎睿資料的成員怎麼交流的?
梓泉:他們團隊有三個人,有一個在休假,沒有和我直接接觸。我需要什麼資料、核實什麼問題直接和他們打電話。
這是一個很年輕的團隊,成員都是在國外留學回來做資料分析,參加過資料大賽那種。我不是做資料的人,他們對資料生成的解釋比我強。
他們的原始報告有70多頁,因為寫得太詳細了,可讀性上可能有一些問題。但他們的資料探勘能力很強、(調查)確實很紮實,而我講故事能力比較強,我這次就是幫他們把這個故事講好。
《財經天下》週刊:你需要和他們核實哪些問題?
梓泉:我和他們溝通的主要是表述。他們的推導邏輯挺複雜的,是先從多少個馬蜂窩點評賬號抄襲過150個大眾點評留言出發的,再把這些抄襲150個以上賬號的馬蜂窩賬號的所有點評加起來,最後除以(馬蜂窩官宣的)全部點評數,得出85%的比例。
《財經天下》週刊:你求證的,就是推演邏輯、計算公式怎麼來的?
梓泉:除了推演邏輯,還有資料來源,以及他們一些圖片的截選位置,比如是從哪個主頁去找的,我需要證實從我這邊能不能復現他們所查到的東西。
《財經天下》週刊:那你是怎麼構思行文邏輯的?
梓泉:主要是出於傳播價值。資料研究報告分為3部分,我總結出來第一篇最有爆點的就是馬蜂窩的抄襲行為,而且是明顯的以公司為單位、大規模的抄襲行為,這種行為可以當作醜聞來對待,對吧?今晚第二篇文章中,我會提到一些馬蜂窩平臺上的其他現象。
《財經天下》週刊:哪些現象?
梓泉:我晚上的文章會提到,一方面是馬蜂窩其它板塊,包括遊記和問答的水軍氾濫問題,我們也會提到一些其他UGC社群。有一個笑話叫:UGC內容,爬取能算偷嗎?這不是很常見的事嗎?馬蜂窩抄襲是一方面,但這篇文章能成為爆款,一個很重要的原因是,它加工得也太低階了。
半夜1點被馬蜂窩投訴
《財經天下》週刊:文章釋出後的閱讀資料是怎麼變化的?
梓泉:昨晚11:40釋出的,今天早上8點微信平臺到了10萬+。現在,微信端的閱讀數破100萬了吧。
釋出時間,我們也是想找一個(馬蜂窩)公關來不及上班的時候,(比如)週末晚上。我們週五就(把文章)組織得差不多了。
考慮這篇文章會被馬蜂窩迴應甚至有起訴風險,我們也是把很多細節表述不斷精確化、一一確認後才釋出出來,避免在法律上事實上留下把柄。這個東西對人家公司影響很大,如果我們被抓住倒打一耙,也負擔不起。
《財經天下》週刊:你作為撰寫者,哪些措辭你會嚴謹中立一些?
梓泉:比如標題上,我們沒寫“馬蜂窩”,用的都是比喻,沒有很絕對的詞彙。文章中間涉及到資料的,都是有東西支撐的,比如截圖,包括(提供)資料視覺化(圖表)讓大家能看懂。
《財經天下》週刊:讀者的反饋中有印象深刻的嗎?
梓泉:現在留言有千把條了。大家都比較希望我們去揭一下抖音和小紅書。跟馬蜂窩有關的留言可以分為三類吧。第一類主要說馬蜂窩的遊記還不錯;第二類說用馬蜂窩真的找不到什麼真人(賬號)。第三類好像都是投資人,對當年投資馬蜂窩的機構冷嘲熱諷。
《財經天下》週刊:有一個留言者說,資料造假可能是馬蜂窩,也可能是馬蜂窩和投資機構合謀。
梓泉:其實我們今晚會寫到,類似於商家和使用者的一個合謀。馬蜂窩在2015年出過一次力度非常大的回饋活動。任何這樣大規模的活動,都會帶來一個非常大的增長黑客,我們俗稱薅羊毛的。
比如說,人家開1萬個水軍號、留一段言、每點選幾下就拿到獎勵幣,最後讓人家把平臺的獎勵薅光再走人。這種流量沒有價值,但是它確實能在短期內推高,(而且)並不是很多公司都反感這種流量。
這相當於一種變相的購買流量吧。2015年馬蜂窩點評數量的增長也許是和它的這個獎勵有關係的。我們並不能說馬蜂窩組織做這樣的事情,但肯定是跟它默許、或者沒有阻止人家薅它的福利有關係。
我們會以幾個具體案例呈現。大家不是說它的遊記做的很好嗎,但其中,我們會分析存在的問題,尤其是它幾個主流的板塊,遊記、問答。
《財經天下》週刊:文章從昨晚釋出到現在,馬蜂窩團隊聯絡你了嗎?
梓泉:把我投訴了,這算聯絡嗎?半夜1點多,馬蜂窩通過微信公眾平臺對我連續進行了2次投訴,說我侵犯他們的商譽,毀謗之類。
《財經天下》週刊:利用爬蟲軟體抄襲點評,在UGC平臺很常見,在OTA平臺也是嗎?
梓泉:我不敢說,因為只做了這一家,其他家的狀況,我不敢評論,但燈下黑的情況,我們覺得應該不少。
《財經天下》週刊:我查了乎睿資料,在企查查上看到有家深圳乎睿資料的。
梓泉:這個你得聯絡他們。
《財經天下》週刊:已經註冊了公司,所以這是一個全職的團隊嗎?
梓泉:涉及到這家公司運營層面的,我說的沒有效力。
《財經天下》週刊:乎睿資料成員,為什麼來找你?你願意寫作釋出的原因是什麼?
梓泉:我這個賬號在科技圈有點名氣。而我知道“什麼樣的新聞有價值”的。這個報告有社會服務性,能有傳播度的。
《財經天下》週刊:你釋出這篇文章,有商業利益嗎?
梓泉:沒有。