資料探勘

移動端影象相似度演算法選型

概述 電商場景中,賣家為獲取流量,常常出現重複鋪貨現象,當用戶釋出上傳影象或視訊時,在客戶端進行影象特徵提取和指紋生成,再將其上傳至雲端指紋庫對比後,找出相似圖片,杜絕重複鋪貨造成

你已經是個成熟的表格了,該學會自然語言處理了

編者按:在我們的生活中,用語音查詢天氣,用必應搜尋資訊,這些常見的場景都離不開一種應用廣泛的資料儲存方式——表格(table)。如果讓表格更智慧一些,將是怎麼樣的呢?在這篇文章中,微軟亞洲研究院自然語言計算組

機器學習高質量資料集大合輯

在機器學習中,尋找資料集也是非常重要的一步。質量高或者相關性高的資料集對模型的訓練是非常有幫助的。 那麼用於機器學習的開放資料集有哪些呢?文摘菌給大家推薦一份高質量的資料集,這些

馬蜂窩事件背後暴露出的資料風險

近日,針對馬蜂窩“資料造假”的文章刷屏網路。文章指出,馬蜂窩2100萬條真實點評中,有1800萬條是通過機器人從點評、攜程等其他平臺抄襲而來。作者表示,在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝

網路爬蟲直播觀看總結(掘金直播第十期)

第一次完整看了一次技術直播,靜距離地接觸到了崔慶才老師,正是他的網易課程讓我入了爬蟲的門,成功地開發爬蟲爬取到了想要的資料,體驗了資料抓取的樂趣。藉此良機,在這裡我想簡單總結整理一下我所學到的以及這次直播聽到

邊緣計算與雲端計算的未來

“Edge(邊緣)”和“Fog(霧)”是我們不斷聽到的新流行詞彙。什麼是邊緣計算,又有哪些應用場景?要談論這些,我們需要了解邊緣計算的產生過程。讓我們從一節簡短的歷史課開始。 一、邊緣計算的歷史 在過去

資料科學家最需要什麼技能?

本文整理了多個求職網站的資訊,對僱主最希望資料科學傢俱備的技能進行了分析,並提供了一些建議。 資料科學家需要涉獵很多——機器學習、電腦科學、統計學、數學、資料視覺化、通訊和深度學習。這些領域中有幾十種語言

1716139946.7754