“定向眾包+工具管理”,「簡亦智」要為AI長尾應用市場輸送優質資料
自2010年起,AI行業經歷了演算法研究、技術擴張,和商業落地階段,市場規模逐年攀升。 根據 《中國人工智慧發展報告2018》統計,2017年我國AI市場規模達到237億元,同比增長67%,預計2018年市場增速將達75%。
人工智慧有三大驅動力:資料、引擎、應用。如果把引擎比作火箭,資料則是燃料,想要場景化落地則需用特定資料集對引擎進行訓練,而資料集的大小和質量則直接決定訓練效果。在AI技術創新爆發期,AI資料集市場應運而生。
36氪近期接觸到一家AI資料服務公司「簡亦智」。公司 成立於2015年,以定製行業整體化AI解決方案起家,但 在實操中發現靠線上公開資料訓練的演算法無法滿足實際場景需求,從而意識到資料集之關鍵,於是從2016年起轉而聚焦AI基礎資料服務 。
當下,資料服務行業屬於勞動密集型產業,多采用眾包模式。然而,人員效率低、資料標註質量參差不齊則是行業通病。基於此, 簡亦智採取“定向眾包+工具管理”模式:一方面,通過眾包獲得大量人力,並以實戰性任務和管理模式完成對標註員生產能力的培訓。另一方面,運用智慧化工具手段提升標註效率,實現資料質檢控制前臺、後臺相結合,降低後臺稽核壓力 。
精度層面,簡亦智自研了文字、語音、圖片工具集用: 對於視訊類資料,人工標註很難覆蓋每一幀,因此需工具集輔助,通過連續幀監測等技術進行畫素級標註。對於圖片類資料,則需依靠區域性超精細標註、場景分割標註、畫素級分割等技術,在前臺就提升標註質量,降低後臺稽核壓力。
資料標註效果圖
效率層面,團隊基於深度學習、機器學習研發了非結構化資料智慧處理平臺,用以針對特定應用場景處理資料。 基於AI演算法,該平臺可對資料進行自動化識別和標註,極大降低人力成本。
當前,簡亦智的專業服務包括圖片、語音、文字、視訊、網頁等全型別的資料採集與標註服務,服務於安防、交通、廣告、醫療、電商、O2O、旅遊、音樂、視訊、教育、工業等應用場景。據悉,該公司在視訊和圖片處理上已做到行業領先水平。
商業層面,簡亦智 主要為AI領域技術公司與研究機構以及AI行業應用客戶提供高質量資料集 。公司目前服務於多家國際頭部AI技術公司,且與近百家國內外AI技術研發機構與行業應用客戶合作。張永生告訴36氪: 公司 在保證高質量交付這一核心優勢前提下,同時優化專案運營模式和工具自動化能力,從而確保專案毛利穩步增收 。 自2016年起,公司已實現了盈虧平衡,2017年達到千萬級營收,年增長率保持在300%以上 。
就公司未來是否以AI行業頭部企業為主要合作方這一問題,張永生表示: 未來AI行業應用會趨於長尾化,隨著AI進入越來越多細分行業,每個行業都會出現一些共性的AI資料需求,同時也會出現大量碎片化場景,從而產生基於特定垂直型應用領域的資料需求 。 簡亦智一直關注包括科研機構、大學、中小企業在內的長尾市場 。
當前,公司已與卡內基梅隆大學、牛津大學、清華、北大、北航等建立合作,並贊助包括場景文字識別競賽ICDAR、國際計算機視覺會議ECCV、ACCV、2018 AIChallenger等學術會議和競賽。對於這些科研機構和高校而言,開源方式的AI資料平臺更為適用,簡亦智也考慮在未來向平臺化方向邁進。
團隊方面,簡亦智創始人張永生本科畢業於清華大學,擁有北郵博士學位,有20年AI相關行業積累,曾為DOCOMO大資料與機器學習團隊主要推動者;CEO任樹亮畢業於北郵,曾為微軟中國區行業大客戶負責人;AI資料業務負責人王斌畢業於中科大,曾於西門子、華為擔任資深軟體架構師;AI解決方案負責人陳又新畢業於清華大學,曾任三星研發總監。
簡亦智曾於2017年獲晨暉創投天使輪投資,目前正在進行A輪融資。
作為AI產業鏈上游重要環節,AI資料集建設近年也上升為國家發展戰略 。《促進新一代人工智慧產業發展三年行動計劃(2018-2020年)》提出要面向重點產品研發和行業應用需求,支援建設並開放多種型別的人工智慧海量訓練資源庫、標準測試資料集和雲服務平臺。
除了本文介紹的“簡亦智”,提供AI基礎資料服務的公司還包括 已掛牌新三板的“ ofollow,noindex" target="_blank">資料堂 ”、獲兩輪融資的 “ 龍貓資料 ”, 完成天使輪融資的“泛涵科技”, 獲得兩輪融資的 BasicFinder ,獲得合力投資的“ 丁火智慧 ”, 獲得兩輪融資的“ 星塵資料 ”等。
————
我是鄭銦, 36氪超人學院創始學員 ,關注AI、AR/VR、物聯網、邊緣計算、社交 ,專案交流請加微信zhengbaobao097825,註明公司、職位、姓名。
超人學院相信早期生態推動社會變革,使命是為早期生態培養領袖人才,詳情請戳 36氪想要為進入創投圈的年輕人做一所「超人學院」,你來不來