1. 程式人生 > >首場百度大腦開放日來襲 | 全新開放24項AI技術

首場百度大腦開放日來襲 | 全新開放24項AI技術

開發十年,就只剩下這套架構體系了! >>>   

活動當天,百度AI技術生態部總經理喻友平,就百度大腦平臺與生態進行了全面的詳解,同時展示了百度大腦開放平臺Q1核心升級內容,包括語音技術、視覺技術、自然語言處理、知識圖譜等通用AI能力的新近推出,以及開源深度學習框架方面的優化升級,更有多個應用場景案例與大家分享,可謂乾貨滿滿,廣受前來參加活動的開發者與媒體們歡迎與稱讚。

1PaddlePaddle:用深度學習賦能智慧+的方方面面

1、業界首個視訊分類模型庫:新增視訊模型庫,提供5個視訊分類經典模型以及適合視訊分類任務的通用骨架程式碼,使用者可一鍵式高效配置模型完成訓練和評測。視訊理解權威競賽ActivityNet - Kinetics視訊動作識別任務冠軍方法stNet的resnet50版本開源實現。

2、基於PaddlePaddle的BERT多機多卡和混合精度訓練。新增支援NLP語義表示BERT模型,支援多機多卡訓練,支援混合精度訓練,訓練速度對比主流實現提升50%+,提供完整部署示例。

3、分散式訓練效能大幅提升:大規模稀疏引數伺服器Benchmark釋出, CPU多機非同步訓練釋出顯著提升點選率預估任務IO吞吐的built-in reader,多機多卡訓練效能多方面提升。

並推出業界領先的深度強化學習框架PARL1.0。據喻友平介紹,PARL曾在NeurIPS 2018 奪冠。具有高靈活性和可擴充套件性,支援可定製的並行擴充套件,覆蓋DQN、DDPG、PPO、A3C等主流強化學習演算法。通過8塊GPU拉動近20000個CPU節點運算,將近5個小時迭代一輪的PPO演算法加速到不到1分鐘。

如今,百度PaddlePaddle已經廣泛應用於農業、林業、工業、零售、人力、製造、石油、通訊、地產、汽車等多個行業領域,與合作伙伴一起幫助越來越多的行業完成向“智慧+”的升級轉變。

2語音方向:首次開放搭載國際領先的注意力模型的語音能力:語音識別極速版

根據喻友平介紹,目前百度大腦語音開放能力包括語音喚醒、語音識別、語音合成等通用能力,還包括即將推出的語音識別自訓練平臺、軟硬一體的語音開發套件以及各種場景方案。

 1月的百度輸入法探索版釋出會上,首次釋出了領先國際的語音技術:線上語音領域全球首創的流式多級截斷注意力模型SMLTA「Streaming trancated multi-layer attention」,這是首次在大規模語音識別工業界採用注意力(attention)模型,在百度輸入法產品釋出後,驚豔的語音輸入體驗得到了業界的一致好評。基於以上成果持續進行更多創新,提升識別率的同時又大幅優化解碼速度。百度大腦語音方向首次將這一系列技術創新整合為語音能力對外開放:“語音識別極速版”,擁有更快的響應速度,相對識別準確度提升15%,為開發者帶來更極致的識別體驗。

此項語音能力在API呼叫方式下,實時率小於0.1,意味著5s的音訊不到500ms即可完成識別過程,極大減少了識別音訊所需的耗時,提升了語音互動的響應體驗。在近距離安靜環境下,識別準確率可達到98%,同時支援略帶口音、童聲、耳語的識別,使語音識別應用更加廣泛。多平臺的SDK也即將推出,使APP、伺服器端更可實時識別,應用這一領先技術。目前,每個開發者賬戶將贈送5W次免費呼叫量,針對新能力的使用者,也即將推出一系列贈送及優惠活動。

同時,近場語音識別升級了預置語義解析。預置場景由35個升級為51個,包括天氣、航班、電話、電影播放、頁面螢幕控制、電視劇、美食、手機設定、通用錄、提醒、簡訊、故事等,語義解析效果全面優化,80%優於原有解析結果。

不僅如此,還有一些新品即將上線。如:語音識別自訓練平臺,支援自動評估選出最好的基線模型,僅上傳業務場景文字語料即可訓練語言模型,零程式碼自助訓練專屬的語音識別模型,極大地方便語音開發者提升所在業務場景的識別準確率,滿足業務上的語音識別需求。另外,遠場語音開發套件也即將上架售賣,可快速進行遠場識別開發評估,此套件應用於機器人、兒童故事機、家電、車載裝置等硬體。同時還將開放離線合成,以及推出更多音庫。

3視覺方向:從車到人再到“證” 用AI都能看得清

在百度大腦開放日,喻友平還介紹了視覺方向更新升級的四方面內容,包括OCR、車輛分析、人臉人體以及影象識別。

1、首先,在極大便捷工作的OCR方面:1.新增了卡證OCR 4個新能力:戶口本OCR、出生醫學證明OCR、港澳通行證OCR、臺灣通行證OCR,總數達到9種;

2、  新增票據OCR 4個新能力:行程單OCR、保單識別OCR、通用機打發票OCR,定額發票OCR,總數達到9種;

3.  汽車場景3個新能力:車輛VIN OCR、機動車銷售發票OCR、車輛合格證OCR,總數達到6種。這些OCR新能力在關鍵欄位的準確率均在90%以上,並有多項是業界首次平臺化開放。至此,OCR產品全系列共34款,實現卡證、票據、文件、汽車全場景覆蓋。

同時,對已有的OCR能力也進行了功能升級:表格識別:支援合併單元格、無表格線等複雜樣式;iOCR 自定義模版文字識別:支援列寬不固定、有合併單元格的表格樣式的定製識別;駕駛證識別:支援駕駛證副頁的識別。

其次,在車輛分析方面,推出全新系列服務:包括車輛檢測、車流統計、車輛屬性分析和外觀損傷識別。其中,車輛檢測,通過識別影象中的所有機動車輛(包含小汽車、卡車、巴士、摩托車、三輪車),返回每輛車的型別和座標位置,並對每類車輛分別計數,可應用於違章停車監測和智慧停車場。

車輛檢測

車流統計,則根據視訊抓拍圖片序列,進行車輛檢測和追蹤,識別各類車輛(包括小汽車、卡車、巴士、摩托車、三輪車)在指定區域內的駛入/駛出情況,實現動態車流統計,可應用於實時監控交通道路、卡口的車流量,自動統計不同時段各類車輛的進出數量,分析路口、路段的交通狀況,為交通排程、路況優化提供精準參考依據。而車輛屬性分析和外觀損傷識別兩項服務,也即將開放,盡請期待。

車輛屬性識別

在人臉人體識別方面,新發布了情緒識別,可以準確識別7類情緒:生氣、害怕、厭惡、高興、悲傷、驚訝、無情緒。此項技術可應用於幼兒園安全監控等場景,通過監控孩子的心理狀態,判斷教師和幼兒是否有異常狀況,從而保障幼兒安全、及時預警並參與輔導等。同時人臉融合以及手部關鍵點將在3月推出。此外還有2項功能全新升級,包括:人臉檢測快速檢測人臉並返回人臉框位置、定位五官與輪廓關鍵點數量,從72個增加至150個;新增2種手勢,共24種常見手勢,整體識別率在90%以上,使得手勢識別更豐富、更準確;而即將上線的更高進精度的人像分割,可應用於人像美圖、影視後期等場景。

而在影象識別方面,新增紅酒識別和地標識別這2個新能力。通過紅酒識別,使用者只需要對著紅酒標籤拍照,系統就能自動識別紅酒的品牌和名稱,目前可識別數十萬種國內外紅酒,識別準確率98%以上,從法國波爾多到中國張裕,商品資訊都能得到準確關聯,可以輕鬆為使用者提供參考和商品推薦。而地標識別則能夠精準識別約5萬中外著名地標、景點,準確率高達94%以上。使用者只需要拍攝包含國內外著名景點、地標的照片,系統就能自動生成足跡、圖文部落格等有意思的互動內容,提升使用者旅遊體驗。

同時,開放日現場還宣佈,百度大腦即將上線邀測錢幣識別功能。該功能可以精準識別中外錢幣,支援數百類幣種、數千種面額,識別準確率98%以上,不僅能夠提升金融機構貨幣兌換的效率,也能讓“外幣騙局”無處藏身。

從紅酒到地標再到錢幣,目前百度大腦的影象識別種類已經多達11種。

4語言及知識:能為你寫詩,還能讀懂你的情緒

百度大腦語言及知識方向能力集,共包括語言處理應用平臺、語言處理應用技術、語言處理基礎技術、知識理解以及知識圖譜。而此次開放日的更新亮點是,語言處理應用技術、知識理解以及智慧寫作平臺。

在語言處理應用技術方面,推出新能力:1.文字糾錯,識別文字中有錯誤的片段,進行錯誤提示並給出正確的建議文字內容;2.新聞摘要,對新聞內容進行全面的語義理解與分析,自動抽取新聞文字中的關鍵資訊並按指定長度生成摘要,可應用於熱點新聞聚合、新聞推薦、語音播報、APP訊息Push等場景;3.智慧寫詩,使用者只需要輸入任意主題詞(如公司名、節氣名),機器便可自動生成融合了該主題詞的詩詞;4.智慧春聯,使用者輸入任意主題詞(如自己的名字),機器可自動生成融合了該主題詞的春聯,可以應用在企業互動營銷、APP春節互動活動; 5.對話情緒識別,可以針對一段對話文字,自動識別出當前會話者所表現出的情緒類別;

在知識理解方面,則推新能力:1.作文檢索,有數萬篇作文範文,可支援按文體、字數、年級、常見主題等進行查詢檢索,可應用在少兒教育產品(如學習機)、圖書館等場景;2.知識問答,可提供娛樂、人物、教育、影視、綜藝、動漫、小說、文學作品等垂類的問答能力,以及日期曆法、年齡差、算數、時間時區差等推理計算能力,可應用於智慧音箱、兒童故事機、泛娛樂產品等場景。

同時,不久後,智慧寫作平臺也將上線,將從素材上為創作者提供工具、幫助找到靈感,提升創作者的寫作效率和產出質量,降低寫作成本。

在百度大腦首場開放日,除了有以上多項核心的技術更新、能力升級、新品推出外,百度大腦在AI市場正式上架4款硬體產品,感興趣的開發者都可以在PC 端訪問百度AI 市場進行選購。同時推出百度大腦新品體驗師計劃,希望可以在幫助開發者成長的同時,推動百度大腦的進化。

其實,百度大腦一直致力於構建開放的技術生態,已成其多年技術積累和業務實踐的集大成者。截至目前,百度大腦已經開放了近160項AI能力,平臺上開發者數量超過100萬,開放能力覆蓋語音、視覺、自然語言處理、機器學習等全面AI技術。

此次開放日活動,百度大腦誠邀眾多開發者、技術媒體、行業KOL共同參與,瞭解體驗百度大腦AI技術,共同探討AI在開發、落地應用過程中遇到的實際問題,一起助力AI發展加速度。其實,除了此次的開放日活動外,百度大腦還推出了“月度更新計劃”,每個月一次的產品與技術更新,旨在助力企業和個人開發者智慧前行,緊跟社會需求,這足以讓廣大企業和開發者們對百度大腦充滿信心,對我國未來人工智慧的