1. 程式人生 > >人工智能之數據標註

人工智能之數據標註

如何 dbf text 文本分類 ffffff 我們 ron 要求 就是

隨著人工智能在實踐上的不斷突破,越來越多的創業公司加入到AI相關業務的創業大潮,伴隨著這股潮流關於AI投資也持續高漲,無論是從投資金額,還是投資頻次上看都表明市場對AI市場發展的信心與日俱增。

一、 什麽是數據標註

確立一個算法模型需要使用大量標註好的數據去訓練機器讓機器去學習其中的特征以達到“智能”的目的。而數據標註就是幫助機器去學習去認知數據中的特征。比如我們要讓機器學習認知汽車,我們直接給機器一個汽車的圖片它是無法識別的,我們必須對汽車圖片進行標註打上標簽註明“這是一個汽車”,當機器獲得大量打上標簽的汽車圖片進行學習之後,我們再給機器一個汽車的圖片,機器就能知道這是一個汽車了。

二、 數據標註的類型

數據標註的類型非常多,比如文本分類,圖片拉框,語音轉寫,人像打點等。下面我以京東眾智平臺(https://biao.jd.com/) 常見的標註業務為例簡單講解一下數據標註的類別及其用途。
1. 圖片拉框:拉框標註算是最常見的一種標註形式了而且對標註人員的要求也較低。常見的拉框有人體拉框,車輛拉框,主要應用在人體識別,物體識別等領域。
技術分享圖片

2. 人臉打點:這種標註不僅僅局限在人臉打點上還有包括人體外輪廓打點等。要求比較細致對每個點的位置都會有要求。主要應用於人臉識別,人體識別等領域。
技術分享圖片

3. 語音轉寫:語音轉寫指聽一段語音,標註人員把所聽到語音的內容轉錄出來。主要應用於語音識別領域。
技術分享圖片

4. OCR轉寫:

OCR轉寫一般要求框選出圖片中的文字等需要轉寫的區域並將框選部分的文字轉錄出來。主要應用於文字識別領域。
技術分享圖片

5. 文本分類:這類項目一般是判別文本中語句的類別,或者判別文本包含的情感(正向、中性,負向)。主要應用於智能客服等領域。
技術分享圖片

6. 采集類項目:采集類項目一般不會通過平臺進行大部分都是在線下進行,使用工具也比較多樣,常見的類型有語音采集,視頻采集,人臉采集,采集的數據一般都會進行清洗後才能投入使用。
除此之外數據標註的種類還有很多,在此就不一一介紹了,想詳細了解的可以關註我們的其他文章。。
人們在談到大數據人工智能等詞匯的時候,往往會想到AI算法,數據挖掘、機器學習之類高深的內容。然而如果沒有大量的精準的數據做支持再好的算法也是無法實現的。之後我會給大家介紹下標註好的數據是如何起作用的,為何它如此重要。

人工智能之數據標註