谷歌:即使用了人工智慧學習,仍有需要人力幫忙製作地圖空間
不少網站防止殭屍程式攻擊的機制採用 驗證碼 ,要你辨識影象中的數字與文字,從而分辨人類與 殭屍程式 。但你知道嗎,這些人類順手之勞的打打字小工作,不少次是幫助 Google 地圖做機器學習,辨識街景中出現的門牌與路名。

即便像 Google 這類大量依靠機器學習的公司,仍有不少地方要靠人工去做,要靠大量的人力協助辨識門牌、路名區塊中,裡面出現的數字或是文字。Google 地圖軟體工程師 比爾 表示,不只是 Google 地圖採用機器學習的問題,這是整體機器學習技術領域遇到的挑戰。長遠的目標會是減少涉入的人力,但又不會破壞建立的模型,仍然能用既有模型去跑。
比爾 說採用深度學習處理計算機視覺板題,是相當高難度的事情,街景車每天上街拍攝的照片數量相當龐大,但仍然需要有方式處理。一般人很快就能辨識出門牌及街上路牌上的路名,用深度學習則是挑戰。Google 地圖採用遞迴神經網路,找出街景車拍攝的照片,辨識不同角度照片中出現的路牌資訊,從中擷取需要的路名或是門牌資訊。

▲ 奈及利亞的拉哥斯,Google 運用機器學習找出建築的門牌號碼。
商家的店面入口除了店名之外,還有販賣產品資訊、特價優惠等文字。上述資訊也許當地人能找出店家叫什麼,但對於機器來說,以及遠在天邊並不是當地人,訓練 AI 的工程師來說,是相當有挑戰性的事情。Google 地圖團隊運用注意力機制,從街景車拍攝的店面,找出人類視覺集中之處,從而判斷店家店名。

▲ 運用遞迴神經網路,訓練演算法辨識不同角度拍的影像,路牌上的路名。
路名常用縮寫表示,而對當地人來說,很容易還原完整的路名,但機器就未必了。 比爾 說他們會對路名做規範化工作,處理路名中的縮寫,像是 Av. 代表 Avene,Pres. 則是 President 的縮寫。

▲ 運用注意力機制,模仿人類視覺焦點,從而找出影像中的商家店名。
比爾 還提及 Google 地圖整合經機器學習方式繪製的 1.1 億棟建築外框,補充說道沒有特定加某個地方的建築,而是看那個地方影像適合他們模型,能得到最好的結果。


▲ Google 運用機器學習,最終加了 1.1 億建築到 Google 地圖上。
Google 街景車當初推出是相當大的噱頭,但如今是餵養 Google 機器學習模型的龐大資料。當被問到街景影像以及衛星圖辨識的問題, 比爾 說影像如有遮蔭,會增加辨識建築物的困難度。
比爾 談到用機器學習處理地圖資訊,技術本身是其次,而是要怎麼將不斷變動的現實世界,相關變動反映到地圖,而且儘可能縮短地圖資料處理時間。更快速的反映現實變化的地圖, 比爾 說這是他們的團隊一直在努力的方向。