人臉識別軟件是一種非常強大的技術,對用戶隱私構成了嚴重威脅。同樣,這個行業目前發展十分迅猛。如今,十數家初創公司和科技巨頭正在向酒店、零售店,乃至學校提供人臉識別服務。由于新算法較五年前能更為精確地識別人臉,行業發展非常迅速。這些科技公司將數十億的人臉素材用以訓練,并改進這些算法,而這通常無需任何許可。事實上,包括你在內,很有可能所有人的數據都被人臉識別公司用于“訓練集”中,或存在于某個公司的客戶數據集里。
面對這樣的情況,消費者可能會感到驚訝。
例如,在至少三起案件中,科技公司通過用戶手機上的拍照應用,獲得了數百萬張人臉圖像。目前,針對人臉識別軟件的法律限制尚無,這意味著人們幾乎無法阻止這種情況發生。
2018年,華盛頓特區附近機場的“登機道”上,有一臺攝像機采集著匆匆走過的“路人”臉孔數據。不過實際上,這只是美國國家標準與技術研究所(NIST)的模擬系統用于展示該裝置“在野外”是如何收集人臉數據的。NIST會定期舉辦人臉識別軟件競賽,邀請全球公司參與,這些由志愿者自愿貢獻的人臉數據將用于競賽。
早期人臉識別技術便是通過這樣的方式來運作的,學術科研人員會請求用戶許可。而如今,科技公司站在了人臉識別技術的前沿,他們不太可能在使用人臉數據時請求明確的許可。
據研究機構MarketResearchFuture報道,人臉識別行業競爭激烈,人臉識別軟件的市場正在以每年20%的速度擴張,預計到2022年,市值將達每年90億美元。其商業模式之一則是:向客戶發放軟件許可,允許他們使用自己的人臉識別程序,這些客戶包括執法部門、零售商、中學等。
在公司參與的此類軟件開發競賽中,如果算法能夠精確識別人臉,并不會導致偏差,該公司就能獲勝。與人工智能的其他領域一樣,開發出人臉識別的出色的/卓越的/優異的/杰出的算法,意味著需要積累大量的人臉數據。雖然科技公司能夠使用***和大學取得許可的數據集,如耶魯人臉數據庫(YaleFaceDatabase),但這些訓練集的數據相對較少,人臉數據僅有數千個。此外,這些官方數據集還有其他局限性,許多缺乏多樣性,或者未能包含諸如陰影、戴帽或化妝等條件,因而不夠真實。為了建立起能在真實場景下探測人臉的識別技術,科技公司需要更多的圖像。
FaceFirst公司CEOPeterTrepp表示,“數百、數千根本不夠,需要數以百萬計的圖像。如果缺乏戴眼鏡或不同膚色人種的數據訓練庫,則無法得到準確結果?!边@是一家位于加州的人臉識別公司,幫助零售商篩選出犯罪分子,將其擋在門外。
從應用服務提供商轉為AI公司
公司從何處尋覓數百萬張圖像訓練軟件?來源之一是警局的人臉數據庫,也可以找私人公司購買。加州的VigilantSolutions公司就提供人臉數據“服務”,其中包含一個1500萬張面孔的人臉數據集。
然而,一些初創公司已經找到了更好的面孔來源——用戶的“個人相冊”應用。這些應用可編輯用戶手機相冊中的照片,通常包含同一個人在多個姿勢和情境下的多張圖像——這可是訓練集的海量數據源。
EverAI的CEODougAley表示:“我們有客戶在數千種不同的場景中被標記同一人,站在陰影中的,戴著帽子的,凡你能想到的?!盓verAI是一家舊金山的人臉識別初創公司,于2012年推出EverRoll,這是一款幫助消費者管理一大堆照片合集的應用。
EverAI已獲投2900萬美元,***者包括KhoslaVentures和其他硅谷風險***公司。
在美國國家標準與技術研究所最近的競賽中,取得“面部照片”分類中第二名,“自然環境面孔”分類第三名。Aley將成績歸功于公司龐大的照片數據庫,據EverAI統計,該數據庫中約有130億張圖片。
初期,EverAI還僅是個照片應用時,其激進的營銷策略曾引發爭議,并暫時導致AppStore2016年將EverRoll下架——這款應用誘使用戶向其手機聯系人發送推廣鏈接,還被用戶指責攫取私人數據,。根據GregMiller2015年在FB上的評論,“該程序在安裝后立即收集你的通訊錄,即刻給所有人發消息……然后開始拉取你的照片,上傳至云端?!彼哪旰?,Miller驚訝地發現,曾叫作EverRoll的應用程序仍存有他的照片,而且現在它已成為人臉識別公司了。
Miller對我們表示,“不,我當時沒有意識到,也完全不能同意。所有這些都是真實存在的問題,不再有隱私,這只會讓我害怕?!?br/>EverAI的CEOAley則表示,該公司不會將其數據庫的個人信息泄漏出去,僅用于訓練軟件。他還表示,該公司類似社交媒體,用戶可以選擇退出。Aley還否認EverAI從一開始就打算向人臉識別方向發展,并表示關閉照片應用是商業方面的決策。目前,EverAI的用戶分布在各行各業,包括公司ID管理、零售業、電信通訊業以及法律執行部門。
EverRoll也并不是較早轉向人臉識別的相冊應用提供商。舊金山的初創公司Orbeus于2016年被亞馬遜悄然收購,它也曾提供過一個名為PhotoTime的熱門圖片管理應用。據內部人士透露,Orbeus的AI技術以及海量人像數據庫促成了這次收購。由于簽有保密協議,這位員工不肯透露身份,但他表示“亞馬遜尋求的就是這些功能,他們在收購后關閉了這款應用?!?br/>
如今PhotoTime已不復存在,不過亞馬遜還在繼續銷售另一款Orbeus的產品,名為Rekognition。這款產品供執法機關及其他組織用于人臉識別。亞馬遜公司拒絕透露Orbeus的相冊應用在多大程度上用于訓練Rekognition軟件,只是說這款軟件將各種來源的數據用于其人工智能項目——包含人臉識別,并表示他們并沒有使用用戶的Prime照片訓練算法。
總部位于西雅圖的RealNetworks則是另一家使用其用戶照片軟件來訓練其人臉識別算法的公司,這家公司的在線視頻播放器一度非常著名,而如今則專注于針對學校孩童的人臉識別軟件。同時它還提供了一款針對家庭用戶的智能手機應用,名為RealTimes,有評論稱這款應用背地里竊取人臉數據。
人臉識別軟件并不新鮮。該技術的雛形初現于20世紀80年代,當時美國的數學家正開始用一系列數值來定義人臉,并用概率模型來匹配。佛羅里達州坦帕市的安保人員在2001SuperBowl上使用了它,賭場也使用這一技術多年。但過去幾年里,情況發生了變化。
美國國家標準與技術研究所的Grother說:“人臉識別正歷經革命?!彼a充道,在高模糊或低質量圖片中,這種變化最為明顯?!暗讓蛹夹g已發生變化,新一代算法取代了舊技術,它們非常有效?!?br/>人臉識別的這場革命正更廣泛地改變人工智能領域,而這得益于兩大因素:首先是新興的深度學習科學,這是一種類似人腦的模式識別系統:二是前所未有的海量數據,這些數據可以在云計算的幫助下以低成本存儲和解析。
毫無疑問,最先充分利用這些新發展的公司是谷歌和Facebook。
2014年,社交網絡首推DeepFace程序,該程序可以識別兩張臉是否同屬一人,準確率高達97.25%,幾乎相當于人類在同一測試中的得分。
據安全公司Gemalto稱,一年后谷歌憑借FaceNet程序獲得頭名,達到百分之百的準確率。
如今,這些公司以及微軟等科技巨頭在人臉識別領域均處于領先地位,這在很大程度上是因為它們可以訪問大量的人臉數據庫。盡管如此,在不斷增長的人臉識別市場上,越來越多的初創公司也在尋找自己的位置,它們也取得了極高準確率。
僅在美國,就有十幾家這樣的初創公司,包括Kairos和FaceFirst。
根據披露過去幾年數十宗***的市場研究公司PitchBook的數據顯示,硅谷不斷涌現出該行業的公司。據PitchBook的數據,過去三年該行業的平均總***為7870萬美元。以硅谷的標準來看,這個數據不算多么驚人,但反映出風險***的重大抉擇,即至少有幾家人臉識別初創公司將迅速成長為大公司。
一些開發人臉識別軟件的公司正在使用新技術,可能會減少訓練算法對大量人臉數據的需求。邁阿密的人臉識別初創公司Kairos就是這樣一個例子:Kairos的客戶中有一家大型連鎖酒店,據其首席安全官StephenMoore稱,Kairos正在創造“合成”的面部數據,以復制各種表情和光照條件下的臉孔數據。他還表示,這些“人造臉孔”意味著公司可以在開發產品時使用更小規模的數據庫。