- 相關(guān)推薦
對于未來計算機(jī)視覺應(yīng)用的深思
無論是計算能力,還是記憶能力,計算機(jī)的如今表現(xiàn)都堪稱卓越。但僅擁有這些還遠(yuǎn)遠(yuǎn)不夠,我們期待計算機(jī)可以做得更多。耕耘在計算機(jī)視覺領(lǐng)域十余年,賦予計算機(jī)一雙慧眼,讓它也能看懂這個多彩的世界,一直是激勵著眾多計算機(jī)從業(yè)人員在這條充滿挑戰(zhàn)的道路上前行的重要力量。在這篇文章中,小編將就如何讓計算機(jī)能“看”懂世界這個主題,為大家介紹計算機(jī)視覺的基本概念、這個領(lǐng)域面臨的挑戰(zhàn)、一些帶來重要突破的技術(shù)并展望未來的演進(jìn)趨勢。
世界如何在我們眼中形成?
對人類而言,“認(rèn)人”似乎是與生俱來的本能,剛出生幾天的嬰兒就能模仿父母的表情;它賦予我們只憑極少細(xì)節(jié)就分辨彼此的能力,借著暗淡燈光我們?nèi)阅苷J(rèn)出走廊那端的朋友。然而,這項對人類而言輕而易舉的能力,對計算機(jī)而言卻舉步維艱。過去很長一段時間,計算機(jī)視覺技術(shù)徘徊不前,在進(jìn)一步探求前,不如先談?wù)勎覀兪侨绾斡醚劬τ^察世界的。
相信大家都在中學(xué)的物理課上嘗過小孔成像的原理。不過人的眼睛要比小孔成像復(fù)雜得多,當(dāng)我們觀察物體時,每秒大約掃視3次,并有1次駐留。當(dāng)視網(wǎng)膜的感光體感受到蠟燭的輪廓,一個被稱為中央凹的區(qū)域其實(shí)是以扭曲變形的形式記錄下蠟燭的形狀。
那么問題來了,為何我們看到的世界既未扭曲也沒有變形呢?很簡單,因為人類擁有大腦皮層這個萬能的“轉(zhuǎn)換器”,它將我們的視覺神經(jīng)捕捉到的信號轉(zhuǎn)換為真實(shí)的形象。這個“轉(zhuǎn)換器”可簡化理解為四個區(qū)域,生物學(xué)家將它們分別稱為V1、V2、V4和IT區(qū)。V1區(qū)的神經(jīng)元,只針對整個視覺區(qū)域中很小的一部分做出反應(yīng),例如,某些神經(jīng)元發(fā)現(xiàn)一條直線,就變得異常活躍。這條直線可以是任何事物的一部分,也許是桌邊,也許是地板,也許是這篇文章某個字符的筆劃。眼睛每掃視一次,這部分神經(jīng)元的活動就可能發(fā)生快速變化。
奧秘出現(xiàn)在大腦皮層頂層的IT區(qū),生物學(xué)家發(fā)現(xiàn),物體在視野的任何地方出現(xiàn)(例如一張臉),某些神經(jīng)元會一直處于固定的活躍狀態(tài)中。也就是說,人類的視覺辨識是從視網(wǎng)膜到IT區(qū),神經(jīng)系統(tǒng)從能識別細(xì)微特征,到逐漸變?yōu)槟茏R別目標(biāo)。如果計算機(jī)視覺也可以擁有一個“轉(zhuǎn)換器”,那么計算機(jī)識別的效率將大為提高,人眼視覺神經(jīng)的運(yùn)作為計算機(jī)視覺技術(shù)的突破提供了啟迪。
計算機(jī)為何總是“霧里看花”?
盡管人眼識別的奧秘已經(jīng)被逐步揭開,但直接應(yīng)用于計算機(jī)上卻非易事。我們會發(fā)現(xiàn)計算機(jī)識別總是在“霧里看花”,一旦光線、角度等發(fā)生變化,計算機(jī)難以跟上環(huán)境的節(jié)奏,就會誤識。對計算機(jī)而言,識別一個在不同環(huán)境下的人,還不如識別在同一環(huán)境下的兩個人來得簡單。這是因為最初研究者試圖將人臉想象為一個模板,用機(jī)器學(xué)習(xí)的方法掌握模板的規(guī)律。然而人臉雖然看起來是固定的,但角度、光線、打扮不同,樣子也有差別,都令簡單的模板難以匹配所有人臉。
因此,人臉識別的核心問題在于,如何讓計算機(jī)忽略同一個人的內(nèi)部差異,又能發(fā)現(xiàn)兩個人之間的分別,即讓同一個人相似,不同的人有別。
對人工神經(jīng)網(wǎng)絡(luò)的引進(jìn)是計算機(jī)視覺超越模板識別的關(guān)鍵。然而人類尚且未完全掌握神經(jīng)的運(yùn)作機(jī)制時,又該如何引導(dǎo)計算機(jī)進(jìn)步呢?人工神經(jīng)網(wǎng)絡(luò)在1960年代就已萌芽,初期理論只固定在簡單的模型之上,即生物課上的“輸入-隱層-輸出”模型。在介紹神經(jīng)的工作原理時,老師們一般都會簡單告知是外界刺激接觸到輸入神經(jīng)元,輸入神經(jīng)元再鏈接其他部分形成隱層,最后通過輸出神經(jīng)元表現(xiàn)出來。這些神經(jīng)元的鏈接強(qiáng)度并不相同,就像不同樂譜的強(qiáng)弱高低不同,人工神經(jīng)網(wǎng)絡(luò)就是依靠這些神經(jīng)元之間不同的鏈接強(qiáng)度,學(xué)會將輸入方式映射到輸出上。
不過“樂譜”只是靜止不動的,而且只能從“輸入走向輸出”,不存在反向呈現(xiàn)。也就是說如果人靜止不動,計算機(jī)也許可以通過這一原理讀出,但這在現(xiàn)實(shí)生活中不可能實(shí)現(xiàn)。1980年代末期,用于人工神經(jīng)網(wǎng)絡(luò)的“反向傳播算法”發(fā)明,它能將輸出單元的錯誤傳回輸入單元,并記住它。這種方法令人工神經(jīng)網(wǎng)絡(luò)能從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計規(guī)律,對未知事件做出預(yù)測。不過與大腦的復(fù)雜及層級結(jié)構(gòu)相比,這種只包含一個隱層的神經(jīng)網(wǎng)絡(luò)構(gòu)造還顯得微不足道。
深層神經(jīng)網(wǎng)絡(luò)為計算機(jī)“撥云見日”
2006年,多倫多大學(xué)教授Geoffrey Hinton在深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練上取得了突破。一方面,他證明了多隱層的人工神經(jīng)網(wǎng)絡(luò)具備更優(yōu)異的特征學(xué)習(xí)能力,另一方面能通過逐層初始化克服此前一直困擾研究者的訓(xùn)練難題——基本原理是先通過大量無監(jiān)督數(shù)據(jù)保證網(wǎng)絡(luò)初始化,再用有監(jiān)督數(shù)據(jù)在初始化好的或者是預(yù)訓(xùn)練的網(wǎng)絡(luò)上優(yōu)化調(diào)整。
受到這些因素的啟發(fā),如今的人臉或圖像識別研究,大多基于CNN(Convolution Neural Networks)原理。CNN可以被視為一種逐層掃描的“機(jī)器”。第一層檢測邊緣、角點(diǎn)、平坦或不平坦的區(qū)域,這一層幾乎不包含語義信息;第二層基于第一層檢測的結(jié)果進(jìn)行組合,并將組合傳遞給下一層,以此類推。多層掃描之下,累加準(zhǔn)確率,計算機(jī)就在向前文提及的“讓同一個人相似,不同的人有別”這一目標(biāo)邁進(jìn)。
CNN的學(xué)名為帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),這一網(wǎng)絡(luò)識別物體還可分為兩個步驟:圖像分類和物體檢測。在第一個階段,計算機(jī)首先識別出物體的種類,例如人、動物或其他物品;第二個階段,計算機(jī)獲取物品在圖像中的精確位置——這兩個階段分別回答了“是什么”和“在哪里”兩個問題。微軟的智能聊天機(jī)器人“小冰”具有辨識狗的品種的能力即是CNN的典型示例。首先,需要搭建一個好幾層深度卷積網(wǎng)絡(luò)。第一層跟人類視覺系統(tǒng)的定義很像,用來對一些小的邊緣或者小的色塊做一些檢測;第二層會把這些小的結(jié)構(gòu)組成大的結(jié)構(gòu),如狗腿和狗的眼睛;依次向上進(jìn)行組織,最后就能鑒別出狗的種類來。其次,需要往這個帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)里投入很多的圖,訓(xùn)練系統(tǒng)識狗的準(zhǔn)確度。
2013年,加州大學(xué)伯克利分校的研究者們提出了一種稱為叫R-CNN方式(Region-based CNN)的物體檢測方法,具有很高的識別準(zhǔn)確度,它將每張圖像分為多個窗口或個子區(qū),在每個子區(qū)域應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。但其主要缺陷在于,對于實(shí)時檢測,算法過慢。為了在一張圖片上檢測幾個物體,整個神經(jīng)網(wǎng)絡(luò)可能需要運(yùn)算上千次。
在微軟亞洲研究院,視覺計算組的研究員們實(shí)現(xiàn)了一種稱為空間金字塔聚合(Spatial Pyramid Pooling,SPP)的新算法,通過在內(nèi)部特征識別,而不是每個區(qū)域從頭檢測,對整個圖片只做一次計算。利用這種新算法,在不損失準(zhǔn)確度的前提下,物體檢測速度有了上百倍的提升。在2014年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中,微軟亞洲研究院采用SPP算法的系統(tǒng)取得了分類第三名和檢測第二名的成績。目前,這項技術(shù)已經(jīng)成功轉(zhuǎn)化進(jìn)入OneDrive中。采用了這項技術(shù)后,OneDrive可以自動為上傳的圖片添加標(biāo)簽。同時,用戶輸入關(guān)鍵詞,就可以搜索與之相對應(yīng)的圖片。
展望未來 計算機(jī)視覺和人類共舞
如果單純識別面部,而不考慮發(fā)型和身體的其他部分,人類的正確率約為97.5%,而計算機(jī)目前則能達(dá)到99%以上。這是否意味著計算機(jī)已經(jīng)勝過了人類?不是,因為我們不只觀察面部,身材和體態(tài)都有助于我們認(rèn)出對方。在復(fù)雜光照的真實(shí)環(huán)境下,人能夠更智能地選擇這些分支幫助自己決策,而計算機(jī)在這方面則要遜色許多。不過,如果數(shù)據(jù)量龐大,或者面對陌生的臉孔,計算機(jī)又更強(qiáng)大些。如果能夠各揚(yáng)其長,歌詞中所唱的“借我一雙慧眼吧”或許將會實(shí)現(xiàn)。
人類通過不斷發(fā)明的新技術(shù)來替代舊技術(shù)去更高效和經(jīng)濟(jì)地完成任務(wù)。在計算機(jī)視覺領(lǐng)域亦是如此,我們開發(fā)更便捷人臉識別用于門禁系統(tǒng),以替代手動的輸入用戶名和密碼——Xbox One利用紅外相機(jī)設(shè)計的人臉識別系統(tǒng)就頗受用戶好評。
除上述人類自身也能做到的識別功能外,計算機(jī)視覺還可應(yīng)用在那些人類能力所限,感覺器官不能及的領(lǐng)域和單調(diào)乏味的工作上——在微笑瞬間自動按下快門,幫助汽車駕駛員泊車入位,捕捉身體的姿態(tài)與電腦游戲互動,工廠中準(zhǔn)確地焊接部件并檢查缺陷,忙碌的購物季節(jié)幫助倉庫分揀商品,離開家時掃地機(jī)器人清潔房間,自動將數(shù)碼照片進(jìn)行識別分類……
或許在不久的將來,超市電子秤就能辨別出蔬菜的種類;門禁系統(tǒng)能分辨出帶著禮物的朋友,抑或手持撬棒的即將行竊的歹徒;可穿戴設(shè)備和手機(jī)幫助我們識別出鏡頭中的任何物體并搜索出相關(guān)信息。更奇妙的是,它還能超越人類雙眼的感官,用聲波、紅外線來感知這個世界,觀察云層的洶涌起伏預(yù)測天氣,監(jiān)測車輛的運(yùn)行調(diào)度交通,甚至突破我們的想象,幫助理論物理學(xué)家分析超過三維的空間中物體運(yùn)動。
曾經(jīng),人類用眼睛記錄了波瀾壯闊的歷史。未來,我們希望逐步開啟計算機(jī)的眼,讓它在看懂這個多彩的世界的同時,也能幫助人類更高效和智能地完成工作和生活。期待在計算機(jī)視覺和人類的共舞下,世界不僅有多彩,更有智慧。
【對于未來計算機(jī)視覺應(yīng)用的深思】相關(guān)文章:
小議計算機(jī)視覺的應(yīng)用03-06
對于新西蘭留學(xué)回購是否好就業(yè)的深思01-09
網(wǎng)頁視覺平面中平面設(shè)計語言的應(yīng)用03-05
計算機(jī)應(yīng)用常識03-21
計算機(jī)應(yīng)用技術(shù)的應(yīng)用與發(fā)展03-27
計算機(jī)應(yīng)用開題報告03-18