對于未來計算機(jī)視覺應(yīng)用的深思

時間：2024-10-26 10:22:49 計算機(jī)應(yīng)用我要投稿

相關(guān)推薦

　　無論是計算能力，還是記憶能力，計算機(jī)的如今表現(xiàn)都堪稱卓越。但僅擁有這些還遠(yuǎn)遠(yuǎn)不夠，我們期待計算機(jī)可以做得更多。耕耘在計算機(jī)視覺領(lǐng)域十余年，賦予計算機(jī)一雙慧眼，讓它也能看懂這個多彩的世界，一直是激勵著眾多計算機(jī)從業(yè)人員在這條充滿挑戰(zhàn)的道路上前行的重要力量。在這篇文章中，小編將就如何讓計算機(jī)能“看”懂世界這個主題，為大家介紹計算機(jī)視覺的基本概念、這個領(lǐng)域面臨的挑戰(zhàn)、一些帶來重要突破的技術(shù)并展望未來的演進(jìn)趨勢。

　　世界如何在我們眼中形成?

　　對人類而言，“認(rèn)人”似乎是與生俱來的本能，剛出生幾天的嬰兒就能模仿父母的表情;它賦予我們只憑極少細(xì)節(jié)就分辨彼此的能力，借著暗淡燈光我們?nèi)阅苷J(rèn)出走廊那端的朋友。然而，這項對人類而言輕而易舉的能力，對計算機(jī)而言卻舉步維艱。過去很長一段時間，計算機(jī)視覺技術(shù)徘徊不前，在進(jìn)一步探求前，不如先談?wù)勎覀兪侨绾斡醚劬τ^察世界的。

　　相信大家都在中學(xué)的物理課上嘗過小孔成像的原理。不過人的眼睛要比小孔成像復(fù)雜得多，當(dāng)我們觀察物體時，每秒大約掃視3次，并有1次駐留。當(dāng)視網(wǎng)膜的感光體感受到蠟燭的輪廓，一個被稱為中央凹的區(qū)域其實(shí)是以扭曲變形的形式記錄下蠟燭的形狀。

　　那么問題來了，為何我們看到的世界既未扭曲也沒有變形呢?很簡單，因為人類擁有大腦皮層這個萬能的“轉(zhuǎn)換器”，它將我們的視覺神經(jīng)捕捉到的信號轉(zhuǎn)換為真實(shí)的形象。這個“轉(zhuǎn)換器”可簡化理解為四個區(qū)域，生物學(xué)家將它們分別稱為V1、V2、V4和IT區(qū)。V1區(qū)的神經(jīng)元，只針對整個視覺區(qū)域中很小的一部分做出反應(yīng)，例如，某些神經(jīng)元發(fā)現(xiàn)一條直線，就變得異常活躍。這條直線可以是任何事物的一部分，也許是桌邊，也許是地板，也許是這篇文章某個字符的筆劃。眼睛每掃視一次，這部分神經(jīng)元的活動就可能發(fā)生快速變化。

　　奧秘出現(xiàn)在大腦皮層頂層的IT區(qū)，生物學(xué)家發(fā)現(xiàn)，物體在視野的任何地方出現(xiàn)(例如一張臉)，某些神經(jīng)元會一直處于固定的活躍狀態(tài)中。也就是說，人類的視覺辨識是從視網(wǎng)膜到IT區(qū)，神經(jīng)系統(tǒng)從能識別細(xì)微特征，到逐漸變?yōu)槟茏R別目標(biāo)。如果計算機(jī)視覺也可以擁有一個“轉(zhuǎn)換器”，那么計算機(jī)識別的效率將大為提高，人眼視覺神經(jīng)的運(yùn)作為計算機(jī)視覺技術(shù)的突破提供了啟迪。

　　計算機(jī)為何總是“霧里看花”?

　　盡管人眼識別的奧秘已經(jīng)被逐步揭開，但直接應(yīng)用于計算機(jī)上卻非易事。我們會發(fā)現(xiàn)計算機(jī)識別總是在“霧里看花”，一旦光線、角度等發(fā)生變化，計算機(jī)難以跟上環(huán)境的節(jié)奏，就會誤識。對計算機(jī)而言，識別一個在不同環(huán)境下的人，還不如識別在同一環(huán)境下的兩個人來得簡單。這是因為最初研究者試圖將人臉想象為一個模板，用機(jī)器學(xué)習(xí)的方法掌握模板的規(guī)律。然而人臉雖然看起來是固定的，但角度、光線、打扮不同，樣子也有差別，都令簡單的模板難以匹配所有人臉。

　　因此，人臉識別的核心問題在于，如何讓計算機(jī)忽略同一個人的內(nèi)部差異，又能發(fā)現(xiàn)兩個人之間的分別，即讓同一個人相似，不同的人有別。

　　對人工神經(jīng)網(wǎng)絡(luò)的引進(jìn)是計算機(jī)視覺超越模板識別的關(guān)鍵。然而人類尚且未完全掌握神經(jīng)的運(yùn)作機(jī)制時，又該如何引導(dǎo)計算機(jī)進(jìn)步呢?人工神經(jīng)網(wǎng)絡(luò)在1960年代就已萌芽，初期理論只固定在簡單的模型之上，即生物課上的“輸入-隱層-輸出”模型。在介紹神經(jīng)的工作原理時，老師們一般都會簡單告知是外界刺激接觸到輸入神經(jīng)元，輸入神經(jīng)元再鏈接其他部分形成隱層，最后通過輸出神經(jīng)元表現(xiàn)出來。這些神經(jīng)元的鏈接強(qiáng)度并不相同，就像不同樂譜的強(qiáng)弱高低不同，人工神經(jīng)網(wǎng)絡(luò)就是依靠這些神經(jīng)元之間不同的鏈接強(qiáng)度，學(xué)會將輸入方式映射到輸出上。

　　不過“樂譜”只是靜止不動的，而且只能從“輸入走向輸出”，不存在反向呈現(xiàn)。也就是說如果人靜止不動，計算機(jī)也許可以通過這一原理讀出，但這在現(xiàn)實(shí)生活中不可能實(shí)現(xiàn)。1980年代末期，用于人工神經(jīng)網(wǎng)絡(luò)的“反向傳播算法”發(fā)明，它能將輸出單元的錯誤傳回輸入單元，并記住它。這種方法令人工神經(jīng)網(wǎng)絡(luò)能從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計規(guī)律，對未知事件做出預(yù)測。不過與大腦的復(fù)雜及層級結(jié)構(gòu)相比，這種只包含一個隱層的神經(jīng)網(wǎng)絡(luò)構(gòu)造還顯得微不足道。

　　深層神經(jīng)網(wǎng)絡(luò)為計算機(jī)“撥云見日”

　　2006年，多倫多大學(xué)教授Geoffrey Hinton在深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練上取得了突破。一方面，他證明了多隱層的人工神經(jīng)網(wǎng)絡(luò)具備更優(yōu)異的特征學(xué)習(xí)能力，另一方面能通過逐層初始化克服此前一直困擾研究者的訓(xùn)練難題——基本原理是先通過大量無監(jiān)督數(shù)據(jù)保證網(wǎng)絡(luò)初始化，再用有監(jiān)督數(shù)據(jù)在初始化好的或者是預(yù)訓(xùn)練的網(wǎng)絡(luò)上優(yōu)化調(diào)整。

　　受到這些因素的啟發(fā)，如今的人臉或圖像識別研究，大多基于CNN(Convolution Neural Networks)原理。CNN可以被視為一種逐層掃描的“機(jī)器”。第一層檢測邊緣、角點(diǎn)、平坦或不平坦的區(qū)域，這一層幾乎不包含語義信息;第二層基于第一層檢測的結(jié)果進(jìn)行組合，并將組合傳遞給下一層，以此類推。多層掃描之下，累加準(zhǔn)確率，計算機(jī)就在向前文提及的“讓同一個人相似，不同的人有別”這一目標(biāo)邁進(jìn)。

　　CNN的學(xué)名為帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)，這一網(wǎng)絡(luò)識別物體還可分為兩個步驟：圖像分類和物體檢測。在第一個階段，計算機(jī)首先識別出物體的種類，例如人、動物或其他物品;第二個階段，計算機(jī)獲取物品在圖像中的精確位置——這兩個階段分別回答了“是什么”和“在哪里”兩個問題。微軟的智能聊天機(jī)器人“小冰”具有辨識狗的品種的能力即是CNN的典型示例。首先，需要搭建一個好幾層深度卷積網(wǎng)絡(luò)。第一層跟人類視覺系統(tǒng)的定義很像，用來對一些小的邊緣或者小的色塊做一些檢測;第二層會把這些小的結(jié)構(gòu)組成大的結(jié)構(gòu)，如狗腿和狗的眼睛;依次向上進(jìn)行組織，最后就能鑒別出狗的種類來。其次，需要往這個帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)里投入很多的圖，訓(xùn)練系統(tǒng)識狗的準(zhǔn)確度。

　　2013年，加州大學(xué)伯克利分校的研究者們提出了一種稱為叫R-CNN方式(Region-based CNN)的物體檢測方法，具有很高的識別準(zhǔn)確度，它將每張圖像分為多個窗口或個子區(qū)，在每個子區(qū)域應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。但其主要缺陷在于，對于實(shí)時檢測，算法過慢。為了在一張圖片上檢測幾個物體，整個神經(jīng)網(wǎng)絡(luò)可能需要運(yùn)算上千次。

　　在微軟亞洲研究院，視覺計算組的研究員們實(shí)現(xiàn)了一種稱為空間金字塔聚合(Spatial Pyramid Pooling，SPP)的新算法，通過在內(nèi)部特征識別，而不是每個區(qū)域從頭檢測，對整個圖片只做一次計算。利用這種新算法，在不損失準(zhǔn)確度的前提下，物體檢測速度有了上百倍的提升。在2014年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中，微軟亞洲研究院采用SPP算法的系統(tǒng)取得了分類第三名和檢測第二名的成績。目前，這項技術(shù)已經(jīng)成功轉(zhuǎn)化進(jìn)入OneDrive中。采用了這項技術(shù)后，OneDrive可以自動為上傳的圖片添加標(biāo)簽。同時，用戶輸入關(guān)鍵詞，就可以搜索與之相對應(yīng)的圖片。

　　展望未來計算機(jī)視覺和人類共舞

　　如果單純識別面部，而不考慮發(fā)型和身體的其他部分，人類的正確率約為97.5%，而計算機(jī)目前則能達(dá)到99%以上。這是否意味著計算機(jī)已經(jīng)勝過了人類?不是，因為我們不只觀察面部，身材和體態(tài)都有助于我們認(rèn)出對方。在復(fù)雜光照的真實(shí)環(huán)境下，人能夠更智能地選擇這些分支幫助自己決策，而計算機(jī)在這方面則要遜色許多。不過，如果數(shù)據(jù)量龐大，或者面對陌生的臉孔，計算機(jī)又更強(qiáng)大些。如果能夠各揚(yáng)其長，歌詞中所唱的“借我一雙慧眼吧”或許將會實(shí)現(xiàn)。

　　人類通過不斷發(fā)明的新技術(shù)來替代舊技術(shù)去更高效和經(jīng)濟(jì)地完成任務(wù)。在計算機(jī)視覺領(lǐng)域亦是如此，我們開發(fā)更便捷人臉識別用于門禁系統(tǒng)，以替代手動的輸入用戶名和密碼——Xbox One利用紅外相機(jī)設(shè)計的人臉識別系統(tǒng)就頗受用戶好評。

　　除上述人類自身也能做到的識別功能外，計算機(jī)視覺還可應(yīng)用在那些人類能力所限，感覺器官不能及的領(lǐng)域和單調(diào)乏味的工作上——在微笑瞬間自動按下快門，幫助汽車駕駛員泊車入位，捕捉身體的姿態(tài)與電腦游戲互動，工廠中準(zhǔn)確地焊接部件并檢查缺陷，忙碌的購物季節(jié)幫助倉庫分揀商品，離開家時掃地機(jī)器人清潔房間，自動將數(shù)碼照片進(jìn)行識別分類……

　　或許在不久的將來，超市電子秤就能辨別出蔬菜的種類;門禁系統(tǒng)能分辨出帶著禮物的朋友，抑或手持撬棒的即將行竊的歹徒;可穿戴設(shè)備和手機(jī)幫助我們識別出鏡頭中的任何物體并搜索出相關(guān)信息。更奇妙的是，它還能超越人類雙眼的感官，用聲波、紅外線來感知這個世界，觀察云層的洶涌起伏預(yù)測天氣，監(jiān)測車輛的運(yùn)行調(diào)度交通，甚至突破我們的想象，幫助理論物理學(xué)家分析超過三維的空間中物體運(yùn)動。

　　曾經(jīng)，人類用眼睛記錄了波瀾壯闊的歷史。未來，我們希望逐步開啟計算機(jī)的眼，讓它在看懂這個多彩的世界的同時，也能幫助人類更高效和智能地完成工作和生活。期待在計算機(jī)視覺和人類的共舞下，世界不僅有多彩，更有智慧。

【對于未來計算機(jī)視覺應(yīng)用的深思】相關(guān)文章：

小議計算機(jī)視覺的應(yīng)用03-06

對于新西蘭留學(xué)回購是否好就業(yè)的深思01-09

視覺流程在平面設(shè)計中的應(yīng)用03-19

網(wǎng)頁視覺平面中平面設(shè)計語言的應(yīng)用03-05

計算機(jī)應(yīng)用常識03-21

學(xué)好計算機(jī)應(yīng)用01-10

計算機(jī)應(yīng)用技術(shù)的應(yīng)用與發(fā)展03-27

計算機(jī)應(yīng)用開題報告03-18

計算機(jī)基礎(chǔ)應(yīng)用試題02-26

国产激情久久久久影院小草_国产91高跟丝袜_99精品视频99_三级真人片在线观看

對于未來計算機(jī)視覺應(yīng)用的深思