體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究
這篇體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究的關(guān)鍵詞是內(nèi)容,研究,體育,技術(shù),視頻,
一,開展本課題研究的意義
近年來(lái),數(shù)字視頻的應(yīng)用日趨廣泛.諸如視頻點(diǎn)播,數(shù)字電視,數(shù)字圖書館,視頻會(huì)議,遠(yuǎn)程教育等等,已經(jīng)為越來(lái)越多的人所接受和熟悉.面對(duì)大量涌現(xiàn)的視頻數(shù)據(jù),如何找到所需的視頻信息就成為一個(gè)急需解決的問題.
簡(jiǎn)單的視頻名查詢和類似錄像機(jī)的播放功能已不能滿足人們的需要.正如一本書通常會(huì)有目錄和索引幫助人們迅速瀏覽和查詢內(nèi)容,一部視頻同樣需要有效的目錄和索引.傳統(tǒng)的方法需要由人對(duì)視頻內(nèi)容進(jìn)行標(biāo)注,十分費(fèi)時(shí)費(fèi)力.尤其是當(dāng)視頻資源的數(shù)量達(dá)到海量級(jí),或是處理的速度要求接近實(shí)時(shí)的時(shí)候,完全采用人工的方法都會(huì)遇到難以克服的困難.為了解決這一問題,九十年代以來(lái),出現(xiàn)了基于內(nèi)容的視頻分析和檢索[1][2][3].其核心就是通過對(duì)視頻內(nèi)容進(jìn)行計(jì)算機(jī)分析理解,建立結(jié)構(gòu)和語(yǔ)義索引,以方便用戶檢索.
巨大的商業(yè)前景和重要的學(xué)術(shù)價(jià)值,吸引了來(lái)自于業(yè)界和學(xué)術(shù)界不同領(lǐng)域的研究人員在這一問題上開展研究.一些原型系統(tǒng)先后被提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的Video Engine[6],卡內(nèi)基梅隆大學(xué)的Informedia[7],哥倫比亞大學(xué)的VideoQ[8]等.這些努力最終促成了國(guó)際標(biāo)準(zhǔn)——MPEG-7(多媒體內(nèi)容描述接口)的誕生.但是隨著問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內(nèi)容的機(jī)器理解,即難以建立底層特征與高層語(yǔ)義的聯(lián)系.同樣的難題困擾了人工智能領(lǐng)域多年.一般認(rèn)為,尋找通用的解決方法是異常艱難的.因此,一些研究轉(zhuǎn)而專注于解決特定領(lǐng)域的應(yīng)用問題,如新聞,電影等.在這些特定領(lǐng)域,結(jié)合相應(yīng)的領(lǐng)域知識(shí),是可能將底層特征與高層語(yǔ)義建立某種聯(lián)系的.
體育視頻,即體育比賽的電視轉(zhuǎn)播,作為一個(gè)重要的應(yīng)用領(lǐng)域,一直備受關(guān)注.體育比賽一般很漫長(zhǎng),但對(duì)于大多數(shù)觀眾來(lái)說,真正關(guān)心并有可能反復(fù)觀看的只是其中的一小部分.例如一場(chǎng)跳水比賽常常需要持續(xù)幾個(gè)小時(shí),而其中的精彩部分——運(yùn)動(dòng)員從起跳到入水的過程卻只有短短幾分鐘.人們需要一種方便快捷的手段來(lái)訪問體育視頻的內(nèi)容.
與其他視頻相比,體育視頻具有自己的特點(diǎn).首先,體育視頻中存在一些領(lǐng)域相關(guān)的語(yǔ)義事件,如跳水比賽中運(yùn)動(dòng)員的跳水,足球比賽中的射門等.這些語(yǔ)義事件往往是視頻中最有價(jià)值的部分,需要進(jìn)行標(biāo)注以便于檢索.其次,體育比賽一般有較強(qiáng)的結(jié)構(gòu)性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便于對(duì)視頻內(nèi)容的瀏覽,原始的視頻數(shù)據(jù)應(yīng)按這些結(jié)構(gòu)進(jìn)行解析并組織成層次目錄.本課題的目標(biāo)就是研究針對(duì)體育視頻內(nèi)容的語(yǔ)義標(biāo)注和結(jié)構(gòu)解析技術(shù).
盡管限于當(dāng)前的技術(shù)水平,完全自動(dòng)的,通用的視頻內(nèi)容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價(jià)值的,此外我們的研究也將為最終的全面解決奠定基礎(chǔ).除了學(xué)術(shù)上的意義,本課題的研究還可以有以下一些直接的應(yīng)用:
1,視頻資料庫(kù):適用于各類體育專業(yè)人士或愛好者對(duì)收集的體育比賽視頻資料進(jìn)行查詢,瀏覽和管理.目前,我們已申請(qǐng)到國(guó)家體育總局的科研項(xiàng)目——跳水訓(xùn)練圖像分析軟件系統(tǒng)研制.通過對(duì)跳水比賽視頻的內(nèi)容標(biāo)注與解析,能夠方便快捷的實(shí)現(xiàn)一個(gè)典型動(dòng)作的視頻數(shù)據(jù)庫(kù).
2,Web多媒體發(fā)布:適用于新聞或者體育網(wǎng)站在Web上及時(shí)發(fā)布體育多媒體信息.今天,已經(jīng)有越來(lái)越多人的習(xí)慣于從網(wǎng)上獲取最新的資訊.基于我們的技術(shù),可以在第一時(shí)間采編和發(fā)布綜合圖文和視音頻在內(nèi)的體育多媒體信息.
3,個(gè)人移動(dòng)業(yè)務(wù):適用于無(wú)線服務(wù)提供商為個(gè)人提供定制的多媒體消息服務(wù)(Multimedia Message Service,簡(jiǎn)稱MMS).我們的內(nèi)容標(biāo)注和解析技術(shù),可以為冗長(zhǎng)的體育視頻生成摘要,從而可以根據(jù)用戶的個(gè)人喜好和終端能力,向移動(dòng)設(shè)備發(fā)送體育多媒體消息.
二,國(guó)內(nèi)外研究現(xiàn)狀分析
國(guó)際上對(duì)于體育視頻的研究是從90年代中期開始的,屬于視頻檢索領(lǐng)域的一個(gè)子課題.與新聞視頻領(lǐng)域取得的成功相比[9][10][11],體育視頻的研究相對(duì)較少也更為困難.這主要是因?yàn)樾侣勔曨l有一個(gè)基本一致的時(shí)域結(jié)構(gòu)和場(chǎng)景語(yǔ)義,即先是播音員鏡頭,然后是新聞報(bào)道,最后再回到播音員鏡頭進(jìn)行下面的新聞報(bào)道,而對(duì)于體育視頻則不存在這樣統(tǒng)一的結(jié)構(gòu)和語(yǔ)義.目前體育視頻的研究尚處于初期探索階段,對(duì)于其過程和方法還沒有統(tǒng)一的結(jié)論,也還沒有可以投入實(shí)用的系統(tǒng).
1,鏡頭檢測(cè)
通常在對(duì)體育視頻進(jìn)行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機(jī)不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結(jié)構(gòu)單元.為了將鏡頭分割出來(lái),需要進(jìn)行鏡頭邊界檢測(cè).鏡頭與鏡頭之間的邊界有兩種類型:突變和漸變.突變時(shí),鏡頭直接切換到下一個(gè);漸變時(shí),從一個(gè)鏡頭到下一個(gè)鏡頭會(huì)有一個(gè)持續(xù)多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現(xiàn)后一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時(shí),后一鏡頭的幀逐漸增強(qiáng),并且產(chǎn)生前后幀圖像的重疊.擦變表現(xiàn)為后一鏡頭幀圖像的區(qū)域逐漸變大把前一鏡頭的圖像擦掉.
鏡頭檢測(cè)的關(guān)鍵問題是如何區(qū)分鏡頭之間的切換和因?yàn)閿z像機(jī)或物體運(yùn)動(dòng)造成的鏡頭內(nèi)變化.由于這個(gè)原因,漸變比突變更難以檢測(cè).早期的工作主要在突變檢測(cè),近來(lái)更多的研究集中到對(duì)漸變的分析.
鏡頭檢測(cè)的方法可以分為兩類:非壓縮域的和壓縮域的.在[12][13]中,對(duì)各種非壓縮域的鏡頭檢測(cè)算法進(jìn)行了實(shí)驗(yàn)評(píng)價(jià).與非壓縮域的方法相比,基于壓縮域的方法不需要對(duì)視頻編碼流進(jìn)行解碼,而是直接使用如DCT系數(shù),運(yùn)動(dòng)矢量,宏塊(macroblock)信息等壓縮域特征進(jìn)行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數(shù)據(jù)是以壓縮格式(如MPEG)存儲(chǔ)的,因此基于壓縮域的方法往往具有更大的實(shí)用價(jià)值.
2,語(yǔ)義標(biāo)注
所謂語(yǔ)義標(biāo)注,是指對(duì)體育視頻中的語(yǔ)義事件進(jìn)行檢測(cè)和標(biāo)注,其實(shí)質(zhì)就是依據(jù)事先定義好的類別對(duì)視頻片段進(jìn)行識(shí)別.當(dāng)前,國(guó)內(nèi)外對(duì)體育視頻研究實(shí)際上主要集中在這個(gè)方面,下面介紹一下相關(guān)工作.
Y. Gong等首先提出了對(duì)足球比賽視頻的分析[18].他們結(jié)合足球比賽的領(lǐng)域知識(shí),通過場(chǎng)地白線識(shí)別,攝像機(jī)運(yùn)動(dòng)檢測(cè),足球和運(yùn)動(dòng)員檢測(cè)等分析,對(duì)視頻內(nèi)容進(jìn)行推斷,包括處在球場(chǎng)什么位置,射門,角球等.例如,如果場(chǎng)景接近球門區(qū)域而且足球有一個(gè)向球門的運(yùn)動(dòng),則可以推斷這是一個(gè)射門.實(shí)驗(yàn)結(jié)果表明,系統(tǒng)對(duì)于球場(chǎng)位置的識(shí)別較為準(zhǔn)確,達(dá)到90%,但是射門和角球的識(shí)別率只有53%,這主要是因?yàn)楦咚龠\(yùn)動(dòng)和遮擋關(guān)系,使得足球的檢測(cè)較為困難.
哥倫比亞大學(xué)的Peng Xu等觀察到足球比賽可以劃分為兩種狀態(tài):進(jìn)行和暫停(如因?yàn)榍蛟诮缤饣虿门袝憾ū荣?.他們開發(fā)了一個(gè)能夠檢測(cè)視頻中的足球比賽是在進(jìn)行還是暫停的系統(tǒng)[19].該系統(tǒng)對(duì)足球視頻分析分為兩步.首先,根據(jù)顏色分析得出每一幀中的草地顏色比率,使用這個(gè)特征將幀標(biāo)注為三種:全景(globe view),近景(zoom-in view)和特寫(close-up view).在檢測(cè)的時(shí)候,算法可以對(duì)草色和分類決策進(jìn)行學(xué)習(xí)和自動(dòng)調(diào)整.接著,在對(duì)視頻幀進(jìn)行上述分類標(biāo)記后,根據(jù)經(jīng)驗(yàn)總結(jié)的規(guī)則(如全景一般是比賽進(jìn)行,特寫一般是比賽中斷等)判斷比賽是在進(jìn)行還是暫停了.實(shí)驗(yàn)使用了四段來(lái)自不同足球比賽的五分鐘片斷,檢測(cè)準(zhǔn)確率最好達(dá)到86.5%,最壞只有67.3%.
在另一篇文章里,他們使用了基于隱馬爾科夫模型(HMM)的統(tǒng)計(jì)方法[20].根據(jù)足球視頻的特點(diǎn),選擇主色比率(dominant-color ratio)和運(yùn)動(dòng)強(qiáng)度(motion intensity)為提取特征.他們?yōu)檫M(jìn)行和暫停分別建立了各自的隱馬爾科夫模型組,依據(jù)最大的可能性對(duì)足球視頻進(jìn)行標(biāo)注.與基于規(guī)則的方法相比,這種方法不需要去直接建立復(fù)雜的分類規(guī)則和確定閾值,而是通過訓(xùn)練樣本自動(dòng)學(xué)習(xí).實(shí)驗(yàn)結(jié)果表明該方法較為有效而且表現(xiàn)穩(wěn)定,對(duì)不同的測(cè)試集準(zhǔn)確率都在80%以上,平均準(zhǔn)確率達(dá)到83.5%.
清華大學(xué)的Ming Luo等也以足球?yàn)槔岢隽艘粋(gè)體育視頻分析系統(tǒng)[21].他們的系統(tǒng)根據(jù)關(guān)鍵幀中場(chǎng)地顏色的比率和物體的大小,將鏡頭分類為遠(yuǎn)鏡頭和近鏡頭.此外,對(duì)于遠(yuǎn)鏡頭,他們觀察到在射門或長(zhǎng)傳時(shí),快速的攝像機(jī)運(yùn)動(dòng)通常會(huì)使圖像模糊,從而提出根據(jù)幀圖像的模糊度(blur extent)來(lái)檢測(cè)足球比賽中的這些事件.實(shí)驗(yàn)結(jié)果表明算法對(duì)射門和長(zhǎng)傳事件檢測(cè)的查準(zhǔn)率為89.3%,查全率為97.2%.
Drew D. Saur等人使用直接基于MPEG壓縮域的特征,實(shí)現(xiàn)了對(duì)籃球視頻內(nèi)容的自動(dòng)分析和標(biāo)注[22].算法首先進(jìn)行基于壓縮域DC圖的鏡頭分割,然后對(duì)每個(gè)P幀統(tǒng)計(jì)其中運(yùn)動(dòng)矢量的大小,考慮特寫(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分為廣角鏡頭和特寫鏡頭.對(duì)于廣角鏡頭,進(jìn)一步分析其中的攝像機(jī)運(yùn)動(dòng),來(lái)標(biāo)注特定的視頻內(nèi)容,如搶斷,快攻,可能的投籃等.
微軟研究院的Y. Rui等人提出一種依據(jù)計(jì)算量較小的音頻特征來(lái)檢測(cè)棒球比賽中精彩事件的方法,適用于計(jì)算能力有限的環(huán)境[23].他們的算法首先是基于機(jī)器學(xué)習(xí)的解說員激動(dòng)語(yǔ)音識(shí)別和棒球擊打聲檢測(cè),然后將這兩者進(jìn)行概率混合來(lái)推斷最終的精彩片斷.與人工標(biāo)注的精彩片斷進(jìn)行對(duì)比,實(shí)驗(yàn)表明他們的算法能夠達(dá)到75%的準(zhǔn)確率.
同樣對(duì)于棒球,Dongqing Zhang等通過對(duì)比賽中比分和狀態(tài)的字幕顯示進(jìn)行檢測(cè)和識(shí)別來(lái)分析語(yǔ)義事件的發(fā)生[24][25],如觸壘得分和最后一投(投手被罰出局).他們使用視頻文本檢測(cè)和識(shí)別技術(shù)分析比賽中的字幕信息.識(shí)別結(jié)果再進(jìn)一步利用領(lǐng)域知識(shí)模型來(lái)提高準(zhǔn)確度.
B. Li和M. I. Sezan對(duì)美式橄欖球比賽的電視轉(zhuǎn)播進(jìn)行了分析[26].為了濾除比賽視頻中死球的時(shí)間,生成更為緊湊的摘要,他們將比賽片斷定義為表現(xiàn)球在運(yùn)動(dòng)的視頻片斷,并提出了兩種檢測(cè)方法:確定的基于規(guī)則方法和概率的基于統(tǒng)計(jì)的方法.基于規(guī)則的方法,分析了場(chǎng)地顏色,場(chǎng)地標(biāo)線,攝像機(jī)運(yùn)動(dòng)和運(yùn)動(dòng)員衣服顏色等,然后根據(jù)經(jīng)驗(yàn)總結(jié)的規(guī)則,對(duì)視頻內(nèi)容進(jìn)行判斷.基于統(tǒng)計(jì)的方法,使用HMM推斷視頻中的比賽片斷,實(shí)驗(yàn)表明這種方法也是很有效的.兩者相比,前者易于實(shí)現(xiàn)和計(jì)算,但是需要制定推導(dǎo)規(guī)則,而后者則具有一定的學(xué)習(xí)能力避免了直接設(shè)定閾值的困難.
在體育比賽轉(zhuǎn)播的時(shí)候,通常會(huì)在精彩事件之后及時(shí)穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過檢測(cè)重放事件,以及發(fā)現(xiàn)之前視頻中相同內(nèi)容的正常鏡頭,就可以為冗長(zhǎng)的體育視頻生成一個(gè)令人滿意的精彩索引.
Di. Zhang針對(duì)體育視頻的分析,試圖提出一個(gè)一般性的框架[31].為了兼顧效率和準(zhǔn)確性,他認(rèn)為事件的檢測(cè)可以分為兩步進(jìn)行.即基于壓縮域分析的初選階段,和基于對(duì)象層次的驗(yàn)證階段.第一步,選擇一些壓縮域的特征,如顏色和運(yùn)動(dòng)等,通過統(tǒng)計(jì)學(xué)習(xí)的方法實(shí)現(xiàn)對(duì)事件的初選.第二步,在候選場(chǎng)景中進(jìn)行對(duì)象分割,根據(jù)總結(jié)的領(lǐng)域規(guī)則進(jìn)行判定,如對(duì)于網(wǎng)球比賽的發(fā)球鏡頭,圖像中應(yīng)有大塊場(chǎng)地區(qū)域,在下方有小的運(yùn)動(dòng)員對(duì)象.
J. Assfalg等認(rèn)為體育視頻的鏡頭一般可以分為三類:場(chǎng)地,運(yùn)動(dòng)員和觀眾[32].場(chǎng)地鏡頭關(guān)注體育運(yùn)動(dòng)本身,表現(xiàn)為大塊一致的顏色區(qū)域和場(chǎng)地線條等.在運(yùn)動(dòng)員鏡頭中,運(yùn)動(dòng)員作為前景中的物體出現(xiàn),而背景則變得模糊.在觀眾鏡頭中,個(gè)體常常是不清楚的,而觀眾整體可以看作一種紋理.基于這些認(rèn)識(shí),他們通過邊緣提取,圖形分割和顏色
這篇體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究的關(guān)鍵詞是內(nèi)容,研究,體育,技術(shù),視頻, 分析等,對(duì)三類鏡頭實(shí)現(xiàn)了有效的識(shí)別.N. Babaguchi綜合了文本和視覺特征來(lái)對(duì)體育視頻中的事件進(jìn)行檢測(cè)[33].文本信息來(lái)自于電視信號(hào)中的隱藏字幕(Closed Caption).首先,通過搜尋文本中事件相關(guān)的關(guān)鍵字,估計(jì)事件發(fā)生的可能時(shí)間段.然后,再對(duì)時(shí)間段內(nèi)的鏡頭進(jìn)行視覺特征分析,計(jì)算與已有的事件例子的匹配度,檢測(cè)出事件相關(guān)的鏡頭.
3,結(jié)構(gòu)解析
一部視頻中常常包含了成百上千個(gè)鏡頭,特別是在體育視頻中.這主要是因?yàn)轶w育比賽電視轉(zhuǎn)播的時(shí)候,會(huì)有多個(gè)攝像機(jī)從不同視角對(duì)比賽進(jìn)行拍攝,它們之間的頻繁切換就構(gòu)成了鏡頭.為了更好的訪問視頻內(nèi)容,除了語(yǔ)義標(biāo)注,還需要對(duì)鏡頭進(jìn)行有效的組織.結(jié)構(gòu)解析的任務(wù)就是通過鏡頭組織為視頻數(shù)據(jù)流建立類似書目的分層瀏覽結(jié)構(gòu).
以[34][35]為代表,一些研究人員提出了通用的視頻結(jié)構(gòu)分析方法.他們用時(shí)間約束的聚類法把視覺上相似和時(shí)間上相鄰的鏡頭聚類在一起,再在聚類組的基礎(chǔ)上構(gòu)造場(chǎng)景轉(zhuǎn)換圖(Scene Transition Graph)或高層場(chǎng)景,進(jìn)而形成層次化的瀏覽結(jié)構(gòu).但是這種統(tǒng)一的結(jié)構(gòu)組織方式(如[34]中將視頻分成幀/鏡頭/組/場(chǎng)景四層)并不適合針對(duì)體育視頻的分析,這主要是因?yàn)轶w育比賽都有自己特定結(jié)構(gòu)(如圖1所示),對(duì)體育視頻的分析應(yīng)當(dāng)結(jié)合這種領(lǐng)域知識(shí).
圖1 跳水比賽的樹狀結(jié)構(gòu)
4,總結(jié)
綜上對(duì)國(guó)內(nèi)外研究現(xiàn)狀的調(diào)查,我們有以下結(jié)論:
(1)應(yīng)當(dāng)結(jié)合領(lǐng)域知識(shí)進(jìn)行特征選擇.領(lǐng)域知識(shí)包括比賽相關(guān)和制作相關(guān).比賽相關(guān)的領(lǐng)域特征涉及特定的體育運(yùn)動(dòng),如足球比賽中的草色比率,籃球比賽中快攻時(shí)攝像機(jī)的運(yùn)動(dòng)等.制作相關(guān)的領(lǐng)域特征適用于大多數(shù)體育視頻的分析,主要來(lái)自對(duì)體育視頻制作的總結(jié),如精彩場(chǎng)面的重放,有關(guān)運(yùn)動(dòng)員和比分信息的字幕顯示等.綜合這兩類領(lǐng)域知識(shí),選擇合適的特征進(jìn)行分析是取得研究成功的基礎(chǔ).
(2)多模式融合分析代表了新的研究趨勢(shì).除了視覺特征外,綜合體育視頻中所包含的音頻特征和文本信息,能夠有效提高視頻分析的準(zhǔn)確度.這也是近年來(lái)的研究熱點(diǎn).在體育視頻中,一個(gè)語(yǔ)義事件常常是一個(gè)多模式的表達(dá),如運(yùn)動(dòng)員的跳水事件既有視覺上的運(yùn)動(dòng)也有聽覺上的踏板聲和入水聲,只對(duì)其中一個(gè)模式進(jìn)行分析是不完整的.因此在對(duì)體育視頻進(jìn)行內(nèi)容分析時(shí),融合多模式尤為重要.
(3)盡量考慮壓縮域的特征分析.一場(chǎng)體育比賽長(zhǎng)達(dá)數(shù)個(gè)小時(shí),其視頻數(shù)據(jù)也非常龐大,因而提高處理速度是很有意義的,在某些要求實(shí)時(shí)應(yīng)用的場(chǎng)合也是必需的.直接基于壓縮域的分析,不需要完全解碼,可以顯著提高處理速度.[22][31]表明基于壓縮域的分析不僅能夠大幅度降低計(jì)算量,同時(shí)也能獲得較好的結(jié)果,或者作為進(jìn)一步處理的基礎(chǔ).
(4)基于統(tǒng)計(jì)的事件檢測(cè)方法要優(yōu)于基于規(guī)則的方法.早期的研究多采用基于規(guī)則的方法.但是,體育視頻中的事件檢測(cè)常常需要綜合多種特征分析手段,需要適應(yīng)不同的場(chǎng)景.這些都增加了直接設(shè)定規(guī)則的難度.與之相比,統(tǒng)計(jì)算法易于混合多種特征同時(shí)又具備一定的學(xué)習(xí)能力,因而具有更大的實(shí)用價(jià)值.
(5)忽略了對(duì)事件之間關(guān)系的研究.體育比賽中的各種語(yǔ)義事件不是孤立的,它們具有某種因果關(guān)系或概率相關(guān).因此綜合多種事件及其之間關(guān)系的分析,對(duì)于提高分析的精度和深度都是有價(jià)值的.
(6)缺乏對(duì)體育視頻內(nèi)容的結(jié)構(gòu)解析.盡管許多文章中提到了體育視頻的結(jié)構(gòu)分析,但是它們對(duì)結(jié)構(gòu)的分析主要是基本場(chǎng)景的分解,如[20]中將足球視頻分為比賽進(jìn)行和暫停,[31]中檢測(cè)網(wǎng)球比賽的發(fā)球場(chǎng)景.體育視頻的結(jié)構(gòu),如圖1所示,通常是一個(gè)多層的目錄結(jié)構(gòu).在檢測(cè)基本場(chǎng)景的基礎(chǔ)上,需要進(jìn)一步研究高層結(jié)構(gòu)的解析.據(jù)我們所知,這方面的研究還沒有.
(7)沒有一個(gè)統(tǒng)一的體育視頻內(nèi)容分析框架.[31]中提出了一個(gè)視頻分析的一般框架,但是他們的系統(tǒng)主要是實(shí)現(xiàn)語(yǔ)義事件的檢測(cè),缺乏對(duì)視頻結(jié)構(gòu)的充分解析.根據(jù)體育視頻的自身特點(diǎn)和應(yīng)用需要,我們認(rèn)為視頻分析的過程應(yīng)該有一個(gè)基本的框架,這對(duì)于進(jìn)一步的研究無(wú)疑是有意義的.
三,研究目標(biāo),內(nèi)容和擬解決的關(guān)鍵技術(shù)
本課題的目標(biāo)是研究體育視頻內(nèi)容的語(yǔ)義標(biāo)注和結(jié)構(gòu)解析技術(shù).在實(shí)際研究中,我們主要選擇跳水比賽作為研究對(duì)象.跳水運(yùn)動(dòng)十分富有觀賞性,是我國(guó)的奧運(yùn)優(yōu)勢(shì)項(xiàng)目,深受人們的喜愛.跳水比賽具有一般體育比賽的典型特征,如層次化的結(jié)構(gòu),領(lǐng)域相關(guān)的語(yǔ)義事件等.通過內(nèi)容分析技術(shù)的研究,最終我們將實(shí)現(xiàn)一個(gè)面向跳水運(yùn)動(dòng)的視頻查詢系統(tǒng).
如果把視頻也看作一種語(yǔ)言表達(dá),視頻分析在某種程度上與自然語(yǔ)言理解是非常類似的,其目的都是使計(jì)算機(jī)能夠理解信息的內(nèi)容,從而實(shí)現(xiàn)智能化的信息處理.自然語(yǔ)言理解作為人工智能中的一個(gè)重要研究方向,已經(jīng)有四十多年的歷史了.它對(duì)于新興的視頻分析研究必然有很多可以借鑒的地方.通常,自然語(yǔ)言理解將詞匯作為基本的處理對(duì)象,包括自動(dòng)分詞,詞性標(biāo)注,句法分析等幾個(gè)階段.與之類似,由于鏡頭是視頻中具有完整內(nèi)容表達(dá)的最小單位,我們將鏡頭作為體育視頻分析的基本單元,并提出如圖2所示的體育視頻內(nèi)容分析框架.
圖2 體育視頻內(nèi)容分析框架
1,鏡頭檢測(cè)
與自動(dòng)分詞類似,鏡頭檢測(cè)按照鏡頭為基本單位對(duì)視頻流進(jìn)行分解.鏡頭檢測(cè)是視頻內(nèi)容分析的基礎(chǔ)步驟,很大程度上影響了整個(gè)系統(tǒng)的性能.雖然鏡頭檢測(cè)是一個(gè)一般性的問題,但是在體育視頻中也有其特殊要求:
(1)針對(duì)體育視頻數(shù)據(jù)量大的特點(diǎn),算法應(yīng)能實(shí)現(xiàn)快速檢測(cè);
(2)在體育視頻中存在大量的運(yùn)動(dòng),算法應(yīng)能盡量避免由于運(yùn)動(dòng)導(dǎo)致的誤判;
(3)作為之后分析的基礎(chǔ),算法應(yīng)具有較高的準(zhǔn)確性.
2,模式學(xué)習(xí)和語(yǔ)義標(biāo)注
鏡頭檢測(cè)后的視頻流是一組鏡頭序列.在此基礎(chǔ)上,語(yǔ)義標(biāo)注通過事件檢測(cè)對(duì)鏡頭序列進(jìn)行標(biāo)注.我們采用基于統(tǒng)計(jì)的方法來(lái)識(shí)別語(yǔ)義事件.識(shí)別的時(shí)候,首先通過對(duì)訓(xùn)練樣本的學(xué)習(xí)建立分類器,然后利用這個(gè)分類器對(duì)鏡頭中的事件進(jìn)行識(shí)別.以下問題需要解決:
(1)多模式提取和選擇領(lǐng)域相關(guān)的特征來(lái)表示語(yǔ)義事件;
(2)應(yīng)用壓縮域分析提高處理速度;
(3)設(shè)計(jì)一個(gè)良好的學(xué)習(xí)分類模型,實(shí)現(xiàn)高準(zhǔn)確度的識(shí)別;
(4)對(duì)鏡頭的標(biāo)注應(yīng)當(dāng)有利于后續(xù)的結(jié)構(gòu)分析.
3,文法描述和結(jié)構(gòu)解析
在語(yǔ)義標(biāo)注之后,結(jié)構(gòu)解析的任務(wù)是通過對(duì)視頻標(biāo)注序列的分析,生成體育視頻的層次瀏覽結(jié)構(gòu).目前,這方面還沒有好的算法.為解決這一問題,我們借鑒自然語(yǔ)言理解中句法分析的思想,根據(jù)體育比賽具有較強(qiáng)結(jié)構(gòu)性的特點(diǎn),使用文法來(lái)定義語(yǔ)法規(guī)則,提出了基于文法的體育視頻結(jié)構(gòu)解析.在結(jié)構(gòu)解析中引入文法描述,有以下好處:(1)根據(jù)文法描述可以按照體育比賽特定結(jié)構(gòu)進(jìn)行解析;(2)實(shí)現(xiàn)了領(lǐng)域知識(shí)和具體算法的分離.這樣,只需要引入相應(yīng)的文法描述,我們可以使用統(tǒng)一的解析器來(lái)分析不同類型的體育比賽.關(guān)鍵技術(shù)包括:
(1)自動(dòng)生成體育視頻的分層瀏覽目錄;
(2)實(shí)際應(yīng)用中視頻流可能不完整或存在標(biāo)注錯(cuò)誤,解析器應(yīng)具有良好的容錯(cuò)能力;
(3)對(duì)于大數(shù)據(jù)量的體育視頻,要求結(jié)構(gòu)解析的效率要高.
四,擬采取的研究方法,技術(shù)路線及可行性分析
1,基于壓縮域的鏡頭分割算法
體育視頻中常見的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現(xiàn)在慢鏡重放的開始和結(jié)束,識(shí)別這種鏡頭邊界是十分有價(jià)值的.現(xiàn)有壓縮域算法主要對(duì)切變檢測(cè)比較成功,而對(duì)于漸變的研究不多.我們將綜合壓縮域的DCT系數(shù),運(yùn)動(dòng)矢量以及宏塊信息等,研究一種有效的漸變檢測(cè)方法.
圖3 體育視頻中特定模式的擦變
一般在進(jìn)行鏡頭邊界檢測(cè)的時(shí)候,首先從相鄰幀提取合適的特征,然后比較這些特征之間的差值,如果差值超過了事先設(shè)定的閾值,則認(rèn)為出現(xiàn)了鏡頭轉(zhuǎn)換.因此,選取合適的閾值是非常關(guān)鍵的.常用的方法包括單閾值法,多閾值法和局部閾值法.單閾值法使用一個(gè)全局閾值,方法簡(jiǎn)單,但是對(duì)于漸變不能很好檢測(cè).多閾值法使用多個(gè)閾值進(jìn)行分級(jí)判定,如使用較大閾值檢測(cè)突變,使用較小閾值檢測(cè)漸變.局部閾值法根據(jù)局部范圍內(nèi)的變化情況自動(dòng)調(diào)整合適的鏡頭切分閾值,代表了新的研究趨勢(shì).目前,有關(guān)閾值選取的研究仍然是視頻處理中的一個(gè)難點(diǎn).我們將主要基于局部閾值法進(jìn)行研究.
2,體育視頻中語(yǔ)義事件的檢測(cè)
我們將體育視頻中的語(yǔ)義事件分為三類:重放事件,狀態(tài)事件和目標(biāo)事件.重放事件是指體育比賽轉(zhuǎn)播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀眾感興趣的精彩部分.狀態(tài)事件發(fā)生在比賽狀態(tài)發(fā)生變化的時(shí)候,如跳水比賽每一輪結(jié)束的評(píng)分,網(wǎng)球比賽中一局的開始鏡頭等.狀態(tài)事件的檢測(cè)對(duì)于視頻結(jié)構(gòu)的解析有非常重要的作用.目標(biāo)事件,如跳水比賽中運(yùn)動(dòng)員的跳水,足球比賽中的射門等,是指體育比賽中具有觀賞性的特定運(yùn)動(dòng),通常表現(xiàn)為物體及其之間的運(yùn)動(dòng)關(guān)系.對(duì)這三類事件,我們分別采用如下的技術(shù)路線:
(1)通過標(biāo)志性邊界檢測(cè)來(lái)識(shí)別重放事件
[1]中將重放分為三種類型:重復(fù)播放的同一鏡頭;慢動(dòng)作方式重放的同一鏡頭;同一場(chǎng)景但是由不同攝像機(jī)在不同視角拍攝的.直接從內(nèi)容上比較重放事件和先前視頻鏡頭的相似性來(lái)進(jìn)行分析,是很難識(shí)別準(zhǔn)確的,尤其對(duì)于最后一種重放.
通過對(duì)體育比賽電視轉(zhuǎn)播的觀察,可以發(fā)現(xiàn)一般對(duì)于精彩片斷的重放都會(huì)以一個(gè)標(biāo)志性的鏡頭切換引入,再以類似的變化結(jié)束,如圖3所示.因此對(duì)于重放事件的檢測(cè),事實(shí)上可以歸結(jié)到對(duì)這種標(biāo)志性鏡頭邊界的檢測(cè),從而簡(jiǎn)化問題.我們將主要研究這種方法.
(2)利用視頻文本識(shí)別確定狀態(tài)事件
狀態(tài)事件是和體育比賽的狀態(tài)變化直接相關(guān)的,而通常在比賽狀態(tài)發(fā)生變化的時(shí)候,電視轉(zhuǎn)播會(huì)在視頻中加入相關(guān)字幕提示,如跳水比賽中在運(yùn)動(dòng)員入場(chǎng)的時(shí)候,會(huì)有文字說明運(yùn)動(dòng)員姓名和所要做的動(dòng)作;在一輪比賽結(jié)束的時(shí)候,會(huì)顯示該輪所有選手的得分情況.
根據(jù)這個(gè)特性,我們提出通過視頻中文本檢測(cè)和識(shí)別的方法來(lái)檢測(cè)狀態(tài)事件.該方法包括兩個(gè)層次.首先,通過視頻文本的檢測(cè)[36][37][38][39][40]就可以初步確定狀態(tài)事件的出現(xiàn).然后,我們對(duì)檢測(cè)的文本進(jìn)行識(shí)別,通過關(guān)鍵字的匹配,識(shí)別狀態(tài)事件的類別.例如,運(yùn)動(dòng)員入場(chǎng)的字幕顯示中有關(guān)鍵字"Round"(輪次),"Rank"(排名),"DD"(難度),"Total"(總分)等,通過匹配這些關(guān)鍵字,就可以判斷當(dāng)前鏡頭為運(yùn)動(dòng)員入場(chǎng)的狀態(tài)事件.
(3)融合視音頻雙模式的目標(biāo)事件檢測(cè)
在目標(biāo)事件中,往往存在顯著的運(yùn)動(dòng)和音頻特征,如運(yùn)動(dòng)員的跳水事件既有視覺上的運(yùn)動(dòng)也有聽覺上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺或聽覺特征不能完整描述語(yǔ)義事件的不足,可以有效提高識(shí)別精度.
在進(jìn)行識(shí)別的時(shí)候,我們采用混合隱馬爾科夫模型和支持向量機(jī)的方法[41].支持向量機(jī)能夠在小樣本條件下,通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,實(shí)現(xiàn)有效分類.但是支持向量機(jī)只是靜態(tài)分類機(jī),不能很好模擬時(shí)序過程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機(jī)時(shí)序數(shù)據(jù)的識(shí)別,但是并不能保證訓(xùn)練好的模型能夠良好的分類未知數(shù)據(jù).這樣,將兩者混合起來(lái)使用,通過在隱馬爾科夫模型中引入靜態(tài)數(shù)據(jù)識(shí)別良好的支持向量機(jī),能對(duì)視頻流數(shù)據(jù)取得最佳的識(shí)別效果.
3,語(yǔ)法制導(dǎo)
這篇體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究的關(guān)鍵詞是內(nèi)容,研究,體育,技術(shù),視頻, 的結(jié)構(gòu)解析為了對(duì)輸入的體育視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)解析,首先我們需要對(duì)該類體育比賽的文法規(guī)則進(jìn)行描述.喬姆斯基(Chomsky)把文法分成4種類型,即0型文法(或稱短語(yǔ)文法),1型文法(或稱上下文有關(guān)文法),2型文法(或稱上下文無(wú)關(guān)文法)和3型文法(或稱正則文法).型號(hào)越高所受約束越多,對(duì)語(yǔ)言的描述能力也就越弱.
我們使用上下文無(wú)關(guān)文法對(duì)體育比賽的結(jié)構(gòu)進(jìn)行描述,主要是基于以下考慮:(1)上下文無(wú)關(guān)文法完全可以勝任對(duì)體育比賽樹狀結(jié)構(gòu)的描述;(2)上下文無(wú)關(guān)文法在自然語(yǔ)言理解,句法模式識(shí)別,編譯技術(shù)等領(lǐng)域有廣泛的應(yīng)用,技術(shù)比較成熟;(3)基于上下文無(wú)關(guān)文法的解析器不僅可以為視頻有效生成層次瀏覽樹,而且具有較強(qiáng)的錯(cuò)誤處理能力.
其中終結(jié)符r,b,e,u分別表示一輪比賽的結(jié)束,選手比賽開始,選手比賽結(jié)束和一般鏡頭,非終結(jié)符和為結(jié)構(gòu)單元,分別代表每輪比賽和每個(gè)選手的比賽.對(duì)于語(yǔ)義標(biāo)注序列"buuuuuuuebuuuuuuuueeur",使用文法分析器進(jìn)行解析得到它的層次結(jié)構(gòu)"[[buuuuuuue][buuuuuuuue]eur]".其中序列最后"r"前面的"eu"為錯(cuò)誤標(biāo)示,可以用錯(cuò)誤恢復(fù)策略進(jìn)行處理(例如,在發(fā)現(xiàn)終結(jié)符不能匹配時(shí),彈出該終結(jié)符并發(fā)出警告).由于視頻序列在進(jìn)行基于統(tǒng)計(jì)的語(yǔ)義標(biāo)注時(shí),存在某種程度的不確定性.所以錯(cuò)誤處理應(yīng)當(dāng)結(jié)合語(yǔ)義標(biāo)注的確定度來(lái)進(jìn)行.如果出錯(cuò)標(biāo)注本身的確定度比較低,則可以認(rèn)為該標(biāo)注有錯(cuò);如果出錯(cuò)標(biāo)注的確定度比較高,則可以認(rèn)為錯(cuò)誤發(fā)生在它的前面.
以上,我們通過基于壓縮域的鏡頭分割,語(yǔ)義事件的檢測(cè)和語(yǔ)法制導(dǎo)的結(jié)構(gòu)解析實(shí)現(xiàn)了體育視頻的內(nèi)容標(biāo)注和解析.雖然我們主要以跳水視頻為例進(jìn)行分析,但是其中的技術(shù)完全可以應(yīng)用到其他類似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,盡管限于當(dāng)前的技術(shù)水平,完全自動(dòng)的,通用的視頻內(nèi)容理解是不太可能的,但是通過有效的人機(jī)交互和建立應(yīng)用相關(guān)的模型,新的技術(shù)將可以面對(duì)視頻信息大量涌現(xiàn)的挑戰(zhàn),給人們帶來(lái)更加豐富和方便的體驗(yàn).
五,預(yù)期研究成果及創(chuàng)新之處
一個(gè)壓縮域鏡頭邊界檢測(cè)的有效算法
體育視頻中慢鏡重放的檢測(cè)方法
基于壓縮域的視頻文本檢測(cè)和分割
體育視頻中狀態(tài)事件的識(shí)別
視音頻融合的事件檢測(cè)
基于文法的體育視頻結(jié)構(gòu)解析
一個(gè)通用的體育視頻內(nèi)容分析框架及其系統(tǒng)實(shí)現(xiàn)
六,已有工作基礎(chǔ)
1,已有資源:
4.96G的跳水比賽視頻數(shù)據(jù),總長(zhǎng)度約8小時(shí)20分鐘;
5.33G的足球比賽視頻數(shù)據(jù),總長(zhǎng)度約9個(gè)小時(shí);
2.58G的其他體育視頻數(shù)據(jù),包括籃球,排球和網(wǎng)球等;
2,已進(jìn)行工作
一個(gè)基于內(nèi)容的智能視頻檢索系統(tǒng):iVideo
一種通過關(guān)鍵幀提取和組織來(lái)瀏覽視頻的方式:XPlayer
可視化的視頻分析工具:MediaLab
綜合顏色特征和攝像機(jī)運(yùn)動(dòng)分析的鏡頭邊界檢測(cè)算法
基于標(biāo)志模板的重放鏡頭檢測(cè)算法
跳水比賽視頻中精彩片斷的自動(dòng)提取:iVideoAnalyzer
基于壓縮域文本檢測(cè)的體育視頻結(jié)構(gòu)分析:SportsPlayer
3,專利和文章
王扉,李錦濤,張勇東,林守勛,"跳水比賽視頻中精彩片斷的自動(dòng)提取",計(jì)算機(jī)研究與發(fā)展,評(píng)審中.
王扉,張勇東,李錦濤,林守勛,"在體育比賽視頻中檢測(cè)精彩片斷的方法",(發(fā)明)專利號(hào)02156973.8,已受理.
七,研究計(jì)劃及預(yù)期進(jìn)展
2003/01 – 2003/04 基于文法的體育視頻結(jié)構(gòu)解析
2003/05 – 2003/06 壓縮域的鏡頭邊界檢測(cè)算法
2003/07 – 2003/10 體育視頻中的語(yǔ)義事件檢測(cè)
2003/11 – 2003/12 跳水比賽的視頻分析和檢索系統(tǒng)
2004/01 – 2004/04 技術(shù)改進(jìn),論文寫作
八,參考文獻(xiàn)
Content-based Video Analysis and Retrieval
[1] C.W. Ngo, H.J. Zhang, and T.C. Pone, "Recent Advances in Content Based Video Analysis", International Journal of Image and Graphics, Dec 2001.
[2] N. Dimitrova, H.J. Zhang, B. Shahraray, I. Sezan, T. Huang, and A. Zakhor, "Applications of Video-Content Analysis and Retrieval", IEEE Multimedia, Vol. 9, No. 4, 2002.
[3] 莊越挺,潘云鶴,吳飛編著,網(wǎng)上多媒體信息分析與檢索,清華大學(xué)出版社,2002年.
[4] M. Flickner et al, "Query by Image and Video Content: The QBIC System", IEEE Computer, 28(9), 1995.
[5] D. Ponceleon, S. Srinivasan, A. Amir, D. Petkovic, and D. Diklic, "Key to Effective Video Retrieval: Effective Cataloging and Browsing", in Proc. ACM Multimedia, 1998.
[6] A. Hampapur, A. Gupta, B. Horowitz, C-F. Shu, C. Fuller, J. Bach, M. Gorkani, and R. Jain, "Virage Video Engine", SPIE Storage and Retrieval for Images and Video Databases V, 1997.
[7] H. D. Wactlar, T. Kanade, M. A. Smith, and S. M. Stevens, "Intelligent Access to Digital Video: Informedia Project", IEEE Computer, Vol.29, No.3, pp.46-52, May 1996.
[8] S.-F. Chang, W. Chen, H. Meng, H. Sundaram, and D. Zhong, "VideoQ: an automated content based video search system using visual cues", in Proc. ACM Multimedia, November 1997.
【體育視頻的內(nèi)容標(biāo)注和解析技術(shù)研究】相關(guān)文章:
參考文獻(xiàn)的引用和標(biāo)注有什么規(guī)范03-17
形容詞和副詞的用法解析11-21
文獻(xiàn)參考標(biāo)注11-16
論文的標(biāo)題、目錄和內(nèi)容提要格式11-25
開題報(bào)告的格式和包含的內(nèi)容有哪些03-09
從語(yǔ)氣隱喻和言語(yǔ)行為理論解析《雷雨》的對(duì)話11-15
淺談體育保健和保健體育教育論文11-26
- 相關(guān)推薦