7.(作者)朱雲芳
(題名)基於圖像拚接的視頻編輯
(刊名)浙江大學論文
(出版年)2006
(卷(期))起止
(摘要)隨著電子信息產業的發展和技術進步,能夠獲取、記錄視頻信息的設備如攝像機,攝像頭等日益普及,並隨之產生大量原始視頻數據。
如何有效的利用計算機對這些視頻進行檢索和再編輯引起了研究者的廣泛注意。由於視頻是由一係列相互聯係的圖像幀構成,要達到讓計算機自動處理視頻的目的,必須建立起不同圖像幀之間的聯係,隨之產生的圖像匹配分割問題是視覺和圖像處理領域的熱點和難點之一。考慮到視頻場景的內在聯係,本文提出了通過構造視頻的全景圖,利用手工與計算機相結合的方法對全景圖進行編輯,實現對視頻內容的再編輯。建立全景圖需要完成運動參數估計,運動物體分割,圖像拚接等計算過程。而在拚接完成的全景圖上對視頻內容進行編輯將變得簡單有效並且易於實現。本文依次研究建立全景圖過程中的主要技術問題,並給出在全景圖基礎上對視頻進行編輯的具體方法。實現視頻全景圖拚接的第一步是對攝像機運動參數的求解並建立視頻中各幀圖像之間的關係以及二維圖像與三維空間對應關係。
本文第二章對此問題進行了詳細討論,提出利用各幀圖像的Harris角點特征,進行匹配,建立起對應關係,並采用Ransac對匹配的結果進行投票選擇來保證匹配結果的魯棒性和準確性的方法。利用匹配結果,可以求出各幀圖像間的透視變換矩陣和攝像機拍攝時的內外參數。由於視頻序列中可能會有運動物體存在,這會對全景圖拚接過程產生幹擾。本文第三章研究了當視頻中的運動物體有較大範圍的運動時,對其進行分割的方法。本文提出一種兩步算法,首先利用幀差法(Frame difference)來快速定位運動物體的位置,之後利用均值偏移法(Mean Shift)準確估計運動物體的邊緣並利用圖切割(Graph Cut)方法建立兩者之間聯係。考慮到視頻的運動連續性,本文同時引入前一幀分割結果來約束當前幀的分割。該算法同時利用了幀差法,均值偏移法的優點,能夠快速準確的分割在視頻場景中出現的運動物體。得到運動參數和運動物體分割結果之後,可從視頻幀中合成全景圖。
本文第四章討論了兩種圖像拚接采用的模型:平麵投影模型和柱麵投影模型。柱麵投影模型假設攝像機的光心固定,攝像機在同一平麵內轉動。實際視頻拚接過程中,經常會有因為手持攝像機轉動時出現的光軸傾斜而導致拚接後的圖像發生卷曲的現象。對此,本文給出了一個求柱麵投影時圓柱最佳中心軸,來抵消卷曲的解決方案。同時,考慮到在攝像機運動過程中由於光照的影響,成像時白平衡和曝光補償量不同而導致圖像顏色不一致的情況,本文給出了利用有效對應點的直方圖匹配求出圖像的校正參數,對視頻各幀圖像進行顏色校正的解決方法。與傳統方法相比,該方法可以消除錯誤對應點對校正參數帶來的影響。得到視頻全景圖後就將視頻序列轉變成了全景圖表示。
因此,對視頻進行編輯包含對全景圖像進行編輯的過程。本文第五章討論比較並改進了三種圖像編輯方法:手工交互圖像移植、平滑圖像半自動修複和紋理圖像半自動恢複。其中第一種算法適用於為修改區域指定填充信息。第二種算法適用於編輯和修複平滑區域或者比較窄的帶狀區域,第三種算法適用於普通或者含有紋理的圖像區域。本文改進了平滑圖像修複算法,使之可以實時實現。同時對於紋理圖像的編輯算法,定義了新的距離度量,減小其對顏色的依賴性。文中進行的實驗證明了算法的有效性。本文第六章給出了在得到全景圖後,實際進行視頻編輯方法的三種應用:運動全景圖生成、視頻中運動物體的去除、視頻圖像的修複與編輯。在實際處理視頻的過程中,可能會遇到視頻抖動及運動補償導致的黑邊等問題。針對這些具體問題,本文分別討論了相應的算法和解決方案,並給出了實驗結果。最後,在第七章中對全文的工作做一小結並對今後可能的後續工作進行了展望。
8.(作者)楊文明
(題名)時空聯合的視頻對象分割
(刊名)浙江大學論文
(出版年)2006
(卷(期))起止頁
(摘要)新一代多媒體標準MPEG4和MPEG7采用了基於內容的視頻編碼和視頻描述框架,包括基於內容的壓縮、可擴展性和可交互性等幾方麵內容。MPEG4在編碼之前將視頻場景劃分成若幹有意義的視頻對象(VO),然後根據視頻對象的形狀、運動、紋理等信息進行編碼。而MPEG 7是對各種多媒體對象統一的描述和各種多媒體接口的標準化,以實現高效的內容檢索和查詢。其中,視頻對象分割技術是解決基於內容編碼和描述問題的關鍵所在,直接影響著編碼器的性能和視頻描述的有效性。然而,MPEG4和MPEG7標準僅定義了視頻的編解碼過程和語法規則,並沒有製定具體的視頻對象分割方法。作為視頻處理領域中的重要支撐技術,研究視頻對象分割具有深遠的現實意義和重大的應用價值。鑒於此,本文重點研究視頻對象分割技術。本文介紹了視頻對象分割技術在多媒體標準、視頻監控、圖像模式識別等領域的應用和研究狀況,討論了其在當今高速發展的信息時代的重要意義和應用價值,綜述了國內外視頻分割技術的發展現況,分析了交互式分割和自動分割技術。
在此基礎上,從空域幀內分割、全局運動估計與補償、時域幀間分割、時空聯合投影等幾方麵對視頻對象分割算法進行了深入、充分的討論,提出了相應的背景全景圖重建方案。多組仿真實驗結果檢驗了文中提出的視頻對象分割方案和背景重建方案的有效性。首先,在空域分割方麵,針對傳統分水嶺變換對噪聲和細密紋理敏感而易於產生過分割現象的問題,從圖像預處理以及區域標記的角度改進了分水嶺變換方案:①以開閉雙重建的方法獲取原始圖像的形態梯度,采用一次開閉重建從整體上抑製圖像噪聲,之後采用二次開閉重建消除部分紋理產生的明暗細節;②提出了結合給定閾值變換和尺度等級劃分的非線性處理方法,給定閾值變換可以減少區域極小值點,保留對象和背景之間的高梯度輪廓,尺度等級劃分可以克服對象和背景內部細密紋理的影響,本質上具有區域合並的作用;③提出了一種基於像素連通性思想的改進的分水嶺浸沒標記算法,無需傳統方法中的距離變換。測試結果表明,本文方案所得區域數量僅為傳統方法的1/10,且邊緣定位準確,有效地避免了區域融合的後處理。其次,在靜止背景序列的運動檢測方麵,針對傳統的區域基運動檢測思想對物體內部紋理灰度一致性造成的“偽零幀差”區域判定的不穩健,提出了一種以邊界運動信息表征區域運動性的檢測思想,僅在空域分割所得區域的邊界像素上進行高斯檢驗,根據邊界上運動像素占邊界像素總數的比例來確定該區域的運動與否,這在極大地降低了計算複雜度的同時,也顯著提高了對具有內部紋理一致性區域的運動檢測能力。測試結果表明,本文運動檢測算法耗時僅為傳統區域基算法的1/5左右。再次,在動態背景序列的運動檢測方麵,提出了在雙尺度鄰域上建立馬爾可夫隨機場模型的方法,突破了傳統的單一鄰域馬爾可夫隨機場模型對像素空域相關性的限製,並結合幀差圖像的高斯混合分布模型建立時空運動檢測模型,提出了簡單且便於計算的係統能量函數。