視頻處理與壓縮是多媒體計算與通信領域的核心主題之一,是連接視頻采集傳輸和視覺分析理解的關鍵橋梁,也是諸多視頻應用的基礎。本文從視頻處理技術、視頻壓縮技術、多視點/立體視頻壓縮以及國內外研究進展四個方面對視頻處理與壓縮技術進行了匯總。主要針對《視頻處理與壓縮技術》一文進行總結,對其中涉及的論文和相關提案進行了匯總和整理,方面讀者查閱和學習。
視頻超分辨率算法分為傳統基于信號處理的方法和基于深度學習的方法。
下面從是否使用對齊類方法的角度介紹國際視頻超分辨的研究現狀。
對齊視頻超分辨算法通過網絡提取運動信息,使相鄰幀與目標幀進行對齊,然后再進行后續重構。該類方法主要采用運動補償和可變形卷積兩種常用的幀間對齊技術。
國外視頻超分辨率對齊方法大多采用運動補償和運動估計技術。運動估計采用光流方法,
運動估計的目的是提取幀間的運動信息,而運動補償是根據幀間的運動信息進行幀間的矯正操作,使一幀與另一幀對齊。
國際
國內
與對齊方法不同,未對齊方法在重建前不進行幀對齊,分為空間未對齊和時空未對齊兩種。
空間非對齊方法不需要幀間的運動估計和運動補償等對齊操作
空間非對齊方法直接將輸入幀輸入到2維卷積網絡中進行空間特征提取、融合和超分辨率操作,不進行幀間的運動估計和運動補償等對齊操作。
時空未對齊方法的特點是同時利用輸入視頻中的時空信息進行超分辨任務
視頻恢復是視頻處理的關鍵任務之一,對視頻主客觀質量提升和下游視覺分析任務具有至關重要的作用。從成像設備捕捉到的降質圖像中恢復出富有細節的清晰場景圖像是一個值得長期研究的問題,降質模型包括模糊、噪聲和天氣效應等。
在過去的幾年中,用于從靜態/動態場景的視頻恢復算法已經探索并形式化描述了降質模型的很多固有特性。這些算法主要分為4 類: 基于時域的算法、基于頻域的算法、基于低秩和稀疏性的算法以及基于深度學習的算法。
基于時域的方法
基于頻域的方法
基于低秩和稀疏的方法
基于深度網絡的方法
傳統視頻編碼采用基于塊劃分的混合編碼框架,包括幀內預測、幀間預測、變換、量化、熵編碼和環路濾波等技術模塊。
編碼快劃分:H.264/AVC采用基于16x16的塊劃分,H.265/HEVC中采用了四叉樹劃分結構,H.266/VVC中,采納了高通公司(Chen等人,2018a)提出的四叉樹、三叉樹和二叉樹聯合的多級劃分方式,有效提高了編碼框架的靈活性。
幀內預測(利用鄰近塊之間的空域相關性來消除空域冗余):HEVC 中的幀內預測包含平面( planar) 預測、直流(direct current,DC)預測和角度預測等模式。在幀內預測部分,預測像素濾波技術得到了較多關注。
幀間預測(利用鄰近幀之間的時域相關性來消除時域冗余):運動矢量編碼消
耗的比特數制約著壓縮性能。
變換(作用是去除殘差信號的統計相關性,變換過程是可逆的):HEVC中對殘差信號進行一次變換,主要包含整數離散余弦變換和整數離散正弦變換兩種變換方式。
量化:量化是變換后對變換系數的處理,也是壓縮失真的主要來源(量化不可逆,會造成失真)。將變換系數劃分為不同的區間,每個區間用一個標號代表,標號數量小于原始數據量,由此達到壓縮的目的。Schwarz 等人(2018) 提出一種上下文依賴量化(dependent quantization,DQ) 方式,此方法與HEVC中常用的獨立標量量化相比,將變換系數在向量空間中進行更加密集地壓縮,可以有效減小原始變換系數與量化后系數之間的差值,從而降低壓縮失真。
熵編碼:用于去除統計域的冗余,將編碼控制數據、量化變換系數、幀內預測數據、運動數據和濾波器控制數據等編碼為二進制數進行存儲和傳輸。Lyu等人(2020)提出一種基于掃描區域的系數編碼方案,使用一組常數控制量化系數非零的位置,使用率失真優化方法選擇最優掃描區域,碼率和失真之間達到較好的平衡。
環路濾波:濾波是去除壓縮失真的關鍵技術,可以明顯提高重建視頻的主客觀質量,提高視頻壓縮的效率。
幀內預測
幀間預測:基于深度學習的幀間預測主要研究如何高效利用視頻幀間的時域相關性以及如何將時域與空域進行融合。
上下采樣:當傳輸帶寬受到限制時,通常的做法是降低編碼前的視頻分辨率,并提高解碼后的視頻分辨率。這種做法稱為基于下采樣和上采樣的編碼技術。
熵編碼
濾波:基于神經網絡的濾波方法可以顯著提高編碼效率。濾波方法根據是否影響后續編碼分為環內濾波技術和后處理技術。
環內方面
后處理方面
編碼優化:神經網絡為解決復雜編碼優化問題提供了新思路,已廣泛用于編碼過程中的模式決策問題?;谏疃葘W習的編碼工具又稱為編碼優化工具,作用是編碼加速和碼率控制等,目標是提高編碼效率。國際上對編碼優化的研究主要集中于將深度網絡模型與編碼單元劃分決策相結合。Kim 等人(2019) 、Paul 等人(2020) 、Galpin等人(2019) 和Su等人(2019a)使用深度神經網絡加快視頻編碼過程中的CU(coding unit)劃分過程。Su等人( 2019b) 使用神經網絡快速選擇變換核以加速AV1的編碼過程。
從2017年開始,國際上越來越多的研究人員開始致力于構建端到端的深度學習視頻壓縮方案。該框架所有模塊都是基于深度神經網絡實現,可以直接端到端優化率失真目標函數,更容易實現全局最優。
端到端視頻壓縮根據應用場景分為兩類:隨機切入場景和低延時場景
隨機切入場景:主要基于幀內插的方式進行運動補償。
低延時場景:主要基于幀外插的方式進行運動補償。
國內端到端視頻壓縮方案的研究也是從2017年左右開始,并且取得了一系列研究成果。方案主
要集中在面向低延時的應用場景:
國際
2015年,運動圖像專家組和視頻壓縮專家組聯合成立JVET( joint video exploration /expert team) 工作組。
2018年4月,JVET正式將下一代視頻壓縮標準命名為多用途視頻編碼(versatile video coding,VVC) ,并于2020 年7 月正式發布標準草案,在PSNR指標下,壓縮效率相比于上
一代國際標準H.265/HEVC 提升約36.6%。
同時,MPEG 組織中的三星、華為、高通和Divideon 等公司牽頭制定了MPEG-5 EVC( essential video coding) 標準,主要面向超高清、高動態范圍和廣色域視頻內容。EVC 標準的制定方法嘗試了不同于以前的標準化制定過程。
多家科技巨頭聯合成立了開放媒體聯盟(alliance for open-media,AOM),致力于推廣和研發多媒體的視頻編解碼技術,為下一代多媒體體驗創造新機遇。AOM 聯盟于2018年初正式推出了AV1視頻壓縮標準。受益于聯盟多數成員是與視頻行業緊密相連的互聯網公司、硬件設備廠商、內容供應商和主流瀏覽器廠商等,行業優勢使得AV1 基本做到了主流平臺的全覆蓋,形成從內容端、產品端到芯片端的完整生態鏈。
國內
數字音視頻編解碼技術標準工作組( audio video coding standard,AVS) 于2017年12 月決定開展下一代視頻編碼標準( 即AVS3 標準) 的制定,分為兩階段;
第1 階段從2018 年3 月到2019年6月,制定面向復雜度優先的應用,性能相較于2014年制定完成的上一代視頻編碼標準AVS2 提升約30%。
第2 階段從2019 年6 月到2021 年3 月,目標是編碼效率超過VVC標準。
3DoF(degree of freedom)是全景視頻,3DoF+視頻是在全景之外,還支持用戶在3個空間維度上有限范圍的變化,一個典型的例子就是坐在椅子上觀看場景,允許頭部在一定范圍內運動。
從H.264/AVC 時期就開始有多視點視頻編碼(multiview video coding,MVC)的研究;
3D-HEVC 是一個具有標志性意義的3維視頻編碼標準,采納了許多可以有效提升編碼效率的關鍵技術;
在2018 年的3DTV 會議上,Fachada等人(2018)提出一種基于深度圖的虛擬視點合成技術,可以運用于6 自由度(6DoF)和360視頻(3DoF+)的立體全景視頻中,通過增加參考視圖的數量克服了諸如遮擋、相機軸的切向曲面和低質量深度圖中的瑕疵等問題。
國內,AVS 工作組針對這些需求建立了AVS-3D視頻編碼框架,具體在編碼端編碼稀疏的若干視點,在解碼端通過視點合成技術生成任意數量的虛擬視點。
今年來國內外學術機構和工業界對視頻處理關注度顯著提高:
國外 V.S 國內
這些標準技術框架具有一定相似性但技術細節各有千秋,主要差異體現在對各自的應用場景設計了獨特的壓縮算法和優化方法。目前來看,AVS3與VVC還存在性能差距,仍有繼續探索和提升的空間。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
阿根廷飛北京路線?首先,阿根廷和北京的距離接近19000公里。沒有直達航班,只有中轉。最受歡迎的路線之一是布宜諾斯艾利斯到法蘭克福,然后法蘭克福到北京或上海。另一條是連接布宜諾斯艾利斯和迪拜,然后從迪拜到北京或廣州。全程飛行不會少于30個小時,時間長,旅途辛苦。阿根廷飛北京路線?從洛杉磯轉機到東京,再從東京飛到北京。阿根廷到北京(兩國地理中心)的直線距離(飛行路線)為18898公里(11743英里...
152是哪里的號碼 152號碼在哪里?152開頭是移動還是聯通? 152是江西省九江市彭澤縣的號碼彭澤縣,新建商品房近1000套釣魚臺社區和淵明湖社區,成為縣城兩個模式住宅區;風景宜人的淵明湖公園和街道花園成為縣城兩大休閑亮點;朝陽公寓、新區農貿市場、河邊廣場的建成,形成了集工、貿、居、娛為一體的格局。 152號在哪里? 樂山銀行號。樂山市商業銀行是在原樂山市城市信用社的基礎上成立并逐步發...
eyeBeam怎樣注冊?眼球束(www.lxvoip.net/voip-soft/eybeam.html)是一款即時通訊(IM)軟電話,可以進行實時多媒體通信,無論您是個人客戶還是中小企業客戶,您都可以輕松地與他人保持聯系和管理您的通話。Eyebeam易于使用,集成了語音、視頻、即時消息、在線狀態等多種功能。它在世界各地擁有數以萬計的用戶。無論您是簡單的電話溝通還是舉行多方電話會議,eyebeam...