基於視野預測之360°影像無線傳輸技術

手機版選單

下方連結

back to top

:::

基於視野預測之360°影像無線傳輸技術

卷期：v0060
出版日期：2022-03-20

作者：陳政曄 / 臺灣大學計算機及資訊網路中心資訊網路組計畫研究專員

當元宇宙成為時下流行語風靡全球之際，虛擬實境(Virtual Reality, VR)無線傳輸成為關鍵技術。如何有效率地將360°全景影像傳輸到頭戴顯示裝置上，是無線虛擬實境的重要基礎。本文將介紹兩種節省傳輸頻寬的渲染技術，並說明如何利用邊緣運算佈署視野預測模型，以實現無線虛擬實境所需之即時成像系統。

360°影像無線傳輸技術現況

虛擬實境透過頭戴顯示裝置將虛擬三維影像投影於人眼之前，提供覆蓋人眼全景視野的沉浸視覺體驗，使用者可利用頭戴顯示裝置360°自由探索虛擬世界，不受影像邊界所限制。為了讓使用者獲得接近肉眼觀看真實世界的沉浸式體驗，避免使用者察覺影像的像素顆粒感，影像品質需達到每度60像素[1]。由於一般頭戴顯示裝置提供視野約90°至110°，螢幕幀率約75至90赫茲，以此換算，影像傳輸所需頻寬將接近1Gbps[1]。為了避免使用者透過頭戴顯示裝置觀看影像時出現暈眩等不適感，須將體感訊號與視覺訊號的時間差(motion-to-photon latency)降至30毫秒以下[2]。如何同時達到高頻寬與低延遲的要求是目前的技術難題。

此外，為了讓使用者不受限制的探索虛擬世界，無線傳輸是不可或缺的條件。儘管目前5G標準規格可以支援1 Gbps，但在考量價格等因素下，要實現高畫質之消費性VR產品還是困難重重。本文將介紹如何在高畫質又低延遲的限制下完成無線360°影像傳輸。

傳統傳輸方法

傳統360°影像傳輸直接將球面全部影像傳輸到頭戴顯示裝置上，以確保使用者在探索全景影像時不會出現死角。然而該方法會耗費大量頻寬，且由於人眼視野範圍有限，不可能看到視野正後方的影像，一次將360°影像傳輸到頭戴顯示裝置上，大部分影像其實不會被使用者所觀看，如圖1所示。由於目前消費性穿戴裝置之視野約為90°至110°，使用者一次只能觀看約20%之全景影像，因此將全景影像全部傳輸到頭戴顯示裝置會造成80%的頻寬閒置。

圖1：視野示意圖(圖片來源：[3])

為了改善頻寬的使用效率，學業界目前提出兩大渲染技術：圖塊渲染(Tiled rendering)與注視點渲染(Foveated rendering)，搭配視野預測模型，能夠大幅改善頻寬閒置問題。如此一來，節省的頻寬便能用來提高使用者視野範圍內的解析度，或支援多使用者的互動情境，對於超高畫質、多人即時互動等未來的虛擬實境應用奠定技術基礎。下文將分別介紹圖塊渲染與注視點渲染，並說明視野預測機制如何實現即時且穩定之無線傳輸情境。

圖塊渲染

傳輸360°影像會先將三維影像投影到二維平面上，最廣為人知的投影方法為等距柱狀投影(Equirectangular Projection)，是最常見的世界地圖投影法。

圖2：等距柱狀投影示意圖
(圖片來源：https://shiropen.com/2017/03/15/23666/)

三維影像投影至二維平面後，接著將全景影像切個成若干較小圖塊(tile)，如圖3所示，根據預測視野，只傳輸渲染有可能出現在使用者視野範圍內的圖塊，藉此節省傳輸頻寬。

圖3：圖塊渲染範例

然而，預測視野與實際視野有可能存在誤差，即使是目前最先進的視野預測模型，預測未來兩秒的注視點誤差都還是有可能達到45°以上[4]，只傳輸落在視野範圍內的圖塊容易造成使用者視野邊緣出現空白區域，甚至在動態感較強的影片中容易出現大範圍的空白區域。目前較常見的改善方法為擴大預測視野範圍，以傳送更多圖塊，容納可能出現的預測誤差。

注視點渲染

由於人眼觀看事物時會有主要注視區域，即使視野範圍不變(即不轉頭)，人眼仍可於視野範圍內改變注視點(即轉動眼球)。相較於圖塊渲染根據視野範圍決定渲染內容，注視點渲染則根據注視區域決定渲染解析度。人眼對於注視區域外的影像敏感度較低，如下圖4，當人眼注視教室內的時鐘時，對其他區域的敏感度較低，也因此感受的解析度也較低。

圖4：注視區域解析度範例(圖片來源：[5])

利用人眼的這項特性，搭配眼球追蹤技術，降低注視區域外的影像解析度，可以有效節省傳輸影像所需頻寬，也能節省繪圖處理器在渲染時所需的效能與功耗。

基於視野預測之無線傳輸

基於以上兩種渲染技術，搭配視野預測技術，提早預測使用者未來數秒的視野範圍與注視區域，將使用者視野範圍內的影像以較高的解析度編碼傳輸，視野範圍外的影像則以較低的解析度編碼傳輸，甚至乾脆不傳，以節省頻寬消耗。

然而，目前學業界較為準確的視野預測模型多以機器學習等相對耗費效能的方法搭建，需有效能足夠強大的主機進行視野預測，因此視野預測的相關運算不可能佈署於頭戴顯示裝置上。考量到回傳姿態訊號、視野預測、影像處理/傳輸/渲染等各項任務之延遲，要達到即時成像效果，必須將視野預測模型佈署於邊緣運算平台上，如圖5所示。頭戴顯示裝置會隨時回傳使用者目前的姿態訊號回基地台，建於基地台後方的邊緣伺服器根據最新的姿態資訊預測未來數秒的視野範圍，並將所需影像依照預測結果進行編碼，由基地台將影像傳至頭戴顯示裝置上渲染成像。

圖5：運用邊緣運算佈署無線VR傳輸情境圖

結語

儘管無線VR裝置開始出現在消費者眼前，受限於成像體驗不佳、連線不穩定、價格過高或相關應用稀少等因素，這類裝置一直未能普及。但隨著電腦視覺技術不斷發展，相關影像傳輸技術與時俱進，相信不久的將來，VR裝置將能提供更為逼真的沉浸式體驗。

參考文獻

[1] Toward Low-Latency and Ultra-Reliable Virtual Reality
https://ieeexplore.ieee.org/abstract/document/8329628

[2] Virtual Reality (VR) media services over 3GPP
https://www.etsi.org/deliver/etsi_tr/126900_126999/126918/15.02.00_60/tr_126918v150200p.pdf

[3] Fixation Prediction for 360° Video Streaming in Head-Mounted Virtual Reality
https://dl.acm.org/doi/abs/10.1145/3083165.3083180

[4] TRACK: A New Method from a Re-examination of Deep Architectures for Head Motion Prediction in 360-degree Videos
https://ieeexplore.ieee.org/abstract/document/9395242

[5] Towards Foveated Rendering for Gaze-Tracked Virtual Reality
https://dl.acm.org/doi/abs/10.1145/2980179.2980246