11月6日消息,在Techo開發(fā)者大會上,騰訊杰出科學(xué)家、多媒體實驗室總經(jīng)理劉杉分享了騰訊多媒體實驗室的最新成果與思考,在談及當(dāng)前互聯(lián)網(wǎng)流量的來源分布時,劉杉表示,預(yù)計2022年超過82%的互聯(lián)網(wǎng)流量將來自于視頻或者包含視頻的應(yīng)用,而這一增長趨勢蘊涵著巨大的商業(yè)價值。
視頻編解碼技術(shù)聽起來專業(yè)難懂,可是它的應(yīng)用卻與人當(dāng)下的感官體驗有著親密連接。比如大眾日常接觸的騰訊視頻、微視、微信、QQ等與視頻密切相關(guān)的產(chǎn)品,還是其他互聯(lián)網(wǎng)公司每天產(chǎn)生的視頻內(nèi)容,都是以壓縮的形式傳播的。而視頻壓縮即視頻編解碼,它的效率,直接影響到一個產(chǎn)品或者一套解決方案的效率、成本、品質(zhì),甚至是成敗。
盡管壓縮效率非常重要,但并不是所有人都在使用壓縮效率最高的編解碼格式,因為不同的應(yīng)用場景對視頻編解碼器的需求側(cè)重有所不同。劉杉表示,在質(zhì)量、延遲和帶寬或者成本之間尋找一個最優(yōu)平衡點是騰訊多媒體實驗室努力的方向和目標。
以云游戲為例,在線游戲行業(yè)千億市場,但云游戲商業(yè)化面臨的現(xiàn)實挑戰(zhàn)是它的高成本。云游戲是以云計算為基礎(chǔ)的游戲方式,劉杉表示對其成本結(jié)構(gòu)進行拆解后發(fā)現(xiàn),云游戲最大一塊成本來自于帶寬 34%,其次是GPU 27%。“視頻編碼器的優(yōu)化將有助于大大降低云游戲的帶寬成本,推動云游戲商業(yè)化,”劉杉表示,“騰訊多媒體實驗室已經(jīng)和正在使用的視頻編解碼器優(yōu)化策略。比如,啟用更高效率編解碼格式,對硬件編碼器進行優(yōu)化,針對不同游戲場景優(yōu)化編碼工具集使用,同時支持多格式軟件硬件編碼器并根據(jù)內(nèi)容和分辨率進行切換,動態(tài)編碼碼率策略,ROI編碼和網(wǎng)絡(luò)自適應(yīng)編碼技術(shù),硬件解碼渲染一體化等。”
無論視頻流量的持續(xù)增長還是云游戲的商業(yè)化,當(dāng)前都正面臨著一個歷史性風(fēng)口浪尖,即5G。劉杉認為,5G網(wǎng)絡(luò)提供給我們超強的帶寬,超低的延遲,使得更多的應(yīng)用觸手可及。在5G的影響下,媒體內(nèi)容的生產(chǎn)、獲取和傳播方式都在發(fā)生變化。“無論是4K/8K,還是VR/AR/MR/點云,這些在過去因為受限于網(wǎng)絡(luò)帶寬的應(yīng)用,在5G的推動下可能會迎來突破。而5G的低延遲特性還將觸及醫(yī)療和其他一些倚賴高速連接和互動的領(lǐng)域,例如遠程手術(shù)和自動駕駛等。此外,劉杉認為,在萬物互聯(lián)的5G時代,媒體的智能化已經(jīng)成為不可阻擋的趨勢和發(fā)展方向,人工智能技術(shù)成為媒體融合重要的技術(shù)手段和工具。
以下為劉杉演講全文:
尊敬的各位領(lǐng)導(dǎo)、女士們、先生們,上午好。歡迎來到北京,來到Techo開發(fā)者大會。我是劉杉,來自騰訊多媒體實驗室。今天要和大家分享的題目是“視頻編解碼技術(shù)的演進和應(yīng)用”。
視頻編解碼作為一個研究或者研發(fā)領(lǐng)域已經(jīng)存在了一些年,大家并不陌生。無論是從早期的數(shù)字電視時代,還是到后來的OTT和現(xiàn)在的萬物互聯(lián),技術(shù)在持續(xù)演進,但是重要性從來未曾改變。今天希望和大家一起對這個經(jīng)典的課題做一些新的思考。
2017年以來,視頻流量在整個互聯(lián)網(wǎng)流量的占比一直處于高位。從2017年的75%, 到當(dāng)前的約80%, 到2022年我們預(yù)計超過82%的互聯(lián)網(wǎng)流量將來自于視頻或者包含視頻的應(yīng)用。而整個互聯(lián)網(wǎng)流量以平均每年26%的速度增長。以2019年為例,每月約200ExaBytes的互聯(lián)網(wǎng)流量里80% 也就是約160ExaBytes的互聯(lián)網(wǎng)流量來自于視頻。到了2022年,這個數(shù)字將會翻倍。這個巨大的數(shù)字所代表的商業(yè)價值不言而喻。
作為全球最大的互聯(lián)網(wǎng)公司之一,騰訊為全球互聯(lián)網(wǎng)流量有很大貢獻。而騰訊旗下的很多業(yè)務(wù)都和視頻這一媒體形式密切相關(guān),例如:騰訊視頻,微視,和我們熟知的微信,QQ等等。其中很多是通過視頻云對外輸出。當(dāng)然在騰訊之外還有更多互聯(lián)網(wǎng)公司每天產(chǎn)生巨大的視頻內(nèi)容流量。而所有這些視頻內(nèi)容都是以壓縮的形式傳播的。
視頻壓縮,即視頻編解碼,是數(shù)字時代視頻應(yīng)用的一個不可缺少的環(huán)節(jié)。而視頻編解碼的效率,直接影響到一個產(chǎn)品或者一套解決方案的效率,成本,品質(zhì)甚至是成敗。所以,在過去三十多年里,全球很多企業(yè)和研究機構(gòu)投入巨大資源,研發(fā)了許多視頻編解碼技術(shù),并形成了幾代視頻編解碼標準。其中主流的標準有: ISO/IEC和ITU 制定的國際標準,像我們熟知的 MPEG-2, H.263, H.264/AVC, H.265/HEVC 和正在制定中的VVC. 騰訊于2018年開始參與VVC標準制定。迄今為止已經(jīng)向標準組織提交超過250個技術(shù)提案,其中約70個技術(shù)提案已被標準采納。騰訊,已經(jīng)成為國際視頻編解碼標準制定的主要貢獻者之一。
自H.264/AVC于2003年截稿發(fā)布main profile以來,成功主導(dǎo)全球各個領(lǐng)域視頻編解碼市場。H.265/HEVC main (main10) profile于2013截稿發(fā)布,其壓縮性能比H.264/AVC提高約40%,但是由于比較復(fù)雜和具有一定不確定性的專利收費政策,至今還不能像H.264/AVC一樣主導(dǎo)全球市場。
與此同時(2015),Google,Mozilla, Cisco等公司發(fā)起創(chuàng)立了開源標準AOMedia,致力于建設(shè)免費的(或者專利友好的)的視頻編解碼標準,于2018年發(fā)布了第一代開源視頻編解碼標準AV1. 騰訊在九月正式加入AOMdia,是第一家也是迄今為止唯一一家成為 AOMedia 董事會成員的中國公司。騰訊將和其他AOMedia成員公司一起拓展開原生態(tài),推動AV1商業(yè)化,并建設(shè)下一代開源視頻編解碼標準。
當(dāng)然同時,我們也大力投入國標AVS的建設(shè),推廣,和應(yīng)用落地。
在過去三十年里,視頻編解碼技術(shù)不斷演進,從MPEG-2, 到H.264/AVC, 再到H.265/HEVC 和VVC; 開源側(cè)從VP8到VP9, 再到AV1,我們可以看到視頻編解碼的架構(gòu)變得更加復(fù)雜,承載的技術(shù)更加豐富,主要體現(xiàn)在幾個方面,比如 編碼,預(yù)測和變換單元以及樹結(jié)構(gòu)的拓展,幀內(nèi)預(yù)測,幀間預(yù)測,變換與反變換,環(huán)路濾波和熵編碼。這些技術(shù)的演變都使得壓縮效率不斷提升,當(dāng)然同時,計算復(fù)雜度也隨之增加。
將幾個主流視頻編解碼格式的壓縮效率做個簡單對比。測試結(jié)果來自于開源軟件x264, x265, libvpx, libaom的最佳質(zhì)量設(shè)置,在constant QP模式下對100多個不同分辨率不同場景的測試序列進行編碼,取平均值以保證結(jié)果的代表性。在同等壓縮質(zhì)量的情況下,使用幾種編解碼格式分別對應(yīng)的bitrate, 基本上,VVC壓縮性能最高,其次是AV1, HEVC和VP9效果相當(dāng), 然后是AVC, 這些格式都比經(jīng)典的MPEG-2壓縮性能有長足的提高。
上面我們對現(xiàn)在市場上幾種主流視頻編解碼標準格式做了簡單技術(shù)回顧和壓縮性能對比。那么是不是所有人都在使用壓縮效率最高的編解碼格式呢?答案是No. 這里有一份第三方調(diào)查報告,顯示了當(dāng)前市場上各類編解碼器的部署情況。我們可以看到,H.264/AVC仍然是主流,其次是H.265/HEVC。Legacy MPEG-2編解碼器尚有一定使用率,但是在未來會逐漸被取代。同時,開源編解碼器VP9和AV1的部署將會大幅度增長。
不同的應(yīng)用場景對視頻編解碼器的需求側(cè)重有所不同。有些應(yīng)用場景,比如長視頻影視類點播,通常會要求高畫面品質(zhì)而對延遲不做過多要求。而另外一些場景比如直播和實時音視頻通話等應(yīng)用對延遲的要求就比較高。按照ITU G.114建議,對于好的通話質(zhì)量,單向端到端延遲應(yīng)不大于150ms。如果時延在200~400ms, 通話的交互性比較差, 但是尚可接受。時延大于400ms, 則無法正常交互。而游戲?qū)ρ舆t的要求更是苛刻,通常要求端到端延遲小于60ms 甚至更低。
而值得注意的是,上面說的數(shù)字都是端到端的延遲。而視頻從采集到播放的整個鏈路里包含端上處理延遲,端到服務(wù)器延遲,以及服務(wù)器之間傳輸,排隊和服務(wù)處理等延遲。視頻編解碼延遲只是端上處理延遲的一部分。這就意味著,要達到低延遲應(yīng)用和業(yè)務(wù)的要求,我們的視頻編解碼運行速度需要很快。
在質(zhì)量,延遲和帶寬或者成本之間尋找一個最優(yōu)平衡點是我們努力的方向和目標。
我們都知道軟件編碼器具有靈活的優(yōu)點,可以達到更高的編碼質(zhì)量。但是它的一個缺點是速度慢,尤其是在壓縮高分辨率內(nèi)容的時候。所以對于低延遲尤其是超低延遲的應(yīng)用場景,我們多采用硬件編碼器。這里我們舉一個云游戲的例子。云游戲是以云計算為基礎(chǔ)的游戲方式,在云游戲的運行模式下,所有游戲都在服務(wù)器端運行,并將渲染完畢后的游戲畫面壓縮后通過網(wǎng)絡(luò)傳送給用戶。在客戶端,用戶的游戲設(shè)備不需要任何高端處理器和顯卡,只需要視頻解壓縮能力就可以了。
在線游戲行業(yè)千億市場,各行業(yè)巨頭在云游戲方向重兵投入。今年三月谷歌的云游戲平臺Stadia正式登場,并計劃于11月在全球多地上線。Microsoft正在積極籌備進行先期測試,Sony也在進一步加強云游戲服務(wù)能力。騰訊已投入布局START云游戲平臺,并在今年4-5月間正式開啟了Start內(nèi)測預(yù)約。如果騰訊的云游戲服務(wù)能夠成功的話,將會對國內(nèi)游戲行業(yè)產(chǎn)生極為深遠的影響。
云游戲商業(yè)化面臨的一個挑戰(zhàn)是它的高成本。這里我們有一個大致的成本拆分。我們可以看到拆分之下,最大一塊成本來自于帶寬 34%,其次是GPU 27%. 為了推動云游戲商業(yè)化,相關(guān)業(yè)務(wù)部門在2020年里希望可以將成本降低一半。在之后的每一年還會有更多的成比例的成本下降。而在2020年里帶寬成本計劃下降67%, 這其中絕大部分會來自于視頻編碼器的優(yōu)化。
這里簡單羅列了一些我們已經(jīng)和正在使用的視頻編解碼器優(yōu)化策略,包括:啟用更高效率編解碼格式,對硬件編碼器進行優(yōu)化:針對不同游戲場景優(yōu)化編碼工具集使用,同時支持多格式軟件硬件編碼器并根據(jù)內(nèi)容和分辨率進行切換,動態(tài)編碼碼率策略,ROI編碼和網(wǎng)絡(luò)自適應(yīng)編碼技術(shù),硬件解碼渲染一體化,等。在過去的幾個月里,我們針對nvidia, intel, amd, android, iOS 等硬件平臺和編解碼器分別做了優(yōu)化,達到節(jié)省約30%帶寬。尤其是硬件解碼和渲染一體化,很大程度降低了解碼端延遲和功耗。
我們正在進入5G時代。5G網(wǎng)絡(luò)提供給我們超強的帶寬,超低的延遲,使得更多的應(yīng)用觸手可及,也使得萬物互聯(lián)成為可能。在5G的影響下,媒體內(nèi)容的生產(chǎn),獲取和傳播方式都在發(fā)生變化。無論是4K/8K,還是VR/AR/MR/點云,這些在過去因為受限于網(wǎng)絡(luò)帶寬的應(yīng)用,在5G的推動下可能會迎來突破。而5G的低延遲特性還將觸及醫(yī)療和其他一些倚賴高速連接和互動的領(lǐng)域,例如遠程手術(shù)和自動駕駛。
在超高清視頻方面,帶寬的占用隨視頻分辨率,bitdepth和幀率等指標的提升成倍增長;ヂ(lián)網(wǎng)流量數(shù)據(jù)顯示,在2017年標清和高清視頻內(nèi)容大約各占一半。在2019年也就是目前標清內(nèi)容占比下降到大約1/3, 高清內(nèi)容成為主流,超高清內(nèi)容占比開始攀升。到2022年我們預(yù)計超高清內(nèi)容占比會進一步提升到約總流量的1/4. 超高清視頻內(nèi)容的壓縮,對于視頻編解碼器的質(zhì)量和性能都有更高的要求。
互動沉浸式媒體是又一個被5G強推動的領(lǐng)域。根據(jù)中國產(chǎn)業(yè)信息網(wǎng),中國VR內(nèi)容市場自2016年以來持續(xù)以每年2-3倍的速度增長。應(yīng)用產(chǎn)業(yè)鏈迅速擴展,尤其是在亞太地區(qū)發(fā)展更為迅猛。互動沉浸式媒體的應(yīng)用領(lǐng)域非常廣泛,滲透到例如文旅,教育,影視和泛娛樂,安全,零售等很多垂直行業(yè)。在今年九月騰訊推出的一部手機游云南里就包含了VR導(dǎo)覽這一元素。
一個高質(zhì)量高效率的互動VR系統(tǒng)包含了從采集拼接,處理,壓縮,傳輸,到解壓縮,后處理,渲染和交互等端到端多個技術(shù)模塊。里面包含的技術(shù)有投影技術(shù),采集拼接技術(shù),F(xiàn)OV技術(shù),自適應(yīng)傳輸技術(shù)(包括Tile 切塊,自適應(yīng)碼率,自適應(yīng)分辨率,自適應(yīng)主客觀質(zhì)量等)涉及的傳輸協(xié)議有HLS, DASH, WebRTC等。因為VR視頻占用的帶寬可能高達普通高清視頻帶寬的幾十倍,高效率的VR視頻編解碼器即使在5G時代也仍然是必須的。
在萬物互聯(lián)的5G時代,媒體的智能化已經(jīng)成為不可阻擋的趨勢和發(fā)展方向,人工智能技術(shù)成為媒體融合重要的技術(shù)手段和工具。在不久前的十一慶典中,騰訊多媒體實驗室聯(lián)合騰訊視頻和騰訊云推出的AI智能云剪輯,在最短時間內(nèi)將月餅盛典中精彩片段進行拆分和剪輯。騰訊多媒體實驗室和騰訊云正在研發(fā)的智能場記解決方案,旨在運用深度學(xué)習(xí)技術(shù)結(jié)合信號處理理論,對視頻內(nèi)容進行高級語義理解,并已經(jīng)在體育賽事等場景取得階段性成果。
最后我想用半分鐘時間簡單介紹一下騰訊多媒體實驗室。
作為騰訊云的一個重要技術(shù)輸出方和親密合作伙伴,騰訊多媒體實驗室專注于多媒體和相關(guān)領(lǐng)域的前沿技術(shù)探索、研發(fā)和產(chǎn)品落地,包含音視頻編解碼、網(wǎng)絡(luò)傳輸和實時通信,基于信號處理和深度學(xué)習(xí)的多媒體內(nèi)容分析、理解、處理和質(zhì)量評估,沉浸式媒體(VR、AR、點云等)系統(tǒng)設(shè)計和端到端解決方案;同時負責(zé)國際國內(nèi)行業(yè)標準制定,包含多媒體數(shù)據(jù)壓縮,網(wǎng)絡(luò)傳輸協(xié)議,多媒體系統(tǒng)和開源平臺等。
面向未來,我們將一如既往地以技術(shù)為本,以客戶需求為導(dǎo)向,和騰訊云一起打造更多更好的產(chǎn)品,服務(wù)于社會。