了解金山云最新資訊
2020-12-28 00:00:00
近日,莫斯科國(guó)立大學(xué)(Moscow State University)舉辦的世界視頻編碼器大賽傳來好消息,金山云自主研發(fā)的KAV1編碼器在UGC賽道中拔得頭籌。
MSU視頻編碼大賽是全球盛宴,在視頻編碼領(lǐng)域具有極大的影響力,迄今已連續(xù)舉辦了15屆,每年都會(huì)吸引眾多國(guó)內(nèi)外重量級(jí)企業(yè)和組織參加。
本次,金山云KAV1在UGC賽道中斬獲冠軍,不僅證明了金山云在視頻編碼領(lǐng)域的團(tuán)隊(duì)實(shí)力與創(chuàng)新潛力,也讓業(yè)界看到了AV1未來的廣泛應(yīng)用前景。
在UGC賽道中排名問鼎
目前,UGC(User Generated Content,用戶原創(chuàng)內(nèi)容)和PGC(Professionally Generated Content,專業(yè)生產(chǎn)內(nèi)容)是互聯(lián)網(wǎng)視頻的兩大主要來源。作為一種泛眾化的傳播范式,UGC拍攝的低門檻能滿足普通人自我表達(dá)的訴求,因?yàn)槊恳粋€(gè)人都可以用短視頻這種最為簡(jiǎn)要、直觀的形式與他人和社會(huì)分享自己的觀點(diǎn)與生活。事實(shí)上,在抖音、快手、B站等視頻類社交平臺(tái),無論是長(zhǎng)視頻還是短視頻,用戶參與(UGC)都是更大的比重。
除了內(nèi)容來源不同,PGC視頻和UGC視頻的區(qū)別更在于整體質(zhì)量的差異。PGC視頻在拍攝時(shí)就會(huì)選擇更佳的光照對(duì)比度和合理的動(dòng)靜場(chǎng)景比例,在制作初期也會(huì)采用專業(yè)的編碼手段來確保壓制質(zhì)量。與之相比,UGC的拍攝制作、壓制和后期效果都是由非專業(yè)人員完成,缺少對(duì)拍攝環(huán)境的把關(guān),制作初期會(huì)存在對(duì)焦失真、模糊和噪聲大等問題,在處理過程中也會(huì)經(jīng)歷多次視頻轉(zhuǎn)碼,其難度也會(huì)隨著轉(zhuǎn)碼次數(shù)的變多而增大。
盡管如此,鑒于全球視頻云服務(wù)中的主要流量是UGC,因此關(guān)注UGC編碼能夠更貼合實(shí)際業(yè)務(wù)場(chǎng)景,這也是MSU大賽UGC賽道的初衷。本次UGC賽道視頻取自數(shù)個(gè)互聯(lián)網(wǎng)頭部高自由度原創(chuàng)視頻平臺(tái),通過沿用MSU一貫使用的時(shí)空復(fù)雜度聚類方法獲得,它們覆蓋了多種場(chǎng)景。
本次UGC賽道結(jié)果顯示,金山云KAV1在人工評(píng)測(cè)中壓縮率較Reference(X265)提升41%(去年主觀賽道冠軍相較于X265的提升是33%),相對(duì)于svt-av1、VP9和x264分別提升45%、71%和73%,這足以展示金山云KAV1在UGC賽道中相較于其他編碼器的優(yōu)勢(shì)。
MSU大賽現(xiàn)有的主觀、客觀、4K等賽道主要集中在AV1、VVC中,這些編碼器均是為了4K、8K等高清視頻而生,在一些低清場(chǎng)景下,其優(yōu)勢(shì)可能不如目前流行的x265等編碼器明顯。金山云KAV1作為AV1標(biāo)準(zhǔn)的自研編碼器,雖然是以“一切為了高清”為目標(biāo),卻也能在UGC場(chǎng)景中優(yōu)勢(shì)明顯。據(jù)悉,為了本次MSU賽事,金山云專業(yè)的視頻編碼器研發(fā)團(tuán)隊(duì)在編碼器和AI兩個(gè)方向上取長(zhǎng)補(bǔ)短,研制出了貼合人眼感知模型的KAV1。
金山云KAV1第一次參加編碼器領(lǐng)域盛宴就能取得不俗的成績(jī),這表明,近年來金山云在AI和編解碼方面的研發(fā)持續(xù)收獲成效。
KAV1的背后功臣:感知評(píng)價(jià)指標(biāo)KPA
對(duì)焦失真、模糊、噪聲、場(chǎng)景區(qū)分巨大等因素,導(dǎo)致UGC視頻的主觀優(yōu)化成為較PGC視頻更有挑戰(zhàn)性的一環(huán)。為了更好地優(yōu)化UGC場(chǎng)景的編碼效果,金山云自主研發(fā)并且發(fā)布了圖像視頻感知評(píng)價(jià)指標(biāo)Kingsoft Cloud Perceptual Assessment(KPA)。
本次MSU大賽中,利用KPA強(qiáng)大的能力,金山云KAV1在繼承經(jīng)典視頻混合框架的基礎(chǔ)上,基于KPA重新設(shè)計(jì)了RDO目標(biāo)函數(shù),同時(shí)利用JND+KPA兩者大幅度去除了人眼不感知的區(qū)域所占用的碼率,包括時(shí)域空域的采集噪聲、壓縮帶來的壓縮噪聲、暗場(chǎng)和高頻集中等不敏感區(qū)域。同時(shí),全面提升了預(yù)測(cè)、變換、量化、熵編碼等各個(gè)流程的壓縮效率,如采取 Warp Motion 技術(shù)提升對(duì)局部仿射運(yùn)動(dòng)的估計(jì);增加 DCT-8/DST-7等變換提升殘差的變換效率;精細(xì)調(diào)整每一個(gè)編碼單元的QP以獲得更為優(yōu)良的碼率分配;革新熵編碼機(jī)制超越經(jīng)典 CABAC 算數(shù)碼。通過這些手段,金山云KAV1在確保壓縮率的基礎(chǔ)上大大提升了圖像畫質(zhì)。
(左側(cè)) x265編碼后的圖像 (右側(cè))金山云KAV1編碼后的圖像
目前,能夠達(dá)到商用級(jí)的評(píng)價(jià)指標(biāo)非常少,學(xué)術(shù)界的評(píng)價(jià)指標(biāo)主要都是針對(duì)有非常明確邊界條件約束的場(chǎng)景。商用級(jí)的全參考評(píng)價(jià)指標(biāo)目前除了PSNR和SSIM之外,就是Netflix在2016年發(fā)布的VMAF,然而VMAF是主要針對(duì)Netflix的PGC場(chǎng)景進(jìn)行設(shè)計(jì)的,無法直接用在UGC視頻當(dāng)中。KPA主要針對(duì)UGC視頻,并且除了通用的整體質(zhì)量評(píng)價(jià)外,還包括子維度質(zhì)量、局部質(zhì)量等細(xì)分評(píng)價(jià)指標(biāo)。
在KPA的研發(fā)過程中,通過收集各種場(chǎng)景下UGC及PGC視頻,并保證至少50以上的專業(yè)評(píng)測(cè)人員對(duì)每個(gè)視頻進(jìn)行主觀評(píng)測(cè),從源頭上避免數(shù)據(jù)主觀評(píng)測(cè)波動(dòng)和精度問題。同時(shí),對(duì)收集到的數(shù)據(jù),從內(nèi)容、場(chǎng)景、質(zhì)量等多個(gè)維度進(jìn)行平衡篩選,在確保數(shù)據(jù)規(guī)模遠(yuǎn)超業(yè)界開源數(shù)據(jù)的基礎(chǔ)上,提升數(shù)據(jù)的多樣性。在模型層面,通過攻防設(shè)計(jì)、協(xié)同學(xué)習(xí)、困難樣本挖掘等方法,提升模型的魯棒性和精度,在UGC場(chǎng)景中SROCC和gMAD分?jǐn)?shù)均優(yōu)于業(yè)界知名的有參考算法VMAF。
在視頻高清化的趨勢(shì)下,用戶對(duì)視頻的要求在不斷提升,這就會(huì)對(duì)視頻編解碼技術(shù)提出越來越高的要求?;谠谝曨l編解碼方面的優(yōu)勢(shì),金山云始終堅(jiān)持技術(shù)立業(yè),一直在不斷探索核心技術(shù),尋求持續(xù)突破。