本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
经常看直播的朋友,可能有过这样的经历:
在不同的直播间,长相甜美的主播小玉与主播小美同样是1080P高清分辨率,但小玉由于开播环境比较暗,直播设备比较差,美颜功能不够自然等原因,导致看到的画面视觉效果却远远不及小美。
长此以往,小玉的直播间人气下滑,粉丝越来越少。
为了提供更好的直播体验,弥补不同硬件和开播环境的缺陷,声网最新发布的“实时高清·超级画质”就解决了这一难题。
这其中涵盖了不少视频黑科技,比如画质增强算法、人眼感知优化、移动端实时多倍超分等,能够实现360P的视频秒变1080P,视频画质的智能补光、色彩增强,全面提升视频画面的分辨率、画质和流畅体验。
不管是直播还是音视频通话中,视频画质在很大程度上决定了用户体验的好坏,对此,声网的视频技术团队在过去几年深耕实时视频画质增强,上线了 AI 画质。
AI 画质充分利用了视频采集播放端设备的平台能力,在影响视频画质的色彩、清晰度、风格化等方向上提供了一站式的解决方案,其中就包括暗光增强、色彩增强、视频降噪等多维度的画质增强算法组合。
我们在观看视频或图像时,往往会希望主观关注及感兴趣区域能够拥有较高的清晰度,而对于非关注区域,只需要达到基本视觉要求即可。
基于人类的视觉特点,在视频编码中,通过对感兴趣区域进行低压缩比,甚至是无损压缩编码,以获得高质量的重建图像,而对非关注区域采用较高压缩率,这就是ROI (Regions of Interest,感兴趣区域)视频编码技术。
在直播/视频通话场景中,声网通过 ROI 和 PVC 算法,提升人眼感知画面的细节效果,ROI 主要凸显画面细节,PVC 凸显色彩优化,以综合提升观众对画质的主观体验。由于声网的 SDK 主要面向直播/视频社交/会议类应用,画面中往往人脸就是感兴趣区域或者视觉聚焦区域,因此声网 AI感知处理算法是基于人脸检测的视频编码技术。
实现原理是通过检测到人脸区域确定感兴趣区域,在编码过程中,对图像中人脸的区域降低量化参数值,从而分配更多码率,以提升感兴趣区域的画面质量,而对非人脸区域的区域则提高量化参数值,分配更少码率,在不损失图像整体主观质量的前提下,降低视频码率,提高视频质量。
△经 ROI 编码处理后的图像对比
不管是色彩、暗光增强还是ROI人眼感知优化,都是在视频分辨率不变的基础上进行画质效果的提升。而在一些欠发达的海外地区或智能硬件终端中,受到设备性能、传输成本、用户带宽等限制,传输的往往是低分辨率的视频,因此为了提升视频画质质量,进而提升用户的观看体验,需要借助拯救分辨率的“魔法“:
视频超分辨率技术,在用户端将接收到的低分辨率视频重建成纹理丰富、细节清晰、观看体验佳的高分辨率的视频,简称为超分技术。
目前业内很多主流的终端实时超分算法更集中在PC端,PC端的设备相对可以提供更强的算力,实现高性能的视频画质实时增强。
但当下直播、视频通话等场景都逐渐集中在移动端,在移动端用户设备性能参差不齐,这就要求移动端实时超分的复杂度必须极低,这样才能在大部分移动设备中做到实时处理,并在超低计算量的情况下还能保持较好的视频超分效果。
对此,声网的人工智能算法团队经过持续的技术钻研,推出了业内首个基于移动端的实时多倍超分算法,该算法的优势是成本低、功耗小,不需要部署 GPU 服务器,仅依靠移动端设备自身的CPU、GPU 或 NPU 来实时超分,以较小的算法计算量实现视频分辨率的多倍超分,有效增强了视频的画质,并降低视频传输的成本,普通的360P画质能够通过超分实现对标540P效果。
声网移动端实时超分的技术原理是基于深度学习算法进行丰富的视频数据训练,从大量的低分辨图像和高分辨图像对,有监督地学习低分辨到高分辨率的映射关系,实现图像放大后,细节丰富、画面清晰的效果,其超分效果、自适应能力明显优于传统的超分方法。
在性能和适配方面,声网多倍超分算法在中低端机型也能实时处理,能够覆盖95%以上的 iOS 视频用户,85%以上的安卓用户。且CPU 消耗、SDK 内存消耗低,单帧处理耗时平均在 10ms以内,在1对1视频通话场景中开启多倍超分后,SDK 的内存消耗只增加10%左右。
伴随视频进入超高清时代,人们在直播、视频互动中也在追求更高清、更美观、更自然的视频画质,APP厂商也应与时俱进,在保证视频高分辨率的前提下,注重对画质细节的提升,才能抢占更多用户市场,带来更多流水。
需要实时提升直播/社交平台的画质,可以用声网“实时高清·超级画质”试试。如想进一步了解“实时高清·超级画质”,可在后台留言,会有工作人员与您联系。