120度,是人类双眼视野的大致范围。
为了用更宽阔的视野观察、记录这个世界,人们开始使用工具,希望将整个世界都纳入画面中。为此,能同时拍摄整个空间画面的全景相机出现了。
早期的全景相机需要固定在一个旋转云台上,拍摄前拧紧发条,然后旋转相机进行拍摄。不仅手段繁琐,而且由于旋转速度较慢,拍摄画面中的人物需要长时间保持固定姿势。
进入数码相机时代,照片的获得与后期处理变得更加便捷,厂商们各显神通,全景相机的类型和功能也日益丰富。2006年,瑞士赛兹公司发布了一台6x17Digital相机,这个“大家伙”外形尺寸为495x175x95cm,感光器有6x17cm、比较高分辨率达7500x21250px、获得的相片总像素接近1.6亿,并且,仅机身的价格就高达几十万人民币。
为了打破全景相机庞大笨重、售价不菲的特质,厂商开始寻求其他的解决方法,“扫描全景模式”就是其中之一。比如索尼HX1,相机在全景拍摄模式下,会在按下快门时快速连续扫描被摄物体,并在机内自动寻找相同色块自动拼接。该方式面对静止的物体时能以非常简单的方式获得全景拍摄效果,可是却不能准确判断画面中移动的物体,容易形成重影。
与此同时,随着人们观察与记录世界的视角越来越多元化,视频也成为记录日常的主要方式之一,能够容纳更多信息、视觉冲击力更大的全景视频更是深受人们的喜爱,逐渐成为了主流发展方向。然而相对于静态的全景照片而言,动态的全景视频的实现对技术有着更高的要求,硬件升级成本居高不下。
因此,以AI算法弥补硬件升级的不足,打造全景视频拼接技术成为了新探索方向。
01
拼接技术“曲线救国”,全景视频痛点依旧
所谓全景视频拼接技术,即多个摄像头在同一场景下采集不同方向的视频,后期逐帧拼接,最终得到360度全景视频,甚至360度*180度的球面全景视频。
但是,目前行业里的全景视频拼接技术仍存在一些尚未解决的问题。
首先是多摄拼接计算量大。传统的拼接算法需要提取图像中的特征点、描述子进行匹配,之后反复迭代得到特出的对齐关系,但在相机标定对齐的过程中会产生大量的计算。
其次是视频拼接存在明显拼缝。即使是在计算量非常大的情况下,也需要对于相机之间的关系进行一定的假设,如共光心模型无法适用于大视角,目前即使是网格法求出多组匹配关系也无法应对由于大视角导致的物体拉伸扭曲变形。目前的算法增加了对于扭曲的约束,但不能从根本上解决问题。
另外,还存在拼接无法动态更新。视频拼接技术中存在一个普遍的问题,那就是运动物体在重合区域会产生虚影,就像将手指放在两眼之间前后移动时会出现虚影一样。要解决这个问题,需要随时将相机的光心聚焦到目标点,不断变换拼接模板;同时,为了使拼接的视频流畅,还需要考虑到单帧间信息。这意味着每一帧都需要进行特征点、描述子的提取、匹配等一系列操作,需要大量的迭代标定计算。光是单帧的计算量已经无法实现实时,更不论多帧的情况。
传统算法仍存在进步空间,旷视科技决定实现一个基于AI的优化算法。
02
对症下药找对位置,动态更新丝般顺滑
凭借多年来在基础科研方面的探索,旷视科技基于光流的多摄AI拼接算法,同时依靠实时动态无缝拼接网络模型,推出的全景视频实时拼接算法,有效解决了多摄拼接计算量大、拼缝明显以及拼接无法动态更新的技术难题。
运用了旷视全景视频实时拼接算法形成的全景视频,拼缝消失不见,行人经过原本拼缝处也流畅自然,不存在割裂感;即使放大很多倍,建筑楼宇上的字迹和远处建筑的边缘也依然清晰可见。不仅可视范围更广,分辨率更高,动态更新丝般顺滑,且速度比目前已知的较好拼接算法还要再快20倍。
为何旷视全景视频实时拼接算法,能够达到这样的效果?旷视的研究员表示,对症下药,才能更好地找到解题秘方。
一方面,全景视频拼接的趋势是从一个对齐变换,到多个变换,自然特出的效果应该是每个像素点都有一个对应,因此,旷视科技想到了利用光流来确定目标的运动情况。
另一方面,拼接算法无论是前向还是后向映射,遮挡问题都是一大难题。但是,参考时间上的插帧算法,不仅可以使视频更清晰流畅,空间上也可以插视角,构造连续虚拟的视角。
受到这些启发,旷视的研究员立即着手进行测试,终于在大半年后取得了突破性的进展,也在多种场景下对拼接质量和稳定性进行了可视化的评估。
全景视频实时拼接算法的核心在于把每个物体放到该放的位置上。为此,旷视估计了深度信息、光流信息,构建了一个物理世界并不存在的逐渐缓慢变化的视角,而这个虚构的视角和更大的广角表示很接近。
由于整个网络是一个端到端的nn网络,而光流估计、深度估计都可以在小尺寸上进行,整个算法可以实现实时拼接。
并且,因为构造的虚拟视角无论是在空间上还是在时间上都是连续的,所以不需要额外考虑帧间关系,拼接的视频会异常顺滑。
03
经过优化的算法,早已准备好创造价值
算法在需求中诞生,并在落地中创造越来越多的价值;而当下每一个被优化的算法,都意味着不久的将来,将会更好地应用于人类社会。
旷视全景视频实时拼接算法诞生的背后,正是行业对于全景视频的巨大需求。未来,全景视频实时拼接算法将在智慧城市管理、车载相机、消费电子、户外运动相机等领域被广泛应用。
例如在道路的交叉口,或者是大型广场等存在很多视觉盲区的场景,单个普通摄像头的视角非常受限,通过全景视频实时拼接算法形成的全景视频拥有更宽阔的视野和更高分辨率的图像,有助于城市管理者实现无盲区管理。
又比如在汽车驾驶领域,车辆行驶的过程中存在视觉盲区是引发交通事故很重要一个因素。如果全景视频实时拼接算法应用于车载相机中,就能够观测到车辆前后左右的情况,助力安全驾驶。
对旷视科技来说,基础科研是 AI 创新突破的基石,需要长期主义的坚持。从科研到落地,算法正在创造越来越大的价值,也在开始重新定义软硬件。全景视频实时拼接算法如此,其它的算法亦然。在旷视技术开放日的现场,还展示了双目3D相机、单目黑光、实时双超AI算法等超多的比较新科研成果。
视野所至之处,脚步才有机会到达。在旷视全景视频实时拼接算法容纳的无拼缝、流畅自然的广阔世界里,没有“裂缝”的美好生活也会如约而至。