苏州昊瓦智能装备有限公司
当前位置: > 3D相机资讯

虚拟在左,真实在右:德国学者用AI合成一亿像素逼真3D图像,可任意旋转

点击:520

最近,何润-纽伦堡大学的学者提出了一种新的神经网络方法,用于3D图像的场景细化和新视图合成。只需要输入点云的初始估计和相机参数,就可以输出任意相机角度合成的图像,360度旋转不成问题。

研究人员表示,高效的单像素光栅化使他们能够实时显示超过1亿像素的点云场景。

一亿像素是什么概念?说白了,这些3D图像太逼真了,跟拍照没什么区别。

这项研究最近在推特上受到了很多关注,网友们纷纷回应:印象深刻!同时,也有网友表示,这项研究确实利用了点云的大规模动态输入,这本来就是一个“超级难”的问题。

如下图所示,给定一组RGB图像和初始3D重建(左),这种渲染方法可以合成新的帧并优化场景参数。

纸张地址:

使用神经网络自动学习和合成高清3D图像已经取得了成效,但之前很难实现大的动态视角变化。他们是怎么做到的?

一个

秘密:点云输入和可微优化

合成真实感虚拟环境是计算机图形学和计算机视觉研究的热点领域之一。

其中,3D形状的编码形式是非常关键的一部分。人们通常会考虑三角形网格、体素网格、隐函数和点云,每种表示法都有各自的优缺点。

从左到右,有点云、体素和三角网格形式的兔子3D图像。

为了有效地渲染不透明的表面,人们通常选择三角形网格。

体素网格常用来表示容量,而隐函数则适用于精确描述非线性分析曲面(例如A ^ 2+B ^ 2+C ^ 2 = 1为单位球面。

另一方面,点云具有易于使用的优点,因为它不需要考虑拓扑属性,作为三维图像合成的中间输出阶段非常方便。不考虑拓扑性质,就是说不管是环还是球,它的表示都是一样的。

2000年左右,点云渲染,尤其是点离散,在计算机图形学中得到了广泛的研究。

与此同时,基于图像的绘制技术越来越受到人们的重视。也就是说,基于粗略的和重建的3D模型以及一组现有的对象图像,合成新的视图。

这些方法存在输入不准确的问题,例如,如果几何图形包含孔洞或输入图像没有完全对齐,则会出现伪影。

基于神经图像的渲染方法使用神经网络来去除这些伪影,可以生成前所未有的高质量新视图,如同照片一样逼真。

Aliev等人表明,将传统的点光栅化器与深度神经网络配对也是可行的。

这一发现对于3D重建尤其有利,因为它通常使用密集的点云作为初始输出。因此,我们可以跳过不必要的三角剖分,直接可视化重建的场景。

本文中,研究者的方法基于Aliev等人的流水线,并在许多方面进行了改进。

如上图所示,由纹理点云和环境图组成的场景被栅格化成一组多分辨率的稀疏神经图像。

用深度神经网络重建HDR图像。

然后通过基于物理学的可微分色调映射器将其转换成给定新视点场景的LDR图像。

在训练阶段,可以同时优化矩形框和神经网络中的所有参数。

在整个流水线中,他们特别添加了一个物理可微的相机模型和一个可微的色调映射器,并提出了一个公式来更好地近似单像素光栅化的空间梯度。

可微性的优点是不仅可以优化神经点的特征,还可以在训练阶段纠正不准确的输入。

因此,系统可以根据神经渲染网络的视觉损失来调整这些参数:

相机型号

摄像机角度

点云位置

点云颜色

环境测绘

渲染网络权重

淡出

相机响应功能

每个图像的曝光和白平衡

得益于此,图像的渲染质量得到了显著提高。

此外,这种方法可以合成任意高动态范围成像(HDR,即大曝光变化)和LDR(低动态范围成像,容易丢失图像细节)设置,修正曝光不足或曝光过度的视图(如下图所示)。

与此同时,深度神经网络中的参数数量也显著减少,因为亮度和颜色变化是由物理上正确的传感器模型单独处理的。

如下表所示,与其他可微分渲染器相比,该方法的效率大约高出两个数量级。

表一:1920×1080图像在RTX 2080ti上正反向渲染时间(毫秒)。

因此,提高了渲染性能,并减少了过拟合伪影。

综上所述,本文的研究成果如下:

用于场景细化和可视化的端到端可训练的基于点的神经渲染管道。

一种使用伪影几何概念的用于单个像素点片段的差分光栅化器。

一个基于物理的可区分色调映射器,可以模拟数码摄影镜头和传感器的效果。

大规模点云高效多层渲染的随机点丢弃技术。

最后,这项研究是开源的:

管道的详细说明

下面详细介绍一下模型管道。

它通过使用相机参数将每个点投影到图像空间中,并将其呈现为单个像素大小的片段。

如果像素通过测试,它将在神经网络的输出图像中占据一个描述符。所有未被点着色的像素都用背景色填充。

因为我们将点渲染为单个像素大小的片段,所以输出图像可能非常稀疏,这取决于点云的空间分辨率和相机距离。

因此,以不同的比例渲染多个层会使输出图像变得密集,并处理遮挡和光照问题。

它由一个四层全卷积U-Net和跳连接组成,其中分辨率较低的输入图像连接到中间特征张量。通过平均池执行下采样,通过双线性插值对图像进行上采样。

研究人员主要使用门控卷积,它最初是为了填补孔洞而开发的,因此非常适合稀疏点输入。

总的来说,网络架构类似于Aliev等人提出的网络架构,只是减少了一层并做了一些修改以支持HDR成像。

首先,去除批标准化层,因为它们将中间图像的平均值和标准偏差标准化为固定值。这将导致总传感器辐照度(类似于光强度的概念)损失,并且它不能从3D点传播到最终图像。

此外,如果场景的亮度范围相当大(大于1: 400),则神经点描述符以对数方式存储。否则,神经描述符将被线性存储。对于对数描述符,它们在栅格化过程中被转换到线性空间,从而在卷积运算中仅使用线性亮度值。

色调映射器模拟数码相机的物理镜头和传感器特性。因此,它最适合捕捉智能手机、数码单反相机和摄像机的LDR图像。

限制

虽然合成效果如此惊人,但研究人员也在实验中发现了一些局限性。

局限性之一是,由于不同参数的数量巨大,因此不容易找到合适的超参数。需要平衡纹理颜色、结构参数、色调映射设置和神经网络权重的学习速率。为了找到适合所有场景的可行设置,需要进行广泛的网格搜索。

另一个限制是对于中到大的学习速率,点位置的优化是不稳定的。因此,管道需要一个合理的初始点云,例如,通过多视图立体系统或激光雷达扫描仪。

研究人员认为,这个问题是光栅化过程中的梯度近似造成的。它适用于相机模型和相机角度优化,因为成千上万个点的空间梯度在一个优化器步骤中被平均。然而,对于位置点梯度,仅使用单个近似梯度来更新其坐标。因此,需要非常低的学习速率来平均点梯度随时间的变化。

最后,由于单像素点渲染,当相机离物体太近或点云非常稀疏时,可能会出现孔洞。这是因为神经网络结构只能填充具有一定大小阈值的孔洞。在实验中,研究人员通过人为增加点密度来减少这一问题。然而,这并不是一个普遍可行的解决方案,因为在自由视图环境中,用户仍然可以任意移动相机以接近对象的表面。研究人员表示,他们未来的工作应该从这里开始。例如,他们可以尝试在放大过程中使用插值神经描述符动态生成新点。