机器之心报道
编辑:Panda、蛋酱
人类有两只眼睛来估计视觉环境的深度信息,但机器人和VR头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。
近日,一种可有效利用大规模无标注图像的新MDE模型DepthAnything凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。
甚至有试用者发现它还能正确处理埃舍尔(M.C.Escher)那充满错觉的绘画艺术(启发了《纪念碑谷》等游戏和艺术):
从水上到水下,丝滑切换:
更好的深度模型也得到了效果更好的以深度为条件的ControlNet,可用于图像生成和视频编辑。如下图所示,生成的内容质量得到了显著增强:
理论上说,基础模型可用于解决单目深度估计(MDE)问题,即基于单张图像估计深度信息。这类技术在机器人、自动驾驶、虚拟现实等领域都有广阔的应用前景。但由于难以构建带有数千万深度标签的数据集,这一问题还少有研究者探索。
此前的MiDaS算得上是这个方向上的一项开创性研究,其基于一个混合标注的数据集训练了一个MDE模型。尽管MiDaS展现出了一定程度的零样本能力,但受限于其数据覆盖范围,其在某些场景中的表现非常差。
来自香港大学、TikTok等机构的研究者提出的DepthAnything,则是一个更为实用的解决方案。
论文标题:DepthAnythingUnleashingthePowerofLarge-ScaleUnlabeledData
论文