NavVis 一直致力于帮助人们更好地捕捉和探索室内外空间。我们的扫描仪和软件能将真实空间转化为精确、详细的三维数字空间。但是,如果这些数字空间不仅仅能显示那里有什么呢?如果它们还能理解自己的内容呢?
在我们最近的 CodeJam 上,工程师们在一个早期原型上进行了实验,该原型朝着这个方向迈出了明确的一步:利用语义特征增强 3D 高斯拼接。
如今,功能强大的人工智能模型可以清晰地识别和标注二维照片中的物体。你可以向这些模型展示一张照片,它们就能立即识别出椅子、桌子、门等等。然而,在 3D 场景中,这种理解能力却远远落后。
因此,曾在慕尼黑工业大学攻读博士学位的机器学习专家、NavVis公司的曼努埃尔-达纳特(Manuel Dahnert)提出了这样一个问题:我们能否将二维知识转移到三维环境中,特别是三维高斯拼接环境中,这样用户就可以与物体而不仅仅是几何体进行交互?
曼纽尔的假设简单但雄心勃勃。如果我们能将对二维图像的理解直接应用到三维数字环境中,NavVis 的用户最终就能以更丰富的方式与空间互动。他们可以查询 数字孪生按物体类型查询,要求快速检查库存,甚至过滤三维模型,只关注特定元素。
高斯拼接技术将场景建模为数千个重叠的彩色 "球体",而不是数百万个离散点。每个 "球体 "都有大小、颜色和深度,因此更容易与原始摄像机图像连接。
这种结构还能将二维图像中的语义标签更自然地转换到三维图像中。它还能使文件更轻、渲染更快,并支持更平滑的表面和遮挡物,同时保留原始NavVis 点云,以便进行精确测量。
简而言之:高斯为增加三维数据的意义提供了更具表现力和更高效的基础。
在曼纽尔的原型中,不同类型的物体始终显示为不同的颜色。所有椅子都显示为一种颜色,桌子显示为另一种颜色,而门则显示为另一种颜色。虽然他还不能添加基于文本的查询,但结果清楚地表明了这种方法的潜力。数字场景不仅逼真,而且具有语义组织。
查看 1 | 查看 2 | 查看 3 |
图 1:使用NavVis HQ 厨房作为测试环境的 3D 高斯拼接示例。不同颜色表示不同类型的物体。
三维场景中的语义理解带来了许多可能性。想象一下,在一栋建筑的数字孪生 中穿行,并快速过滤,只看到消防安全设备。或者,考虑让施工 经理立即识别半成品建筑的哪些部分与其BIM 模型相匹配或不同。这些功能可以为施工、设施管理和安全检查等行业节省大量时间和精力。
换句话说,我们相信,将数字空间与语义理解相结合,可以带来更智能的导航、更快的搜索和更好的决策。
NavVis 在语义理解方面的探索并不局限于三维空间。我们 CodeJam 的另一个团队使用类似的分割模型,从 NavVis MLX 激光扫描仪捕获的全景图中自动移除操作员。
这种更简洁的输出意味着更少的手动编辑、更清晰的图像以及更全面的用户体验。这也表明,即使没有完全的三维集成,语义分割在今天也是非常实用和有价值的。
虽然早期成果很有希望,但曼努埃尔和团队其他成员认识到,这项工作仍处于早期阶段。要将其从原型转化为产品,还需要继续在真实场景中进行测试,尤其是在复杂的工业环境中。
我们的目标是确保未来的语义功能在准确性、可靠性和性能方面达到与NavVis 所有交付成果相同的预期。
创新遵循一条可预测的路径:原型→测量→迭代。有些想法会升级为产品规划。另一些则为未来研究提供信息。这项工作处于研究阶段,但与明确的客户需求和更广泛的行业方向保持一致。
我们的工程师正在继续调整模型大小,为基本文本查询布线,并在更大、更多样的数据集上进行测试。随着这些阶段性目标的实现,该功能将更接近于使用真实客户数据的试点项目。
在语义理解成为日常期望的那一刻,NavVis 将做好准备。