有了3D-语言模型,去重庆导航也不在「话」下!
大型语言模型(LLM)和视觉语言模型(VLM)在各种评测基准中都展现出了强大的性能,比如可以看图说话、进行常识推理。
但这些模型的训练过程并没有引入3D物理世界,也就无法理解更丰富的现实概念,包括空间关系、布局、物体反馈等。
最近,加州大学洛杉矶分校、上海交大、华南理工大学、麻省理工学院等机构的研究人员联合提出了一个全新的3D-LLM任务,把3D世界的知识注入到大型语言模型中,以3D点云及其特征作为输入,从而可以执行各种3D相关的任务,包括描述生成、3D问题回答、任务分解、3D辅助对话、导航等。
基于这个思路,研究人员设计了三种类型的提示机制,收集了超过30万的3D语言数据来支持上述任务。为了有效地训练3D-LLM,首先使用从渲染的多视图图像获得3D特征的3D特征提取器,再用2D VLMs作为模型的骨干来训练3D-LLM网络;通过引入3D定位机制,3D-LLM可以更好地捕获3D空间信息。
在ScanQA上的实验结果表明,该模型显著优于最先进的基线模型,例如,BLEU-1指标上的性能提升达到9%
此外,在3D描述生成、3D辅助对话等数据集上的实验表明,该模型优于2D VLMs
定性结果也表明,该模型可以执行超出现有的LLM和VLM能力范围的一些任务。
三维语言数据生成
从互联网上可以轻松获取海量的二维图像和相应文本的数据对,不过三维多模态数据的获取却非常困难,网络上的三维资产非常稀缺,而且提供文本标注也更有挑战。
现有的三维语言数据,如ScanQA、ScanRefer等在数量和多样性方面都很有限,而且每个数据集都仅限于一项任务,如何自动生成一个可用于各种三维相关任务的三维语言数据集非常值得深入研究。
受GPT等大型语言模型的启发,研究人员提出利用此类模型来收集3D语言数据。