CAD-GPT:多模态大语言模型助力3D图形构建
王思宇 陈彩莲* 乐心怡 许齐敏 徐磊 张延洲
上海交通大学
背景介绍
数字孪生技术作为物理世界与虚拟世界之间的桥梁,在工业制造、智慧城市和航空航天等领域发挥着关键作用。CAD建模在数字孪生中扮演了基础性角色,为数字孪生体的创建提供了精确的几何描述和结构信息。以往基于深度学习的CAD建模方法通常依赖于点云或潜向量作为输入。然而,点云数据的获取成本高昂且获取难度较大;而依赖潜向量的方法则难以生成具有准确语义信息的CAD模型,往往只能生成随机、缺乏实际意义的模型。
近年来,多模态大语言模型(MLLMs)的发展为CAD建模注入了新的活力。如果基于MLLMs,可以让用户简单的通过自然语言交互进行CAD建模,遇到难以描述的CAD模型通过单张图片的简单引导也可精准生成,那么不仅可以提高CAD建模的效率,也可以让更多不懂CAD建模的用户实现快速、精准的CAD建模,进而实现高效的数字孪生。
然而,基于这类算法实现精准的3D CAD 建模存在如下挑战:
1) 缺少用于训练多模态大模型的img2CAD / text2CAD的相关数据集;
2) 由于大语言模型是自回归模型,其位置编码方式是1D展开形式,并且每个数字都需要进行推理预测,导致其难以精准推理多个数字Token背后代表的3D空间位置和方向,如图1所示,限制了准确的CAD建模。
图1. 原始多模态大模型3D建模效果差原因分析
研究进展
1) 提出CAD-GPT,一种多模态大语言模型,可以从单个图像或文本描述精确地合成CAD建模序列。图3展示了CAD-GPT的模型架构和原理。
2) 为3D建模过程设计了一种新颖的3D建模空间定位机制,通过token化的方法将3D空间映射到1D,从而增强了大型语言模型的空间推理能力。图2用一个健身器材的建模过程展示了空间定位机制的基本原理。
3) 基于DeepCAD数据集 [1],生成了160k固定视角渲染的CAD模型图像和18k相应的自然语言描述数据集,构建专门用于训练多模态大语言模型的CAD建模数据集,便于后续其他工作训练大模型生成CAD模型建模序列。
图2. 3D建模空间定位机制原理图
图3. CAD-GPT原理框架图
[1] DeepCAD数据集(ICCV 2021): https://github.com/ChrisWu1997/DeepCAD
主要结论
经过与前沿CAD生成方法和各类先进开源、闭源大语言模型的对比,以及消融实验,我们得出如下结论:
1) 本方法可以通过单张图片或者一句话自然语言描述,精准生成相应的CAD建模序列。
2) 相较于前沿CAD生成方法,本方法更精准、更用户友好,且可以实现具有语义信息的3D建模。
3) 相较于先进的大语言模型,我们可以更准确的推理空间建模关键参数,进而实现精准的CAD建模,失效率更低。
图4. CAD-GPT部分生成模型效果展示
图5. CAD-GPT是否添加空间定位机制生成效果对比
未来展望
本文提出的方法,初步实现了基于多模态大语言模型实现精确的CAD建模,然而仍然存在很多不足和可改进的方向:可以结合大模型思维链和强化学习反馈策略,实现更为复杂的CAD模型建模,并且可以加入错误反馈校正,从而更符合工业领域的高可靠性要求;本文生成的CAD模型由于数据集的限制,缺少很多操作指令和包含各类曲面的CAD模型,这些可以在后续工作中进行完善和改进;本文生成的是零件级别的CAD模型,后续可以扩展到包含装配关系的完整、体系化CAD模型。
*更多生成效果可以访问项目主页:https://OpenIWIN.github.io/CAD-GPT/