新闻动态

CAD-GPT：多模态大语言模型助力3D图形构建

发布时间：2024-12-29 浏览量：1262

CAD-GPT：多模态大语言模型助力3D图形构建

王思宇陈彩莲* 乐心怡许齐敏徐磊张延洲

上海交通大学

背景介绍

数字孪生技术作为物理世界与虚拟世界之间的桥梁，在工业制造、智慧城市和航空航天等领域发挥着关键作用。CAD建模在数字孪生中扮演了基础性角色，为数字孪生体的创建提供了精确的几何描述和结构信息。以往基于深度学习的CAD建模方法通常依赖于点云或潜向量作为输入。然而，点云数据的获取成本高昂且获取难度较大；而依赖潜向量的方法则难以生成具有准确语义信息的CAD模型，往往只能生成随机、缺乏实际意义的模型。

近年来，多模态大语言模型（MLLMs）的发展为CAD建模注入了新的活力。如果基于MLLMs，可以让用户简单的通过自然语言交互进行CAD建模，遇到难以描述的CAD模型通过单张图片的简单引导也可精准生成，那么不仅可以提高CAD建模的效率，也可以让更多不懂CAD建模的用户实现快速、精准的CAD建模，进而实现高效的数字孪生。

然而，基于这类算法实现精准的3D CAD 建模存在如下挑战：

1) 缺少用于训练多模态大模型的img2CAD / text2CAD的相关数据集；

2) 由于大语言模型是自回归模型，其位置编码方式是1D展开形式，并且每个数字都需要进行推理预测，导致其难以精准推理多个数字Token背后代表的3D空间位置和方向，如图1所示，限制了准确的CAD建模。

图1. 原始多模态大模型3D建模效果差原因分析

研究进展

1) 提出CAD-GPT，一种多模态大语言模型，可以从单个图像或文本描述精确地合成CAD建模序列。图3展示了CAD-GPT的模型架构和原理。

2) 为3D建模过程设计了一种新颖的3D建模空间定位机制，通过token化的方法将3D空间映射到1D，从而增强了大型语言模型的空间推理能力。图2用一个健身器材的建模过程展示了空间定位机制的基本原理。

3) 基于DeepCAD数据集^[1]，生成了160k固定视角渲染的CAD模型图像和18k相应的自然语言描述数据集，构建专门用于训练多模态大语言模型的CAD建模数据集，便于后续其他工作训练大模型生成CAD模型建模序列。

图2. 3D建模空间定位机制原理图

图3. CAD-GPT原理框架图

[1] DeepCAD数据集(ICCV 2021): https://github.com/ChrisWu1997/DeepCAD

* 通讯作者

主要结论

经过与前沿CAD生成方法和各类先进开源、闭源大语言模型的对比，以及消融实验，我们得出如下结论：

1) 本方法可以通过单张图片或者一句话自然语言描述，精准生成相应的CAD建模序列。

2) 相较于前沿CAD生成方法，本方法更精准、更用户友好，且可以实现具有语义信息的3D建模。

3) 相较于先进的大语言模型，我们可以更准确的推理空间建模关键参数，进而实现精准的CAD建模，失效率更低。

图4. CAD-GPT部分生成模型效果展示

图5. CAD-GPT是否添加空间定位机制生成效果对比

未来展望

本文提出的方法，初步实现了基于多模态大语言模型实现精确的CAD建模，然而仍然存在很多不足和可改进的方向：可以结合大模型思维链和强化学习反馈策略，实现更为复杂的CAD模型建模，并且可以加入错误反馈校正，从而更符合工业领域的高可靠性要求；本文生成的CAD模型由于数据集的限制，缺少很多操作指令和包含各类曲面的CAD模型，这些可以在后续工作中进行完善和改进；本文生成的是零件级别的CAD模型，后续可以扩展到包含装配关系的完整、体系化CAD模型。

^*更多生成效果可以访问项目主页：https://OpenIWIN.github.io/CAD-GPT/

上一篇：IWIN团队两名博士生获批国家自然科学基金委员会资助
下一篇：i-WiN启航赛队荣获“第二届全国工业互联网创新大赛”二等奖