首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标
创始人
2025-11-27 12:35:55
0

(来源:机器之心)

从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。

为了突破这一局限,来自北京大学、字节跳动和卡耐基梅隆大学的研究者们联合提出了 PartCrafter。这款创新的模型开创了结构化生成的新理念,能够直接从单张 2D 图像生成由多个、具有语义意义且可独立操作的部件构成的复杂 3D 网格模型。PartCrafter 显著增强了 3D 生成的可控性与可解释性,为更直观、模块化的内容创作流程铺平了道路。

该研究已被顶级人工智能会议 NeurIPS 2025 接收,并在 GitHub 上迅速狂揽 2000+ Stars,引发了社区的广泛关注。本研究的 Project Lead 为 Panwang Pan

  • 论文标题:PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

  • 项目主页:https://wgsxm.github.io/projects/partcrafter/

  • 论文链接:https://arxiv.org/abs/2506.05573

  • 代码链接:https://github.com/wgsxm/PartCrafter

Partcrafter 是一个结构化的 3D 生成模型,无需分割步骤,可以秒级生成带多个部件的 3D Mesh 表示。

研究背景与动机

在当前的 3D AIGC(人工智能生成内容)领域,主流的生成模型普遍采用「黑箱」模式,将三维物体作为一个不可分割的整体进行处理。这种「整体式」范式虽然能生成外观逼真的模型,但其组件(如椅子腿、汽车轮子)与主体融合,无法进行单独的移动、旋转或替换。这种不可编辑性和灵活性缺失,极大地限制了 3D 内容在各行各业的实际应用价值。

为了实现部件级别的编辑,传统的流程通常依赖于一个「分割-重建」的两阶段管线:首先进行图像语义分割来识别部件,随后对每个部件进行独立的三维重建。然而,这种方法存在两大弊端:缓慢且脆弱。它不仅耗时(通常需要 20 分钟以上),而且极易出现错误累积 —— 初始 2D 分割阶段的任何失误都将永久性地破坏后续的所有重建结果和最终的 3D 模型。

为了突破这些局限,研究团队提出了 PartCrafter,旨在构建一个端到端的结构化三维生成体系。PartCrafter 能够直接从单张二维图像生成包含多个独立部件的复合网格模型,彻底解决了现有方法的编辑难题。

通过这种统一的系统,PartCrafter 在保证生成质量的同时,实现了秒级速度与前所未有的可控性,为 3D 内容创作流程铺平了更直观、更模块化的道路。

Partcrafter 网络结构设计。

方法详解:组合式潜在空间与联合去噪机制

PartCrafter 的核心在于其创新的网络结构设计,它巧妙地解决了如何在生成过程中既保持部件独立性又确保整体结构一致性的难题。

1. 组合式潜在空间 (Compositional Latent Space)

为了让模型能够理解「部件」这一概念,PartCrafter 为每个三维物体的不同部件都分配了一组相互独立的潜在变量(Latent Tokens)。这种设计从根本上将物体的表示从单一整体解构为多个部分的组合。

此外,为了让模型能够更好地区分和识别不同的部件(例如,椅子的「腿」和「靠背」),研究者为每一组部件的 token 引入了一个可学习的部件身份嵌入」(Part Identity Embedding。这种嵌入向量像一个独特的「身份证」,强化了模型对每个部件语义属性和独立身份的感知能力。

2. 局部-全局联合去噪 Transformer (Local-Global Denoising Transformer)

在生成过程中,各个部件独立生成然后拼接在一起是行不通的,这会导致部件之间布局混乱、比例失调。为此,PartCrafter 设计了一种新颖的局部-全局联合去噪 Transformer 架构,通过两个协同工作的分支来确保生成结果的内在一致性与整体协调性。

  • 局部分支 (Local Attention Blocks):此分支专注于单个部件内部的几何结构与细节。它通过在部件自身的潜在 token 集合内部进行注意力计算,确保每个生成部件(如一只桌腿)的形状是完整且合理的。

  • 全局分支 (Global Attention Blocks):此分支则负责协调不同部件之间的空间关系和语义关联。它会整合所有部件的潜在 token,从全局视角审视和调整物体的整体布局,确保所有部件能够和谐地组合在一起。

在整个去噪生成过程中,输入的图像条件(Condition)会引导模型生成既符合图像内容、又具备独立部件结构、同时整体形态协调连贯的三维模型。

高质量部件级数据集的构建

高质量、大规模且带有精确部件标注的 3D 数据集是训练结构化生成模型的关键。然而,现有的大规模 3D 数据集(如 Objaverse、ShapeNet、ABO 等)虽然模型数量庞大,但普遍缺乏精细的部件级标注信息。

为了解决这一数据瓶颈,PartCrafter 团队通过系统化地挖掘和整合多个主流 3D 资源库,自主构建了一个专为部件级生成任务服务的大规模数据集。该数据集共包含约 13 万个 三维对象,其中约 10 万个拥有精确的多部件标注。

在构建过程中,研究团队制定了严格的筛选标准,包括模型的材质贴图质量、部件数量的合理性以及部件间的平均交并比(IoU)等,以确保数据质量。最终,研究团队精选出约 5 万个具备高质量部件标签的对象,共计含有超过 30 万个独立的、可用于监督训练的三维部件。这个数据集的开放将为结构化 3D 生成领域的研究提供宝贵的资源。

实验结果

研究团队在两种不同的应用场景中,对 PartCrafter 进行了全面而丰富的实验验证:它既能用于生成具有独立部件的 3D 单个物体,也能扩展到创建由多个物体组合而成的 3D 场景

1. 定量结果

  • 1.1 物体数据集上的重建结果

在物体部件级的生成任务上,与同样探索部件级生成的 HoloPart 模型相比,PartCrafter 在多项关键指标上均表现出显著优势。

在给定单张图像后,PartCrafter 仅需约 34 秒即可生成高保真、部件可拆分的三维网格,而 HoloPart 不仅速度更慢,还依赖于耗时的后处理分割步骤,且生成精度较低。

  • 1.2 场景数据集上的重建结果

在场景级的物体组合生成任务上,研究团队将 PartCrafter 与 MIDI 模型进行了比较。实验设置在一个从 3D-Front 数据集中挑选的、包含大量严重遮挡场景的子集上。

结果表明,当物体间存在遮挡时,依赖真实分割掩码(Ground Truth Segmentation Masks)的 MIDI 模型性能会大幅下降,而完全不依赖任何分割信息的 PartCrafter 则依然能保持稳定、高质量的生成效果。

2. 定性结果

从定性结果来看,PartCrafter 能够生成几何结构清晰、细节丰富的 3D 物体与场景。更重要的是,其组合式潜在空间的设计赋予了用户前所未有的控制能力。通过在生成时指定潜在向量集合的个数,用户可以灵活地控制生成模型的部件分割粒度

例如,对于同一个物体,用户可以选择将其生成为由 3 个部件组成的粗粒度模型,也可以选择生成为由 8 个部件组成的细粒度模型,这种控制能力在个性化内容创作中具有巨大的应用潜力。

  • 2.1 3D 物体重建效果:

  • 2.2 3D 场景重建效果:

  • 2.3 用户指定 Part 生成的颗粒度

PartCrafter 的组合式潜在空间设计使得颗粒度控制成为可能。通过指定潜在向量集合的个数,用户可以实现部件分割颗粒度的控制。

3. 结论与展望

PartCrafter 的提出,标志着 3D 生成技术从「整体式」向「结构化」 迈出了关键一步。它通过一种巧妙的架构设计,在不牺牲生成质量和效率的前提下,成功地将可解释性与可控性引入到三维生成流程中。

这种直接生成可编辑部件的能力,不仅极大地拓宽了 3D AIGC 技术的应用场景(例如在游戏、虚拟现实、工业设计等领域快速生成可定制的 3D 资产),也为后续研究如何构建更加模块化、层级化和语义化的三维世界模型提供了全新的思路。

PartCrafter 生成的、带有清晰部件结构的高质量 3D 网格模型,直接导入到工作流中,进行后续的渲染、动画制作或游戏开发,极大地提升了其实用性和工作效率 (Credit goes to scenario)。

相关内容

NWPX基础设施转型水务供...
经济观察网 NWPX基础设施完成品牌重塑转型综合水务供应商,收购业...
2026-06-15 03:14:00
海西茫崖:从严考察把好公务...
今年以来,海西蒙古族藏族自治州茫崖市聚焦新录用公务员招录考察工作,...
2026-06-15 03:13:34
2026超广角镜头性能榜 ...
讲台之外,是光影流动的教室;取景框之内,是构图逻辑与视觉语言的现场...
2026-06-15 03:13:11
联合国秘书长强烈谴责以色列...
转自:财联社【联合国秘书长强烈谴责以色列袭击黎巴嫩贝鲁特】财联社6...
2026-06-15 03:12:37
青海出台《十条措施》优化法...
本报讯 (记者 魏爽) 近日,青海省委政法委会同省直政法相关单位印...
2026-06-15 03:12:11
先科电子2027财年Q1财...
经济观察网 先科电子2027财年第一财季财报已于5月27日发布,下...
2026-06-15 02:55:31
选科技还是选消费一时难抉择...
  证券时报记者 安仲文  近三个月来,科技板块强势拉升,相关公募...
2026-06-15 02:55:16
21分钟,全场沸腾!库拉索...
转自:央视频北京时间6月15日,2026美加墨世界杯小组赛E组第一...
2026-06-15 02:55:04
六部门规范金融信息服务数据...
范科峰表示:“《指南》为全行业建立了共同的数据安全管理语言和基准,...
2026-06-15 02:54:51

热门资讯

NWPX基础设施转型水务供应商... 经济观察网 NWPX基础设施完成品牌重塑转型综合水务供应商,收购业务拓展布局,同时受益于美国基建法案...
海西茫崖:从严考察把好公务员招... 今年以来,海西蒙古族藏族自治州茫崖市聚焦新录用公务员招录考察工作,组建专项考察队伍,区分在职、市内、...
2026超广角镜头性能榜 支持... 讲台之外,是光影流动的教室;取景框之内,是构图逻辑与视觉语言的现场教学。当摄影课程不再局限于PPT上...
联合国秘书长强烈谴责以色列袭击... 转自:财联社【联合国秘书长强烈谴责以色列袭击黎巴嫩贝鲁特】财联社6月15日电,联合国秘书长古特雷斯就...
青海出台《十条措施》优化法治化... 本报讯 (记者 魏爽) 近日,青海省委政法委会同省直政法相关单位印发《青海省政法机关推进法治化营商环...
先科电子2027财年Q1财报已... 经济观察网 先科电子2027财年第一财季财报已于5月27日发布,下一份第二财季季报预计7至8月发布,...
选科技还是选消费一时难抉择 一...   证券时报记者 安仲文  近三个月来,科技板块强势拉升,相关公募权益基金业绩火爆,一大批产品区间收...
21分钟,全场沸腾!库拉索世界... 转自:央视频北京时间6月15日,2026美加墨世界杯小组赛E组第一轮,德国VS库拉索。第21分钟,科...
六部门规范金融信息服务数据治理 范科峰表示:“《指南》为全行业建立了共同的数据安全管理语言和基准,明确了不同级别数据的保护重点与流通...
招商瑞福回报混合型证券投资基金... 基金管理人:招商基金管理有限公司 基金托管人:中国银行股份有限公司登记机构:招商基金管理有限公司重要...