AI图像生成领域最流行的评测标准，可能是一场"精致的误导"_全局洞察

AI图像生成领域最流行的评测标准，可能是一场"精致的误导"

创始人

2026-06-27 19:33:12

0次

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由澳大利亚国立大学与Canva研究院联合开展的研究，以预印本形式发表于2026年6月23日，论文编号为arXiv:2606.24888。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

研究团队来自两个机构的紧密合作：澳大利亚国立大学负责核心学术研究，Canva研究院则提供了工业级的工程支持与资源。这种学术与产业的结合，让这项研究既有扎实的理论基础，又有直面真实应用场景的实践视角。

**一个让整个AI图像生成领域都需要认真思考的问题**

在人工智能图像生成这个领域，有一个大家都在用的"成绩单"，叫做ImageNet-FID分数。几乎所有发表新方法的论文，都会把这个分数摆在最显眼的地方——分数越低，就代表生成的图像越好。各路研究者为了把这个分数压低，前赴后继地提出新技术、新架构、新训练方法。

然而，澳大利亚国立大学与Canva研究院的研究团队发现了一个令人不安的问题：在ImageNet这个考场上考高分的方法，换到另一个更贴近真实使用场景的考场，成绩可能会一塌糊涂。更糟糕的是，两个考场的成绩之间，几乎没有什么关联——甚至呈现出负相关的趋势。

打个比方：某个学生在数学竞赛里名列前茅，大家都以为他是数学天才，结果一考实际应用题，他的表现却不如那些在竞赛里排名靠后的同学。如果所有人只盯着竞赛成绩，就永远发现不了这个问题。研究团队正是基于这个洞察，设计了一套全新的评测体系，并为此开发了名为NANOGEN的统一训练框架。

**一、ImageNet到底是什么，它为什么会出问题**

要理解这个研究，首先得搞清楚"ImageNet生成"是什么意思。

ImageNet是一个包含了大量带标签图片的数据库，里面有猫、狗、汽车、椅子等一千多个类别，每个类别有大量图片。"ImageNet图像生成"的任务，就是给AI一个指令，比如"生成一只金毛猎犬"，然后AI根据这个类别标签生成一张图片，再用FID这个指标来衡量生成的图片和真实图片有多像。

这个测试有个很大的局限性：它只是在一个有限的、固定的数据集上测试AI，就像只用同一套题目反复考试一样。时间久了，AI的训练和设计可能会越来越"对口"这套题目，但不代表它在实际应用中也同样优秀。

研究团队所关注的另一种评测任务，叫做"文本生成图像"，简称T2I。这个任务更接近真实使用场景——用户输入一段文字描述，比如"一只橙色猫咪坐在窗台上看窗外的雪景"，AI根据这段文字生成一张图片。这要求AI真正理解语言、理解场景，而不是仅仅记住某个类别的外观特征。

过去，大家普遍认为做文本生成图像的实验太贵、太麻烦，需要完全不同的数据集、评测工具，甚至要重写代码。研究团队的第一个目标，就是彻底打破这个认知。

**二、NANOGEN：让两种考试用同一套教材**

研究团队开发的NANOGEN框架，核心思路就是让ImageNet生成和文本生成图像这两个任务，能在同一套系统下运行，用同样的模型骨架、同样的优化器、同样的训练循环，只需要改动极少的配置，就能从一个任务切换到另一个任务。

具体来说，两个任务之间的切换，只需要改变两件事：一是数据来源——ImageNet用的是带类别标签的图片，文本生成图像用的是带文字描述的图片；二是条件信号——ImageNet用的是类别编码，文本生成图像用的是文字编码器。除这两点之外，模型架构、损失函数、优化方法、评测流程，全部保持一致。研究团队把这个切换过程量化为"大约12行配置文件的改动"，强调的正是这种极低的工程摩擦。

NANOGEN在模型架构上做了三个有意思的设计选择。第一个是使用了一种叫做"解耦扩散变换器"的架构，把整个模型分成一个"编码器"和一个"解码器"两部分。编码器负责读取带噪声的图片加上条件信号，提取出语义理解；解码器则是一个又宽又浅的小网络，负责根据语义理解来预测扩散目标。这种分法的好处是，可以在不大幅增加计算量的前提下增加模型的"理解宽度"。

第二个设计是在编码器里去掉了一种叫做AdaLN的调制模块，只在解码器里保留它。这个技术细节背后的直觉是：让解码器的调制信号来自编码器的语义输出，而不是直接来自时间步编码，这样信息流更加顺畅自然。

第三个设计是"上下文内条件"机制。无论是类别标签还是文字描述，都以"词条"的形式直接拼接在图片的视觉词条前面送入编码器，不需要任何任务特定的特殊处理。这使得增加或切换条件类型，只需要替换那些词条就行，其余结构完全不动。对于ImageNet任务，用4个时间步词条加8个类别词条；对于文本生成图像任务，用4个时间步词条加256个文字词条。整个模型约有6.15亿参数。

训练配置上，研究团队使用了AdamW优化器，学习率从零线性热身到2×10??再线性衰减到2×10??，配合梯度裁剪和指数移动平均（EMA）。扩散时间步的采样遵循一种叫做"logit正态分布"的方式，这有助于让训练更关注那些"恰好处于中间噪声水平"的样本，因为这些样本对最终图像质量影响最大。模型默认使用v预测目标，采样时用Euler采样器跑50步。

为了验证NANOGEN的可靠性，研究团队用它复现了六种已有方法的结果，包括RAE、两种E2EVAE、PixNerd、JiT和PixelGen。复现结果和原论文报告的数字非常接近，有时候甚至略有超越。这一步很重要——只有证明这个框架能准确还原已有方法，接下来的跨任务比较才有说服力。

**三、揭开帘子：ImageNet成绩与文本生图成绩的"离婚"**

研究团队在NANOGEN框架下，一共训练了21个潜空间扩散模型，涵盖了RAE（表示自编码器）和VAE（变分自编码器）两大类潜空间方法，每个方法都在ImageNet和文本生成图像两个任务上分别评测。

结果让人大吃一惊。

以GenEval指标为例，这个指标衡量的是AI生成的图片和文字描述之间的对应程度——比如你说"红色的球放在蓝色的盒子旁边"，AI生成的图片里是不是真的有一个红球和一个蓝盒子、位置关系也对。研究团队发现，ImageNet的FID分数（越低越好）和GenEval分数（越高越好）之间的皮尔逊相关系数是-0.555。另一个文本图像评测指标DPG-Bench的相关系数是-0.580，GenAIBench的相关系数是-0.377。

皮尔逊相关系数在-1到1之间，0代表完全无关，1代表完全正相关，-1代表完全负相关。这里观测到的数值在-0.4到-0.6左右，意味着不仅两个方向的成绩没有相关性，甚至呈现出轻微的负相关——也就是说，ImageNet分数越好的方法，文本生图的表现有时候反而还稍差一些。

举一个具体例子来感受这种"离婚"程度：用SpatialPE-L这个视觉编码器训练的RAE方法，在ImageNet上的FID表现相当不错，但它在三个文本生图指标上的表现却在所有方法中垫底。反过来，在文本生图上表现突出的方法，在ImageNet上的排名却未必靠前。

这个发现的实际意义是：如果你的研究目标是让AI在真实世界里更好地理解文字并生成图片，那么只盯着ImageNet-FID来优化，很可能是在浪费资源，甚至在走弯路。

**四、DIFFUSIONBENCH：把两张成绩单合并成一张**

面对这个发现，研究团队的解决方案是推出DIFFUSIONBENCH——一个把ImageNet生成和文本生成图像两个任务都包含在内的综合评测基准。

研究团队在DIFFUSIONBENCH框架下，对大量方法进行了系统性评测，留下了迄今为止这个领域最完整的横向比较数据。

在ImageNet评测端，研究团队对每个方法都报告了FID、IS（起始分数）、FDr（表示弗雷歇距离的改进版本，用五种不同的视觉编码器各算一遍）和MIND（另一种更鲁棒的图像分布距离指标）。这些指标从不同角度衡量生成图片的质量，比单一FID更全面。

在文本生成图像评测端，研究团队使用了GenEval、DPG-Bench和GenAIBench三个指标。GenEval重点测试AI是否能正确理解并生成包含特定属性、数量、位置关系的图片；DPG-Bench则聚焦于更复杂的组合场景理解；GenAIBench则综合考量图片在多个维度上与文字描述的吻合程度。

从ImageNet评测的结果来看，在所有方法中，使用FLUX.2-VAE的方法获得了最低的FID分数1.37，其次是使用REPA-E端到端优化的VAE家族，FID大约在1.5到1.6之间。RAE家族整体FID略高，DINOv3-B的FID是1.74，DINOv2-B是1.96。传统VAE方法如SD-VAE和SD3.5-VAE的FID更高，但研究团队指出，这主要是因为在80个训练周期的有限预算下，结构化程度更高的潜空间（比如RAE和REPA-E）会收敛更快，并不代表传统VAE本质上更差——如果训练更久，差距会缩小。

值得一提的是，FLUX.2-VAE的架构细节并不完全公开，但研究团队注意到它的架构里有一个批归一化层，和REPA-E的设计如出一辙，可能共享了类似的端到端VAE与扩散模型联合调优的机制。

像素空间方法（直接在像素上训练扩散模型，不经过任何潜空间压缩）在80个训练周期下的FID普遍高于潜空间方法，表明在有限计算预算下，潜空间压缩带来的收敛加速优势明显。

此外，研究团队还测试了MeanFlow——一种只需一步或两步就能完成生成的方法。MeanFlow在一步推断下FID为6.60，两步为5.40，虽然效率很高，但在质量上仍然落后于多步方法。在文本生图任务上，MeanFlow的GenEval只有0.287（一步）和0.341（两步），远低于其他方法，说明这类极速生成方法在需要精细理解文字的任务上还有很长的路要走。

**五、文本生图评测的详细发现**

在文本生成图像任务上，研究团队的评测揭示了几个重要规律。

从整体方法类别来看，进阶潜空间方法（包括RAE、FLUX.2-VAE和REPA-E家族）的表现整体上优于传统潜空间方法，而传统潜空间方法又整体优于像素空间方法，像素空间方法则整体优于MeanFlow极速方法。这个宏观排序和ImageNet上的排序是吻合的，说明在方法类别这个粗粒度层面，ImageNet的信号还是有参考价值的。

然而，在同一个方法类别内部，不同具体方法之间的ImageNet排名与文本生图排名就几乎没有关联了。正是这种"大局相关、局部混乱"的格局，揭示了为什么在前沿方法的精细比较中，只靠ImageNet来判断优劣会产生误导。

端到端VAE调优是一个在两个任务上都带来改善的技术。具体来说，对FLUX.1-VAE和Qwen-Image-VAE进行端到端调优之后，既提升了ImageNet FID，也提升了文本生图指标。这说明提升潜空间的质量，是一个具有跨任务泛化价值的技术方向。

不同的文本生图指标之间，有时候也会产生分歧。以E2E-Qwen-Image-VAE为例，在GenEval和DPG-Bench上它是最强的几个方法之一，但在GenAIBench上它却落入第二梯队。这说明不同的文本生图指标在衡量的侧重点上有所不同，单靠任何一个指标也不足以全面评估方法的能力。

研究团队还特别注意到一个奇特现象：把训练步数从10万步延长到20万步，根据三个量化指标来看，性能提升很小甚至持平。但从肉眼看生成的图片，20万步的结果明显更好。这个矛盾说明，现有的文本生图评测指标可能还不够灵敏，无法准确反映视觉质量的真实提升。研究团队由此呼吁学界开发更好的文本生图评测工具。

**六、训练成本：文本生图并不比ImageNet贵多少**

为了回应"文本生图训练成本太高"的普遍认知，研究团队在32块H200 GPU上详细记录了每个方法训练10万步所需的实际时钟时间。

结果显示，绝大多数潜空间方法的ImageNet训练时间在8到12小时之间，文本生图训练时间在10到13小时之间——两者非常接近。RAE方法比VAE方法稍快，因为RAE使用的是基于变换器的视觉编码器，而VAE主要依赖计算密集的卷积U-Net结构。

像素空间方法在ImageNet上反而非常便宜，因为它们不需要计算潜空间编码，但这也意味着它们的生成质量在有限计算预算下更难追上潜空间方法。

MeanFlow是一个特例——它在文本生图任务上的训练时间高达15.6小时，比其他方法慢了约50%，原因是MeanFlow的训练目标需要用PyTorch的自动微分机制来计算雅可比向量积，这个操作的计算开销相当大。

研究团队同时指出，所有实验都可以在8块H200 GPU上完成，并非必须32块，这进一步降低了复现的门槛。

**七、与公开大模型的对比：差距真实存在但不令人绝望**

研究团队在文本生图表格里也列出了几个公开的大型商业/开源模型的成绩作为参考，包括SD3.5-Large（80亿参数）、FLUX-1（120亿参数）、FLUX-2（320亿参数）、Qwen-Image（200亿参数）和Z-Image-Turbo（60亿参数）。

相比之下，NANOGEN训练的所有模型都是6亿参数左右，训练数据和计算预算也远小于那些大模型。毫不意外，在绝对成绩上，NANOGEN的方法大多低于那些庞然大物。以GenEval为例，FLUX-2是0.854，Qwen-Image是0.848，而NANOGEN里最好的E2E-Qwen-Image-VAE是0.691，差距明显。

但这个比较的意义并不在于追求绝对分数，而在于在相同的小型实验规模下，横向比较不同方法的相对优劣，并验证哪些技术方向是跨任务有效的。研究团队特别指出，RAEv2（一个公开了代码的竞品框架）用SigLIP2-B编码器和8.75亿参数模型预训练150万步后，GenEval只有0.624，而NANOGEN用E2E-Qwen-Image-VAE只训练10万步就达到了0.691，这说明NANOGEN的配方本身也相当有竞争力。

研究团队也坦承，如果在BLIP-3o-60K这个精调数据集上做监督微调，GenEval可以轻松提升到0.90以上。但他们刻意没有这样做，原因是他们认为这类微调很可能是在"针对评测指标作弊"——模型在GenEval上的数字好看了，但实际的通用生成能力未必真的提高了。他们呼吁学界开发更难被针对性微调欺骗的文本生图评测机制。

**研究的局限与未来方向**

研究团队对这项工作的局限性相当坦诚。当前观察到的ImageNet与文本生图之间的弱相关性，是在约6亿参数、10万训练步的特定规模下得到的，在更大或更小的规模下，这种相关性的强度可能有所不同。此外，所有方法都是在相同的预算下比较，更长时间的训练可能会改变方法之间的相对排名。

在未来方向上，研究团队提出了三个设想。DIFFUSIONBENCH可以进一步扩展到视频生成、3D生成、世界模型等其他生成式AI模态，实现更广泛的跨任务评测。文本生图的评测指标亟需改进，需要开发更难被"刷分"的评测工具。研究团队还将DIFFUSIONBENCH定位为一个社区维护的活跃排行榜，随着领域发展定期刷新，而不是一个静态的固定标准。

说到底，这项研究做的事情，就像是发现"驾照考试的科目二只考停车，但实际开车还要跑高速"——科目二通过固然重要，但它不能作为判断司机驾驶能力的唯一标准。研究团队不是在否定ImageNet-FID的价值，他们明确表示它仍然是一个有用的、成本低廉的研究工具；他们想说的是，它不应该是唯一的评判标准。一个方法如果在ImageNet上提升了，在文本生图上也提升了，那才是值得称道的真实进步。如果只改善了其中一个，则应被明确标注为"任务特定的改进"，而非整个领域的通用进步。

对于任何使用AI图像生成工具的人来说，这项研究的意义在于：评测体系的设计，直接决定了研究者努力的方向。当评测体系不够全面时，即便每篇论文都在"进步"，实际上对我们日常使用的生成图像的质量，可能贡献甚微。

Q&A

Q1：ImageNet-FID分数低的扩散模型，为什么文本生图表现不一定好？

A：ImageNet-FID测试的是"给定类别标签生成图片"的能力，用的是固定数据集和固定评测工具，模型优化方向可能会过度适应这个特定任务。而文本生图要求模型真正理解自然语言描述、处理组合关系和细节，这是完全不同的能力。研究团队发现两者的皮尔逊相关系数只有约-0.4到-0.6，说明在前沿方法之间，一个方法的ImageNet分数好坏，完全无法预测它在文本生图任务上的表现。

Q2：NANOGEN框架和其他训练扩散模型的框架有什么不同？

A：NANOGEN最大的特点是用同一套代码、同一个模型骨架，只改动约12行配置就能在ImageNet生成和文本生图两个任务之间切换，而其他框架通常需要为两个任务维护完全不同的代码库。这种统一性保证了跨任务比较的公平性，也大幅降低了研究者同时评测两个任务的工程成本。

Q3：DIFFUSIONBENCH基准包含哪些评测指标？

A：DIFFUSIONBENCH包含两个维度的评测。ImageNet端使用FID、IS、FDr（用五种视觉编码器分别计算的弗雷歇距离）和MIND四类指标。文本生图端使用GenEval（测试属性、数量、位置等组合理解）、DPG-Bench（复杂场景理解）和GenAIBench（综合文图对齐）三个指标。两个维度合并在一起，构成比单独使用ImageNet-FID更全面的综合评测标准。

上一篇：转给爱爬山的朋友

下一篇：山东济南：“村拔”擂台赛燃爆乡村夏夜

AI图像生成领域最流行的评测标准，可能是一场"精致的误导"

相关内容

热门资讯