
生成模型会繁殖身份模型的历史吗?今年的CVPR成功在美国田纳西州纳什维尔完成。除了谈论论文并互相添加朋友之外,许多参与者还参加了一个非常友好的项目。这个“星”自然是学术明星。 MIT副教授从正面发出的现场活动的判断是他可能是最受欢迎的。他的讲座很饱满,许多学生用凯明大师张贴了图片。实际上,他是凯明(Kaiming),目前出现在CVPR地区,有许多身份,包括但不限于最佳纸质奖委员会成员“视觉生成模型:传播后是什么?”研讨会扬声器等该研讨会的主题是在扩散模型之后建模视觉的发展。近年来,传播模型迅速超过了以前的方法,并且是建模V的主要方法伊斯兰世代,广泛用于生成图像,视频,3D对象等。该研讨会旨在探索在视觉生成建模中克服扩散模型的方法。他在活动中分享了“朝向端到端生成建模”的主题。最近,他的个人网页上传了一个研讨会PPT,这对于学习非常重要。 PPT地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf在PPT的前几页中,他首先要回顾识别模型的进化。在Alexnet之前,逐层训练更受欢迎,例如深信仰网络(DBN)和Denaising Autocododer(DAE)。但是,在Alexnet之后,识别模型通常实施端到端培训,从而大大简化了模型设计和培训的复杂性。有趣的是,当今的生成模型更像是逐层训练:扩散模型逐渐由步骤生成disting和自回旋模型逐渐由代币形成,这两个过程都需要一个理解许多步骤的过程。它对我们来说想知道:在生成模型的领域是否可以重复历史?从较高的层次来看,身份和产生实际上是同一硬币的两个方面。身份可以被视为一个“抽象”过程:我们从丰富的原始数据开始(例如piimage ksel),并通过处理多层网络逐渐提取正在进行的抽象功能,直到最终出现了高度抽象的分类标签。这一代是相反的。这是一个“具体化”的过程:我们从抽象表示(例如随机噪声或概念向量)开始,通过网络变换的数量逐渐比较它,最后生成真实数据与复杂的细节。下图更直观地描述“抽象”和“具体化”之间的字母。底部代表原始数据,而顶级数据代表构成了差距的抽象空间。表明该研究从数据向上流动,对嵌入的数据进行日期。生成的建模从宝石向下,将数据转换为数据。该过程可以看作是不同抽象级别之间数据的“流”。但是,身份和产生基本不同。身份任务通常具有特定的数据对标签映射,但是生成活动不是:我们希望将简单的“噪声”分布到复杂且可变的数据分布。该映射不是线条,并且具有无限的可能性。如何有效地“构建”此地图是生成模型面临的主要挑战。继续使流量正常化,尤其是原始的“匹配流”技术,为解决此问题提供了一个应许的方向。在讲座期间,他提到了匹配流的方向的几篇代表性论文:下图直观地显示了匹配位置。生成模型:他还介绍了流程匹配的一些技术细节:谈到它,他总结了一些关键点:识别和生成都可以被视为数据分布之间的一种“流”。流匹配为训练生成模型提供了强大的方法,该模型可以开发无条件地存在和独立于神经网络的特定结构的地面真相领域。尽管我们希望为这一生成实施准确的积分,但实际上,我们通常实施一个边界估计值,类似于重新连接的离散方法或使用数值olode求解器。我们的最新目标是实现进食,端到端的生成建模,并摆脱多步复发的希望。接下来,他引入了Thetheir最近的新技术 - “意味着阶跃生成建模的流程”。它的主要思想是追求一代。具体而言,该论文提出了一个称为sinl的平均流的理论框架电子步骤生成活动。主要思想是引入一个新的基地真实场来表示平均速度,而不是匹配流中常用的立即速度。该论文降低了平均速度和立即速度之间的自然触摸,这是网络培训指导原理的基础。基于这个基本概念,纸张训练一个神经网络,以指导平均速度场的模型,并引入失去损失以奖励网络,以满足立即速度之间的平均速度归纳关系。