新闻资讯
新闻资讯

DPO或GRPO​​哪个更好?香港,中国,北京大学和

近年来,对识别大语言模型(LLM)的链(COT)功能的强大潜力(RL)具有直接优化的偏好(DPO)和团队接近组(GRPO)方法(GRPO)方法(GRPO)的巨大潜力。如今,此RL波还涌入图像生成领域。当我们还将自回归图像生成视为一个序列化的COT推理过程时,一个关键问题表面:DPO和GRPO在这个新的战场中如何表现?他们的优势,挑战和最佳技能是什么?最近,中国香港大学,北京大学和上海人工智能实验室的一项新研究提供了答案。这项研究首次对GRPO和DPO算法的应用进行了全面,深入的比较。它不仅检查了他们的表现内域和外域,而且还要仔细探索VA的影响关于其能力的奇异奖励模型和扩展技术。纸张标题:与GRPO纸张链接相比,与cot:https://arxiv.org/abs/2505.17017代码链接相比,DPO研究的图像生成:DPO研究:https://github.com/ziyuguo999999/image-generation-cot as text-text-text-text-text-text-text-text-text-text-text-text-text-text-text-textervern-cchall textervern-cherall textervern-cherall text-text-ch文字挑战。互动,图像美学质量的改进以及设计复杂的奖励模型(而不是基于简单的规则奖励)。尽管现有的工作在该领域引入了RL,但它通常缺乏这些领域的PEXamines特定挑战和不同RL技术的特征。新团队的研究填补了这个空间,揭示了图像生成领域的DPO和GRPO的“爱与谋杀”和“每个国王”。图1:关于自回归图像产生的一般研究GRPO和DPO研究,涵盖了域内和外部性能的比较,E各种奖励模型的影响以及扩展技术的影响。研究核心发现的概述研究团队根据自动回归图像生成的最新模型Janus-Pro进行了详细的T2I-COMPING(内域,长文本复杂场景)和Geneval(外域,简短文本模板)数据集。可以在三个主要方面总结主要发现:1。与外域概括相比,内域内域的膜域:DPO和GRPO在DPO场和域域中都有好运:实验结果表明,非政策DPO在内域脚跟中表现更好。使用T2i-Compbench数据集,DPO的平均性能比GRPO高11.53%。当使用官方考试工具作为奖励信号时,DPO也可以达到7.8%的峰值。它突出了DPO在内域活动中的有效性和稳定性。 GRPO更笼统:在政策上,政府的grpo在extry方面表现更好对室内概括功能。在Geneval数据集中,GRPO总是比DPO表现出更好的概括性能。当使用HPS奖励模型时,GRO的高潮比DPO高2.42%。 2。模型奖励的影响:DPO更敏感,高质量奖励模型改进RL泛化DPO对选择模型的选择更敏感:研究发现,DPO的概括性能比选择GRPO更敏感,而GRPO比GRPO更敏感,而GRPO的表达方式更大。 Geneval中的差异性能为0.5486,显着少于DPO的0.9547。一般奖励的内部能力很重要:具有更强内部能力的奖励模型可以改善RL算法概括的整体性能。在研究中,各种奖励模型的性能(例如HPS,在geneval中,ImageRARD,奖励等。 3。探索有效的扩展技术:通过能力,DPO和GRPO技术的教学不同。研究团队系统地探讨了扩展基本的三种技术:扩大每个提示符生成的示例图像数量,扩大域培训数据的差异和体积,以及使用仔细的培训方法。对于GRPO:扩展的样本图像可以更好地改善内域性能。中等尺度的采样和域内数据量表可以帮助提高功能,但过度尺度会导致过度拟合。对于DPO:迭代培训往往能够最大程度地提高Intradi的表现,但是经过许多迭代,它可能会破坏整体暴力。适度的采样可以加强与偏好和优化域内和外域性能的比较;但是超越了固定会引入偏见。扩展内域数据可以通过舒适地限制小型数据集带来的偏好极限,从而改善内域和外域性能。研究细节和研究观点首先阐明了工作设置:通过将图像转换为令牌序列,预测的自回归图像产生模型(例如Llamage,Show-O,Janus-Pro),它们的过程类似于LLM的文本生成,因此DPO和GRPO机制的丢失可以无缝地集成机制。与DPO和GRPO之间的比较,研究人员确保了在计算成本方面的两个比较。例如,每个DPO提示生成的图像数量与GRPO中组的大小对齐,并使用相同的激发奖。结果清楚地表明,由于有效利用了初始收集的静态数据,DPO在诸如T2i-Compbench的复杂长期描述之类的复杂长期描述中表现更好。 grpo iS更容易通过迭代优化技术和在线样本来适应任务的复杂分布,从而显示出对室外领域情况的更强概括(例如简短的遗传学描述)。图2:比较内域和外域性能的视觉结果。在分析奖励模型的影响时,研究团队审查了奖励模型的类型:基于人类偏好(HPS,ImageReward)的模型,视觉问询和回答模型(Unifiendreward,Ft。Orm)和一个基于指标的奖励模型。一个有趣的搜索是,一般奖励本身的能力(通过最佳-N方法在Geneval中审查)高度符合通过RL算法(DPO或GRPO​​)训练后的通用模型分类的能力。它表明,改善奖励模型本身的概括是改善一般RL的主要方法。图3:不同奖励模型影响的视觉结果。在Exp研究小组提出了Loring量表技术,提出了针对GRPO和DPO特征优化的各种途径。例如,对于GRPO,与增加训练数据或迭代次数相比,每个旋转(组大小)的图像数量增加,每个旋转(组大小)可以改善内域性能。对于DPO,即使迭代训练(例如DPO-naterter)可以显着提高内域分数,它也达到了瓶颈甚至否认将军的能力,这可能是由于过度适合培训偏好数据所致。另一方面,扩大内域训练数据的变化和体积将有助于DPO克服小型首选数据集的限制,从而同时改善内域和外域性能。图4:比例策略影响的视觉结果。这项研究的摘要和卓越,使我们清楚地了解了自回归图像生成领域的DPO和GRPO应用。 Hindit SimpLy揭示了DPO在内域活动中的好处和GRPO在外域概括中的优势,但也强调了高质量,高度一般奖励模型的重要性,并为两个RL范式提供了目标缩放技术。这些发现为未来开发更好的RL算法提供了新的方法,以在自回归图像生成领域获得更强的小屋识别。研究人员希望这项工作能够激发进一步的后续研究,并共处AI与视觉创造力的边界。