专业定制伺服电动缸的电动缸厂家

咨询热线:13905180521
杏彩体育官网入口

杏彩体育官网入口网址·建议收藏100篇必读论文|大模型月报(202404

来源:杏彩体育官网网址 作者:杏彩体育官网入口2024-05-21 03:46:54
杏彩体育官网入口网址·

  大家好,这是我们的新专栏——大模型月报(100 篇必读论文)——的第三篇文章,内容主要为当前大模型领域热门研究方向(如文生图、文生视频、文生音乐等)的热门论文。

  我们希望,这一专栏能够为大家提供较为全面的大模型最新研究进展。当然,「大模型月报」目前还无法涵盖所有热门论文以及研究方向,望请见谅。

  或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。

  以下,为 2024 年 4 月份,我们收录的一些热门大模型研究论文。文章篇幅较长,共计 4.5 万余字,建议收藏~

  来自清华大学和 Meta 的研究团队提出了一种用于从文生图的多概念定制的新型高效技术—— MultiBooth。尽管定制生成方法取得了长足的进步,特别是随着扩散模型的快速发展,但由于概念保真度低和推理成本高,现有方法在处理多概念场景时依然困难。

  为了解决这些问题,MultiBooth 将多概念生成过程分为两个阶段:单一概念学习阶段和多概念整合阶段。在单概念学习阶段,他们采用多模态图像编码器和高效的概念编码技术,为每个概念学习一个简明且具有辨别力的表征;在多概念整合阶段,他们使用边界框来定义交叉注意图中每个概念的生成区域。这种方法可以在指定区域内创建单个概念,从而促进多概念图像的形成。

  这一策略不仅提高了概念的保真度,还降低了额外的推理成本。在定性和定量评估中,MultiBooth 都超越了各种基线,展示了其卓越的性能和计算效率。

  扩散模型的快速发展催生了各种应用。尤其是身份保持的文本到图像生成(ID-T2I),因其广泛的应用场景(如人工智能肖像和广告)而备受关注。

  虽然现有的 ID-T2I 方法已经取得了令人瞩目的成果,但仍存在几个关键挑战:1)很难准确保持参考肖像的身份特征;2)生成的图像缺乏美感,尤其是在要求身份保持时;3)无法同时兼容基于 LoRA 和基于 Adapter 的方法。

  为了提高 ID-T2I 的性能,来自中山大学和字节跳动的研究团队,提出了一种通用反馈学习框架——ID-Aligner。同时,为了解决身份特征丢失的问题,他们提出了身份一致性奖励微调,利用人脸检测和识别模型的反馈来改进生成的身份保存。此外,他们还提出了身份美学奖励微调,利用人类标注的偏好数据奖励和自动构建的字符结构生成反馈,从而提供美学调整信号。

  得益于其通用反馈微调框架,该方法可轻松应用于 LoRA 和 Adapter 模型,从而实现一致的性能提升。在 SD1.5 和 SDXL 扩散模型上进行的大量实验验证了该方法的有效性。

  来自 Adobe 研究院和特拉维夫大学的研究团队提出了一种新型扩散 transformer——LazyDiffusion,它能高效地生成局部图像更新。他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。

  他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的 transformer 以“lazy”的方式合成掩膜像素,即只生成掩码区域。

  之前的工作要么重新生成整个画布,浪费时间和计算,要么将处理范围限制在掩膜周围的狭小矩形区域,完全忽略了全局图像上下文。他们的的运行时间与掩码大小成比例,掩码大小通常很小,而他们的编码器带来的开销可以忽略不计。实验证明,在质量和保真度方面,他们的方法与最先进的内绘方法相比具有竞争力,同时在典型的用户交互中(编辑掩码占图像的 10%),速度提高了 10 倍。

  Snap 研究团队提出了一种新的架构——混合注意力(MoA),用于文本到图像扩散模型个性化。受大型语言模型(LLMs)中使用的专家混合机制(Mixture-of-Experts mechanism)的启发,MoA 在两个注意力路径之间分配生成工作量:个性化分支和非个性化先验分支。

  MoA 的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性,同时通过个性化分支尽量减少对生成过程的干预,该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布,从而优化个性化和通用内容创建的融合。

  经过训练后,MoA 就能帮助创建高质量的个性化图像,这些图像包含多个主体,其构图和交互方式与原始模型生成的图像一样多样化。重要的是,MoA 增强了模型原有能力与新增强的个性化干预之间的区别,从而提供了一种以前无法实现的更加独立的主体—语境控制。

  目前,为了增强文本到图像扩散模型的可控性,ControlNet 纳入了基于图像的条件控制。然而,来自佛罗里达中央大学和字节跳动的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。

  他们提出了一种新方法 Controlnet++,通过显式优化生成图像和条件控制之间的像素级循环一致性,来改善可控生成。具体来说,对于一个输入条件控制,他们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制与提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步的梯度,消耗了相当大的时间和内存成本。

  为了解决这个问题,他们提出了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,允许更有效的奖励微调。

  大量实验表明,Controlnet++ 在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。

  强化学习(RL)通过直接优化获取图像质量、美学和指令跟随能力的奖励,改进了扩散模型的引导图像生成。然而,由此产生的生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。

  为了克服这一局限性,一致性模型提出学习一类新的生成模型,直接将噪声映射到数据,从而产生一种只需一次采样迭代就能生成图像的模型。

  在这项工作中,为了优化文本到图像生成模型从而获得特定任务奖励,并实现快速训练和推理,来自康奈尔大学的研究团队提出了一种通过 RL 对一致性模型进行微调的框架——RLCM,其将一致性模型的迭代推理过程构建为一个 RL 过程。RLCM 在文本到图像生成能力方面改进了 RL 微调扩散模型,并在推理过程中以计算量换取样本质量。

  实验表明,RLCM 可以调整文本到图像的一致性模型,从而适应那些难以通过提示来表达的目标(如图像压缩性)和那些来自人类反馈的目标(如审美质量)。与 RL 微调扩散模型相比,RLCM 的训练速度明显更快,提高了在奖励目标下测量的生成质量,并加快了推理过程,只需两个推理步骤就能生成高质量图像。

  然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。

  在这项工作中,InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。

  当前文本到图像(T2I)模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。

  来自亚利桑那州立大学、Intel Labs 的研究团队及其合作者,对这一局限性进行了全面的研究,同时还开发了能达到 SOTA 的数据集和方法。

  研究团队发现当前的视觉语言数据集不能很好地表现空间关系;为了缓解这一瓶颈,他们从 4 个广泛使用的视觉数据集中抽取了 600 万张图片重新进行标注,进而创建了首个以空间为重点的大规模数据集——SPRIGHT。通过三重评估和分析,他们发现 SPRIGHT 在捕捉空间关系方面比现有数据集有很大改进。为了证明 SPRIGHT 的功效,他们只利用了约 0.25% 的 SPRIGHT,就在生成空间精确图像方面提高了 22%,同时还提高了 FID 和 CMMD 分数。

  此外,他们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是,通过在小于 500 张图像上进行微调,他们在 T2I-CompBench 上达到了 SOTA,空间分数为 0.2133。

  来自上海 AI Lab 和香港中文大学的研究团队提出了 InternLM-XComposer2-4KHD —— 将 LVLM 分辨率提升到 4K HD(3840 x 1600)及更高分辨率。同时,考虑到并非所有场景都需要超高分辨率,它支持从 336 像素到 4K 标准的各种不同分辨率,大大拓宽了其适用范围。

  研究表明,将训练分辨率扩展到 4K HD 可带来持续的性能提升,而不会触及潜在改进的上限。InternLM-XComposer2-4KHD 在 10 项测试中表现出了与 GPT-4V 和 Gemini Pro 相媲美甚至超越的能力。

  生成具有指定身份(ID)的高保真人类视频,已引起内容生成领域的极大关注。然而,现有技术很难在训练效率和身份保持(identity preservation)之间取得平衡,要么需要进行繁琐的逐个微调,要么通常会在视频生成过程中遗漏 ID 细节。

  来自中国科学技术大学、中国科学院和腾讯的研究团队,提出了一种零样本人类视频生成方法 ID-Animator,它可以在给定单个参考面部图像的情况下,无需进一步训练即可生成个性化视频。ID-Animator 继承了现有的基于扩散的视频生成骨干技术,并配备了人脸适配器,可从可学习的面部潜在查询中编码与 ID 相关的嵌入。

  为了便于在视频生成过程中提取 ID 信息,他们提出了一个面向 ID 的数据集构建管道,该管道从构建的面部图像池中整合了解耦人类属性和动作字幕技术。在此基础上,他们进一步设计了一种随机人脸参考训练方法,从而从参考图像中精确捕捉与 ID 相关的嵌入,从而提高该模型在特定 ID 视频生成中的保真度和泛化能力。

  大量实验证明,ID-Animator 在生成个性化人类视频方面达到了 SOTA。此外,他们的方法与流行的预训练 T2V 模型(如 animatediff 和各种社区骨干模型)高度兼容,在需要保持 ID 的视频生成实际应用中具有很高的可扩展性。

  逼真的物体交互对于创造身临其境的虚拟体验至关重要,然而如何根据新颖的交互合成逼线D 物体动力学仍是一项重大挑战。

  与无条件或文本条件动态生成不同,动作条件动态生成需要感知物体的物理材料属性,并根据这些属性(如物体刚度)进行 3D 运动预测。然而,由于缺乏真实材料数据,估计物理材料属性是一个未决问。