上海交大、腾讯发布高效扩散模型微调方法,提升图像生成效率
添加书签专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
扩散模型在近年来在图像、视频和 3D 生成等任务中发挥了重要作用,但如何有效地将这些预训练模型微调并应用于实际业务场景中还存在不少问题。
现有的微调方法主要包括AFT、RFT和SFT三大类,但它们都存在一些局限性,例如,AFT 方法需要额外模块和参数,改变了源模型并引入额外延迟;RFT 方法存在过拟合风险且需针对每个模型设计特定的秩和应用层;而SFT 方法参数选择过程复杂、内存成本高且效果不佳。
所以,上海交通大学、腾讯优图实验室的研究人员提出了新的微调方法SaRA。该方法主要是利用那些在预训练过程中由于训练不稳定性而变得看似无效的参数。这些参数虽然在当前模型输出中影响不大,但它们并非模型结构设计上的冗余,而是具有学习新知识的潜力。
地址:https://github.com/sjtuplayer/SaRA
以图像生成任务为例,传统的微调方法可能无法充分利用模型中的所有参数,导致部分参数在训练过程中未被有效利用。
而 SaRA 方法通过对这些暂时无效的参数进行重新训练,能够让模型学习到更多的任务特定知识。
例如,在图像风格迁移任务中,SaRA 可以调整模型的参数,使得模型能够将一张普通的图像转换为具有特定艺术风格的图像,如油画风格或素描风格,同时保持图像的内容和结构基本不变。
此外,SaRA 技术还能避免模型过拟合。例如,在训练一个模型来识别动物图片时,如果模型过度拟合训练数据,它可能会对训练数据中的一些噪声或异常情况过于敏感,导致在面对新的、未见过的图片时出现错误的判断。
而 SaRA 技术通过采用核范数低秩约束和渐进参数调整策略,可以使模型更好地泛化到新的数据,提高其准确性和可靠性。
方法实施流程方面,SaRA首要步骤是对预训练模型中的参数进行重要性分析。研究人员通过细致的分析,识别出那些在模型输出中影响不大的参数。这些参数在预训练过程中可能看似不起作用,但实际上它们并非完全无效。
由于训练过程中的随机性,这些参数的值在训练结束时接近于零。SaRA的目标是重新激活这些参数,使它们能够在新任务的学习中发挥作用。
在识别出这些潜在有效的参数后,SaRA采用了一种基于核范数的低秩稀疏训练方案,通过对参数矩阵施加低秩约束,来避免模型在微调过程中出现过拟合现象。
SaRA通过优化一个稀疏权重矩阵来学习特定任务的知识,同时保持预训练模型中已有的知识。这种策略不仅提高了模型的适应性,而且由于其低秩特性,也显著减少了模型的参数数量,从而降低了计算成本。
为了进一步提升模型的微调效果,SaRA技术引入了一种渐进式参数调整策略。这种策略的核心在于,它不仅关注于最初识别出的无效参数,而且在整个微调过程中,不断地重新评估和选择参数。
通过这种方式,SaRA能够确保所有潜在有效的参数都得到了充分利用,在处理新任务时能够更加灵活和高效。
本文素材来源SaRA论文,如有侵权请联系删除
END
本篇文章来源于微信公众号: AIGC开放社区