头条资讯网_今日热点_娱乐才是你关心的时事

今日热点 时事资讯
娱乐头条才是你关心的新闻
首页 > 头条资讯 > 科技

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

然而,CLIP的文本处理能力被广为诟病,难以充分理解长文本和复杂的知识表达。随着大语言模型的发展,新的可能性逐渐显现:LLM可以引入更丰富的开放时间知识、更强的文本理解力,极大提升CLIP的多模态表示学习能力。

在此背景下,来自同济大学和微软的研究团队提出了LLM2CLIP。这一创新方法将LLM作为CLIP的强力「私教」,以少量数据的高效微调为CLIP注入开放世界知识,让它能真正构建一个的跨模态空间。在零样本检索任务上,CLIP也达成了前所未有的性能提升。

论文标题:LLM2CLIP:POWERFULLANGUAGEMODELUNLOCKSRICHERVISUALREPRESENTATION论文链接:https://arxiv.org/pdf/2411.04997代码仓库:https://github.com/microsoft/LLM2CLIP模型下载:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c

在实际应用中,LLM2CLIP的效果得到了广泛认可,迅速吸引了社区的关注和支持。

HuggingFace一周内的下载量就破了两万,GitHub也突破了200+stars!

值得注意的是,LLM2CLIP可以让完全用英文训练的CLIP模型,在中文检索任务中超越中文CLIP。

此外,LLM2CLIP也能够在多模态大模型(如LLaVA)的训练中显著提升复杂视觉推理的表现。

代码与模型均已公开,欢迎访问https://aka.ms/llm2clip了解详情和试用。

LLM2CLIP目前已被NeurIPS2024Workshop:Self-SupervisedLearning-TheoryandPractice接收。

研究背景

CLIP的横空出世标志着视觉与语言领域的一次革命。不同于传统的视觉模型(如ImageNet预训练的ResNet和ViT)依赖简单的分类标签,CLIP基于图文对的对比学习,通过自然语言的描述获得了更丰富的视觉特征,更加符合人类对于视觉信号的定义。

这种监督信号不仅仅是一个标签,而是一个富有层次的信息集合,从而让CLIP拥有更加细腻的视觉理解能力,适应零样本分类、检测、分割等多种任务。可以说,CLIP的成功奠基于自然语言的监督,是一种新时代的「ImageNet预训练」。

虽然CLIP在视觉表示学习中取得了成功,但其在处理长文本和复杂描述上存在明显限制。而大语言模型(LLM)例如GPT-4和Llama,通过预训练掌握了丰富的开放世界知识,拥有更强的文本理解和生成能力。

将LLM的这些能力引入到CLIP中,可以大大拓宽CLIP的性能上限,增强其处理长文本、复杂知识的能力。借助LLM的知识扩展,CLIP在图文对齐任务中的学习效率也得以提升。

原始的LLM无法给CLIP带来有意义的监督

事实上,将LLM与CLIP结合看似简单粗暴,实际并非易事。直接将LLM集成到CLIP中会引发「灾难」,CLIP无法产生有效的表示。

这是由于LLM的文本理解能力隐藏在内部,它的输出特征空间并不具备很好的特征可分性。

于是,该团队设计了一个图像caption到caption的检索实验,使用COCO数据集上同一张图像的两个不同caption互相作为正样本进行文本检索。

他们发现原生的llama38B甚至无法找到十分匹配的caption,例如plane和bat的距离更近,但是离airplane的距离更远,这有点离谱了,因此它只取得了18.4%的召回率。

显然,这样的输出空间无法给CLIP的visionencoder一个有意义的监督,LLM无法帮助CLIP的进行有意义的特征学习。

图像描述对比微调是融合LLM与CLIP的秘诀

从上述观察,研究团队意识到必须对提升LLM输出空间对图像表述的可分性,才有可能取得突破。

为了让LLM能够让相似的caption接近,让不同图像的caption远离,他们设计了一个新的图像描述对比微调——Caption-Contrastive(CC)finetuning。

该团队对训练集中每张图像都标注了两个以上caption,再采用同一个图像的caption作为正样本,不同图像的caption作为负样本来进行对比学习,来提升LLM对于不同画面的描述的区分度。

实验证明,这个设计可以轻易的提升上述caption2caption检索的准确率,从上述cases也可以看出召回的例子开始变得有意义。

高效训练范式LLM2CLIP

让SOTA更加SOTA

LLM2CLIP这一高效的训练范式具体是怎么生效的呢?

首先,要先使用少量数据对LLM进行微调,增强文本特征更具区分力,进而作为CLIP视觉编码器的强力「教师」。这种设计让LLM中的文本理解力被有效提取,CLIP在各种跨模态任务中获得显著性能提升。

实验结果表明,LLM2CLIP甚至能在不增加大规模训练数据的情况下,将当前SOTA的CLIP性能提升超过16%。

英文训练,中文超越,CLIP的语言能力再拓展

一个令人惊喜的发现是,LLM2CLIP的开放世界知识不仅提升了CLIP在英文任务中的表现,还能赋予其多语言理解能力。

尽管LLM2CLIP仅在英文数据上进行了训练,但在中文图文检索任务上却超越了中文CLIP模型。这一突破让CLIP不仅在英文数据上达到领先水平,同时在跨语言任务中也展现了前所未有的优势。

提升多模态大模型的复杂视觉推理性能

LLM2CLIP的优势还不止于此。当该团队将LLM2CLIP应用于多模态大模型LLaVA的训练时,显著提升了LLaVA在复杂视觉推理任务中的表现。

LLaVA的视觉编码器通过LLM2CLIP微调后的CLIP增强了对细节和语义的理解能力,使其在视觉问答、场景描述等任务中取得了全面的性能提升。

总之,该团队希望通过LLM2CLIP技术,推动大模型的能力反哺多模态社区,同时为基础模型的预训练方法带来新的突破。

LLM2CLIP的目标是让现有的预训练基础模型更加强大,为多模态研究提供更高效的工具。

除了完整的训练代码,他们也逐步发布了经过LLM2CLIP微调的主流跨模态基础模型,期待这些模型能被应用到更多有价值的场景中,挖掘出更丰富的能力。

未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

分享到:更多 ()
来源:机器之心Pro 编辑:科技

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表