产品展示
陵水隔热条设备厂家家 上海大学联南开大学揭示多模态模子中个被冷落的遑急偏置问题|算法|实验
发布日期:2026-02-19 12:45:54 点击次数:194
塑料挤出机

频年来,Vision-Language Models(视觉 — 讲话模子)在多模态理罢职务中取得了显赫进展,并迟缓成为通用东说念主工智能的遑急本阐明线。然则,这类模子在骨子诈欺中往往濒临理支拨大、率受限的问题,商议者往往依赖 visual token pruning 等战略裁减盘算推算本钱,其中 attention 机制被平凡视为操办视觉信息遑急的要害依据。

近日,上海大学曾丹团队联南开大学商议东说念主员,从 attention 可靠的角度起程,系统揭示了 Vision-Language Models 中宽绰存在的 attention 偏置问题,并提议了种需再行检会的 attention 去偏法,在多个主流模子、剪枝战略及图像与基准上考据了其有,为多模态模子的、可靠部署提供了新的想路。

电话:0316--3233399

论文标题:Attention Debiasing for Token Pruning in Vision Language Models论文纠合:https://arxiv.org/abs/2508.17807代码纠合:https://github.com/intcomp/attention-bias

、商议意旨陵水隔热条设备厂家家

频年来,视觉 — 讲话模子(Vision-Language Models,VLMs)在图像交融、视觉问答、多模态对话等任务中阐扬隆起,并迟缓成为通用东说念主工智能的遑急本领基础。然则,这类模子在骨子部署时往往濒临个推行挑战:模子理本钱,速率慢。

为提高率,商议者往往会采选visual token pruning(视觉 token 剪枝)本领,即在不显赫影响能的前提下,丢弃不遑急的视觉信息。其中,attention 机制 被平凡用作判断 “哪些视觉 token 遑急” 的中枢依据。

但上海大学曾丹团队在商议中发现:attention 并不老是可靠的 “遑急主张”。在多模态模子中,attention 往往受到多种结构偏置的影响,这些偏置与信得过语义关,却会径直傍边剪枝遵守,从而影响模子能。

针对这问题,该团队系统分析了 VLM 中 attention 的活动特,提议了种Attention Debiasing(属眼光去偏)法,在需再行检会模子的前提下,有提高了多种主流剪枝法的稳固与可靠。如下图所示,提议的法诈欺于当今基于 attention 的剪枝法上之后陵水隔热条设备厂家家,王人有提高。

二、商议配景

在直观上,attention 机制往往被交融为 “模子温雅那边”,因此被当然地视为语义遑急的体现。然则,曾丹团队的商议标明,在 Vision-Language Models 中,attention 往往并非只由内容决定,而是隐含着多种系统偏置。

其中典型的有两类:

类是位置偏置(recency bias)。商议发现,language-to-vision attention 会跟着视觉 token 在序列中的位置遏抑增大,也便是说,模子倾向于温雅 “后头的 token”。如图所示陵水隔热条设备厂家家,这往往阐扬为模子对图像下区域予以 attention,即便这些区域并不包含要害信息。

二类是padding 激勉的 attention sink 表象。在骨子输入中,为了统尺寸,图像往往需要 padding,异型材设备但这些区域在语义上是 “空缺” 的。然则,由于 hidden state 中出现相称激活,padding 对应的 token 反而可能获取较 attention,从而被诞妄地保留住来。下图是 pad 区域填充不同的数值时,pad 区域对应的 attention score 数值以及 hidden states 的激活值。

值得属主张是,当 attention 被用于剪枝排序时,这些偏置并不会被放松,反而会被跳动放大,终致剪枝遵守偏离信得过语义需求。

三、商议法陵水隔热条设备厂家家

针对上述问题,上海大学曾丹团队并莫得提议新的剪枝算法,也莫得对模子结构进行修改,而是从个基础的角度起程:既然 attention 自身是有偏的,是否不错先对 attention 进行修正?

该团队不雅察到,attention 中的偏置并非随即噪声,而是呈现出稳固的合座趋势。因此,他们通过对 attention 随 token 位置变化的趋势进行拟,构建了条反馈 “位置偏置” 的弧线,并在此基础上对原始 attention 进行去偏修正,显式放松与内容关的位跻身分,使 attention 接近信得过的语义遑急。如下图所示。

与此同期,在剪枝阶段显式阻难 padding token 的影响,避语义为空的区域阻挠剪枝排序。统统这个词经由需再行检会模子,也不依赖特定的剪枝战略,可算作plug-and-play 模块径直集成到现存法中。

四、实验遵守

在实验考据中,该团队将 Attention Debiasing 法集成到 FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA 等 6 种主流 attention-based 剪枝法中,在 10 个图像交融基准与 3 个交融基准 上进行了系统评估,并隐秘 LLaVA-7B / 13B 等多种主流 Vision-Language Models。

实验遵守标明,在的确统统开辟下,经过 attention 去偏修正后,剪枝模子王人能获取致且稳固的能提高,且在剪枝激进、token 预算病笃的情况下果尤为倡导。这阐发,对 attention 进行去偏贬责,有助于模子在 “少信息” 的条款下作念出可靠的判断。

此外,通过对实验遵守的可视化分析,原始 attention-based 剪枝法往往保留了宽绰位于图像下或 padding 区域的视觉 token,而与问题语义密切关连的要害区域却容易被忽略。引入 attention 去偏修正后,模子保留的视觉区域加聚合于标的物体及要害细节位置,有减少了关配景的阻挠。该效爽朗不雅考据了 attention 去偏在提高剪枝理和可施展面的作用。

五、追忆

该商议标明,attention 并非等价于语义遑急,尤其在 Vision-Language Models 中陵水隔热条设备厂家家,淌若冷落 attention 中潜在的结构偏置,基于 attention 的剪枝战略可能会被误。上海大学曾丹团队通过简便而有的 attention 去偏法,显赫提高了多模态模子在率与可靠之间的均衡能力。

相关词条:玻璃棉毡     塑料挤出机     预应力钢绞线    铁皮保温    万能胶生产厂家
友情链接: