高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用
划重点:
🔍 最近,高分供灵大型视觉语言模型(LVLMs)在需要文本和图像理解的辨率任务中表现出色。
🚀 团队引入了Griffon v2,模型这是通过一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的文本对象引用。
🌟 Griffon v2在引用表达生成(REG)、和视活短语定位和引用表达理解(REC)等任务中表现出色。觉提
CSS站长资源(ChinaZ.com) 3月19日 消息:近来,示提大型视觉语言模型(LVLMs)在需要文本和图像理解的对象任务中表现出色。特别是引用在区域级任务,如引用表达理解(REC)中,高分供灵经过图像文本理解和推理的辨率发展之后,这一进展变得明显。模型诸如Griffon之类的通过模型在任务中表现出色,如目标检测,文本这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究,以改善用户界面。
尽管在细粒度对象感知方面取得了巨大进步,但由于图片分辨率的限制,LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力,尤其是在GUI代理和计数活动等领域。
为了克服这一限制,一组研究人员引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题,他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。
这一方法通过保留细微特征和整个上下文,特别是对于低分辨率模型可能错过的小事物,极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器,并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互,例如坐标、自由文本和灵活的目标图片。
Griffon v2在各种任务中都被证明是有效的,如引用表达生成(REG)、短语定位和引用表达理解(REC),根据实验数据显示,该模型在目标检测和对象计数方面表现优于专家模型。
该团队总结了他们的主要贡献如下:
- 高分辨率多模态感知模型:通过消除对图像进行分割的要求,该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。
- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式,引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。
为了验证模型在各种定位任务上的有效性,进行了大量实验。在短语定位、引用表达生成(REG)和引用表达理解(REC)中,都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型,证明了其在感知和理解方面的优越性。
项目入口:https://github.com/jefferyZhan/Griffon
论文地址:https://arxiv.org/abs/2403.09333
(责任编辑:热点)
- ·顶配卖近3万元!库克回应Vision Pro太贵:用了5000项专利
- ·让你们先卖三个月 小米SU7夺20万元以上中国纯电汽车第六 剑指前三
- ·Stellantis、零跑合资公司成立在即:双方CEO将共同出席
- ·水果罐头成防腐剂添加重灾区:厂家超范围和超量使用
- ·英国男子发现3000年前黄金制品:预计将拍出高价 被收藏
- ·OpenAI 打造媒体管理工具,让内容创作者可以选择退出 AI 训练
- ·大模型卷爆数字人:一句话5分钟实现定制,跳舞主持带货都能hold住
- ·河南省消费品以旧换新全面启动 购买新能源车补贴1万元
- ·!华为问界“无图NCA”首批推送开启:全国都能开
- ·涨价还砍配置!新款iPad Pro取消后置双摄 仅有广角主摄