Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型-带水拖泥网

当前位置：首页 > 知识 > Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型正文

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

时间：2024-07-02 03:39:51 来源：带水拖泥网作者：深度阅读：684次

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

划重点:

⭐️ Vision Language Models （VLMs）融合了计算机视觉(CV)和自然语言处理(NLP)的简单架增独特集成。

⭐️ Mini-Gemini 利用双编码器系统和新颖的有效语补丁信息挖掘技术，优化多模态输入处理。强多

⭐️ Mini-Gemini 在多个零样本基准测试中表现出色，模态模型超越了现有模型。视觉

CSS站长资源（ChinaZ.com）4月1日消息:近期，简单架增中国香港中文大学和 SmartMore 的有效语研究人员推出了一种名为 Mini-Gemini 的新颖框架，通过增强多模态输入处理来推动 VLMs 的强多发展。Mini-Gemini 采用了双编码器系统和一种新颖的模态模型补丁信息挖掘技术，结合一个特别策划的视觉高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的简单架增视觉和文本内容，从而使其脱颖而出。有效语

Mini-Gemini 的强多方法论包括一个双编码器系统，其中包括一个卷积神经网络，模态模型用于精细处理图像，视觉增强视觉标记而不增加它们的数量。它利用补丁信息挖掘来提取详细的视觉线索。该框架在一个复合数据集上进行训练，将高质量的图像文本对和面向任务的指令相结合，以提高模型性能和应用范围。Mini-Gemini 兼容各种大型语言模型（LLMs），参数范围从2B 到34B，实现了高效的任意推断。这一设置使 Mini-Gemini 在零样本基准测试中取得了卓越的成绩，并支持高级多模态任务。

在评估 Mini-Gemini 的有效性时，该框架在几个零样本基准测试中展示了领先的表现。具体来说，在 MM-Vet 和 MMBench 基准测试中，它超越了 Gemini Pro 模型，分别获得了79.6和75.6的分数。当配置为 Hermes-2-Yi-34B 时，Mini-Gemini 在 VQAT 基准测试中取得了令人瞩目的70.1分，超过了现有的 LLaVA-1.5模型在所有评估指标上的表现。这些结果验证了 Mini-Gemini 在处理复杂的视觉和文本任务时的高效性和精度。

该研究介绍了 Mini-Gemini，通过双编码器系统、补丁信息挖掘和高质量数据集推动了 VLMs 的发展。Mini-Gemini 在多个基准测试中展现了出色的性能，超越了现有模型，标志着多模态人工智能能力的重要进步。

然而，正如研究人员所承认的那样，Mini-Gemini 在视觉理解和推理能力方面仍有改进空间，他们断言未来的工作将探索视觉理解、推理和生成的高级方法。

项目入口：https://top.aibase.com/tool/minigemini

论文地址：https://arxiv.org/abs/2403.18814

(责任编辑：知识)

[1]

[2]

[3]

上一篇：网友3天使用了564张福卡成“街溜宝子” 支付宝送全国可飞的往返机票
下一篇：Kore.ai获10亿元融资，提供定制化类ChatGPT助手