更小更强大!Hugging Face发布8B开源视觉语言模型Idefics2
划重点:
⭐️ Hugging Face 推出 Idefics2,更小更强这是发布一款8B 的开源视觉语言模型,拥有更好的源视言模图像处理和字符识别能力。
⭐️ Idefics2相比前代模型,觉语参数规模更小,更小更强只有80亿的发布十分之一,并改进了光学字符识别(OCR)功能。源视言模
⭐️ 这款模型具有更好的觉语图像处理能力,支持最高分辨率达到980x980像素,更小更强并且无需调整图像比例。发布
CSS站长资源(ChinaZ.com)4月16日 消息:Hugging Face 首次发布了其 Idefics 视觉语言模型,源视言模该模型于2023年首次亮相,觉语采用了最初由 DeepMind 开发的更小更强技术。如今,发布Idefics 迎来了升级,源视言模新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别(OCR)能力。目前,用户可以在 Hugging Face 平台上使用 Idefics2。
Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS,是一款通用的多模态模型,可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比,Idefics2的规模缩小了十倍,仅有80亿,与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。
除了核心功能外,Idefics2承诺提供更好的图像处理能力,支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例,这在传统的计算机视觉中是常见的操作。
通过整合从图像或文档中转录文本生成的数据,OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。
,该模型的架构经过简化,摒弃了 Idefics1的门控交叉关注。Hugging Face 在一篇博客文章中指出:“图像被送入视觉编码器,然后经过学习的 Perceiver 池化和 [多层感知器] 模态投影。然后,将该池化序列与文本嵌入串联起来,以获取图像和文本的(交错的)序列。”
Hugging Face 使用了一系列公开可用的数据集,特别是 Mistral-7B-v0.1和 siglip-so400m-patch14-384,来训练 Idefics2。此外,还利用了网络文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。
Idefics2的发布是 AI 繁荣持续推出的许多多模态模型之一,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。
产品入口:https://top.aibase.com/tool/idefics-80b
官方博客:https://huggingface.co/blog/idefics
(责任编辑:小程序)
- ·回怼欧盟app store侧载!苹果库克:背道而驰
- ·国产大模型:今天起,我们100万tokens只需1元!
- ·18.98万元!奇瑞星途星纪元ET订单突破26000台
- ·2024中国品牌价值榜发布:字节跳动、腾讯、工商银行位列前三
- ·腾讯出行推出顺风车春节返乡互助功能:一键发布拼车信息
- ·李彦宏内部演讲内容曝光:坚信技术可以改变世界 会一直走下去
- ·7000元iPhone维修费高达14000元!结果来了:罚款10万元
- ·贵州一景点门票9999元引热议 景区回应:属实 每年只允许200人入内
- ·Shopify推出冬季版 新增人工智能媒体编辑器和语义搜索
- ·曝迪丽热巴代言!moto X50 Ultra下周发布:motoAI手机