会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 ​Nomic AI 发布完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现!

​Nomic AI 发布完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现

时间:2024-07-02 03:23:55 来源:带水拖泥网 作者:业界 阅读:953次

​Nomic AI 发布完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现

划重点:

⭐ Nomic AI 发布了 nomicembed-text-v1,发布是完全文本首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。开源

⭐ 该模型具有8192的长的表序列长度,超越了之前512和2048长度的嵌入模型,展现了其在处理广泛文本上的模型能力。

⭐ nomicembed-text-v1的项基现开发过程强调了审计性和可复制性,为 AI 社区树立了新的准测透明和开放标准。

CSS站长资源(ChinaZ.com)2月18日 消息:在自然语言处理(NLP)领域不断发展的试中背景下,理解和处理广泛的发布文本内容至关重要。最近的完全文本一些进展显著提升了语言模型的能力,特别是开源通过文本嵌入的发展。这些嵌入成为许多应用的长的表基础,包括大型语言模型(LLMs)的嵌入检索增强生成和语义搜索。它们将句子或文档转换为低维向量,模型捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。

然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。

在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。

实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。

nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。

在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。

然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。

nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。

论文地址:https://arxiv.org/abs/2402.01613

项目入口:https://top.aibase.com/tool/contrastors

(责任编辑:深度)

相关内容
  • AI视野:Hugging Face聊天助手上线;SVD的Web平台发放测试资格;AI模拟器“决战拜年之巅”走红;美图宣布2.85亿元收购站酷
  • 五一提前出发的聪明人太多 网友:低估了堵车的程度
  • 2199元起!中邮Hi nova 12 SE手机正式开售
  • 赚够2000万、买上海豪宅,李佳琦助理“退网”
  • 三星S24 Ultra屏幕得分155分:超越iPhone 15 Pro Max
  • 比亚迪胜诉!一自媒体造谣诽谤比亚迪被判公开道歉赔偿
  • 苹果挖走大量谷歌员工:全力布局AI 打造神秘苏黎世团队
  • 大爷大妈称年轻人不允许享受高铁/火车下铺引热议:12306回应
推荐内容
  • 华为占新贡献代码88.75%:开源鸿蒙代码行数已超1亿行!
  • 2199元起!中邮Hi nova 12 SE手机正式开售
  • 小狐狸AI付费创作系统-小狐狸AI系统正版授权_功能强大的SaaS版AI对话与Midjourney绘画系统!
  • 华为5月六大新品齐发!手机、平板、电脑、手表全都有
  • 格力年会堪比春晚!曝“我妈是董明珠”节目由王自如策划:外面请人编排
  • 小米汽车:小米SU7锁单量88063台、苹果用户占比过半