Nomic AI 发布完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
划重点:
⭐ Nomic AI 发布了 nomicembed-text-v1,发布是完全文本首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。开源
⭐ 该模型具有8192的长的表序列长度,超越了之前512和2048长度的嵌入模型,展现了其在处理广泛文本上的模型能力。
⭐ nomicembed-text-v1的项基现开发过程强调了审计性和可复制性,为 AI 社区树立了新的准测透明和开放标准。
CSS站长资源(ChinaZ.com)2月18日 消息:在自然语言处理(NLP)领域不断发展的试中背景下,理解和处理广泛的发布文本内容至关重要。最近的完全文本一些进展显著提升了语言模型的能力,特别是开源通过文本嵌入的发展。这些嵌入成为许多应用的长的表基础,包括大型语言模型(LLMs)的嵌入检索增强生成和语义搜索。它们将句子或文档转换为低维向量,模型捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。
然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。
在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。
实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。
nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。
在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。
然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。
nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。
论文地址:https://arxiv.org/abs/2402.01613
项目入口:https://top.aibase.com/tool/contrastors
(责任编辑:深度)
- ·全年打车免单!滴滴《原神》跨界联动
- ·安卓性能!vivo X100s/X100s Pro标配天玑9300
- ·天涯社区即将恢复访问:新品牌“天涯客”已开启内测
- ·AI日报:GPT 2 Chatbot神秘机器人引热议;Kimi上线智能体功能Kimi+;抖音推AI修图产品“星绘”;小红书内测自研大模型“小地瓜”
- ·花掉2.5万元的快乐!全球位苹果Vision Pro用户现身:如英雄般享受欢呼
- ·高速上自动驾驶 司机躺后排睡觉!林肯汽车回应
- ·美国八家报纸起诉 OpenAI 和微软侵犯版权
- ·Intel深入彻查13/14代i9崩溃问题:给出建议BIOS设定
- ·比尔盖茨中国小年送祝福:大家龙年幸福安康 对未来充满乐观和希望
- ·民航局彻底取消口罩令:口罩时代落幕
- ·美图宣布2.85亿元收购站酷 为自家AI视觉大模型生态带来优质协同效应
- ·叠片式电池再推迟,消息称三星 Galaxy S25 Ultra 手机仍 5000mAh 45W 组合
- ·北京大学宣布开发全校服务鸿蒙App:参与学生有机会到华为实习
- ·赚够2000万、买上海豪宅,李佳琦助理“退网”
- ·《完蛋!我被美女包围了!》DLC今日开售:反差幼儿园老师新女主上线
- ·定价33.59万元 特斯拉发布新款Model 3高性能版
- ·强大到不敢给普通人用!史诗级大模型 Sora 如何让众行业一夜变天?
- ·上天的机会来了!SpaceX太空旅行开启预约:最远可达火星
- ·iPhone销量不佳!苹果公布2024财年季度营收报告
- ·OpenAI CEO曾称 GPT-2“非常糟糕”,现在对该版本“情有独钟”