Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等-带水拖泥网

Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

时间：2024-07-02 04:02:28 来源：带水拖泥网作者：电商阅读：603次

Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

CSS站长资源（ChinaZ.com）2月2日消息:Allen人工智能研究机构在Hugging Face和GitHub上发布了首个开放语言模型OLMo，工智意在通过提供数据、推开提供代码、源模模型和评估工具的型L训练开放访问，促进人工智能领域的模型共同研究。

这一举措的数据首批模型包括7B和1B规模的变体，覆盖不同架构和训练硬件，代码为未来更大规模、工智指令调整等模型的推开提供发布奠定基础。每个模型都提供全面的源模训练数据、权重、型L训练代码和评估工具，模型并在Apache2.0许可证下发布，数据鼓励合作构建全球最佳的代码开放语言模型。

截图来自官方

为了创建强大的工智开放模型，A12在设计中吸取了多个开放和部分开放模型的经验教训，包括EleutherAI的Pythia Suite、MosaicML的MPT模型、TII的Falcon模型和Meta的Llama系列。

对OLMo7B型号进行的评估显示，在生成任务和阅读理解上，它在许多任务上领先于Llama2，但在一些流行的问答任务上略显落后。通过与不同模型进行比较，OLMo展现出自己的优势和劣势，成为Llama2等流行模型的有力替代品。

在技术方面，OLMo的架构遵循了最新文献的趋势，包括不使用偏差、SwiGLU激活函数、Rotary位置嵌入（RoPE）等。通过一系列实验和调整，AI2发布了OLMo的第一个版本，并鼓励阅读技术报告以深入了解模型架构和培训方法。

未来，A12计划在OLMo家族中推出不同模型尺寸、模态、数据集、安全措施和评估方法，以共同构建全球最佳的开放语言模型。

OLMo的推出标志着AI2在开放研究领域的重要一步，其框架和模型的开放性为学者和研究人员提供了广泛的研究问题，推动了人工智能领域的不断发展。通过提供权重的开放访问，并鼓励合作，Allen致力于共同构建全球最卓越的开放语言模型，助力人工智能技术的进步。

(责任编辑：资讯)