会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens!

HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens

时间:2024-06-30 00:29:53 来源:带水拖泥网 作者:深度 阅读:223次

HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens

划重点:

- 🌍 Cosmopedia v0.1是开放由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,合成总共约250亿个tokens。数据

- 💻 数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的开放信息,涵盖教科书、合成博客文章、数据故事和 WikiHow 文章等各种内容类型。开放

- 📚 这一初始版本的合成 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的数据潜在应用。

CSS站长资源(ChinaZ.com)2月21日 消息:HuggingFace 推出了 Cosmopedia v0.1,开放这是合成最大的开放合成数据集,由 Mixtral7b 生成,数据包含超过3000万个样本,开放总共约250亿个标记tokens。合成

数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的数据信息来汇编全球知识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。

Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。

为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。

数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。

数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

(责任编辑:电商)

相关内容
  • 库克确认,苹果生成式AI功能将于今年晚些时候推出
  • 两部门要求规范电动自行车充电收费:价费分离、严格明码标价
  • 起猛了看见云海中在修“南天门”
  • 618收官,小红书“买手+店播”两条腿走路
  • 支持534种语言,开源大语言模型MaLA-500
  • AI下的首批失业者:60余人采编团队被裁 只剩一个与AI合作
  • 预售45万起 鸿蒙智行享界S9黑色版官图发布:豪华行政范儿十足
  • Cd0.194!小鹏M03成全球最低风阻量产纯电掀背轿车
推荐内容
  • AI视野:Hugging Face聊天助手上线;SVD的Web平台发放测试资格;AI模拟器“决战拜年之巅”走红;美图宣布2.85亿元收购站酷
  • 微信输入法1.2.0正式版Win/Mac端双更新:AI问答功能来了
  • 一加Ace 3 Pro将推出白色陶瓷典藏版:24GB 1TB满级配置
  • 胖东来爆改永辉:开业首日卖了188万 销售额暴涨
  • 他们把「国产网文」做成了开放世界
  • 马斯克称做决策从不依赖调研:用户不会主动要求一个全新产品