会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 马毅教授CRATE-α模型证实白盒Transformer可扩展性!

马毅教授CRATE-α模型证实白盒Transformer可扩展性

时间:2024-07-02 04:13:58 来源:带水拖泥网 作者:自媒体 阅读:947次

马毅教授CRATE-α模型证实白盒Transformer可扩展性

CSS站长资源(ChinaZ.com)6月6日 消息:马毅教授团队最近取得了显著的马毅模型研究成果,他们开发的教授CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理(NLP)、证实图像处理和视觉计算领域的白盒深度表征学习具有重要意义。

尽管Transformer架构及其变体在AI领域取得了巨大成功,可扩展但它们大多基于经验设计,马毅模型缺乏严格的教授数学解释。CRATE模型通过数学推导得到每一层,证实提供了更好的白盒可解释性。不过,可扩展CRATE的马毅模型应用规模之前相对有限,与Vision Transformer的教授参数量相比有较大差距。

为了解决这一问题,证实研究团队提出了CRATE-α,白盒它对稀疏编码块进行了策略性但最小化的可扩展修改,并设计了轻量级的训练方法,有效提高了CRATE的可扩展性。实验结果显示,CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上,CRATE-α-B和CRATE-α-L的准确率显著提高,同时保持了CRATE模型的可解释性。

研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调,证明了CRATE-α在不同像素块大小下的性能。此外,他们还采用了多模态数据集DataComp1B,包含14亿图文对,通过对比学习的方法训练CRATE-α,并使用优化的CLIPA协议减少计算资源消耗。

CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明,这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略,通过调整预训练阶段的图像token序列长度,在减少计算资源消耗的同时,保持了模型性能。

CRATE-α的语义可解释性也得到了提升,使用MaskCut评估模型捕获的丰富语义信息,CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展,也为未来的研究和应用开辟了新的道路。

论文:https://arxiv.org/pdf/2405.20299

项目地址:https://rayjryang.github.io/CRATE-alpha/

(责任编辑:知识)

相关内容
  • 2024大模型应用元年,科大讯飞率先打响商业化枪
  • 赶走Ilya迎来前陆军上将,OpenAI官宣董事会「安全团队」新成员
  • 中国人自己的操作系统!华为纯血鸿蒙完全独立于安卓、iOS
  • 小米3年成功!专家谈苹果努力10年放弃造车:苹果没华为胆量和创造力
  • 高速惊现老头乐不到50迈一路压车 车主回应引众怒:网友吵翻为何不重罚只教育
  • “鸡爪流”玩法火爆 《荣耀》道歉:承认匹配机制有问题
  • 贱贱加盟漫威电影宇宙!《死侍与金刚狼》中国内地定档: 7月26日同步北美上映
  • 男子吃自助顺走20多瓶饮料 网友:来进货的
推荐内容
  • 胖东来在门口给顾客身上扫雪:工作人员全程面带微笑
  • Hinton为拒马斯克offer扯谎挂电话,警告AI取代人类比想象中快30年
  • 代码都让AI写,CS还有前途吗?加州大学伯克利分校:CDSS申请人数飙升48%
  • 美国电动车推广遭遇意外阻碍:充电桩电缆频繁被盗 只为了一点铜
  • 小米竖折旗舰!小米MIX Flip搭载国产屏:创新零感折痕技术
  • 抖音的“金猪”,带不飞短剧