马毅教授CRATE-α模型证实白盒Transformer可扩展性
CSS站长资源(ChinaZ.com)6月6日 消息:马毅教授团队最近取得了显著的马毅模型研究成果,他们开发的教授CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理(NLP)、证实图像处理和视觉计算领域的白盒深度表征学习具有重要意义。
尽管Transformer架构及其变体在AI领域取得了巨大成功,可扩展但它们大多基于经验设计,马毅模型缺乏严格的教授数学解释。CRATE模型通过数学推导得到每一层,证实提供了更好的白盒可解释性。不过,可扩展CRATE的马毅模型应用规模之前相对有限,与Vision Transformer的教授参数量相比有较大差距。
为了解决这一问题,证实研究团队提出了CRATE-α,白盒它对稀疏编码块进行了策略性但最小化的可扩展修改,并设计了轻量级的训练方法,有效提高了CRATE的可扩展性。实验结果显示,CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上,CRATE-α-B和CRATE-α-L的准确率显著提高,同时保持了CRATE模型的可解释性。
研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调,证明了CRATE-α在不同像素块大小下的性能。此外,他们还采用了多模态数据集DataComp1B,包含14亿图文对,通过对比学习的方法训练CRATE-α,并使用优化的CLIPA协议减少计算资源消耗。
CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明,这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略,通过调整预训练阶段的图像token序列长度,在减少计算资源消耗的同时,保持了模型性能。
CRATE-α的语义可解释性也得到了提升,使用MaskCut评估模型捕获的丰富语义信息,CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展,也为未来的研究和应用开辟了新的道路。
论文:https://arxiv.org/pdf/2405.20299
项目地址:https://rayjryang.github.io/CRATE-alpha/
(责任编辑:知识)
- ·Hugging Face聊天助手上线 两步就能创建自定义机器人
- ·英伟达开源3400亿巨兽,98%合成数据训出开源通用模型!性能对标GPT-4o
- ·俞敏洪、董宇辉退意隐现,东方甄选必须加速了
- ·乳胶枕头投诉量直线飙升 20元乳胶枕加个枕套敢卖1000元
- ·央视:龙年《春晚》采用XR VP虚实融合超高清制作 主舞台上百块LED屏
- ·英伟达开源3400亿巨兽,98%合成数据训出开源通用模型!性能对标GPT-4o
- ·哪吒CEO张勇:微博账号被收走 公关同事不让我发了
- ·Meta新模型NLLB获Nature盛赞,200种濒危语言高质量翻译,「不让任何语言掉队」
- ·今日立春 兔年的第二个立春来了!
- ·腾讯开放世界赛车手游!《飞车:集结》上架苹果App Store:7月11日公测