马毅教授CRATE-α模型证实白盒Transformer可扩展性-带水拖泥网

当前位置：首页 > 热点 > 马毅教授CRATE-α模型证实白盒Transformer可扩展性正文

马毅教授CRATE-α模型证实白盒Transformer可扩展性

时间：2024-07-02 04:13:58 来源：带水拖泥网作者：自媒体阅读：947次

马毅教授CRATE-α模型证实白盒Transformer可扩展性

CSS站长资源（ChinaZ.com）6月6日消息:马毅教授团队最近取得了显著的马毅模型研究成果，他们开发的教授CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理（NLP）、证实图像处理和视觉计算领域的白盒深度表征学习具有重要意义。

尽管Transformer架构及其变体在AI领域取得了巨大成功，可扩展但它们大多基于经验设计，马毅模型缺乏严格的教授数学解释。CRATE模型通过数学推导得到每一层，证实提供了更好的白盒可解释性。不过，可扩展CRATE的马毅模型应用规模之前相对有限，与Vision Transformer的教授参数量相比有较大差距。

为了解决这一问题，证实研究团队提出了CRATE-α，白盒它对稀疏编码块进行了策略性但最小化的可扩展修改，并设计了轻量级的训练方法，有效提高了CRATE的可扩展性。实验结果显示，CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上，CRATE-α-B和CRATE-α-L的准确率显著提高，同时保持了CRATE模型的可解释性。

研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调，证明了CRATE-α在不同像素块大小下的性能。此外，他们还采用了多模态数据集DataComp1B，包含14亿图文对，通过对比学习的方法训练CRATE-α，并使用优化的CLIPA协议减少计算资源消耗。

CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明，这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略，通过调整预训练阶段的图像token序列长度，在减少计算资源消耗的同时，保持了模型性能。

CRATE-α的语义可解释性也得到了提升，使用MaskCut评估模型捕获的丰富语义信息，CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展，也为未来的研究和应用开辟了新的道路。

论文:https://arxiv.org/pdf/2405.20299

项目地址:https://rayjryang.github.io/CRATE-alpha/

(责任编辑：知识)

[1]

[2]

[3]

上一篇：AI2发布开放语言模型OLMo 号称多项性能媲美Llama2
下一篇：人形机器人会变魔术了，春晚节目组了解一下（doge）