谷歌“窃取”GPT-3.5模型关键信息:成本低至150元,调用API即可得手
划重点:
🔍 谷歌成功攻击OpenAI GPT-3.5-turbo模型,窃取成本低至150元
🛡️ 攻击方法简单,谷歌通过API不到2000次查询即可获取整个投影矩阵和隐藏维度
📢 OpenAI已知情并采取措施修改模型API
CSS站长资源(ChinaZ.com)3月12日 消息:谷歌最新研究揭示了一种攻击大型语言模型的型关息成方法,成功窃取了OpenAI GPT-3.5-turbo模型的键信I即关键信息。根据谷歌的本低声明,他们不仅还原了OpenAI大模型的至元整个投影矩阵,还获得了确切的调用隐藏维度大小,而这一切只需不到2000次巧妙的窃取API查询,成本低至150元。谷歌
攻击的型关息成核心目标是模型的嵌入投影层,即模型的键信I即最后一层,负责将隐藏维度映射到logits向量。本低通过向模型的至元API发出针对性查询,可以提取出模型的调用嵌入维度或者最终权重矩阵。谷歌通过大量查询和奇异值排序成功识别出模型的窃取隐藏维度。
该攻击方法不仅可以揭示模型的隐藏维度,还能获取模型的“宽度”(总体参数量)等全局性信息,降低模型的“黑盒程度”,为后续攻击“铺路”。研究团队表示,这种攻击非常高效,攻击OpenAI的Ada和Babbage模型以及GPT-3.5分别只需不到20美元和大约200美元。
OpenAI已经得知这一情况,并在研究团队征得同意后确认了攻击的有效性,最终删除了所有与攻击相关的数据。虽然这种攻击方式获取的信息并不多,但其低成本和高效性令人震惊。
论文中提到的防御措施包括从API下手,彻底删除logit bias参数,或者直接从模型架构下手,在训练完成后修改最后一层的隐藏维度等。在此事件曝光后,OpenAI已经采取了修改模型API的措施,防止类似攻击再次发生。
这项研究揭示了即使是大型语言模型也可能面临安全威胁,即便OpenAI已经采取了一定的防御措施。这一事件提醒了人们,保障模型的安全性仍然是一个复杂而重要的问题。
论文链接:https://arxiv.org/abs/2403.06634
(责任编辑:热点)
- ·苹果Vision Pro不支持位置追踪:将近3万元的新品丢了就很难找回来
- ·更小更强大!Hugging Face发布8B开源视觉语言模型Idefics2
- ·Create2024百度AI开发者大会 李彦宏:未来应用开发像拍短视频一样简单
- ·midjourney prompt:如何用AI工具制作古诗文短视频?4个高质量midjourney古诗AI绘画提示词分享
- ·营收占比 7%,库克谈欧洲App Store新规:竭尽所能保护用户隐私
- ·武汉凌晨现红色大雾 气象台:可能为红色光源照射产生
- ·库克越南行“复刻”中国剧本:偶遇明星 一起吃早餐
- ·百度发布新一代智能计算操作系统!定名万源
- ·亚马逊开发名为Rufus的AI购物助手,帮用户购物
- ·抖音AI聊天豆包体验地址 字节豆包聊天机器人app下载
- ·中国邮政宣布春节不打烊 部分区域加收调节费
- ·Rewind推创新可穿戴AI设备Limitless 实现全天候对话记录与个性化AI互动
- ·外挂变焦环!刘作虎秀出OPPO Find X7 Ultra概念版
- ·4000万粉丝的网红猫一杯被封杀,真的只是因为编了个段子?
- ·奔驰加塞事件正面7分钟监控曝光:奔驰男砸车前被白色奇瑞车顶了一下 网友吵翻
- ·九种体质,你属于哪一种?谷医堂为你解
- ·非创始版SU7何时交付 小米:工厂生产爬坡 全力提高产能
- ·新一代夜视仪来了!华为Pura 70 Ultra首搭RYYB一英寸超大底主摄
- ·工人从长江大桥桥顶释放铁环除冰 确保桥面通行安全顺畅
- ·MCN利用网友爱心打造卖惨主播带货 警方:严厉打击