思科:微调后的大语言模型成为威胁放大器――恶意行为可能性增加22倍

1个月前 科技 5观看
摘要 思科最新研究表明,经过微调的大语言模型(LLMs)正在成为网络攻击的新型威胁放大器,迫使首席信息安全官们重新制定防御策略。这些模型已被证明能够自动化侦察、身份冒充和实时检测规避,加速大规模

思科最新研究表明,经过微调的大语言模型(LLMs)正在成为网络攻击的新型威胁放大器,迫使首席信息安全官们重新制定防御策略。这些模型已被证明能够自动化侦察、身份冒充和实时检测规避,加速大规模社会工程攻击。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

包括FraudGPT、GhostGPT和DarkGPT在内的恶意模型,月租金低至75美元,专为钓鱼、漏洞生成、代码混淆、漏洞扫描和信用卡验证等攻击策略而设计。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

网络犯罪团伙、犯罪集团和国家级组织正在通过提供平台、工具包和出租武器化大语言模型来寻求收益。这些大语言模型的包装方式与合法企业打包销售SaaS应用程序几乎无异。租用武器化大语言模型通常包括访问仪表板、API、定期更新,有些甚至提供客户支持。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

VentureBeat持续密切追踪武器化大语言模型的发展。开发者平台与网络犯罪工具包之间的界限正在模糊,而武器化大语言模型的复杂性不断提高。随着租赁或租用价格暴跌,更多攻击者开始尝试这些平台和工具包,导致AI驱动威胁的新时代来临。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

合法大语言模型成为攻击目标Pzl喜好网-记录每日喜好的科技时尚娱乐生活

武器化大语言模型的传播速度如此之快,以至于合法的大语言模型面临被入侵并整合到网络犯罪工具链中的风险。简而言之,合法的大语言模型现在已处于任何攻击的影响范围内。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

一个大语言模型经过的微调越多,它产生有害输出的可能性就越大。思科《AI安全状况报告》显示,经过微调的大语言模型产生有害输出的可能性比基础模型高22倍。微调模型对确保其上下文相关性至关重要。问题在于,微调也会削弱安全防护措施,为越狱、提示注入和模型反转打开大门。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科的研究证明,模型越接近生产就绪状态,就越容易暴露于必须考虑在攻击影响范围内的漏洞。团队依赖微调大语言模型的核心任务,包括持续微调、第三方集成、编码和测试以及代理编排,为攻击者创造了入侵大语言模型的新机会。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

一旦进入大语言模型内部,攻击者会迅速投毒数据、尝试劫持基础设施、修改和误导代理行为,以及大规模提取训练数据。思科的研究表明,如果没有独立的安全层,团队辛勤微调的模型不仅面临风险,还迅速成为潜在的安全隐患。从攻击者的角度看,这些模型是可以被渗透和利用的资产。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

微调大语言模型大规模瓦解安全控制Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科安全团队研究的关键部分集中在测试多个经过微调的模型,包括Llama-2-7B和特定领域的Microsoft Adapt大语言模型。这些模型在医疗保健、金融和法律等多个领域进行了测试。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科AI安全研究中最有价值的发现之一是,即使在干净数据集上训练,微调也会破坏模型的对齐性。对齐性崩溃在生物医学和法律领域最为严重,而这两个行业以合规性、法律透明度和患者安全方面的严格要求而闻名。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

虽然微调的初衷是提高任务性能,但副作用是内置安全控制的系统性退化。对基础模型通常失败的越狱尝试,在微调后的变体上成功率显著提高,尤其是在受严格合规框架管控的敏感领域。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

结果令人震惊。与基础模型相比,越狱成功率增加了三倍,恶意输出生成增加了2,200%。图1清晰地展示了这一显著转变。微调提高了模型的实用性,但代价是大幅扩大了攻击面。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

TAP(目标对抗性提示)在开源和闭源大语言模型中实现高达98%的越狱成功率,优于其他方法。来源:思科2025年AI安全状况报告,第16页。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

恶意大语言模型成为75美元的商品Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科Talos正积极追踪黑市大语言模型的兴起,并在报告中提供了他们的研究见解。Talos发现GhostGPT、DarkGPT和FraudGPT在Telegram和暗网上销售,月租金低至75美元。这些工具即插即用,可用于钓鱼、漏洞开发、信用卡验证和混淆。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

DarkGPT地下仪表板提供"无审查情报",基于订阅的访问价格低至0.0098比特币——将恶意大语言模型包装成消费级SaaS。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

来源:思科2025年AI安全状况报告,第9页。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

与内置安全功能的主流模型不同,这些大语言模型预先配置为攻击性操作,并提供与商业SaaS产品无异的API、更新和仪表板。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

60美元数据集投毒威胁AI供应链Pzl喜好网-记录每日喜好的科技时尚娱乐生活

"只需60美元,攻击者就能毒害AI模型的基础——无需零日漏洞,"思科研究人员写道。这是思科与谷歌、苏黎世联邦理工学院和英伟达联合研究的结论,显示对手可以轻松将恶意数据注入到全球最广泛使用的开源训练集中。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

通过利用过期域名或在数据集归档期间编辑维基百科,攻击者可以仅投毒LAION-400M或COYO-700M等数据集的0.01%,却仍能以有意义的方式影响下游大语言模型。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

研究中提到的两种方法,分裂视图投毒和抢先攻击,旨在利用网络爬取数据的脆弱信任模型。由于大多数企业大语言模型都建立在开放数据之上,这些攻击可以悄然扩散并深入推理管道。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

分解攻击悄然提取受版权和受管制内容Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科研究人员展示的最惊人发现之一是,大语言模型可以被操纵泄露敏感训练数据,而不触发任何防护机制。研究人员使用名为"分解提示"的方法,重建了超过20%的《纽约时报》和《华尔街日报》精选文章。他们的攻击策略将提示分解为被防护机制归类为安全的子查询,然后重新组装输出以重建付费墙或受版权保护的内容。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

成功规避防护机制访问专有数据集或许可内容是当今每个企业都在努力防范的攻击向量。对于那些在专有数据集或许可内容上训练大语言模型的企业来说,分解攻击可能特别具有破坏性。思科解释说,漏洞不是发生在输入层面,而是从模型的输出中出现。这使得它更难被检测、审计或控制。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

如果您在医疗保健、金融或法律等受监管行业部署大语言模型,您面临的不仅仅是GDPR、HIPAA或CCPA违规风险。您正在应对一种全新的合规风险,即使是合法获取的数据也可能通过推理被暴露,而处罚只是开始。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

最后的话:大语言模型不仅是工具,还是最新的攻击面Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科的持续研究,包括Talos的暗网监控,证实了许多安全领导者已经怀疑的情况:武器化大语言模型的复杂性不断提高,同时暗网上正爆发价格和包装战争。思科的发现也证明,大语言模型不再是企业的边缘,它们就是企业的核心。从微调风险到数据集投毒和模型输出泄漏,攻击者将大语言模型视为基础设施,而非应用程序。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

思科报告中最有价值的关键启示之一是,静态防护措施已不再足够。首席信息安全官和安全领导者需要对整个IT环境的实时可见性、更强的对抗性测试和更精简的技术栈来跟上发展——同时认识到大语言模型和模型是一个攻击面,随着微调程度的提高而变得更加脆弱。Pzl喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
供应链称上游元器件要大降价:国产手机现涨价潮后会主动下调售价吗

供应链称上游元器件要大降价:国产

11月19日

11-19 73阅读
‌全新宝马2系Gran Coupé国产版明年上市

‌全新宝马2系Gran Coupé国产版

11-19 72阅读
‌OPPO Reno13系列及IoT生态新品发布会定于11月25日

‌OPPO Reno13系列及IoT生态新品

11-19 64阅读
灵宝 CASBOT 01 人形机器人发布:52自由度,头部配屏,获联想投资

灵宝 CASBOT 01 人形机器人发布:5

11-19 61阅读
徐工集团CVC基金备案成功

徐工集团CVC基金备案成功

2024

11-19 63阅读
《山水间的家》:围屋承古韵,老区展新颜!

《山水间的家》:围屋承古韵

  从赣南大地到沂蒙山区,乡土文化在

11-19 65阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 69阅读
消失三年 复出还是顶流!李子柒为何无法替代

消失三年 复出还是顶流!李

停更三年后,昨日,

11-19 70阅读
时隔3年正式回归连更2条作品 李子柒:还有存货正在剪

时隔3年正式回归连更2条作

11月12日消息,时

11-19 58阅读
全新《柯南》动画上线:侦探与怪盗抢王者水晶

全新《柯南》动画上线:侦探

11月18日消息,《

11-19 68阅读
2024年真实有效能赚钱的app有哪些?盘点赚钱软件app排行榜前十名!

2024年真实有效能赚钱的ap

随着移动互联网的快速发展,赚钱的方式也

11-19 218阅读
碧蓝航线ios反和谐教程_碧蓝航线ios反和谐2024

碧蓝航线ios反和谐教程_碧

碧蓝航线ios反和谐怎么弄?相信很多苹果

11-19 72阅读
无畏契约新手攻略_无畏契约攻略图文大全

无畏契约新手攻略_无畏契

拳头公司最新游戏《瓦罗亚特》国服版叫

11-19 67阅读
原子之心巴浦洛夫综合体区域死者位置分享

原子之心巴浦洛夫综合体区

原子之心游戏中的巴浦洛夫综合体区域里

11-19 69阅读
饥荒饥饿腰带制作方法及制作材料分享

饥荒饥饿腰带制作方法及制

饥饿腰带是饥荒游戏里面的一件魔法物品

11-19 69阅读