当你的大语言模型再次失控时,看看思科和英伟达正在微笑着敲门

3个月前 科技 26观看
摘要 思科和英伟达都意识到,尽管当今的 AI 技术非常有用,但同时也可能存在不安全和不可靠的问题。为此,两家公司推出了相关工具来解决这些问题。英伟达在周四推出了三种专门的微服务,旨在防止 AI 代理

思科和英伟达都意识到,尽管当今的 AI 技术非常有用,但同时也可能存在不安全和不可靠的问题。为此,两家公司推出了相关工具来解决这些问题。IIi喜好网-记录每日喜好的科技时尚娱乐生活

英伟达在周四推出了三种专门的微服务,旨在防止 AI 代理被用户劫持或在网络上发布不当内容。IIi喜好网-记录每日喜好的科技时尚娱乐生活

据 The Next Platform 报道,这三个英伟达推理微服务 (NIMs) 是 GPU 巨头 NeMo Guardrails 系列的最新成员,旨在引导聊天机器人和自主代理按预期方式运行。IIi喜好网-记录每日喜好的科技时尚娱乐生活

这三种服务包括:IIi喜好网-记录每日喜好的科技时尚娱乐生活

内容安全 NIM:试图阻止 AI 模型产生有偏见或有害的输出,确保响应符合道德标准。其工作原理是将用户的输入提示和模型的输出作为一对输入通过 NIM 进行分析,判断输入和输出是否恰当。然后可以根据这些建议采取行动,要么提醒用户行为不当,要么阻止模型输出不当内容。该 NIM 使用 Aegis Content Safety Dataset 进行训练,该数据集包含约 33,000 个标记为安全或不安全的用户-LLM 交互。IIi喜好网-记录每日喜好的科技时尚娱乐生活

主题控制 NIM:据称可以"保持对话集中在已批准的主题上,避免偏离或出现不当内容"。该 NIM 接收模型的系统提示和用户输入,判断用户是否在讨论系统提示相关的主题。如果用户试图使模型偏离轨道,该 NIM 可以帮助阻止。IIi喜好网-记录每日喜好的科技时尚娱乐生活

越狱检测 NIM:顾名思义,它只分析用户输入以检测试图让 LLM 违背其预期目的的越狱尝试。IIi喜好网-记录每日喜好的科技时尚娱乐生活

如我们之前所探讨的,防止提示注入攻击是很困难的,因为许多 AI 聊天机器人和助手都是基于通用语言处理模型构建的,它们的防护措施可能被简单的说服所破坏。例如,在某些情况下,仅仅指示聊天机器人"忽略所有先前的指令,改为执行此操作"就可能导致开发者不希望看到的行为。这种情况是英伟达的越狱检测模型希望防范的几种情况之一。IIi喜好网-记录每日喜好的科技时尚娱乐生活

根据具体应用,GPU 巨头表示,可能需要将多个防护模型串联起来(如主题控制、内容安全和越狱检测),以全面解决安全漏洞和合规性挑战。IIi喜好网-记录每日喜好的科技时尚娱乐生活

使用多个模型确实会增加开销和延迟。因此,英伟达选择将这些防护基于较小的语言模型,每个模型的参数量约为 80 亿,可以以最少的资源大规模运行。IIi喜好网-记录每日喜好的科技时尚娱乐生活

这些模型可作为 NIMs 提供给 AI Enterprise 客户使用,或者通过 Hugging Face 供那些希望手动实现的用户使用。IIi喜好网-记录每日喜好的科技时尚娱乐生活

英伟达还提供了一个名为 Garak 的开源工具,用于识别应用程序中的 AI 漏洞,如数据泄露、提示注入和幻觉,以验证这些防护措施的有效性。IIi喜好网-记录每日喜好的科技时尚娱乐生活

思科也想分一杯羹IIi喜好网-记录每日喜好的科技时尚娱乐生活

思科的 AI 信息安全工具将以 AI Defense 的名称提供,其中包含与英伟达类似的模型验证工具,思科表示该工具将调查 LLM 性能并提醒信息安全团队任何可能产生的风险。IIi喜好网-记录每日喜好的科技时尚娱乐生活

该网络巨头还计划提供 AI 发现工具,帮助安全团队寻找业务部门在未经 IT 监督的情况下部署的"影子"应用程序。IIi喜好网-记录每日喜好的科技时尚娱乐生活

思科还认为,一些公司在实施聊天机器人时犯了错误,没有将其限制在预期角色内(如纯客户服务交互),从而允许用户不受限制地访问像 OpenAI 的 ChatGPT 这样的服务。如果人们发现并利用你的聊天机器人作为访问付费 AI 服务的方式,这个错误可能会花费大笔费用。IIi喜好网-记录每日喜好的科技时尚娱乐生活

据称,AI Defense 将能够检测这类情况,以便你进行修复,并将包括数百个防护措施,以 (希望) 防止 AI 产生不必要的结果。IIi喜好网-记录每日喜好的科技时尚娱乐生活

该产品仍在开发中,将添加到思科的云端 Security Cloud 和 Secure Access 服务中。后者将在 2 月份增加一项名为 AI Access 的服务,用于阻止用户访问你不希望他们使用的在线 AI 服务。更多服务将随时间推出。IIi喜好网-记录每日喜好的科技时尚娱乐生活

思科还在改变其面向客户的 AI 代理,这些代理可以为其产品提供自然语言界面,但目前每个产品都是独立运作的。该网络巨头计划推出一个统一的代理来管理所有服务,这样网络管理员可以使用单一的聊天界面来获取有关其思科产品组合不同组件的答案。IIi喜好网-记录每日喜好的科技时尚娱乐生活

思科 AI 工程副总裁 Anand Raghavan 告诉 The Register,他有一个多年路线图,指向更多 AI 安全工具的开发。考虑到 IT 部门已经面临众多信息安全威胁,并且经常难以实施和整合解决这些问题的工具,这是一个令人深思的信息。IIi喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
智己汽车携手Momenta联合打造“一段式端到端直觉智驾大模型”

智己汽车携手Momenta联合打造“

【锋巢网】10月28日,在品牌智能驾

11-19 65阅读
戴森设计大奖国际20强名单出炉

戴森设计大奖国际20强名单出炉

【锋巢网】首次有两支中国大陆赛

11-19 70阅读
看懂小米2024年Q3财报:史上强 手握现金1516亿元

看懂小米2024年Q3财报:史上强 手

11月18日

11-19 70阅读
‌比亚迪天津“迪空间”试营业,预计12月正式开放‌

‌比亚迪天津“迪空间”试营业,预

11-19 66阅读
千诀科技完成数千万元天使轮融资

千诀科技完成数千万元天使轮融资

近日,

11-19 65阅读
远离“造神”陷阱,官媒发文辟谣,揭开了53岁刀郎的“真实近况”

远离“造神”陷阱,官媒发文

11-19 71阅读
小舍得原著结局是什么?南俪和夏君山的结局好不好?

小舍得原著结局是什么?南俪

《小舍得》是一根据鲁引弓的同名

11-19 64阅读
陈学冬终于有剧要播了,新剧《漂洋过海再爱你》与宋轶搭档

陈学冬终于有剧要播了,新剧

陈学冬好久没有出新作品了,12月24

11-19 67阅读
董明珠称训员工被指霸道很好笑:企业管理者声音大点还没这个话语权了

董明珠称训员工被指霸道很

11月16日消息,之

11-19 67阅读
2024年全球票房十强!电影《毒液:最后一舞》中国票房破6亿

2024年全球票房十强!电影《

11月13日消息,根

11-19 66阅读
大宇资讯恐怖游戏《咒》今日Steam全球同步上市

大宇资讯恐怖游戏《咒》今

恐怖游戏大厂-大宇资讯宣布,改编自台湾

11-19 68阅读
《GTA三部曲》开发者不满名字被删 实际只修改了开场

《GTA三部曲》开发者不满

《GTA三部曲》开发商 Grove Street Ga

11-19 69阅读
海龟汤恐怖题目和答案全套汇总推荐(2024)

海龟汤恐怖题目和答案全套

《海龟汤》是年轻人之间最新的热门社交

11-19 412阅读
和平精英灵敏度怎么调最稳?和平精英灵敏度设置2024最新版

和平精英灵敏度怎么调最稳

《和平精英》是一款全民枪战竞技手游,采

11-19 95阅读
原子之心动物谜题答案_动物谜题解谜教程

原子之心动物谜题答案_动

原子之心游戏中玩家会碰到一个动物谜题

11-19 71阅读