Patronus AI 首发 Percival,助力企业大规模监控失效的 AI 代理系统

2个月前 科技 15观看
摘要 Patronus AI 今日推出了一款全新的监控平台,该平台能够自动识别 AI 代理系统中的故障,旨在应对企业在这些应用变得越来越复杂时对可靠性的担忧。这家位于旧金山的 AI 安全初创公司推出的新产品

Patronus AI 今日推出了一款全新的监控平台,该平台能够自动识别 AI 代理系统中的故障,旨在应对企业在这些应用变得越来越复杂时对可靠性的担忧。hOM喜好网-记录每日喜好的科技时尚娱乐生活

这家位于旧金山的 AI 安全初创公司推出的新产品 Percival,自称是首个能够自动识别 AI 代理系统中各种故障模式并提出相应优化方案的解决方案。hOM喜好网-记录每日喜好的科技时尚娱乐生活

“Percival 是业内首个能够自动检测代理系统中多种故障模式,并系统性地提出修复和优化建议的解决方案,” Patronus AI 的首席执行官兼联合创始人 Anand Kannappan 在接受 VentureBeat 独家采访时表示。hOM喜好网-记录每日喜好的科技时尚娱乐生活

AI 代理可靠性危机:为何企业正在失去对自主系统的控制hOM喜好网-记录每日喜好的科技时尚娱乐生活

企业对 AI 代理(能够独立规划和执行复杂多步骤任务的软件)的采用在最近几个月内急速增加,这为企业在确保这些系统大规模可靠运作时带来了新的管理挑战。hOM喜好网-记录每日喜好的科技时尚娱乐生活

不同于传统的机器学习模型,这些基于代理的系统往往涉及冗长的操作序列,早期环节中的错误可能会对后续流程产生重大影响。hOM喜好网-记录每日喜好的科技时尚娱乐生活

“就在几周前,我们发布了一个模型,用来量化代理发生故障的可能性以及可能对品牌、客户流失等造成的影响,” Kannappan 表示。“我们观察到代理不断累积的错误概率问题。”hOM喜好网-记录每日喜好的科技时尚娱乐生活

这一问题在多代理环境中尤为严重,不同 AI 系统之间的相互交互使得传统的测试方法越来越难以应对。hOM喜好网-记录每日喜好的科技时尚娱乐生活

情景记忆创新:Percival 的 AI 代理架构如何革新错误检测hOM喜好网-记录每日喜好的科技时尚娱乐生活

Percival 通过其基于代理的架构以及公司所称的“情景记忆”能力——即从以往错误中学习并适应特定工作流程——与其他评估工具区分开来。hOM喜好网-记录每日喜好的科技时尚娱乐生活

该软件能够在四大类别中检测超过 20 种不同的故障模式,分别为推理错误、系统执行错误、规划与协调错误以及特定领域错误。hOM喜好网-记录每日喜好的科技时尚娱乐生活

“不同于将 LLM 作为评判者,Percival 本身就是一个代理,因此它可以跟踪整个过程中发生的所有事件,” Patronus AI 的研究员 Darshan Deshpande 解释道。“它能够对这些事件进行关联,并在不同情境下发现这些错误。”hOM喜好网-记录每日喜好的科技时尚娱乐生活

对于企业来说,最直接的好处在于大大减少调试时间。根据 Patronus 的数据,早期客户已经将分析代理工作流程所需的时间从大约一小时缩短到 1 至 1.5 分钟之间。hOM喜好网-记录每日喜好的科技时尚娱乐生活

TRAIL 基准测试揭示了 AI 监督能力的关键缺口hOM喜好网-记录每日喜好的科技时尚娱乐生活

在产品发布的同时,Patronus 还发布了一项名为 TRAIL(Trace Reasoning and Agentic Issue Localization)的基准测试,用于评估系统在检测 AI 代理工作流程问题方面的表现如何。hOM喜好网-记录每日喜好的科技时尚娱乐生活

使用该基准测试的研究表明,即便是最先进的 AI 模型在进行有效的轨迹分析时也存在困难,表现最好的系统在该基准测试中的得分仅为 11%。hOM喜好网-记录每日喜好的科技时尚娱乐生活

研究结果突显了监控复杂 AI 系统的挑战性,并解释了为何大型企业正在为 AI 监督投资专门的工具。hOM喜好网-记录每日喜好的科技时尚娱乐生活

企业 AI 领导者采用 Percival 应对关键任务代理应用hOM喜好网-记录每日喜好的科技时尚娱乐生活

早期采用者之一包括 Emergence AI,该公司已筹集约 1 亿美元资金,并正在开发让 AI 代理能够创建和管理其他代理的系统。hOM喜好网-记录每日喜好的科技时尚娱乐生活

“Emergence 最近的重大突破——代理创造代理,不仅标志着自适应、自我生成系统演进的一个关键时刻,也预示着此类系统在如何被合理监管和扩展上将迎来新的局面,” Emergence AI 的联合创始人兼首席执行官 Satya Nitta 在发给 VentureBeat 的声明中表示。hOM喜好网-记录每日喜好的科技时尚娱乐生活

另一位早期客户 Nova 正采用该技术开发一套平台,帮助大型企业通过 AI 驱动的 SAP 集成迁移遗留代码。hOM喜好网-记录每日喜好的科技时尚娱乐生活

这些客户正是 Percival 所旨在解决的难题的典型案例。Kannappan 表示,目前一些公司已经开始管理“单个代理目录中包含超过 100 个步骤”的代理系统,其复杂性大大超出了人类操作员能够高效监控的范围。hOM喜好网-记录每日喜好的科技时尚娱乐生活

随着自主系统的日益普及,企业对 AI 监督的市场正迎来爆炸式增长hOM喜好网-记录每日喜好的科技时尚娱乐生活

此次发布正值企业对 AI 可靠性和治理的担忧日益加剧之际。随着企业部署越来越多的自主系统,对监督工具的需求也在成比例增加。hOM喜好网-记录每日喜好的科技时尚娱乐生活

“挑战在于系统正变得越来越自主,” Kannappan 指出,并补充道“每天有数十亿行代码在由 AI 自动生成”,这样的环境让人工监管几乎不可能实现。hOM喜好网-记录每日喜好的科技时尚娱乐生活

随着企业从实验性部署向关键任务 AI 应用转型,针对 AI 监控和可靠性工具的市场预计将大幅扩张。hOM喜好网-记录每日喜好的科技时尚娱乐生活

Percival 可与多个 AI 框架集成,包括 Hugging Face Smolagents、Pydantic AI、OpenAI Agent SDK 和 Langchain,使其能够兼容多种开发环境。hOM喜好网-记录每日喜好的科技时尚娱乐生活

尽管 Patronus AI 并未披露定价或收入预测,该公司对企业级监督工具的专注表明,其正定位于高利润企业 AI 安全市场,而分析师预测该市场将随着 AI 采用加速而大幅增长。hOM喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
纯电210km 奇瑞风云T9超长续航版上市:限时国补14.89万元

纯电210km 奇瑞风云T9超长续航版

11月19日

11-19 124阅读
北上广深一线城市爱买啥车 北京喜欢比亚迪、上海广州更爱特斯拉

北上广深一线城市爱买啥车 北京

11月19日

11-19 102阅读
轻薄手机用上潜望!曝vivo S20系列首次搭载潜望长焦镜头

轻薄手机用上潜望!曝vivo S20系列

11月1

11-19 119阅读
TGA 2024 提名名单将于 11 月 19 日北京时间公布

TGA 2024 提名名单将于 11 月 19

11-19 133阅读
OpenAI“杀死”在线教育巨头

OpenAI“杀死”在线教育巨头

文章来源:智东西图片来源:由无界AI

11-19 138阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 98阅读
「抖音城市生活节」长沙站完美收官!湘江河畔,邂逅长沙“秋·chill范儿”!

「抖音城市生活节」长沙站

摘要:「湘」聚江畔,在「湘当秋·

11-19 106阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 106阅读
浪胃仙IP创始人“游絮”犯职务侵占罪被判8年:罚100万 归还账号

浪胃仙IP创始人“游絮”犯

11月13日消息,据

11-19 101阅读
泰森宣布自己赢了

泰森宣布自己赢了

泰森在赛后感言

11-19 100阅读
文明6秘籍大全_文明6秘籍代码及使用方法一览

文明6秘籍大全_文明6秘籍

文明6游戏支持秘籍功能,玩家可以通过在

11-19 131阅读
帝国时代2秘籍大全_帝国时代2征服者/高清版秘籍(含隐藏秘籍)

帝国时代2秘籍大全_帝国时

帝国时代2秘籍是很多玩帝国时代2游戏玩

11-19 229阅读
无畏契约新手攻略_无畏契约攻略图文大全

无畏契约新手攻略_无畏契

拳头公司最新游戏《瓦罗亚特》国服版叫

11-19 123阅读
原子之心3826设施所有死者所在位置一览

原子之心3826设施所有死者

在原子之心游戏设定中,死者在生命体征消

11-19 123阅读
原子之心能量不回复怎么办?原子之心恢复能量的方法分享

原子之心能量不回复怎么办

原子之心能量不回复怎么办?原子之心游戏

11-19 131阅读