Kimi-Researcher深度研究模型开启内测:可生成易追溯的万字报告

1个月前 科技 11观看
摘要 6 月 21 日消息,IT之家从月之暗面 Kimi 公众号获悉,Kimi 的第一个 Agent(智能体)Kimi-Researcher 于 20 日开启小范围灰度测试。Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic R

6 月 21 日消息,IT之家从月之暗面 Kimi 公众号获悉,Kimi 的第一个 Agent(智能体)Kimi-Researcher 于 20 日开启小范围灰度测试。ujE喜好网-记录每日喜好的科技时尚娱乐生活

图片ujE喜好网-记录每日喜好的科技时尚娱乐生活

Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。其后,月之暗面也将逐步开源 Kimi-Researcher 基础预训练模型及强化学习后的模型。ujE喜好网-记录每日喜好的科技时尚娱乐生活

对于每一个问题,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果:ujE喜好网-记录每日喜好的科技时尚娱乐生活

澄清问题(clarification):理解问题时主动反问,构建更清晰的问题空间;ujE喜好网-记录每日喜好的科技时尚娱乐生活

深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;ujE喜好网-记录每日喜好的科技时尚娱乐生活

主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;ujE喜好网-记录每日喜好的科技时尚娱乐生活

调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。ujE喜好网-记录每日喜好的科技时尚娱乐生活

为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。ujE喜好网-记录每日喜好的科技时尚娱乐生活

图片ujE喜好网-记录每日喜好的科技时尚娱乐生活

用户最终将收到 2 个交付成果。ujE喜好网-记录每日喜好的科技时尚娱乐生活

一份信息详实、可溯源的深度研究报告ujE喜好网-记录每日喜好的科技时尚娱乐生活

报告的平均长度在万字以上;ujE喜好网-记录每日喜好的科技时尚娱乐生活

平均引用约 26 个高质量、可溯源的信源;ujE喜好网-记录每日喜好的科技时尚娱乐生活

所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯。ujE喜好网-记录每日喜好的科技时尚娱乐生活

图片ujE喜好网-记录每日喜好的科技时尚娱乐生活

一个可交互、可分享的动态可视化报告ujE喜好网-记录每日喜好的科技时尚娱乐生活

结构化排版、思维导图,让趋势、异常等重要信息一眼可见;ujE喜好网-记录每日喜好的科技时尚娱乐生活

无需阅读全文,也能迅速把握整体结构与核心结论;ujE喜好网-记录每日喜好的科技时尚娱乐生活

支持在线生成链接并分享,方便展示。ujE喜好网-记录每日喜好的科技时尚娱乐生活

图片ujE喜好网-记录每日喜好的科技时尚娱乐生活

官方宣布,在专为 AI 设计的高难度 benchmark“人类最后一次考试(Humanity's Last Exam,HLE)”中,Kimi-Researcher 在完全零结构、无流程设计的设置下,得分如下:ujE喜好网-记录每日喜好的科技时尚娱乐生活

Pass@1 准确率:26.9%ujE喜好网-记录每日喜好的科技时尚娱乐生活

Pass@4 准确率:40.17%ujE喜好网-记录每日喜好的科技时尚娱乐生活

这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69% 的平均通过率,领先该榜中其他模型。ujE喜好网-记录每日喜好的科技时尚娱乐生活

图片ujE喜好网-记录每日喜好的科技时尚娱乐生活

【来源:IT之家】ujE喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
努比亚 Z70 Ultra 手机更多参数曝光,后置 50Mp 35mm 大底主摄

努比亚 Z70 Ultra 手机更多参数

11 月

11-19 106阅读
‌比亚迪天津“迪空间”试营业,预计12月正式开放‌

‌比亚迪天津“迪空间”试营业,预

11-19 99阅读
徐工集团CVC基金备案成功

徐工集团CVC基金备案成功

2024

11-19 104阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 106阅读
腾讯的AI困局

腾讯的AI困局

文章来源:科技新知图片来源:由无界

11-19 113阅读
“骗”来30+喜剧人,《大话大话西游》好一场内容共创|Talk专访蒋龙

“骗”来30+喜剧人,《大话大

作者 / 张   特采访、编辑 / 朱 

11-19 104阅读
毛不易李雪琴:《毛雪汪》录了三年一百期,不白干不白干!|Talk独家探班

毛不易李雪琴:《毛雪汪》录

作者 / 朱   婷运营 / 狮子座“今

11-19 115阅读
悬疑探案剧《宋慈韶华录》今日开播,海天一李乃文等实力派助阵

悬疑探案剧《宋慈韶华录》

李乃文的新剧《三大队》还在热播

11-19 101阅读
郭晶晶霍启刚夫妇合体跑马拉松 结束后匆匆离去直言要回家带小孩

郭晶晶霍启刚夫妇合体跑马

11月17日,香港媒体报道,郭晶晶霍启刚

11-19 114阅读
《猫眼三姐妹》动画将重制!童年三女神高清归来!

《猫眼三姐妹》动画将重制

近日有报道称,北

11-19 103阅读
《GTA三部曲》开发者不满名字被删 实际只修改了开场

《GTA三部曲》开发者不满

《GTA三部曲》开发商 Grove Street Ga

11-19 107阅读
金庸群侠传3加强版古墓路线全流程详细攻略

金庸群侠传3加强版古墓路

金庸群侠传3游戏里面玩家可以自由选择

11-19 172阅读
电脑怎么玩switch游戏?使用switch模拟器免费玩switch游戏的方法分享

电脑怎么玩switch游戏?使

电脑怎么玩switch游戏?switch游戏指的是

11-19 119阅读
僵尸生活2逃离僵尸岛全流程全角色超详细攻略分享(1.62版)

僵尸生活2逃离僵尸岛全流

僵尸生活2逃离僵尸岛是《僵尸生活》游

11-19 106阅读
卧龙苍天陨落怎么提升武将好感度?提升武将好感度的方法分享

卧龙苍天陨落怎么提升武将

卧龙苍天陨落怎么提升武将好感度?在卧龙

11-19 103阅读