Kimi首个Agent「Kimi-Researcher」开启内测 | 云九Portfolio

2025-06-23

近日,月之暗面Kimi宣布发布首个Agent产品Kimi-Researcher(深度研究),并开始小范围灰度测试。

功能

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,专为深度研究任务而设计。能自主规划任务执行流程,通过澄清问题、深入推理、主动搜索和调用工具等步骤,最终交付高质量的研究成果。

  • 澄清问题(clarification):理解问题时主动反问,构建更清晰的问题空间;
  • 深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;
  • 主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;
  • 调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。

为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。

最终,用户将得到2个交付成果:

  1. 一份信息详实、可溯源的深度研究报告——
  • 报告的平均长度在万字以上;
  • 平均引用约 26 个高质量、可溯源的信源;
  • 所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯。

2. 一个可交互、可分享的动态可视化报告——

  • 结构化排版、思维导图,让趋势、异常等重要信息一眼可见;
  • 无需阅读全文,也能迅速把握整体结构与核心结论;
  • 支持在线生成链接并分享,方便展示。

基准测试

在“人类终极考验”(HLE)测试中,Kimi-Research在完全零结构、无流程设计的设置下取得了26.9% 的 Pass@1得分率,达到了业界顶尖水平;其 Pass@4准确率更是高达40.17%。

这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。

Humanity’s Last Exam(HLE) 是一套专为 AI 设计的高难度 benchmark,题目覆盖上百个专业领域,从数学、物理、医学到政治、历史,考察模型在复杂知识任务中的真实解决能力。

而在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69%的平均通过率,领先该榜中其他模型。

应用场景

据介绍,Kimi-Researcher的应用场景包括但不限于:

  • 算法研究,如寻找高价值的 benchmark,用于评估模型能力边界;
  • 运营研究,如分析行业内公司发展;
  • 法务,如对比多个国家某项法律条款的区别;
  • 券商,如搜集各大机构对债市的核心判断;
  • 教学,如生成分模块、可直接用于教学的教案;
  • 学习,如理解复杂知识结构,比如国际货币体系演变。

此外,Kimi-Researcher 还可以满足我们生活中的好奇心:

  • 想要入门攀岩,请帮我写个新手入门 101;
  • 分析灌篮高手主力队员技术特点和比赛数据;
  • 研究 Labubu 从诞生到爆火的全经过;
  • 给约翰列侬/乔布斯/某个朋友,甚至自己,做一个人物小传。

未来,月之暗面将逐步开源Kimi-Researcher 基础预训练模型及强化学习后的模型,以推动Agent强化学习方向的探索。