我给 SOTA DeepResearch 包了个 SKILL!

陈大老爷 · 发表于 1 小时前

我给 SOTA DeepResearch 包了个 SKILL!

陈天桥团队的 MiroThinker-H1 发布了! 我没想到更新能这么快, 为了方便用我直接给大家包了个龙虾用的 SKILL, 可以直接在龙虾里面用 MiroThinker了!

他们上次更新是仅仅是两个月之前发布的 MiroThinker-1.5. 没想到2个月过去又发了新版, 这次是 MiroThinker-H1 和 MiroThinker-1.7 (开源版本). 同样这次仍然在 Deep Research 上进行了提升, 最大的特征是支持了长视野推理 (持续记住目标, 管理阶段状态, 跨多轮也能保持方向不跑偏) 和深度多步分析 (把一个复杂问题拆成多个彼此依赖的分析步骤, 而且每一步都有明确作用).

我也看了技术报告, 整体的思路还是挺不错的, 给大家说说为什么能做的这么好:

他们论文里给到的结论是单纯把推理链拉长, 然后期望"想的多就结果好"是不行的, 把每一步 agent 行为本身训练得更可靠效果才会好, 然后上下文管理和重试机制交给框架, 用外部来控制减长链任务里的噪声积累(模型思考中的"这个怎么不行, 我重试一下", "报错信息xxx"这些就能剔除掉了, 避免模型失焦).

最后在 MiroThinker-H1 里进一步把验证过程纳入了推理，这就很像人类做研究的流程了, 不只是会搜会想，还会跑代码组合数据来验证, 在局部和全局层面检查结论.

得到的结果就是 BrowseComp 直接达到了 88.2 的SOTA分数. 这是个测试AI 浏览网页找信息能力的专项测试, 最终得分没有其它模型比这个分数更高了.

另外他们的 Deep Research 框架 MiroThinker 也有很多机制上的提升, 比如最近几次提交就增加了个"失败总结后重试"的开关(Commit 4b931f8), 用来控制失败重试时，是否生成 failure summary 并带着这份总结继续重试. (研究报告中说的上下文管理和重试机制交给框架) 这种优化意味着团队意识到 "让AI总结失败经验"不一定永远是正收益，有时候反而会污染下一轮上下文.

之前1.0 和1.5版本的体验, 大家应该对性能都有目共睹了, 现在已经不是好不好用的问题, 而是怎么用得爽的问题, 我直接给官网包了个龙虾 (OpenClaw) SKILL, 自己把登录凭据配置到龙虾里面就能用了! 只需要输入 /miromind + 你想要调研的问题就行了.

MiroThinker-1.7 模型地址: huggingface.co/miromind-ai/MiroThinker-1.7
MiroThinker DeepResearch 框架: github.com/MiroMindAI/MiroThinker
我写的 Miromind SKILL 地址: github.com/karminski/miromind-skill

##

		自动登录	找回密码
密码			立即注册

我给 SOTA DeepResearch 包了个 SKILL!

本帖子中包含更多资源

相关帖子