找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

PC 软件为手机重做了一遍,现在轮到 Agent 了

[复制链接]

2

主题

2

回帖

20

积分

新手上路

积分
20
发表于 2 小时前 | 显示全部楼层 |阅读模式
PC 软件为手机重做了一遍,现在轮到 Agent 了


2 月 10 日,笔记软件 Obsidian 发布了 1.12 版,核心功能是一个命令行工具(CLI)。同一天,画图工具 Draw.io 和 Excalidraw 都发布了 MCP(Model Context Protocol)接口。

三个消息单独看都不大,放到一起却指向同一件事:软件正在为 AI Agent 重做自己的接口。

Obsidian 的用户群不是极客,核心受众是做笔记、搞知识管理的普通人。这样一款产品突然加了命令行工具,图什么?答案写在官方公告里:“scripting, automation, and integration with external tools”。翻译成人话:让 AI Agent 能直接操作你的笔记库。

命令行工具有一个天然优势:自带说明书。Agent 只需要运行一条 `obsidian --help`,就能拿到所有功能和用法。文件名是元信息,参数是接口文档,不需要额外配置,CLI 天生就是 Agent 能理解的语言。

Draw.io 和 Excalidraw 选了另一条路,发布 MCP 接口。MCP 是 Anthropic 推出的协议,定义了 AI 和外部工具之间的标准通信方式,到 2026 年初已成事实标准,OpenAI、Google、Microsoft 全部跟进。画图软件有了 MCP,Agent 就能直接创建图表元素、修改属性、导出成品,不需要人打开任何界面。

三款工具,同一天,两种技术路线,同一个结论:软件厂商已经把 AI Agent 当成一类新的“用户”来服务。

【1】上一次这种事发生,诞生了微信和抖音

2007 年 iPhone 发布后,每一个 PC 软件都面临同一个问题:你的产品在手机上怎么用?PC 时代的大屏幕、鼠标、键盘、多窗口,到了手机上全部失效。不是把网页缩小就行,要从头设计交互、重写界面。

这催生了整个移动互联网时代。微信不是 QQ 的手机版,抖音不是优酷的手机版,美团外卖不是大众点评的手机版。它们是为手机这个新载体从零设计的产品,因此成了各自领域的赢家。

Agent 带来的变化,结构上一模一样。手机改变的是人和软件之间的交互界面:从鼠标键盘变成触屏手指。Agent 也在改变交互界面,只不过这一次,使用软件的不再是人,而是 AI。

人需要图形界面、按钮、视觉反馈。Agent 不需要这些,它需要结构化的接口、明确的参数、可预测的输出。GUI(图形界面)对 Agent 来说是累赘,CLI 和 API 才是母语。Obsidian 加 CLI、Draw.io 加 MCP,就是在给 Agent 开一扇专属的门。

【2】2 月 5 日,两件事同时发生

软件厂商愿意为 Agent 适配,前提是 Agent 真的能用起来了。

2 月 5 日,Anthropic 和 OpenAI 在同一天分别发布了 Opus 4.6 和 GPT-5.3-Codex,各自最强的 Agent 模型。Opus 4.6 支持 100 万 token 上下文窗口,在 Terminal-Bench 2.0(评估 Agent 终端任务能力的基准测试)上拿到 65.4%。GPT-5.3-Codex 更激进,在同一基准上得分 77.3%,接近人类水平,OpenAI 对它的定位也从“代码助手”变成了“通用工作 Agent”。

这两个模型的共同特点:不只是更聪明,而是更能做事。上下文更长,复杂任务不断档;工具调用更强,和外部软件配合更顺畅。Claude Code、Codex CLI 这类 Agent 工具把这些能力带进了日常工作。Opus 4.6 的 Agent Teams 功能还能让多个 Agent 并行协作,各管一块。

开源这边动静更大。OpenClaw 1 月发布,72 小时拿了 6 万 GitHub star,现在超过 14 万。它跑在本地,通过 WhatsApp、Telegram 和你交互,能管邮件、管日历、跑脚本、操作浏览器。《科学美国人》的标题是:“这个开源 Agent 在运行你的电脑。”

Agent 到了这个能力水平,软件不为它们适配,就是把一类越来越重要的“用户”拒之门外。

【3】不开门,Agent 就翻窗

有些厂商主动开门,有些选择抵制。趋势不会因为抵制而停下。

去年底豆包手机的遭遇就是例子。字节跳动的 AI 助手用 AI 模拟人操作手机界面(GUI Agent),替用户跨 App 操作,结果微信、支付宝、淘宝纷纷限制使用。表面理由是安全,更深的原因是 Agent 绕过了广告和推荐链条,影响了平台收入。

但封杀一个豆包,封不住整个行业。苹果 Siri 在接入 Gemini,华为小米 vivo 全在推 AI 助手,IDC 预测 2026 年中国 AI 手机出货量将占过半。更关键的是,GUI Agent 本身就是一种“翻窗”操作:AI 模拟人点屏幕,效率低、易出错、触发风控。如果 App 主动提供了 API 或 MCP,Agent 就不需要“装成人”去操作界面,而是通过授权的、结构化的方式调用功能,操作透明、权限可控。

我自己就有体感。我之前不爱发微信公众号,因为编辑器太难用。现在排版、配图、上传草稿箱全部由 Agent 通过浏览器自动化完成,我只管写内容。公众号从没为 Agent 提供过接口,但 Agent 硬是“翻窗”跑通了。能用,但如果官方给一条正路,体验会好一个数量级。

这就是 Obsidian 和 Draw.io 选择主动适配的逻辑:与其让 Agent 用各种 hack 绕过你的 GUI,不如直接给它一条干净的路。

【4】CLI、MCP、Skills:给 Agent 开门的三种方式

软件为 Agent 适配,目前主要三条路。

CLI:命令行工具对 Agent 天然友好,参数明确、输出结构化、自带帮助文档。开发门槛低,兼容性最好,任何能调 shell 的 Agent 都能直接用。适合已经有命令行体系的开发者工具。Obsidian 和 Codex CLI 走的都是这条路。

MCP:优势在于标准化和权限管控。一个 MCP 接口写好,所有支持 MCP 的 Agent 都能用。你可以精确定义 Agent 能调用哪些功能、访问哪些数据。到 2026 年初,MCP server 数量已超过一万个。适合涉及数据安全和权限控制的场景。

Agent Skills:不需要改代码,由用户或社区编写一组指令文件教 Agent 怎么用你的软件。Obsidian 官方就在 GitHub 上发布了一套 Skills。门槛最低,一个 Markdown 文件就能搞定,但也最脆弱,依赖 Agent 对自然语言指令的理解准确度。

怎么选?有命令行体系的,CLI 优先;需要权限管控和跨平台兼容的,走 MCP;短期没开发资源的,先写 Skills 让社区用起来。三条路不互斥,最好同时提供。

【5】你现在可以做什么

如果你是普通用户,建议从现在开始把一些重复任务“委托”给 Agent。用 Claude Code 整理文件、生成文档、自动化日常工作。想折腾的可以试试 OpenClaw,感受一下“AI 替你干活”的状态。安全性上 OpenClaw 还有争议,敏感场景慎用,但体验 Agent 能力值得一试。养成一个习惯:遇到重复劳动先想想“这个能不能让 Agent 做”,这种直觉会慢慢拉开效率差距。

如果你是产品经理或开发者,现在就该想:你的产品对 Agent 友好吗?核心功能是不是只能通过 GUI 操作?Obsidian 的做法是在已有产品上加一条 CLI 通道,成本不高,但打开了全新的使用场景。MCP 生态在快速扩张,早一步提供接口就能在 Agent 生态中抢到先机,就像移动互联网早期,第一批做好移动适配的产品吃到了最大的红利。

如果你是公司决策者,想想豆包手机的教训。封杀 GUI Agent 只是治标,Agent 操作软件这件事不会因为一家公司的抵制停下来。主动提供接口,至少你能控制 Agent 怎么用你的产品;被动等着被“翻窗”,连操作日志都拿不到。

Obsidian 发了个 CLI,Draw.io 发了个 MCP。看起来是两条产品新闻。放到 Opus 4.6 和 GPT-5.3-Codex 同日发布、OpenClaw 一周拿十几万 star、豆包手机被围剿这些事旁边看,指向的是同一件事。

十几年前,没有移动端的软件被慢慢淘汰。今天,没有 Agent 接口的软件,同样的事情会发生,只是速度快得多。











本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-12 13:42 , Processed in 0.114798 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表