4B模型也能用：一个人4天写出来的AI Agent框架

果如 · 发表于 2026-2-26 10:50:27

【4B模型也能用：一个人4天写出来的AI Agent框架】

快速阅读：一个开发者用2019年的旧笔记本、8GB内存，花4-5天时间做出了SmallClaw——一个专门为小型本地模型优化的AI Agent框架，彻底绕开了昂贵的API费用，在普通消费级硬件上跑出了实用的效果。

---

OpenClaw这个东西，理念确实很性感。你的电脑里住着一个能搜网页、能改文件、能跑终端命令的AI助手，想想就觉得酷。

现实是，它需要Claude Opus这种量级的模型才能好好干活。本地跑？得有Mac Mini，甚至好几台。API费用？有人一个月烧掉300美元。

大多数人的处理方式是放弃。

这位叫Tight_Fly_8824的开发者没有放弃，他换了一个方向：既然高端货用不起，那就把框架本身重新设计，专门伺候那些“小模型”。用的是2019年的老笔记本，8GB内存，Qwen 3:4B——大概是目前还能干点正事的最小配置。

SmallClaw最核心的架构决策，是放弃了那种“规划者-执行者-验证者”的多角色分工流程。听起来很高级，但小模型一跑这种流程就崩。他改成了一个单循环：模型收到消息，决定是直接回答还是调用工具，工具跑完结果喂回去，继续，直到给出最终答案。没有多余的层级，复杂度压到最低。

这个思路的另一面是：系统提示词要短，文件编辑要精准（只改有变化的行，不整段重写），历史上下文要紧凑，工具调用要结构化而不是让模型自由发挥代码。每一个设计都在给小模型减负。

效果如何？单次响应最多30秒，多步工具调用最长2分钟，含网页搜索的查询约一分半。不快，但能用。

GitHub：github.com/XposeMarket/SmallClaw

有网友提出了一个有趣的标准：延迟、token消耗、准确性、实用性，能满足其中三项就算一个扎实的方案。这个框架大概就在这个区间里。

项目发布后引起广泛讨论。有网友指出Ollama本身存在不少问题，包括MIT协议合规争议、对llama.cpp原作者缺乏署名，以及性能比纯llama.cpp慢20%-70%。作者的反应很直接：他不知道这些，立刻着手加上了llama.cpp和LM Studio的支持，当天就推了更新。

另一条讨论线是关于这个项目和市面上已有的NanoClaw、PicoClaw等“小型化”分支有何区别。作者的解释是：那些所谓的“小”版本，其实只是代码量更少，跑起来仍然需要16B以上的模型。SmallClaw测试用的是4B，目标用户是那些没有条件升级硬件、也不想每个月给API充值的人。

有人用了之后说，之前需要14B模型才能完成的个人助手任务，SmallClaw用4B就做到了，还做得更好。

这个项目本身很粗糙，作者也没有回避这一点，他在帖子最后附上了自己的Venmo，理由是“帮我搞个Claude Max账号好继续开发”。坦诚得有点可爱。

真正值得想的问题是：现在大量的Agent框架都默认用户用得起最好的模型，这个假设到底覆盖了多少人？

---

简评：

行业花了三年教育用户“参数即正义”，这个项目用四天证明“架构即杠杆”。14B模型跑不动的任务，换个框架4B就能完成——这说明什么？说明之前那些精心设计的“规划者-执行者-验证者”流程，对小模型而言不是赋能，是负担。一个人、四天、八GB内存，做出的东西比很多团队的产品更实用。最讽刺的是，为“用不起Claude”的人写工具的开发者，自己也在帖子末尾要钱买Claude。开源世界的荒诞就在这里：解决贫穷问题的人，往往也是贫穷的人。

--

www.reddit.com/r/openclaw/commen ... for_smalllocal_llms

4B模型也能用：一个人4天写出来的AI Agent框架

本帖子中包含更多资源