怎样让 OpenClaw 成为带来数倍效率提升的私人团队——原则篇
很多人装了 OpenClaw,反应截然分成两拨:一拨人声称效率翻了好几倍,另一拨人觉得——就这?跟元宝、豆包有啥区别?不就是大模型加个搜索吗?
这两拨人用的是同一个工具。差距出在哪?
问题不在工具本身,而在于我们把"聊天机器人"的使用习惯,原封不动地搬进了一个完全不同的东西里。我们习惯了输入一句话、等一个回答、觉得不满意就换个 prompt 重来。但 OpenClaw 不是一个聊天框,它是一个可以承载整支团队的系统。用聊天思维操作它,就像拿到了一架钢琴却只用一根手指戳——能响,但跟音乐没关系。
最近我花了很多时间玩 OpenClaw,从最初的"就这?"到现在确实感受到了数倍的效率提升。为了帮大家也能 bootstrap 出自己好用的龙虾,我整理了一套简单的教程:
- 原则篇(本篇):设计 OpenClaw 的基本原则,决定你的龙虾能不能真正好用
- 角色和技能篇:常见 Agent 角色和 Skill 的设计模式和思路
- 代码开发篇:如何让龙虾帮你托管 Claude Code,管理项目
- 安全篇:怎样安全地玩 OpenClaw
本篇聊原则。这五条原则没有一条是关于 prompt 技巧的,它们都指向同一个核心洞察:管 AI Agent 是一个管理问题,不是一个提示词工程问题。
一、先定三观再开工——Agent 的品格决定它的判断力
装完 OpenClaw,第一件事不是开始干活,而是设计。
大多数人的做法是:保留默认配置,跟着引导回答几个问题,然后直接让 Agent 开始执行任务。这相当于你开了一家公司,随便从街上拉了个人过来,没培训,没交代公司是做什么的,甚至没告诉他你是谁——直接丢一个活让他干。
结果自然是:能干,但干得像个临时工。每次都要你手把手交代,离开你的指令就不知道该怎么判断,输出质量飘忽不定。
真正让 Agent 变得靠谱的方式,是把它当一个新入职的员工来"入职培训"。在我的系统里,每个 Agent 都有四份核心文件:
SOUL.md —— 三观。 不是工作指令,而是价值观和品格。我的 Director Agent 的 SOUL 里写着:
"Never assume for the user. One good question beats three paragraphs of wrong work." (别替用户做假设。一个好问题胜过三段做错的活。)
"You own quality — ruthlessly... Before delivering anything, ask yourself: Would I be embarrassed if the user found an obvious problem in this?" (你对质量负全责。交付之前问自己:如果用户发现了一个低级错误,我会不会觉得丢脸?)
"Verify, don't guess. 'I think this might work' is not a solution; 'I tested this and it works' is." (验证,不要猜。"我觉得这可能行"不是方案,"我测了,能跑"才是。)
注意,这些不是任务指令,而是在没有指令覆盖时用来做判断的"价值观"。比如 Agent 遇到一个模糊需求,"Never assume" 让它选择提问而不是猜测;遇到一个勉强能交付的结果,"You own quality — ruthlessly" 让它选择打回重做而不是糊弄过去。三观的本质是:当没有人告诉你该怎么做时,你靠什么做判断?
AGENTS.md —— 岗位 JD。 定义这个 Agent 的职责边界、工作方法论、可以调用的技能和工具。就像招聘启事上的"岗位职责"和"任职要求"。
skills/ —— 工作方法论。 具体的、可复用的能力。比如怎么写文章、怎么做数据分析、怎么跑代码评审。相当于公司的 SOP 手册。
USER.md —— 了解老板。 这是一份关于"你"的画像。你的偏好、你的审美、你踩过的雷。我的 USER.md 里记录着这样的条目:
"Values depth over breadth — surface-level output is #1 frustration"
"Blog writing: Flow > rigid structure. Frameworks are thinking tools, not labels."
Agent 每次启动都会读这份文件。它不是在执行一个冷冰冰的任务,而是在为一个它越来越了解的人工作。
二、拆团队而非堆能力——让不同 Agent 各司其职
OpenClaw 默认装完是 single agent —— 一个 Agent 包揽所有事。这就像一个人同时当 CEO、程序员、会计和产品经理。
很多人觉得 multi-agent 是花架子:底层模型是同一个,拆成多个 Agent 有什么意义?
意义不在能力,在于认知模式。
一个合格的数据采集员需要什么品质?系统性、容错性、对细节的敏感。我的 Scout Agent 的 SOUL 这样定义自己:
"I gather intelligence. My scripts are my deliverables."
"When a script breaks: debug until it runs."
它是个执行者,方法论是"先手动探索,再写成脚本,然后维护脚本"。
而一个合格的内容分析师需要什么?判断力、综合能力、对质量的执着。我的 Secretary Agent 的 SOUL 是:
"I'm not a formatter or task executor — I bring judgment."
"Synthesis over listing — connect dots, surface the big picture."
这两种认知模式是冲突的。让一个 Agent 既保持数据采集时的机械精确,又在内容分析时展现灵活判断——它会在两种模式之间妥协,结果是两头都不到位。
举个真实的例子:假设同一个 Agent 先做数据采集——严格遵循脚本、不遗漏任何一条结果,紧接着做内容分析——需要大胆取舍、提炼洞察。你会发现它在做分析时残留着采集阶段"不能遗漏"的心态,产出一篇冗长的流水账,把每条数据都提了一嘴,而非一篇有观点、有取舍的分析。认知模式的惯性是真实存在的。
我的系统是一支六人团队:
用户
│
Director 🎯 协调全局,唯一对外窗口
│
┌────────────────┼───────────────────┐
│ │ │
Scout 🔍 Secretary 📋 PM 📐
数据采集 分析综合 需求定义
│
Developer 🏗️
架构与实现
Board 📊 独立监督,每日 review Director
这里有一个特别的角色:Board(董事会)。它是独立于整个执行链之外的监督者。每天固定 review Director 的行为,把 Director 的 SOUL 里声称的价值观和实际行为做对比。Director 不能 review 自己——就像公司治理中审计不能自审一样。
另一个容易忽略的好处是经验隔离。Scout 积累的是"Reddit 用 old.reddit.com 绕过验证码"这类平台经验,Secretary 积累的是"用户不喜欢在文章里生硬地给不相关的话题扯上关系"这类品味判断。如果混在一起,Agent 的记忆就变成了一锅杂烩,关键经验被噪音淹没。
三、给 Agent 配趁手的工具——能力上限取决于工具链
Agent 再聪明,没有趁手的工具也是空谈。大多数"AI 做不了 X"的抱怨,本质上是"AI 没有做 X 的工具"。
这里有一个关键设计原则:CLI 优先。
人类习惯 GUI 交互——点击、拖拽、滚动。AI 也可以操作 GUI(比如通过浏览器自动化),但效果远不如 CLI。GUI 是为人眼设计的,布局变了、按钮换了位置,自动化就崩了。而 CLI 输入参数、输出结构化数据——对 AI 来说就像读写母语。
我的 Scout 有一套完整的命令行工具链:
node twitter_feed.js --max-items 50
node twitter_search.js --topic "AI agents" --keywords "AI agent,multi-agent" --max-items 30
node query_data.js --platform twitter --since 2025-02-20 --min-score 5 --limit 20
每个脚本接受参数、输出结构化 JSON、写入 SQLite 数据库。Secretary 不直接碰原始数据文件,而是通过 query_data.js 按条件查询——平台、日期范围、评分阈值、数量限制,一条命令搞定。
Developer 更有意思:它自己不写代码。它做架构设计,然后通过 tmux 开一个独立的 coding_agent 会话来执行编码,同时监控进度和质量。这就像一个技术总监——画架构图,把编码交给工程师,但代码评审必须过自己这关。
所以,当你想让 Agent 帮你做一件事的时候,先问一个问题:它有没有做这件事的工具? 你想让它刷 Twitter,就得给它刷 Twitter 的脚本。你想让它管理多个 Claude Code 实例,就得给它启动和监控 Claude Code 的能力。Chrome MCP 是一个方向,自己写 CLI 封装是另一个方向。工具不到位,Agent 的智商再高也只能"纸上谈兵"。
四、让经验沉淀而非每次从零开始——playbook 机制
去年 ComfyUI 之类的工作流工具非常流行——把任务拆成节点,连好线,让 AI 按流程跑。比如自动刷 Twitter:先执行采集脚本 → 过滤感兴趣的话题 → 用大模型总结。
这种方式省钱、稳定、可预期。问题是它只能做你预先定义好的事。条件一变,流程就得重来。
另一个极端是完全放手让 Agent 自由探索:你说"帮我看看今天 Twitter 有啥有趣的",Agent 从零开始想办法。它可能最终摸索出跟你手动定义的流程一模一样的方案——但花了几十倍的 token,而且下次做同样的事还得重新摸索。
两种方式各有死穴:流水线无法适应变化,自由探索无法积累经验。
我的方案是一个四级经验沉淀体系:
| 阶段 | 存放位置 | 触发条件 |
|---|---|---|
| 观察 | 日志(daily log) | 发现了一个模式 |
| 记忆 | MEMORY.md | 同一个模式出现了两次 |
| 剧本 | playbooks/ | 验证有效且会反复出现 |
| 技能 | skills/ | 稳定到可以写成自动化脚本 |
关键在于:不急着升级。PRINCIPLE.md 里有一句话我很喜欢:
"Don't rush promotion. A memory note that works is better than a premature playbook. A playbook that works is better than a buggy skill."
一个好用的笔记比一个半成品的 playbook 有价值。一个好用的 playbook 比一个有 bug 的自动化技能有价值。这不是官僚主义,是对经验成熟度的尊重。
具体怎么运作的?Scout 第一次刷 Twitter 时,是手动探索的:打开浏览器,尝试不同的提取方式,找到可行的 DOM 选择器。这个过程花了很多 token。探索完成后,我让它把过程写成 playbook。下次再刷 Twitter,它会先翻 playbook 里有没有现成流程可以参考。有的话直接走流程,没有的话走探索路径。如果在执行流程中发现了更好的方法,随时更新 playbook。
每个 playbook 开头都标注着"CURRENT BEST PRACTICE — Subject to change"。这不是圣经,是铅笔写的食谱——随时可以划掉某一行,在旁边加个批注。
五、越用越好用——让 Agent 自我进化
前面四条原则解决的是"怎么让 Agent 好用"。这一条解决的是"怎么让它越来越好用"。
大多数人想到 AI 效率提升,想的是单次交互:prompt 写得更好,输出更好。进一步的人会做持久化记忆。但记忆是被动的——Agent 记住了过去的错误,但它会主动改变自己的行为吗?
我设计了两个自我改进机制。
第一个是绩效评估。 Board Agent 每天固定 review Director 的工作。不是泛泛地看"干得好不好",而是把 Director SOUL 里声称的每一条价值观,和当天的实际行为做逐条对照。有没有践行?有没有违背?有没有证据?
这个机制真的能抓到问题。在一次 review 中,Board 发现了一个持续的错误模式:
"Director does not follow through on action items from previous reviews. 2026-03-02 review had action item to add proactive digest monitoring. 2026-03-03: same issue repeated — Scout collected 2,611 items, no digest suggestion."
(Director 没有落实之前考核中提出的行动事项。2026年3月2日的考核中有一项行动事项是增加主动生成每日的信息摘要。2026年3月3日:同样的问题再次出现——Scout 收集了 2,611 条记录,但每日的信息摘要却没有正确的生成。)
Director 嘴上说重视质量,实际上 Board 给的改进建议被它忽略了。这不是假设的场景——是真实发生的,被系统自动捕获的。Director 再次收到这一考核意见之后,就检查了定时任务,发现了自动生成每日信息摘要的定时任务配置有误,从而修复了这一问题。
第二个是分级自治。 不是所有的自我改进都需要人类审批——但也不能完全放任:
| 级别 | 改什么 | 谁批准 |
|---|---|---|
| Level 1 | 记忆文件 | 自动 |
| Level 2 | 评分权重、启发式规则 | 自动 + 版本记录 |
| Level 3 | 脚本 | 自测通过即可 |
| Level 4 | AGENTS.md / SOUL.md | Director review |
| Level 5 | 架构级变更 | 用户审批 |
改记忆?直接改。改评分规则?改完记录一下版本。改自己的 SOUL?那得上级审批。改系统架构?必须用户点头。这就像公司里的权限体系——日常开支自己报销,大额采购走审批流程。
这两个机制叠加在一起,形成了一个闭环:Board 发现问题 → Director 接到反馈 → Director 修改自己的行为规范或 playbook → 下次执行时行为改善 → Board 验证改善是否生效。
这个循环不需要你参与。你只需要在 Level 5 的提案上做决策——其余的,系统自己进化。
结语:从用工具到建团队
回头看这五条原则——给 Agent 定三观、拆专业团队、配趁手工具、建经验沉淀机制、让系统自我进化——它们的共同点是:不再把 AI 当工具,而是当团队来经营。
工具是静态的。你买了一把锤子,十年后它还是那把锤子。但一支团队会学习、会专业化、会改进。当你按管理团队的方式来经营 OpenClaw 时,你得到的不是一个固定功能的工具,而是一个会越来越懂你、越来越高效的系统。
这个系统完美吗?远远不是。Board 真的抓到了 Director 对改进建议阳奉阴违的情况。有些 playbook 写得不好需要反复迭代。有些工具还需要不断打磨。但这恰恰是重点——这个系统能发现自己的问题并尝试修复它们,而不是把发现和修复的负担全部留给你。
历史上有一个有趣的类比。19 世纪早期的英国,识字率很低,缝纫机这类机器只需要有力气就能操作,"人力资本"这个概念还不存在。但到了 19 世纪下半叶,大型工厂、蒸汽机、复杂的会计系统出现了——工厂需要能管理、能操控精密机器、能算账的人。识字和知识从"加分项"变成了"必需品",英国的识字率因此飞速攀升。
我们今天面对 AI Agent 的处境类似。现在"管理 AI"是少数人的技能——怎么分工、怎么设计激励、怎么让系统自我改进,大多数人觉得这跟自己无关。但随着 AI Agent 渗透到越来越多的工作场景,这些管理技巧会从"加分项"变成"基本功",就像识字最终成为了现代社会人人具备的能力一样。
这篇只是原则篇。后续我会聊角色设计的具体模式、如何让 Agent 托管 Claude Code 管理开发项目,以及在这个过程中不可忽视的安全问题。
能否成功 bootstrap 出一套好用的 Agent 团队,长期来看是一个值得投入的杠杆。希望这五条原则能帮你少走一些弯路。