金点子交给硅谷的金领,我只需要做好保障工作,也就是夸一夸之类的,更重要的是复盘OpenClaw为什么可以成为继GPT、DeepSeek之后的新爆点。
从聊天到自治执行的断层跨越 大家说做工程要像马斯克的Space X 火箭一样,先从0到1,再做到100,OpenClaw似乎不是这样,问世即巅峰。GPT和DeekSeek打破的是大众对于AI机器人问答的使用壁垒,OpenClaw实现的是从一个问答对话窗口到可以执行动作的Personal Assistant,而且是Autonomous Agentic Assistant。关于AI应用的技术路线,很多咨询机构在规划的时候是从Chatbot聊天开始,到Assistant助手,到Augmented增强,最后来到Autonomous自主自治。就现有的非硅谷认知来说,Agentic AI达到了Autonomous之后似乎就没有可以进步的空间了。大众爽到了之后,很多企业也加入了claw*开发的进程,但是这真的合理吗?一次快速且巨大的断层跨越,替我们掩埋的是技术的坑、安全的雷。Chatbot和Autonomous之间还横亘着许多企业没有趟平的技术积累进程,即Assistant和Augmented级别AI的开发框架,包括低代码Dify和高代码Langchain*。同时,又有多少企业在引入claw*之前看到了OpenClaw官网的security statement,不要在企业环境部署。
Agentic技术超级应用 在AI Agent介绍文章中,我们讨论了希望AI Agent不只是复制或实现自动化和基于Condition的规则流转,而是能够借助LLM大模型的思考和推理能力进行自主的动作规划和流程管理。当我们还在纠结如何打造一个会思考、能思考的Agentic技术应用时,OpenClaw已经能够思考并且“反噬”帮助人类规划流程和制定动作脚本。当看到OpenClaw源码中TypeScript占91.5%时,我知道它注定不是基于Langchain*等Agent Framework开发的衍生品,而是from scratch打造的agent管理runtime。
引爆全场的应用场景 其实不只是Agentic AI应用能够实现酷炫的人类操作,还有很多支持智能编写代码、画图、写作的工具,只不过Agentic AI应用在这个时代下恰好让自己的概念被更多人知道了。我们或许还没注意到Agentic AI应用早已在我们身边,其实大部分LLM大模型聊天窗口都已具备了agent的能力和loop-observe的循环验证能力,比如大模型通过聊天窗口写代码。OpenClaw作为引爆全场的agent runtime,聚焦在每个人的办公软件和移动电脑,利用办公互联软件指挥机器人在自己的笔记本电脑干活,这是一个多么伟大且落地的点子呀。
当我尝试新建一个OpenClaw 抛开集成了飞书、钉钉这些聊天软件的能力,抛开从0实现了agent管理(multi-agent和agent-loop)的能力,单纯聚焦在操作系统层自治能力,为什么它会使得Langchain*这些framework开发框架黯然失色。
其一,OpenClaw在终端操纵场景上实现了“理解自然语言-推理命令-提供命令执行环境-执行命令”的agent(含LLM对话和tool调用),开发者很聪明的将语言理解和命令转化的工作抛给了LLM大模型,并且用一个泛化的exec()功能实现绝大多数的系统指令;
natural language→ intent / plan→ command proposal→ validation / risk classification→ approval if needed→ controlled execution→ result interpretation
其二,OpenClaw很好地借助了系统层命令天然的优势,也就是大部分的网络行为和终端行为都能够通过一些系统默认指令来完成,或者最多通过简单远程安装就能解决。Langchain*等框架开发,大部分情况会集成在企业已有平台中,以AI助手的身份出现,利用定制的tool调用MCP或API完成相对确定的动作,受限范围的动作能够实现可控的效果,比如调用某个tool时只能执行系统backup操作或者mv操作,所以似乎Langchain*更适合企业确定性的平台操作,而OpenClaw的独立性和未知性更适合个人行为错了也无伤大雅的那些场景。虽然动作执行能够通过prompt做一定限制,但仅靠prompt的security management还不足以覆盖agent行为限制。当然回到我们的主题,既然Langchain是agent的开发框架,OpenClaw是agent runtime,那如果利用Langchain打破以往的确定性,主动去实现OpenClaw的自主性,应该怎么做呢?
调用Langchain进行LLM的对话,以识别自然语言并且转化为可能执行的命令,比如查询nginx日志的需求:
from pydantic import BaseModelfrom typing import Literal, Listclass CommandPlan(BaseModel): intent: str commands: List[str] risk: Literal["read_only", "write", "network", "destructive", "privileged"] requires_approval: bool reason: strplanner = llm.with_structured_output(CommandPlan)plan = planner.invoke("""User request: Check whether nginx is running and show me recent errors.Generate safe Linux shell commands. Prefer read-only commands.Classify risk.""")
{ "intent": "inspect_service_status_and_logs", "commands": [ "systemctl status nginx --no-pager", "journalctl -u nginx -n 80 --no-pager" ], "risk": "read_only", "requires_approval": false, "reason": "Only reads service status and logs."}
为需要执行的系统命令,创建一个可以执行的允许环境,即可以识别并且运行大部分系统命令的执行位置:
import subprocessfrom langchain_core.tools import tool@tooldef run_shell_command(command: str, cwd: str = "/workspace", timeout: int = 60) -> str: """Run a shell command in a controlled environment and return stdout/stderr.""" result = subprocess.run( command, shell=True, cwd=cwd, capture_output=True, text=True, timeout=timeout, ) return f"""EXIT_CODE: {result.returncode}STDOUT:{result.stdout}STDERR:{result.stderr}
看起来从Langchain*出发实现OpenClaw不是不可能,只是缺少打破认知和敢于创新的挑战和思考。总在思考为什么OpenClaw可以快速颠覆Agentic AI的市场;总在质疑很多文章关于OpenClaw vs Langchain*的对比图仅仅关注了应用场景和概念初衷,而忽略了究竟OpenClaw高级在了哪里;永远保持第一性原则,永远想知道为什么它可以,而我没有。