乐于分享
好东西不私藏

Openclaw 之外,另一种做 Agent 的方式丨100 个 AI 创业者

Openclaw 之外,另一种做 Agent 的方式丨100 个 AI 创业者

通过 HDMI 接口来 “看” 屏幕,通过 Type C 接口来 “操作” 鼠标和键盘。

祝颖丽

编辑赵磊

或许很多创业公司都该感谢 OpenClaw,它以一己之力,在不到 3 个月的时间里就快速完成了对用户和投资人的关于 Agent 的市场教育。

Violoop 也赶上了这个风口,这家 Agent 硬件公司去年底开始融资,元旦开始启动,一个月的时间里就走到了第三轮,目前已经在接触最头部的投资机构。

Violoop 是一个形似缩小版台式机的硬件,插在电脑上就可以通过对话远程指挥里面的 Agent 在你的电脑里干活——从结果上的确很像一个有了身体的 “龙虾”。

但这家创业公司走到今天,并不是一个赶风口的结果;他们也不打算讲跟 OpenClaw 类似的故事。

Violoop 的两位合伙人结识于 2019 年。当时还在做留学生长租公寓生意的何佳霖对于朱贤桢的印象是,“这哥们儿智商太高、技术太深了”,他一直想等一个跟朱贤桢合作的机会。

2022 年因为疫情,何佳霖在美国的业务被迫结束;彼时,朱贤桢也在不停试错、换项目的过程中,进入一个空窗期。两人一拍即合,决定合伙做些什么事情。

那是 ChatGPT 已经出现并火爆的时间点。他们一边探索做各种 AI 应用(诸如用 AI 减肥、面试、做笔记和画布等产品),一边接下一家世界五百强的 AI 项目。

有了大客户的钱,还有实际的业务场景,他们比大多数的创业者幸运。而更幸运的是,正是这段给大客户做项目的过程中,他们从自己的需求和实践中发现了个人 Agent 的创业机会。一个如今他们看来,可能是万亿级别的市场机会。

为什么 Agent 要做成硬件?

Violoop 的起点也是一个跑在电脑里的软件,正如如今的 Openclaw,只不过是通过邮件连接电脑——当时两位合伙人在给大客户提供  AI 技术服务时,经常需要人工熬夜加班到凌晨,为了能让大家少熬夜,他们开始着手研发各种终端 Agent ,希望通过远程控制来实现工作的自动化。

但产品做出来后,他们意识到,纯软件的 Agent 服务,在安全上始终存在问题;而且每一个任务都要推送到云端让大模型理解,这在长期使用上成本也会更贵;面对没有开放接口的产品和服务,纯软件 Agent 可以用的办法也更少。

硬件则在上述诸多问题上都有更好的解决方案。

比如安全上,把 Agent 放在硬件里,可以通过芯片来做最后的拦截;执行任务时,硬件先完成一部分简单的事情——比如图像识别——再把更难的事情交给云端模型,也能省很多钱;至于那些没有开放接口的软件操作,硬件 Agent 也可以模拟人的眼和手,来查看和操作你的电脑。

2025 年 6 月,他们正式从软件 Agent 转向做硬件类的 Agent。最终确立的硬件技术框架是:通过 HDMI 接口连接电脑来 “看” 屏幕画面,通过 Type-C 接口连接来 “控制” 鼠标和键盘的操作。

桌面版的 Violoop,定位为 “工作助手”——插上电脑(或者同一个 wifi 下连接),它就能实时 “看” 到并且学习你使用电脑的习惯、你的工作流程,持续学习后,它能够帮你操作电脑,甚至在观察后,主动帮你工作。通过内置软件的连接,你还能在手机上随时遥控它。

Violoop 工作原理

不同于如今市场上的一些 Agent 电脑, Violoop 并不想取代 Mac 或者是 Macmini;何佳霖说,它们最大的特点是跟主电脑配合,是让一个实体 Agent 去操作工作电脑。

尽管思路不一样,但给 Mac mini 装上 OpenClaw 仍然是大多数用户的选择,也是他们必须面临的竞争。要卖出去,首先就得比 Mac mini 便宜。

为了将产品价格控制在 Mac mini 售价一半的水平,他们没有采用市面上昂贵的直连 HDMI 芯片,而是自研了一款转接芯片,在不牺牲算力的前提下将核心成本降到了 100 元人民币左右。

其次,为了能让用户用得起,他们又找到了端云结合的方案,自己训练了本地模型,让它可以识别不同软件的图标、快捷键,以及判断电脑目前所处的工作状态;处理完毕后只将提炼出的核心文本发给云端大模型,这样可以大大降低 Token 成本。

在产品设计上,为了解决存储焦虑,他们的硬件还设计了一个可拆卸的后盖,允许用户直接插入标准的固态硬盘,最大可扩展到 4TB,甚至比很多主电脑的容量还要大。

今年以来,Openclaw 以开源的形式爆火让他们意识到,纯软件层的 Agent 更没有机会了,就像当开源的 Linux 统一了操作系统后,只有装到了 IBM 和戴尔里面的 Windows 以及本身就是卖硬件的 MacOS 才可以与之匹敌,“没有其他的 OS 是以纯软件的形式挑战 linux 的。”

连续创业者,找到了一个大机会

何佳霖和朱贤桢成长于完全不一样的环境:何佳霖初高中随父母来到非洲津巴布韦,12 岁起就在丛林环境中住校;朱贤桢则在上海长大,一路都在最好的学校里当天才学生。

但在底层追求上,两人又出奇地一致,他们几乎从第一天就觉得 “上班打工” 极其无趣,是天生的创业者。

何佳霖去美国读大学时,就成了加州最大的线下招聘会承包商;2015 年前后,他敏锐地捕捉到留学生租房需求,创办了长租公寓业务,管理规模曾达到 2.5 亿美金。

朱贤桢在 MIT 读完芯片设计硕士后,只在微软工作了一年,就发现自己无法忍受大公司每个人螺丝钉一样的位置,辞职创业,做过高效率的创业者工具、线下交友 App,甚至做过 AI 芯片和区块链业务。

但过去的折腾里,两个 90 后都没有抓住移动互联网最顶峰的机会,只能在在一些被称为 “生意” 和 “项目” 的事情里不断地切换,直到 AI 的到来,“这份遗憾,正好可以在这个最好的时代去付诸实践了”,何佳霖说。

过去的三年里,他们尝试过很多 AI 相关的项目,直到找到了现在这个方向,他们才确定这是一个属于自己的最大机会、一个万亿级别的市场。

仅从硬件看,目前全球 20 亿台电脑中,他们推测,哪怕只有二十分之一的人配备个人 Agent 硬件,他们的规模也能到达 1 亿台。

但卖硬件也并不是他们能想到的终局,他们看到的一个更有想象力的未来是结合个人化端侧模型,做成一个模型 + Agent 软件 + 硬件一体的公司。

具体推演逻辑是,他们可以先通过硬件采集个人的工作流和习惯,并在端侧建立起专属的逻辑记忆体。

当累积了足够多的数据后,他们会在端侧设备上为用户训练一个属于自己的个人化小模型,这个模型会把用户所有的记忆、习惯甚至性格都封装在本地设备里。

他们坚信,未来的操作系统一定是由这种结合了个人记忆、世界知识并且极其了解用户的 “个人专属 AI 模型” 来构成的——就如同每个人拥有专属的 Mac 电脑和 macOS 操作系统一样。

不过在远景到来之前,首要的是先把产品卖出去。

Violoop 的产品目前已经成型,接下来的一个月,他们会在 Kickstarter 开始众筹。

团队员工现在已经是自家产品第一批用户:他们的工程师用它写代码,运营用来自动筛选公众号流量、抓取调研数据,两位创始人则利用 Violoop 自动生成团队周报,把十几个人的任务进展总结提炼,省去了冗长的对齐会议。

除了桌面版的,他们目前还在研发一款带磁吸功能的卡片版 Agent,可以单独使用,成为配合手机的 Agent 助手;也可以与桌面版配合,通过这个硬件直接控制电脑。

虽然面临的是一个大机会,两位合伙人都认为自己并不追求在商业上成为最有影响力的那类人,对他们而言,更重要的是做一件前人没做过、能突破对世界理解极限的 “酷” 事。

说到这里,何佳霖撸起袖子,露出他手上的一个圆形纹身,他说自己曾经觉得在地球这个圆里可以获得无限的体验,但后来意识到体验世界也可以是另外一种方式,“就是真的是找到一个前人没有走过的路,或者在前人的肩膀上,去突破对这个世界理解的极限。” 

以下是筛选后的部分问答,与正文互为补充。

晚点:你们的 Agent 跟 Openclaw 在 Agent 的技术框架上有什么不一样吗?

何佳霖:接入外部 IM 这种其实都是通用的,本身也都是开放的接口,区别不大。

但我们主动介入用户工作生活,是有一套我们自己的基于视觉的机制,这个跟龙虾的定时还是不太一样,当然定时我们其实也有。

然后记忆的实现方式我们跟龙虾也不太一样,他更多是基于文档与向量数据库,我们是多了很多图形数据库的能力。

我们走 HDMI 线,可以实时捕捉用户的电脑屏幕的变化,然后通过本地的视觉识别与 VLM 进行理解与分析,在理解用户正在使用电脑完成不同任务的意图后,主动向用户提示我们可以为用户自动化完成与优化。

例如用户正在整理报销截图到飞书,我们的 Agent 会告诉用户,这件事儿我们看到了,要不要我们来帮用户自动化?或者看到用户正在查询某些类型的新闻或资料,我们会主动告诉用户,我可以为用户去搜集更多相关的报道与调研报告。

晚点:现在 Openclaw 大火,对你们的影响是什么?

何佳霖:其实在 Openclaw 出之前,我们就已经写过一个文章,当时定义的 Agent 的三大核心能力:一个就是主动性,一个是记忆,然后一个就是这种跨平台、跨软件的交互,跟它的执行能力几乎一模一样。所以它出来之后,我天呐服了……

晚点:是觉得你们没有先出,让他们先火了吗?

何佳霖:人家先火这倒不是太大的问题,我还蛮认可 Peter (Paypal 创始人)的一句话,就是 competition is for losers。就是我们选这个方向的时候,当时就想说挑一个没人在干的事儿……但它火了之后,未来肯定会出现更多想要去跟我们竞争的人,这个是一定的。

晚点那你们的产品跟 Openclaw 的关系是什么?

何佳霖:我们理解 Openclaw 可能就是这个时代的 linux,它是所有操作系统的底层。Windows、mac、安卓其实都是基于 linux 进行二次开发。只不过回顾那个时代,没有其他的 OS 是以纯软件的形式挑战 linux,Windows 是封装了 linux 之后,以 toB 协作的方式,把我的软系统装到 IBM 里面去,装到戴尔里面,让他们去帮 Windows 去做分发。而苹果是我做一体,硬件自己做、软件自己做,我的系统自己做。然后我去打造一个完整独立的产品去卖给市场。

所以我们认为 OpenClaw 出来之后,一定还是会有类似于像 Windows 或者像 Mac 这样的一个机会,他们一定是基于某种程度上依托于硬件,而纯软件的部分我认为无法挑战。

晚点:一开始你们应该不知道 “软件的部分无法挑战”,为什么还去做了 Agent 硬件?

何佳霖:安全性、主动参与到用户生活跟工作当中的感知力,外加上这种跨开源闭源软件端到端的处理能力,这些是我们认为如果没有硬件其实做不到的。

晚点除了安全,你们的 Agent 硬件还有什么比较核心的壁垒?

何佳霖:记忆能力。当时给大客户去做本地的这个知识库,一开始用的就是那个向量数据库,但是他们数据量太大了,完全靠向量数据库质量也没有那么高,所以我们又给配了图形数据库。

这样的记忆方式,相当于是把整个逻辑链条整理出来,检索的 Token 消耗量也会更少,因为它是很聚焦的。

晚点:现在也有一类是做 Agent 电脑的产品,想要未来可以取代现在的电脑,你们跟这类产品的区别是什么?

何佳霖:我们没有想做一个独立的 mac 是因为我们认为更高价值的工作跟更高价值的软件或者是文件,其实还都是在用户的主电脑上。

所以我们当时设计的就是怎么让他去控制用户的主电脑,这个是我们当时设计的一个核心。这也是为什么我们给他设计了这个 HDMI 的接口以及这个 Type C 的接口

晚点:为什么苹果这样拥有端侧算力优势的巨头,目前还没有推出类似的 Agent 服务?

何佳霖: 理论上最得天独厚的其实就是苹果,但是苹果有两大战略上的考量 。第一层就是安全性,如果苹果提供一个服务并做了一些用户没想到的操作,对于苹果的品牌是有很大影响的 。第二层是苹果如果这么去做,某种意义上是在跟它的开发者生态决裂 。它现在最大的无形资产是数以百万计的开发者在免费写 App,如果它做一个统一接口让 Siri 控制微信、控制 Photoshop,腾讯和 Adobe 肯定不会同意。

题图来源:Violoop 创始人、CEO 何佳霖

这是《晚点 AI》「100 个 AI 创业者」系列的第 14 篇。该系列将持续书写 AI 创业者的经历、思考和商业实践。

100 个 AI 创业者

该系列将持续呈现有特点的创业者故事和有价值的创业实践

↓ 往期文章 

ListenHub 冯雷

阅读文章

Lessie AI 于北川

阅读文章

MovieFlow 梁巍

阅读文章

LookiAI 孙洋

阅读文章

Intent 陈春宇

阅读文章

Seele 王诗沐

阅读文章

Lightwear 董红光

阅读文章

OiiOii 闹闹

阅读文章

Odyss 潘宇扬

阅读文章

Pamir 叶天奇

阅读文章

teamily.ai 何朝阳

阅读文章

wanaka 张阳

阅读文章

VAST 宋亚宸

阅读文章

- FIN -