乐于分享
好东西不私藏

从“代码助理”到“全能合伙人”!深扒AI编程三大巨变:未来做一人公司,你只需要当“监工”

从“代码助理”到“全能合伙人”!深扒AI编程三大巨变:未来做一人公司,你只需要当“监工”

4月24日,AI编程领域动态资讯

01 OpenAI Codex 推出了一项名为 Chronicle 的全新功能:这就意味着 AI 终于能够去“看懂”你电脑屏幕上的内容了

在 4月21日 的时候,OpenAI 专门针对 Mac 版本的 Codex 推送了一项被命名为 Chronicle 的全新功能。从某种程度上来讲,这极有可能会是整个 AI 编程辅助工具迈向“能够真正去理解人类实际工作环境”的一个极其关键的跨越步骤

其运转的核心机制在于: Chronicle 主要是借助在系统后台持续运行的智能体程序,来定期地去抓取使用者当前屏幕上的画面内容,并且借此来生成一种所谓的“视觉层面的记忆”。这也就意味着,Codex 从现在开始已经不再是仅仅只能去依赖手动敲进去的那些文字描述信息了,它完全能够借助“观察你的屏幕”这种方式,来直接搞懂眼下到底正在处理些什么样的工作。不管是代码编辑器里面突然弹出来的那些报错提示信息,还是在浏览器上面打开着的参考文档页面,甚至是终端控制台里面刚刚输出的那些运行结果,其实都已经完全被纳入到了它的感知范围当中

能够带来的实际应用价值: 在这之前,大家在使用那些 AI 编程助手的时候普遍都会遇到一个非常头疼的痛点,那就是每次去向它提问的时候,都不得不去反反复复地描述当前的上下文背景。像“我刚才正在修改的那个特定函数……”或者是“前面弹出来的那个报错……”之类的话语,往往需要给它说上好几遍才行。而 Chronicle 的出现其实就是试图去解决掉这个麻烦的问题:它会自动去记住你刚才究竟打开过哪些代码文件、具体使用过哪些辅助工具、以及重点处理过什么类型的开发任务。这样一来,当你直接对它下达“请继续优化这个”的指令时,它心里面是很清楚所说的“这个”到底是指代什么的

关于数据隐私保护方面: OpenAI 官方已经给出了一份非常明确的表态,声明所有抓取到的屏幕截图数据仅仅只会临时性地被存储在用户自己的本地设备里面。在这个过程当中,用户是可以随时去进行检查、修改或者是彻底删除掉这些记忆数据的,当然也可以随时随地选择把这项功能给完全禁用掉。不过这里必须要去注意的一个细节是,由于这项功能在运作的时候是需要主动去赋予 macOS 系统的屏幕录制权限以及相关的辅助功能权限的——而这种授权行为本身,其实就已经意味着向应用程序开放了一个相对来说比较高的系统访问级别了

行业深度的分析洞察: 这确实算得上是一个非常有意思的发展方向,但同时它也毫无疑问是一把容易伤人的双刃剑。从积极的一面来看,一旦 AI 具备了主动去理解上下文情境的能力,那确实是能够极大程度上减少掉那些大量且重复的沟通交流成本的,这会让它变得更加像是一个“一直安安静静待在旁边看着你干活”的贴心小助手。但是从另外一个角度去审视的话,如果要求把个人电脑屏幕上的内容持续不断地开放给某一个具体的应用程序,这对于数量众多的开发者群体来说,在心里面恐怕还是会存在着一道不小的抗拒门槛的。目前 Chronicle 这个功能仅仅只是面向那些购买了 Pro 订阅服务的用户去开放了一个用于研究目的的预览版本,至于它在未来到底能不能够实现真正意义上的大范围普及,归根结底还是要看它能不能在用户的心理接受程度以及隐私保护方案的制定上,去找到一个比较完美的平衡点


02 谷歌正式发布了 Gemini Enterprise Agent Platform:标志着 AI 代理技术开始正式跨入企业级应用赛道

就在 4月22日 的时候,谷歌方面正式对外宣布推出了名为 Gemini Enterprise Agent Platform 的新产品。从本质上来讲,这其实是一整套专门面向广大企业用户群体去打造的,用来开展 AI 代理程序的构建以及后续管理工作的综合性平台。其所具备的核心功能点主要包含了以下几个方面:

  • Memory Bank 记忆库与 Memory Profile 记忆画像功能: 这项功能主要是为了让那些 AI 代理程序能够把此前与用户之间发生过的历史互动过程给牢牢记住,从而使其真正具备了一种所谓的“长期记忆”的能力

  • Agent Simulation 代理模拟功能: 这其实就是一个用来给代理程序进行模拟运行的测试环境。在正式把程序发布上线之前,可以通过它来对代理程序的各项行为举止去开展一次更为全面且深度的验证工作

  • Projects 协作平台模块: 借助于这个模块,企业内部的员工们就可以非常顺畅地去与自己的同事,甚至是可以和系统里的 AI 代理程序来共同开展协同工作了。同时它还能够把来自于 Workspace、OneDrive 以及日常聊天记录等各种不同来源渠道的信息数据给完整地整合到一起

  • 代理专用的收件箱设计: 有了这个设计之后,那些存在于系统当中的虚拟机器人就可以去拥有一个完全独立的,用来发布各类信息以及进行进度报告的专属渠道了

行业深度的分析洞察: 这条新闻所释放出来的信号可以说是极其明确的——那就是现阶段的 AI 编程助手,目前正在经历着一场从单纯的“个人提效工具”向着更为宏大的“团队底层基础设施”去进行演进的深刻变革。要知道在去年的时候,大家伙儿的关注焦点普遍还停留在“到底哪一家的底层模型写出来的代码逻辑能够更加精准一些”这件事情上。可是到了今年,整个行业的竞争战场显然就已经发生了转移,大家开始去拼“AI 代理究竟该如何去深度融入到企业实际的业务工作流当中”了。谷歌这一次所顺势推出的这几个功能亮点其实都是非常务实的:用记忆能力去解决上下文容易断裂的毛病,用模拟测试去克服运行可靠性不足的短板,同时还用协作平台去处理好了团队内部的业务适配难题。这种做法反而恰恰说明了一个极其重要的事实:所谓企业级别的 AI 编程辅助工具,其核心本质并不在于让某一个特定的程序员个人的写代码效率去实现翻倍式的增长,而是在于要让整个企业团队在进行 AI 协同工作的时候,让整个过程处于一种可控的、可观测的并且是可管理的状态之下

另外还有一个比较值得去细细玩味的现象是:在 OpenAI 刚刚才对外推出依靠 Chronicle 来实现“屏幕层面的记忆”之后没多久,谷歌紧接着就宣布要利用 Memory Bank 来打造“交互层面的记忆”了——这两大巨头可以说都不约而同地把赌注押在了“让 AI 能够具备记住事情的能力”这一个大的发展方向上面。这显然不可能仅仅只是一种巧合,它更多地是代表着在整个行业内部一种强烈的共识已经开始形成了:也就是说,AI 已经不再甘心去继续做一个只有七秒钟记忆的金鱼了


03 阿里巴巴正式发布了首款 AI 开发工具 Meoo:标志着国产重量级玩家正式宣告入局

时间推移到 4月15日 的时候,阿里巴巴集团正式对外发布了名下的首款 AI 开发辅助工具,也就是 Meoo,它的中文名字被定为了“秒悟”。从产品形态上来看,这其实是一个把国内最顶尖的底层大模型给集成在了一起、并且在系统内部直接内置了诸如阿里云数据库等一系列核心业务服务的一站式综合开发工具。它在市场上最大的一个卖点就在于,能够帮助开发者去一键式地生成包含前端和后端在内的完整的网站架构,并且还能够顺带去完成后续的部署与上线工作

目前官方已经向外披露的具体信息主要包括:

  • 已经在系统内部集成了国内目前比较主流的大语言模型,不过关于具体的参数配置情况,暂时还没有进行完全公开
  • 在工具内部直接内置了阿里云数据库等一系列配套的服务组件
  • 能够很好地支持前后端完整项目工程的自动化生成工作
  • 能够为使用者提供便捷的一键式部署以及发布上线的能力
  • 该产品的官方网址为:https://meoo.com/

行业深度的分析洞察: 给这款产品所设定的市场定位其实是非常之明确的——也就是专门去面向国内庞大的开发者群体,主打零使用门槛以及追求产品的快速落地见效。如果拿它去和市面上像 Cursor 或者是 Copilot 那些比较知名的海外工具来进行对比的话,Meoo 所具备的天然优势大概率是集中在以下两点上的:第一个方面是它在对于中文语境的深度理解以及配套文档的质量输出上,可能会表现得更加契合国内的实际工作场景;第二个方面则是它与阿里云底层的基础设施进行了极其深度的相互整合,这就使得项目在后续进行部署时候的路径被大幅度地缩短了。不过如果坦白来讲的话,鉴于目前官方所公开出来的信息还相对比较匮乏,这款产品在未来究竟能够走多远,归根结底还是要去看下面这两个极其关键的考验点:那就是所搭载的底层模型能力是不是真的具备某种差异化的竞争优势,以及设计的这套协同工作流到底能不能够真正打通国内开发者在实际工作中遇到的真实痛点

除此之外,还有另外一点是非常值得引起注意的:这可以说得上是国内互联网大厂首次在明面上推出类似的产品了,这在某种程度上其实也就代表着他们已经正式宣告向“AI IDE 这个赛道”强势入场了。既然现在字节跳动手里已经有了 Trae,而阿里巴巴也顺势推出了 Meoo,那么在接下来的时间里,像腾讯或者是美团这样的巨头会不会也紧跟着有所动作呢?这就很能说明,目前国内的 AI 编程工具市场,正在悄然从早期那种“百花齐放”的草莽阶段,快速地走向了“行业巨头相互对垒”的全新发展格局


最后的总结性思考:AI 辅助编程已经远远不再仅仅只是“跑来帮你写几行字”那么简单了

在仔细研究完了今天所汇总出来的这三条行业动态之后,其实有一个极其明显的共同点是根本就藏不住的:那就是目前的 AI 编程辅助工具,正在经历一场从传统的“代码语法补全工具”向着更为高级的“环境感知代理程序”去进行整体转型的深刻过程

  • Chronicle 这项功能的出现,使得 AI 具备了能够直接去看见你屏幕画面的强大能力
  • Memory Bank 这种记忆库的推出,使得 AI 拥有了能够去记住你过往历史操作脉络的扎实底盘
  • 而像 Meoo 这样的综合平台,更是使得 AI 获取了能够去直接帮你部署整个应用工程的操作权限

所有冒出来的这些令人瞩目的新能力,其实都在隐隐约约地指向同一个最终的发展方向:当下的 AI 已经越来越不满足于那种传统的“你问一句我才答一句”的单次交互模式了,它内心真正的渴望,是想要去成为整个工作环境当中不可或缺的一个组成部分,进而去实现对工作状态的持续感知、持续理解以及最终的持续执行操作。这样一种宏大的发展趋势,必将会极其深刻地去改变广大开发者群体原有的工作行为方式——在以前的时候,大家可能还会去担心“AI 到底会不会跑过来把写代码的饭碗给抢走”,但是放到现在来看的话,摆在面前的那个问题恐怕就要演变成“AI 到底会不会在未来的某一天,把整个软件开发的生态链条给全盘接管过去”了


声明: 本文内容基于互联网公开资料整理,内容仅供参考