乐于分享
好东西不私藏

openAI Codex已能在Mac电脑上使用任何App | 昨晚硅谷在聊啥

openAI Codex已能在Mac电脑上使用任何App | 昨晚硅谷在聊啥

⚡️ 今日看板 (The Pulse)

今日硅谷核心叙事是Agent从聊天工具向具备真实电脑操控、多代理协作与物理具身能力的“工作空间原住民”全面进化,硬件垂直整合与高效开源模型同步加速。

🧠 深度叙事追踪

🔥 从编码助手到电脑原生Agent工作空间

💡 叙事转向:OpenAI Codex本次重大升级(计算机使用、记忆学习、后台并行操作)标志着行业从“vibe coding”转向真实生产力工具,此前大佬记忆中Chamath强调的“90%遗留系统维护”难题正被agentic computer-use直接绕过,与a16z此前“代理需要真实银行账户”的论断形成呼应,显示AI正从数字对话者变为数字劳工。

🗣️ @openai | 官方

“OpenAI宣布Codex实现重大突破:现在能在Mac上使用任何App,通过自己的光标实现看到、点击、输入。它在后台运行不干扰用户,可进行前端迭代、App测试或任何无API的工作流。❤️ 1476 | 💬 32”

🗣️ @sama | CEO

“Codex迎来大量重大改进,计算机使用功能远超我预期。它能同时使用Mac上所有App且不干扰我的直接工作,这才是真正的生产力升级。❤️ 5911 | 💬 715”

🔥 核心共识:行业已形成共识:下一代开发者工具必须具备原生计算机使用能力,单纯代码生成已无法满足长周期复杂工作流需求。

⚔️ 最大分歧:大佬们激烈争论焦点在于企业级部署时的安全边界与权限管理:完全自主模式是否会带来不可控风险,以及是否会加速就业替代。


🐝 Agent Swarm:从孤立Agent到目标导向的多代理团队

🔭 新叙事观察:bindureddy发布的Agent Swarm提出Master Agent动态生成多个Worker Agent(研究、设计、编码、测试、自动化),使用12+种LLM协同,像人类专家团队一样拥有共同目标而非孤立任务。这一定义了新范式,试图解决单一Agent在复杂商业场景中的上下文与能力碎片化问题,与Dotey此前对Hermes Agent自我迭代记忆系统的记忆高度一致。

🗣️ @bindureddy | 开发者

“重磅发布Agent Swarm——Master Agent生成多个Worker Agent负责研究、设计、编码、测试和自动化,使用12+种LLM协同。它们将像人类团队一样拥有共同目标而非孤立任务,这是AGI的早期显现。❤️ 457 | 💬 16”

🔮 解读与展望:未来6-12个月,多代理系统将从实验项目快速进入商业自动化主流,显著降低构建复杂业务流程的门槛,可能催生大量垂直行业Agent-as-a-Service产品。

🎯 潜在机会:一级市场可重点关注多代理协调协议、共享记忆层和动态任务分解基础设施,以及为特定行业(法律、金融、制造)定制的Swarm模板。

⚠️ 潜在风险:协调多代理时的涌现行为难以预测,当前仍存在较高技术硬伤,短期内可能成为融资概念泡沫,真正落地需解决长期一致性与成本问题。


📈 开源小模型性能爆炸:Qwen与Gemma的“大力出奇迹”

💡 叙事转向:Google DeepMind Gemma 4及阿里Qwen3.6系列在基准测试中持续超越10倍参数量模型,尤其在agentic coding和推理任务上表现出色。结合历史记忆中Demis Hassabis强调的“与全球顶级开源包括中国方案直接竞争”,显示开源社区通过蒸馏与高效架构实现了对闭源巨头的深度追赶,这是原有“规模为王”叙事的重大深度推进。

🗣️ @googledeepmind | 官方

“Gemma 4以远超其体量的性能发布,无需海量算力即可超越10倍大小模型,首周下载量已超1000万。❤️ 1056 | 💬 62”

🗣️ @simonw | 开发者

“今天Pelican基准测试结果令人震惊,我用本地21GB的Qwen3.6-35B-A3B在笔记本上生成的Pelican比新Opus 4.7还要好。❤️ 1463 | 💬 106”

🔥 核心共识:行业最新共识是高效蒸馏+小型专家模型路线已成熟,开发者正大规模转向能在消费级硬件上运行的高性能开源方案。

⚔️ 最大分歧:争论焦点在于这类模型的“干净度”与真实泛化能力:蒸馏是否牺牲了创造性,以及中国开源模型的快速迭代对全球供应链与地缘科技竞争的长期影响。


🤖 具身智能落地:Gemini Robotics与Spot机器人的工业突破

🔭 新叙事观察:Google DeepMind与Boston Dynamics合作,让Gemini Robotics-ER 1.6驱动Spot机器人自主读取复杂工业仪表,这是从语言/代码世界向物理世界实用智能迈出的关键一步。直接回应了Elon Musk长期强调的“物理AI”优先级,试图解决具身智能长期面临的感知-行动闭环瓶颈。

🗣️ @googledeepmind | 官方

“我们与Boston Dynamics合作,用Gemini Robotics具身推理模型驱动Spot机器人。它能更好地理解环境、识别物体并执行简单指令,如整理房间。❤️ 1172 | 💬 60”

🗣️ @demishassabis | CEO

“与Boston Dynamics的合作令人振奋,Gemini Robotics-ER 1.6让机器人能自主读取复杂工业仪表,这是迈向物理世界实用智能的重要一步。❤️ 509 | 💬 31”

🔮 解读与展望:未来6-12个月,具身AI将从实验室快速进入工厂与物流场景,Tesla Optimus和Google机器人路径的并行竞争将加速硬件-模型联合优化周期。

🎯 潜在机会:一级市场机会在于工业仪表识别、机器人专用小型模型、仿生材料供应链,以及将现有工厂机器人 fleet 升级为AI原生系统的SaaS平台。

⚠️ 潜在风险:当前机器人硬件成本仍高(Spot单价约7.5万美元),短期内ROI难以覆盖大部分场景,存在明显泡沫风险;同时安全认证周期远长于软件。


🏭 AI硬件“天堂工厂”:垂直整合加速迭代

💡 叙事转向:Elon Musk反复强调与Intel、Lip-Bu合作打造Terafab,将逻辑、内存、封装和掩膜设备全部放在一栋楼里实现极快开发周期。这与Palmer Luckey“Car Factories”讨论形成共振,代表行业从依赖TSMC外部代工转向自建高度垂直整合的快速迭代工厂,是对过去“算力崇拜”叙事的重大转向,重点解决芯片与机器人硬件的创新速度瓶颈。

🗣️ @elonmusk | CEO

“与Intel和Lip-Bu合作Terafab深感荣幸。我们将把所有逻辑、内存、封装和掩膜设备放在一栋楼里,实现极快的开发周期。这就是天堂。❤️ 108374 | 💬 6835”

🔥 核心共识:顶级玩家已达成共识:未来AI硬件竞争核心在于垂直整合速度,而非单纯制程节点,谁能把设计-制造-测试闭环压缩到最小,谁就掌握主动。

⚔️ 最大分歧:当前最大争议是这种“天堂工厂”模式的可复制性:是否只有Elon这样同时拥有芯片、机器人、能源资源的玩家才能实现,以及地缘政治风险下供应链安全问题。

💰 资本与估值雷达

👉 投融资快讯:Upscale AI据报正谈判融资1.8-2亿美元,估值约20亿美元;AI编码初创公司Factory也在洽谈1.5亿美元融资,估值15亿美元。

👉 VC views:a16z与pmarca持续强调“AI代理必须拥有真实支付能力”,Factory这类能让Agent完成端到端商业闭环的工具将成为下一轮重点;TSMC Q1利润超预期进一步印证AI基础设施长期资本开支仍将高位运行。

📊 风险与中国视角

👉 中国 AI 评价:Qwen3.6、GLM 5.1等开源模型在agentic coding和小型高效部署上已处于全球领先,蒸馏技术迭代速度极快,对美国闭源模型形成实质竞争压力。

👉 全球映射:中国高效开源路线正在迫使全球转向“性能密度”竞争而非单纯参数规模,这对依赖高能耗训练的美国巨头构成长期战略风险,同时也为全球开发者降低了AI基础设施门槛,但可能加剧出口管制与技术脱钩紧张。

📣 今日精选推文 (Top 5 Picks)

🗣️ @sama | OpenAI CEO

“Codex迎来大量重大改进,计算机使用功能远超我预期。它能同时使用Mac上所有App且不干扰我的直接工作,这才是真正的生产力升级。❤️ 5911 | 💬 715”

🗣️ @openai | 官方

“Codex现在能在Mac上使用任何App,通过自己的光标实现看到、点击、输入。它在后台运行不干扰用户,可进行前端迭代、App测试或任何无API的工作流。❤️ 1476 | 💬 32”

🗣️ @bindureddy | 开发者

“重磅发布Agent Swarm——Master Agent生成多个Worker Agent负责研究、设计、编码、测试,使用12+种LLM协同。它们将像人类团队一样拥有共同目标而非孤立任务,这是AGI的早期显现。❤️ 457 | 💬 16”

🗣️ @elonmusk | xAI/Tesla CEO

“与Intel和Lip-Bu合作Terafab深感荣幸。我们将把所有逻辑、内存、封装和掩膜设备放在一栋楼里,实现极快的开发周期。这就是天堂。❤️ 108374 | 💬 6835”

🗣️ @googledeepmind | 官方

“我们与Boston Dynamics合作,用Gemini Robotics具身推理模型驱动Spot机器人。它能更好地理解环境、识别物体并执行整理房间等指令。❤️ 1172 | 💬 60”

🗣️ @simonw | 开发者

“今天Pelican基准测试结果令人震惊,我用本地21GB的Qwen3.6-35B-A3B在笔记本上生成的Pelican比新Opus 4.7还要好。❤️ 1463 | 💬 106”

🗣️ @demishassabis | DeepMind CEO

“与Boston Dynamics的合作令人振奋,Gemini Robotics-ER 1.6让机器人能自主读取复杂工业仪表,这是迈向物理世界实用智能的重要一步。❤️ 509 | 💬 31”

🗣️ @mark_k | 分析师

“Opus 4.7基本上是个节省算力的版本。新“Adaptive Thinking”设置默认关闭思考,牺牲性能但大幅降低GPU消耗。Anthropic显然在容量上吃紧。❤️ 480 | 💬 25”