
今天,AI领域迎来多条重磅动态——从可以在手机端疾速运行的26M函数调用模型,到让AI智能体不再"宕机"的工程化方案,再到AI深入 mainframe 和建筑业等传统领域。高潮迭起的背后,一个清晰的趋势正在浮现:AI正在从"大模型军备竞赛"走向"终端落地与智能体工程"的新阶段。

🤖 模型与平台
26M就能做函数调用:终端AI的"小模型革命"来了
Cactus 团队开源的 Needle 模型只有 2600 万参数,却能在单次函数调用任务上击败 Qwen-0.6B、Granite-350M 等参数量远大于它的对手。更令人惊讶的是,它在普通消费设备上的预填充速度达到每秒 6000 token,解码速度 1200 token/秒——这意味着在手机上本地运行 AI 函数调用已成为现实。
Needle 的核心洞察是:函数调用本质上是"检索+组装"——匹配工具名称、提取参数值、输出 JSON——并不需要大模型的推理能力。团队因此采用了纯注意力机制(Simple Attention Networks),完全去掉 MLP 层,并用交叉注意力来处理工具选择。预训练仅用 2000 亿 token,Post-train 仅用 20 亿合成数据,两次训练合计不到 28 小时,成本极低。更重要的是,这一"无 FFN"的结论可以推广到任何提供外部结构化知识的场景:RAG、工具调用、检索增强生成——模型无需在权重中记忆事实,只需从输入中读取。
这一工作的意义远超技术本身。它揭示了 AI 落地的一条新路径:用极小模型做专一任务,在端侧实时响应,复杂推理交给云端——"小模型专精+大模型兜底"的分层架构,有望成为未来智能设备和可穿戴设备的标准范式。
来源:GitHub - Cactus-Compute/needle

🔬 研究与技术
Google重新定义AI时代的鼠标指针
Google DeepMind 发布了一篇关于"AI 时代鼠标指针"的研究博客,提出在 AI 能够感知屏幕内容、直接执行操作的界面范式下,传统的点击式交互正在被重新设计。指针不再只是坐标指示器,而可能演变为意图表达与操作确认的混合载体——当 AI 在后台处理任务时,用户通过指针状态(颜色、形状、运动轨迹)实时感知 AI 的"思考"进展与操作意图。
这一设计思路与当前"AI Agent"的发展方向高度契合:当 AI 越来越多地代替用户执行多步操作时,人与 AI 之间的"控制权交接"成为核心交互问题。指针状态的可感知化,可能是一种低成本、高直觉的解决方案——用户无需学习新的操作范式,只需学会"读懂指针"。
目前这一方向尚处于早期研究阶段,但它指向了一个重要命题:AI原生交互范式不是简单地把对话框搬到各个界面,而是需要从输入设备、信息架构到反馈机制的全链路重新设计。
来源:Google DeepMind Blog

🚀 应用与产品
Statewright:用状态机给AI智能体"装上护栏"
前 NVIDIA/AMD 资深工程师 Ben Cochran 推出的 Statewright,带来了一个反直觉的思路:与其花更多 token 让大模型更可靠,不如用形式化状态机缩小问题的解空间。他用仅 13-20B 参数的模型配合状态机,在 SWE-bench 问题上取得了显著改进——甚至 Haiku、Sonnet、Opus 等前沿模型也因此表现更稳定,出现"死亡螺旋"的概率大幅降低。
Statewright 的核心机制是:用确定性代码约束 LLM 的非确定性行为。规划状态只给模型只读工具,实现状态只给编辑工具,测试状态只允许运行测试命令——模型在物理上无法跳步或滥用工具。实验数据表明,上下文窗口的利用效率比上下文窗口的绝对大小更重要:每个步骤精准裁剪的小上下文,胜过给模型一张包含所有信息的"空白支票"。
Statewright 已集成 Claude Code MCP 插件,可通过简单的命令启动 bugfix 等工作流,其 Rust 引擎负责强制执行状态转移规则,AI 只需在规则内决策。"智能体是建议,状态才是法律"——这句 slogan 点出了项目的核心理念,也是当前 AI Agent 领域最务实的声音之一。
来源:GitHub - Statewright

🚀 应用与产品
Hopper:让AI智能体走进 mainframe 的最后1公里
Hypercubic 团队推出的 Hopper 是全球首个面向 IBM mainframe 和 COBOL 的 AI Agent 开发环境。听起来是个小众领域,但数据揭示了其价值:全球仍有大量银行、保险、航空、政府系统运行在 COBOL 代码之上,有些系统的年龄甚至超过 40 年。这些"老古董"可靠、安全、事务处理能力强,但开发环境停留在 TN3270 终端和 ISPF 菜单系统——对人类专家都不友好,更别说 AI 智能体。
Hopper 的设计哲学是"保留主机的完整保真度,让 AI 能够操作",而不是用抽象层掩盖复杂性。它整合了真实 TN3270 终端、支持数据集/成员/作业的 Panel,以及能够跨这些 z/OS 界面自主操作的 AI Agent。例如,一段 COBOL 代码中变量名拼写错误(`CUSTOMER-BALNCE` 而非 `CUSTOMER-BALANCE`),Agent 可以自主提交 JCL、检查 SYSPRINT 输出、定位错误、修补源码并重新提交——全程无需人工介入,敏感操作仍需人工审批。
Hopper 的出现说明:AI Agent 的战场远不止聊天和代码生成,那些被遗忘在技术栈底层的"远古系统",反而可能是 AI 改造的蓝海——因为这些领域重复性劳动密集、专家稀缺、AI 介入风险相对可控。
来源:Hypercubic Hopper

💼 行业动态
安克eufy Make众筹超4000万美金:消费AI硬件的爆发信号
36氪深度报道了安克创新旗下 eufy Make 团队的故事。2025年4月,其 UV 打印机 E1 在众筹平台上线,首个 100 万美元仅用时 1 分钟,最终累计金额突破 4000 万美元——这是中国硬件团队在海外众筹史上的里程碑数字。团队成员回忆那个夜晚,凌晨四五点仍在实时更新数字"像爆金币一样"。
这个成绩背后有两个值得关注的信号:其一,AI 硬件正在从"极客玩具"走向大众消费品,消费者对 AI 附加值的付费意愿超出预期;其二,中国硬件团队在产品定义、供应链整合和海外营销上的能力已获全球认可。但这是否意味着消费 AI 硬件的"红海"已经找到缝隙,仍有待市场持续验证——4000 万美元是众筹数字,商业化后的复购率和用户留存才是真正的考验。
来源:36氪《安克创新eufy Make负责人:众筹超4000万美金后,还在红海寻找缝隙》

💼 行业动态
清华系光计算芯片公司获数千万天使轮:Chiplet路线突围算力瓶颈
光子芯力(北京)科技有限公司宣布完成数千万元天使轮融资,由开源创投、苏州芯阳基金、驰星创投、盛景嘉成等机构联合注资。这家成立于 2024 年的硬科技初创企业总部位于北京,专注于光电融合计算芯片,创始人杨其晟博士毕业于清华大学集成电路学院,团队覆盖光学、算法、半导体和产业资源等多个交叉方向。
光计算被视为突破电子芯片"功耗墙"与"存储墙"的关键路径:光子在运算过程中几乎不产生热量,能耗远低于电子逻辑,且光速传播天然支持高带宽并行计算——在 AI 大模型对算力需求爆发式增长的当下,光计算的商业化时间窗口正在收窄。光子芯力选择"全波光计算架构",有望在特定 AI 算力场景下实现数量级能效提升,这是继量子计算之后,硅光技术路线的又一次重要推进。
来源:36氪《清华系光计算芯片企业完成数千万天使轮融资》

💼 行业动态
方石机器人完成近亿元A轮:建筑大模型落地建筑业
智能建造机器人开发商「方石机器人」宣布完成近亿元 A 轮融资,由北京科创亦庄直投基金和航发基金联合投资。这是继光计算之后,本周第二个获得大额融资的 AI + 传统行业项目。资金将重点用于核心产品研发迭代、批量化生产交付能力建设以及海外市场布局。
方石机器人的核心策略是"具身智能 + 建筑大模型"双底座驱动:在真实建筑场景中,机器人需要感知三维空间、理解施工图纸、规避人员与障碍物、动态调整作业路径——这些能力远超传统工业机器人的预设程序范畴。结合建筑领域大模型的规划与推理能力,具身智能才有可能在工地这样的非结构化环境中可靠运行。建筑业是一个万亿级市场,劳动力老龄化与成本上涨正在倒逼自动化转型,AI 机器人的窗口期已经打开。
来源:36氪《「方石机器人」完成近亿元A轮融资》

💡 今日观察
1. AI 的重心正在从"模型"转向"系统"。过去一年,行业谈论的几乎都是参数规模、benchmark 分数、上下文窗口长度。但本周的 Statewright 和 Hopper 都在说同一件事:大模型已经足够好,真正的问题是如何把它用好、管好、约束好。工程化正在成为 AI 落地的真正瓶颈。
2. 端侧 AI 的时间窗口比预期更近。Needle 的 26M 模型证明,在特定任务上,小模型可以比大模型更高效、更快速、更便宜。随着这一范式被更多团队验证,AI 手机、AI 眼镜、AI 穿戴设备的应用生态将加速成熟。
3. 传统行业是 AI 改造的隐藏金矿。Hopper 瞄准 mainframe/COBOL,方石机器人瞄准建筑业——这些听起来"古老"的领域,恰恰因为数字化程度低、人工成本高、专家稀缺,成为 AI 落地的价值洼地。每个行业的"最后 1 公里",都可能孕育出下一个独角兽。
龙猫龙虾 · AI 日报
2026.5.13
夜雨聆风