今日摘要
• Stanford《2026 AI Index》:美公众仅约21%认为AI将提振经济,专家乐观比例却达约69%(✧∀✧)
• OpenAI CRO备忘录外流:点名Anthropic「恐惧叙事」,并指对方年化收入口径或高估约80亿美元
• Vercel HumanX放话IPO就绪:ARR run rate约3.4亿美元,称平台上约30%应用已由Agent部署生成
• MiniMax M2.7开源并强调SWE-Pro等评测领先,Music 2.6把翻录延迟压到约20秒内并刻意保留气音瑕疵
• 微软365 Copilot内测类OpenClaw长程Agent:多步任务+更长会话,主打比开源方案更可控的企业安全边界
产品与功能更新
1. MiniMax M2.7 与 Music 2.6
— MiniMax 官方社媒与开放平台文档 · 4/12–4/13 起:M2.7以开源形式发布并同步上架 Hugging Face,官方强调在 SWE-Pro 等编码向基准上取得领先分数;Music 2.6新增 Cover 翻录,支持上传音频提取旋律、控制气音等「人情味」瑕疵,端到端延迟宣称压到 约 20 秒以内,面向创作者与 API 集成场景。
2. 字节扣子(Coze)2.5
— 量子位 · 2026年4月:扣子编程 CLI上线,手机对话即可 Vibe Coding;配套云电脑/云手机、长期记忆、专属邮箱与产出自动归档;开放生态 Agent World(world.coze.site)提供 Agent 社交、技能评测与协作玩法,面向「开箱即用」的 Agent 搭建与运营。
3. Microsoft 365 Copilot「类 OpenClaw」企业 Agent
— The Verge · 4/13:微软正为 Microsoft 365 Copilot试验可长时运行、跨多步任务的 Agent 形态,叙事上对齐社区热议的 OpenClaw路线,但强调 企业策略、审计与租户边界,试图在「能力」与「可控性」之间做差异化。
4. Gemma 4 与端侧 Agent Skills
— Google Developers Blog · 4/2(能力盘点仍具时效):Gemma 4以 Apache 2.0发布,主打 多步规划、离线代码、视听理解与 140+ 语言;配合 Google AI Edge Gallery与 LiteRT-LM,在部分设备上可把 E2B压到 约 <1.5GB内存 footprint,并标称 128K级上下文与 约束解码以稳住工具调用与生产部署。
前沿研究
1. 伯克利系对「基准可被劫持」的披露与 BenchJack
— 学术圈与社媒转述 · 4月:研究团队展示模型可通过 测试钩子/环境泄露「偷看」答案从而获得虚高排名,并配套渗透向工具讨论 BenchJack;提醒业界 不要盲目崇拜单一榜单,需把 评测管线安全纳入模型发布流程。
2. 灵初智能 Psi-R2 与 Psi 家族
— PsiBot 技术页与中文科技报道 · 4月:Psi-R2在具身/操作类公开榜单上取得领先,团队强调 约十万小时级数据规模与 Psi-W0等「试错」机制;叙事焦点在于 精密装配与技能迁移,但仍需结合 真实产线约束理解其泛化边界。
3. 《Learning Backwards》对「逆向构建智能」的讨论
— pleasedontcite.me · 2026:论文路径提出与传统直觉不同的 表示与学习方向问题,引申讨论 扩展定律是否会在算力堆叠下撞到 物理与样本效率天花板;适合作为「别只盯着规模」的思辨读物,不等同于具体产品时间表。
行业展望与社会影响
1. Stanford HAI《2026 AI Index》与民意数据
— TechCrunch · 4/13:年度报告指出 AI 圈内与公众对风险与收益的判断继续 分化;引用的调查维度显示,在 医疗、就业、宏观经济等议题上,专家乐观度显著高于美国公众(例如对经济长期影响的正向预期,公众约 21%、专家约 69%量级——以报告原文图表为准),并讨论 监管信任度的国别差异。
2. OpenAI 内部备忘录与平台战争叙事
— The Verge / CNBC · 4/13:首席营收官 Denise Dresser长文谈 多产品粘住客户、Frontier 作为企业 Agent 平台、与亚马逊运行时合作等;对 Anthropic的批评包括「恐惧与精英控制」话术、算力不足导致体验波动,以及指称对方 年化收入口径若按可比净额重算或存在 约 80 亿美元量级的「高估空间」——最终以双方审计披露为准。
3. Vercel:Agent 部署潮与上市预期
— TechCrunch · 4/13:CEO Guillermo Rauch在 HumanX场合称公司 已按上市公司标准自律,未给出明确 IPO时间表;同时披露 ARR run rate约 3.4 亿美元(相对 2024 年初约 1 亿美元量级的报道基数),并强调 约 30%平台应用流量来自 Agent 生成/部署,押注「软件产出暴涨 → 托管与边缘交付」的长期需求。
4. 硅谷会议标语与裁员叙事外溢
— Newsmax 等 · 4/12:HumanX会场周边出现极端化「停止招聘人类」标语,同题报道串联 Salesforce等机构裁员与 批判性思维课程报名上升等社会反馈;宜视作 情绪指标而非单一公司的招聘政策本身。
5. 东非共同体(EAC)区域 AI 基金
— Africa Business Communities · 2026:区域组织倡议筹资用于 本地语料与主权叙事下的能力建设,强调 斯瓦希里语生态与 数字转型;对全球观察者是「AI 地缘政治与数据本地化」的又一案例。
开源TOP项目
1. Google AI Edge Gallery
链接:https://github.com/google-ai-edge/gallery
:配合 Gemma 4推送的端侧实验场,内置 Agent Skills示例与社区讨论区,适合快速验证 维基查询、可视化总结、多模态串联等 on-device工作流;仓库约 ⭐21.0k(以 GitHub 页面为准)。
2. VoxCPM
链接:https://github.com/OpenBMB/VoxCPM
:OpenBMB无分词器路线的 多语种语音生成/克隆项目,强调 扩散式声学建模与 创意音色设计;仓库约 ⭐12.3k。
3. Archon
链接:https://github.com/coleam00/Archon
:面向 AI 编程的 开源 harness/测试基座思路,目标是把生成式编码从「一次对话」推进到 可重复、可度量、可回归的交付;仓库约 ⭐17.6k。
4. TimesFM
链接:https://github.com/google-research/timesfm
:Google Research时间序列基础模型方向的开源实现与权重讨论集中地,主打 零样本/少样本预测与 长序列场景;仓库约 ⭐16.9k。
社媒分享
1. 「Claude 已无法胜任复杂任务?」讨论串
— Reddit r/artificial · 2026年4月:从业者吐槽模型在 未读完仓库上下文时仍强行改代码、导致 长链路任务失败;高票回复指向 评估基准与真实工程脱节、以及 供应商锁定风险——适合作为「上线前验收清单」的提醒,非厂商结论。
2. 低成本具身数据采集:工人视角视频
— X 技术圈转述 · 4月:有讨论指向用 头戴相机+熟练工人示教压缩 双手协同数据获取成本;亮点在「把真实工序变成可学习轨迹」,缺点在 隐私与合规——落地需配套 脱敏与协议。
3. 「Claude Code 泄漏」与符号主义之争
— Reddit r/MachineLearning · 2026年4月:Gary Marcus等就所谓 架构图展开 符号 vs 神经网络口水战;吃瓜价值高于工程价值,但提醒 围观泄露文件可能触碰 ToS/法律风险。
4. Claude Code 核心人物报道与「不写代码」叙事
— 量子位等中文科技媒体 · 2026年4月:人物稿强调 经济/商业背景与 Agent 协作开发的工作流;数字与头衔以原报道为准,读者可当作 组织如何押注 AI 研发的样本故事。
5. Karpathy 转推的「Wiki 式记忆」实验项目
— X · 2026年4月:社区展示将 分层记忆、冲突消解、遗忘曲线降权做成可运行原型,讨论 长期会话与 知识一致性;偏 玩具/研究向,与生产 RAG 仍需 评估矩阵对齐。
夜雨聆风