AI情报助手日报05-02-夜雨聆风

AI情报助手日报05-02

AI 行业观察

Karpathy 预测软件 3.0 时代。
Karpathy 提出软件正经历第三次范式转移，即 Software 3.0 时代，大语言模型作为新型计算解释器，通过自然语言编程，将改变软件开发模式。
Karpathy 谈大模型重塑未来。
AI 先驱 Andrej Karpathy 预测，大模型正重塑软件定义、工作结构和人的位置，他认为很多应用将因大模型而消失，人类唯一护城河是理解。
Karpathy 戳破 AI “锯齿状智能”。
Karpathy 指出 AI 能力呈“锯齿状智能”分布，即在某些领域表现超人，在常识问题上却会犯错，这源于可验证性与经济激励共同作用。
GPT-5.6、Claude Sonnet 4.8 曝光。
OpenAI 的 GPT-5.6 和 Anthropic 的 Claude Sonnet 4.8 等下一代模型相继曝光，显示 AI 模型军备竞赛加速，迭代速度远超预期。
Vibe Coding 撕裂程序员旧世界。
AI 编程工具普及催生“vibe coding”新模式，降低技术门槛，使独立开发者更注重创意与个人 IP，但算力不足仍是国内开发者挑战。
AI 成本高于人力仍是积极信号。
英伟达高管和 Uber 首席技术官指出，现阶段 AI 服务运营成本高于人力成本，但许多 CEO 仍将高额 AI 账单视为积极信号，驱动企业创新。

AI 模型能力突破

AI 自主生成算法超越人类。
OMEGA 框架通过结构化提示和可执行代码生成，实现了 AI 研究自动化，已生成多个超越 scikit-learn 基线的算法，证明 AI 可自主发现新算法。
北大开源统一世界模型框架。
北京大学 DCAI 课题组联合多方开源了统一世界模型推理框架 OpenWorldLib，旨在解决现有世界模型研究中接口不统一、推理流程割裂等问题。
DeepSeek 视觉多模态技术。
DeepSeek 发布视觉多模态技术报告，提出“视觉基元”概念，通过将边界框和点作为模型思维单位，解决多模态推理中的“引用鸿沟”问题。
400B 大模型在 iPhone 运行。
Flash-MoE 项目成功在 iPhone 17 Pro 上运行 400B 大模型 Qwen3.5-397B-A17B，标志着端侧大模型进入新阶段，尽管输出速率仅 0.6 tokens/秒。
PAT3D 让 AI 生成 3D 场景物理合理。
CMU 等团队提出 PAT3D 方法，让 AI 生成的 3D 场景不仅视觉合理，更在物理上“站得住”，推动文生 3D 从“能看”到“能模拟、能交互”发展。
OKG-LLM 预测全球海面温度。
复旦大学等机构发布 OKG-LLM 框架，首次将海洋知识图谱与大语言模型深度融合，实现全球海面温度高精度预测，超越现有最先进方法。
智谱揭示 GLM-5 “降智”秘密。
智谱技术博客揭示 GLM-5 系列模型在高负载下，因 KV Cache 竞态和 HiCache 加载时序缺失导致乱码、复读等异常，团队已通过方案提升稳定性。
Q 学习算法攻克均值场控制。
Q 学习算法首次被应用于解决带受控共同噪声的平均场控制（MFC）问题，通过两层不动点迭代，在未知模型下学习最优策略。
清华 AIR 发布 GS-Playground。
清华 AIR 发布 GS-Playground，首次深度融合高吞吐并行物理仿真与高保真 3D 高斯溅射渲染，突破机器人视觉训练瓶颈，实现零微调真机部署。

AI 编程工具进展

OpenAI Codex 升级为通用助理。
OpenAI Codex 迎来史诗级更新，从代码工具进化为通用个人助理，可接管 Mac 电脑，用户实测其能全程 0 操作操控 Adobe 软件完成任务。
大模型自主挖掘量化 Alpha 因子。
香港大学与 GIM 合作提出 CogAlpha 框架，让大模型像研究团队一样，通过代码进化自动挖掘量化 Alpha 因子，跑赢 21 个基线方法。
Claude Code 强大源于工程。
文章揭示 Claude Code 的强大并非源于 AI 本身，而是其背后 98.4%的工程基础设施，AI 编程正从提示词转向工程化 Harness 构建。
Codex CLI 新增“/goal”功能。
OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 新增“/goal”功能，允许用户设置目标，Codex 将持续循环直至目标完成，提升自动化编程效率。
AI 代理“自我纠错”新范式。
研究引入“审查代理”，在 AI 工具调用前进行评估，通过推理时反馈机制纠正错误，无需再训练基础代理，显著提升了工具调用准确性。

AI 伦理与社会影响

清华预言 90%人脱离谋生劳动。
清华沈阳团队预言，AI 正走向“人机隔离”，未来企业或只剩“超级个体”和 AI 数字员工，90%的人将脱离谋生劳动，社会将进入“认知剧场”。
职场残酷预演：AI 挤压初级人才。
METR 桌面演练模拟 200 小时 AI 对工作流的影响，发现 AI 可瞬时完成大量工作，人类的判断与反馈效率成为决胜点，初级人才生存空间受挤压。
AI 音乐节：博士生的“嘴替”。
一位科研工作者用 AI 创作“不读博音乐节”系列歌曲，歌词直击科研痛点，引发博士生群体共鸣，为科研人提供情感宣泄和精神慰藉。

arXiv 论文

OpenAI o1 模型提升安全性。
o1 模型通过大规模强化学习训练，具备链式思考能力，在对抗性提示评估中显著优于 GPT-4oo，并在某些风险基准上达到 SOTA 性能。
Foreclassing：时间序列决策新范式。
研究提出“Foreclassing”机器学习问题，旨在自动化人类基于时间序列数据的决策过程，并在天气、能源、金融等领域展现优越性能。
LLM 认知风险与可信赖性。
研究探讨公众过度依赖大型语言模型（LLM）的认知风险，指出其违反了 Grice 质量准则，并提出“量子认知学”框架，强调 AI 可信赖性需整合观察者效应。
BRAIN 框架优化阿尔茨海默病诊断。
研究开发 BRAIN 机器学习框架，通过图谱化表示和分析生物标志物，旨在优化阿尔茨海默病诊断准确性，并为药物开发提供新范式。
Delta Variances 量化神经网络不确定性。
研究提出 Delta Variances 方法，能高效量化大型神经网络的认知不确定性，无需改变网络架构或训练流程，且仅需一次梯度计算。
FedKD-hybrid 提升联邦学习性能。
研究提出 FedKD-hybrid 框架，结合参数聚合和知识蒸馏，解决联邦学习中光刻热点检测的隐私和性能挑战，实现更丰富的知识迁移。
多结果因果图可视化分析。
研究人员提出一种针对多结果因果图的可视化分析方法，旨在支持医疗健康领域对多发病和共病的理解，并通过案例研究验证其有效性。
IKSPARK：避障逆运动学求解器。
论文提出 IKSPARK，一种基于半定规划和秩最小化的避障逆运动学（IK）求解器，将 IK 问题表述为凸优化，实现高精度解决方案。

其他

独立开发者用婚假爆肝 WorldX。
独立开发者用 10 天婚假爆肝 WorldX 项目，实现“一句话造世界”，5 分钟内自动生成地图、角色、动画、人设，让 AI 角色自主生活。
DeepSeek 视觉论文被连夜删除。
DeepSeek 灰测多模态能力后，发布了一篇名为《Thinking with Visual Primitives》的论文，阐述其通过视觉基元进行推理的方法，但该论文不久后被撤回。
Agent 可开 Cloudflare 账户。
Cloudflare 与 Stripe 联合发布新协议，Agent 现可自主创建 Cloudflare 账户、订阅付费方案、注册域名并获取 API token，实现代码自动化部署。
CS 专业学习中的“古法传承”。
文章探讨 CS 专业学习中的“古法传承”现象，指出许多编程细节是历史遗留的“屎山”，随着 AI 编程普及，传统死记硬背知识正被取代。
NHS 计划关闭开源代码仓库。
NHS England 计划关闭几乎所有开源代码仓库，理由是应对 AI 安全扫描带来的风险，此举与英国政府的开源政策相悖，引发广泛担忧。
吴恩达新课“AI Prompting for Everyone”。
吴恩达教授宣布推出新课程“AI Prompting for Everyone”，旨在帮助大众掌握主流 AI 工具的提示词技巧，提升 AI 使用效率，课程免费。
包管理器中补丁和分支处理。
文章探讨当依赖项存在已知漏洞但无维护者修复时，开发者如何应对，系统包管理器与语言包管理器在处理补丁和分支方面存在设计理念差异。
作者分享触控打字新方法。
作者 Susam Pal 分享其 20 年触控打字经验，并自行探索出用左手无名指敲击数字键 1 和 2 的新方法，发现比传统方法更舒适。
《强化学习数学基础》导读。
《强化学习数学基础》导读章节阐述了全书十章结构，涵盖基础概念到算法实现，从马尔可夫决策过程、贝尔曼方程，逐步深入到策略梯度等。
苹果公司公布第二季度财报。
苹果公司公布 2026 财年第二季度财报，营收达 1112 亿美元，同比增长 17%，每股收益 2.01 美元，同比增长 22%，iPhone 17 系列表现强劲。
SBC 集群板评测。
作者评测 DeskPi Super4C 树莓派 CM5 集群板，该板解决了旧款痛点，并新增远程管理、冗余以太网/电源等功能，适合桌面级 HPC 实验。
苹果高层变动播客讨论。
MG Siegler 在播客节目中讨论了苹果公司高层变动：蒂姆·库克将卸任 CEO 转任执行董事长，约翰·特纳斯将接任 CEO 一职。
Zig 创始人谈 LLM 辅助代码识别。
Zig 语言创始人安德鲁·凯利指出，识别 LLM 辅助代码并非难事，人类错误与 LLM 幻觉本质不同，AI 辅助编程者会留下独特的“数字气味”。
马斯克自曝 xAI “偷师”OpenAI。
在起诉 OpenAI 的庭审中，马斯克承认 xAI 曾“部分”使用“蒸馏”技术训练 Grok，即用 OpenAI 模型训练自家模型，引发外界对其“双标”质疑。
OpenAI 科学家修复中文渲染。
GPT Image 2 主力训练师陈博远，不仅修复了模型的中文渲染问题，还设计了米粒刻字、漫画套娃等“彩蛋”，展示了模型独特的文字和思考能力。
腾讯混元发布 CL-Bench Life。
腾讯混元发布 CL-Bench Life，旨在精准衡量 AI 在现实生活中的“上下文学习”能力，该基准包含 405 个真实任务，揭示当前顶级模型不足。