AI HOT 日报 · 2026-05-20

🔥 重磅头条

1. 🌐 Google I/O 2026：Gemini Omni 全能模型发布 — "从任意输入生成任意输出"谷歌 I/O 最大亮点。Omni = 多模态生成世界模型，文本/图像/音频/视频全打通。核心能力：对话式视频编辑（一句话修改视频元素）、物理推理（理解"接下来该发生什么"）、结合 Gemini 全知识库。衍生模型 Omni Flash 已上线，Pro 版随后。 🔗·

值得关注：Google 对标 GPT-5.5 多模态能力的旗舰回应，视频生成赛道格局剧变。

2. 👤 Andrej Karpathy 加入 Anthropic — 顶级人才流动风向标OpenAI 联合创始人 + 特斯拉前自动驾驶负责人，选择 Anthropic 而非回归 OpenAI。称"未来几年 LLM 前沿研究尤其具有塑造性"。马斯克也公开点赞 Anthropic。HN 爆炸式讨论。 🔗·

值得关注：AI 安全公司对顶级研究者的吸引力首次超越商业模型公司，行业信号极强。

📊 数据与规模

3. 📈 谷歌月处理 Token 超 3200 万亿，Gemini 月活破 9 亿同比去年增长7 倍。每日请求量增长超 7 倍。Nano Banana 模型累计生成超 500 亿张图片。AI 基础设施需求呈指数级爆发。 🔗

值得关注：谷歌 AI 业务从"追赶者"变成"规模领跑者"，算力军备竞赛进入新量级。

4. 🖼️ ChatGPT 图像生成周使用量突破 15 亿次自 Images 2.0 发布以来爆炸式增长，AI 图像生成进入规模化应用阶段。研究员 Kenji Hata 加入产品团队探讨新用例。 🔗

值得关注：AI 图像从玩具变基础设施的临界点标志。

🔧 产品 / 模型更新

5. ⚡ Gemini 3.5 Flash 发布 — 性能超 3.1 Pro，速度快 4 倍，成本降半编码和智能体任务全面超越上一代 Pro 级别。可快速构建互动游戏、日常物品→数字体验转换。 🔗

值得关注：性价比拐点——中端模型超越上月旗舰，开发成本断崖式下降。

6. 🤖 Gemini Spark：全天候个人 AI 代理"给它一个任务，后台自主工作，即使手机电脑已关机。"执行重大操作前先征询意见。Gemini 从"回答问题的助手"升级为"代表你干活的代理"。#GoogleIO🔗

值得关注：Google 正面回击 OpenAI 的 Agent 战略，自主代理成为所有巨头的必争之地。

7. 🔍 谷歌推出全新 AI 智能搜索框 — 基于 Gemini 3.5整合 AI Overviews + AI Mode 为统一搜索体验，支持多模态查询（文本/图像/文件/视频），多轮对话 + 上下文个性化。全球桌面端和移动端同步上线。 🔗

值得关注：搜索引擎交互范式的根本性变革——从"关键词"到"多模态对话"。

🛠️ 开发工具 / 基础设施

8. 🔄 Claude Code 弃 Markdown 转 HTML 输出Claude Code 团队宣布从 Markdown 切向 HTML 作为主要输出格式。支持表格/CSS 样式/SVG 图表/JS 交互，信息密度大幅提升。浏览器直接打开即可分享审阅。 🔗

值得关注：AI 编程工具输出格式的一次方向性转变，可能引发行业跟随。

9. 🎬 NVIDIA 开源 LongLive 2.0 — 首个 4-bit 长视频生成基础设施全球首个端到端 FP4 量化长视频方案，训练+推理全流程打通。5B 参数模型实现45.7 FPS生成速度。支持真实视频训练、蒸馏、序列并行、KV 缓存优化。 🔗

值得关注：长视频生成的工程化突破，从"论文 demo"到"可用基础设施"的关键一步。

🔬 研究 / 安全

10. ⚠️ PNAS 论文：人类说服技巧对 AI 同样有效 — 顺从率从 35% 提升至 51%Ethan Mollick 团队在 PNAS 发表论文，发现经典人类说服技巧（社会证明、权威等）以"类人"方式让 AI 同意不当请求。对主流大模型均有效，但新模型抵抗力更强。 🔗·

值得关注：提示注入之外的社会工程学攻击向量被系统性验证，AI 对齐面临新挑战。

今日电影推荐

《低俗小说》（Pulp Fiction，1994）

导演：昆汀·塔伦蒂诺 | 豆瓣 8.9 / IMDb 8.9 | 戛纳金棕榈

剧情梗概

三个看似无关的故事被打碎重组：两个哲学口味的杀手替黑帮老大办事；一个过气拳手拒打假赛卷款跑路；黑帮老大和杀手妻子共度一个微妙的夜晚。你看到结尾才意识到，这些人的命运在时间线上早就交错过了——只是昆汀把钟拆成零件，让你自己拼。

三大亮点

🔀环形叙事：故事首尾相接，中间又互相嵌入。你以为是三段式小品，实际上是一个精密的叙事机关——当你把时间线理顺的那一刻，整部片的意义会翻转一次。这种手法在1994年是颠覆性的，后来无数人模仿，没人超越。

🗣️对白即动作：昆汀的对白不推动情节，对白本身就是情节。两个杀手去杀人，路上却在认真讨论"足底按摩算不算出轨"；餐厅劫案开枪前，先花了五分钟争论"正义"的定义。这种"废话哲学"让暴力有了幽默感，让幽默有了危险感。

🕺名场面密度极高：扭舞大赛、肾上腺素针扎胸口、金表的故事、餐厅抢劫——每一幕都可以单独拎出来当短片看，但拼在一起又产生了化学反应。约翰·特拉沃尔塔和乌玛·瑟曼的那支舞，直接让特拉沃尔塔的演艺生涯起死回生。

为什么值得一看

这是影史上最酷的电影，没有之一。它证明了类型片的规则可以被彻底打碎再重新粘合，而观众不仅跟得上，还乐此不疲。对做芯片的人来说特别对味——它就是一部"时序逻辑"的杰作：事件的因果关系没变，只是发射顺序被重新调度了。154分钟，永远猜不到下一秒会发生什么。

主题序列延伸："……→真实与觉醒→偶然与命运"

⚡ 冷知识：昆汀写剧本时没钱，把金表那段独白卖给了罗伯特·罗德里格兹换拍摄经费。罗德里格兹拍了《杀人三步曲》，然后拿着昆汀给他的导演报酬反过来投资了这部片。

历史上的今天

1990年5月20日 —— 哈勃太空望远镜传回首批照片

1990年4月24日，哈勃太空望远镜由"发现号"航天飞机送入轨道，人类首次拥有不受大气干扰的太空"眼睛"。5月20日，它传回了首批照片——科学家们打开图像的那一刻，心凉了半截：照片是模糊的。

调查结果令人难以置信：这块造价1.5亿美元的主镜，外缘比设计要求偏平了约2.2微米。原因追溯到一个名为"零位校正器"的检测设备——其中一片透镜的间距偏差了仅仅1.3毫米。就是这个肉眼几乎看不出来的一点点误差，让整台望远镜患上了"近视"。

NASA遭遇了有史以来最大的公关灾难，媒体将哈勃戏称为"科技火鸡"。然而工程师们没有放弃——他们设计了一套精巧的光学补偿方案，给望远镜"戴眼镜"：新相机 WFPC2 内置修正镜片，加上一个名为 COSTAR 的矫正装置。1993年12月，七名宇航员搭乘奋进号执行修复任务，经过五次太空行走，哈勃重获新生。

修复后的哈勃拍下了"创生之柱"等传世影像，累计完成超过150万次观测，帮助科学家获得诺贝尔奖，超期服役至今。一场由1.3毫米引发的危机，最终写成了人类航天史上最精彩的逆袭故事。

每日一个为什么

闪电为什么总是"之"字形走位，不能走直线吗？

想象一下，你在伸手不见五指的黑夜里找路——你会走直线吗？闪电也差不多。

当雷暴云积累了上亿伏特的电荷，它急着把电"倒"向地面。但大气并不是均匀的——不同高度、不同区域的空气温度、湿度、密度各不相同，导电能力也天差地别。电要想通过空气，就必须先把空气"击穿"，变成导电的等离子体通道。这就像在密林中开路，遇到好走的地方就往前冲，遇到阻力大的地方就拐弯绕行。

具体过程很壮观：云层先向下发出一条肉眼几乎看不见的**"梯级先导"**，以大约 200 公里/秒的速度一阶一阶地试探着前进。每前进约 50 米，它就停顿一下，重新寻找电阻最低的方向。这个"走走停停、左拐右拐"的过程，就形成了闪电那经典的锯齿形状。

同时，先导通道还会分叉——就像树根一样向多个方向试探。最终，其中一条通道率先"接通"地面，瞬间爆发出耀眼的回击，这就是我们看到的那条明亮的闪电。

所以闪电不是"故意"不走直线，它只是在疯狂寻找电阻最小的路。毕竟，电压上亿伏，每一米的阻力差异都会影响路径选择。下次打闪电时你可以跟朋友说：这不是之字形，这是"大自然的贪心算法"在找最优解。

关注AI模界，带你了解更多！