💡 AI HOT 精选日报 · 2026-05-15 · 共 29 条
模型发布/更新
1.SenseNova U1技术报告发布,基于MoE架构开放模型权重 — X:商汤 SenseTime (@SenseTime_AI)
商汤联合创始人李沐带队公开了 SenseNova U1 技术报告,详细拆解了架构设计与训练方案。同步放出的还有基于 MoE 架构的新权重,透明度拉满,社区可以直接复现和进一步改进。
2.Granite Embedding Multilingual R2:开源多语言嵌入模型,具备32K上下文与领先检索性能 — Hugging Face:Blog(RSS)
IBM Granite 在 Hugging Face 上架了 Granite Embedding Multilingual R2,Apache 2.0 协议,上下文拉到 32K,参数量不到 1 亿。MTEB 检索评测里同规模最强,多语言混合检索是它的拿手好戏。
3.inclusionAI/Ring-2.6-1T — 蚂蚁 inclusionAI:HuggingFace 新模型
inclusionAI 新出的 Ring-2.6-1T。Claw-Eval 跑了两项:通用能力 58.4 分,多轮对话 86.8 分,数据都已经挂上排行榜。
4.Kimi K2.6登顶金融智能体基准榜首 — X:Kimi.ai (@Kimi_Moonshot)
Kimi K2.6 拿下 Finance Agent Benchmark V2 开源权重第一。ValsAI 提了个问题:AI 到底能不能干金融分析师的活?
产品发布/更新
5.Kimi推出网页桥接扩展 支持多平台交互 — X:Kimi.ai (@Kimi_Moonshot)
Kimi 出了个浏览器扩展叫"网页桥接",装上之后 AI 能像人一样搜东西、滚动页面、点按钮、填表单。兼容 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes。已上架
6.随时随地使用 Codex — OpenAI:官网动态(RSS · 排除企业/客户案例)
ChatGPT 移动端现在也能调 Codex 了,出门在外可以远程盯着代码任务跑,随时审批或者给指令。
7.OpenCode与Qwen 3.6 Plus再度免费开放 — X:opencode (@opencode)
OpenCode 又把 Qwen 3.6 Plus 放出来免费用了。上次被薅到服务器撑不住,这回搞了更多 GPU,第二轮走起。
8.Codex推出自动化钩子与程序化令牌 — X:OpenAI Developers (@OpenAIDevs)
Codex 这次加了”钩子”功能,能在关键节点自动跑脚本——检查代码质量、扫密钥、记对话日志,按仓库定制行为。企业版还多了”程序化访问令牌”,可以设过期时间,关联到 CI/CD 和内部自动化流程。
9.Luma Agents高效生成电商素材全流程 — X:Luma AI (@LumaLabsAI)
Luma Agents 现在能一条龙搞定电商素材:定需求、选风格,后面全自动出图出素材,不再需要人力一张张调。
10.SuperGrok Heavy限时六折,Grok Build开放测试 — X:cb_doge (@cb_doge)
SuperGrok Heavy 半年订阅打六折左右,每月 99 美元(原价 300)。顺便 Grok Build 测试版也开了。
11.xAI 推出 Grok Build 早期测试版 — xAI:News(网页)
xAI 向 SuperGrok Heavy 订阅用户开放了 Grok Build 早期测试版。这是个跑在终端里的编程智能体,支持”计划模式”——执行前能审阅修改步骤——还能把大任务拆给多个子智能体并行处理,也提供无头模式给自动化脚本用。
12.开源工具html-anything助力Agent生成高质量HTML — X:小互 (@xiaohu)
一个叫 html-anything 的开源项目火了:能让 AI Agent 把任何数据转成设计级 HTML。三天写了约一万五千行,支持 75 套 Skills、9 种导出格式,兼容 Claude Code、Codex、OpenClaw、Hermes。
行业动态
13.Anthropic与盖茨基金会达成2亿美元合作,聚焦全球健康与教育 — Anthropic:Newsroom(网页)
Anthropic 跟盖茨基金会签了四年 2 亿美元的约,提供的不仅仅是钱,还有 Claude 的额度和技术支持。重点搞三件事:用 AI 加速疫苗研发、给中低收入国家做公卫数据集、为 K-12 学生开发教学工具。首批成果预计今年晚些时候出来。
14.OpenEvidence覆盖65%美国医生,shadow AI模式引关注 — X:小北 (@frxiaobei)
OpenEvidence 已经覆盖了 65% 的美国医生,4 月临床场景用了 2700 万次,平均每个医生每月打开 41 次。有意思的是,很多医生是拿执业编号自己在手机上注册的,医院一开始压根不知道。Mount Sinai 的 AI 负责人管这叫 shadow AI。后来医院才追着签了企业合同。
15.OpenAI遭集体诉讼,被指通过追踪代码向Meta等泄露用户查询隐私 — X:阿易 AI Notes (@AYi_AInotes)
OpenAI 在加州被告了。诉状说 ChatGPT 网站嵌了 Facebook Pixel,用户问什么,Meta 那边实时就能知道——查询内容通过浏览器标题和 Facebook ID 的 cookies 一块儿传过去了。OpenAI 辩称只发了”有限标识符”用于广告,但原告认为你问的问题本身就很敏感。讽刺的是,不少人当初用 ChatGPT 就是为了躲追踪。
16.百度推进智能体布局,以日活为关键指标 — X:百度 Baidu (@Baidu_Inc)
百度在推智能体战略,提出用"日活跃智能体"作为核心衡量指标。
17.AI 热潮引发民怨:七成美国民众反对家门口建数据中心 — IT之家(RSS)
盖洛普调查:七成美国人不允许自家附近建数据中心。这个反对率比去年高了一大截,甚至比核电站还招人烦。全美 69 个辖区已经出了暂停令,数据中心推高电价、耗水耗电的问题越来越压不住。白宫虽然喊话让 AI 企业出配套成本,但没啥约束力。
18.MiMo V2.5 Pro 获设计竞技场季军 — X:小米 MiMo (@XiaomiMiMo)
小米的 MiMo V2.5 Pro 在 DesignArena 拿了第三,比前代 V2.5 一口气升了 8 个名次。前端编码能力跟 Claude Sonnet 4.6 打平了。
19.Runway进军日本市场,投资4000万美元开设东京办公室 — X:Runway (@runwayml)
Runway 正式杀入日本,在东京设了办公室,先投 4000 万美元。日本已经是 Runway 第三大市场,过去一年企业客户翻了三倍。Yamaha、NHN、SoftBank 都在用他们的 AI 做营销和创意内容。
论文研究
20.NousResearch推出Token Superposition Training技术,显著加速大语言模型预训练 — X:硅基流动 SiliconFlow (@SiliconFlowAI)
NousResearch 搞了个 Token Superposition Training(TST),不改架构、不改优化器、不动分词器,就能把预训练时间压缩到原来的 1/2 到 1/3。做法也挺巧妙:前三分之一训练让模型一次读多个 token、预测下一个 token包,后面再切回标准方式。推理时产出的模型跟传统预训练一模一样。在 270M 到 3B 的密集模型和 MoE 上都试过了。
21.教视觉-语言模型说“电影语言” — CMU:Machine Learning Blog
CMU 团队跟一百多位专业创作者花了一年时间,做了一套视频描述生成流程。入选 CVPR 2026 亮点。核心发现:现在主流视频生成模型拍不出”电影感”——什么希区柯克变焦、焦点转移、荷兰角,出来的东西要么太通用要么焦点不对。他们的思路不是堆模型规模,而是让人类和 AI 协同标注质量更高的训练数据。
技巧与观点
22.微信群聊总结Skill新增,依赖wx-cli配置 — X:宝玉 (@dotey)
baoyu-skills 新加了一个微信群聊总结 Skill,依赖 wx-cli 做数据读取。Claude Code + Opus 4.6 效果最好。
23.UnslothAI发布Qwen3.6 MTP GGUF模型,实现推理速度大幅提升 — X:Berry Xia (@berryxia)
UnslothAI 的 Daniel Han 放出了实验性的 Qwen3.6 MTP GGUF 模型。27B 版单 GPU 能跑到 140 token/s,35B-A3B 版更是飙到 220 token/s,比原版 GGUF 快了 1.4 倍还精度无损。关键是把 draft tokens 设为 2。消费级显卡跑大模型越来越香了。
24.克劳德代码与《代码书》技能:有针对性的技能培养 — Hacker News 热门(buzzing.cc 中文翻译)
Hacker News 上有个叫”克劳德代码与《代码书》技能”的项目挺火(104 点热度)。核心思路是用 AI 生成针对性代码示例,把泛泛的学习变成可重复的刻意练习。
25.创始人手册:构建AI原生初创公司 — Claude:Blog(网页)
Anthropic 发了一份面向 AI 原生初创公司的实操手册,覆盖从 idea 到 MVP 再到规模化的全流程。每个阶段都给了具体目标、退出标准、踩坑清单。还讲了怎么用 Claude 做客户验证、怎么躲 AI 代码的技术债、怎么分辨真实 PMF 和早期炒作。
26.“让 Token 消耗降低 61%”:腾讯开源 Agent Memory — IT之家(RSS)
腾讯云把 TencentDB Agent Memory 开源了,专门解决 Agent 长任务的上下文爆炸和 Token 成本。方案是两个核心:把完整信息”卸”到外部存着、用 Mermaid 任务图保留关键状态。实验数据显示多任务连续会话能省最高 61% 的 Token。适配了 OpenClaw,支持 SQLite 本地存储。
27.在大型代码库中高效运用Claude Code:最佳实践与入门指南 — Claude:Blog(网页)
Claude Code 官方发了一篇最佳实践,讲怎么在几百万行的单体仓库和分布式架构里用好它。核心架构是五个扩展点:CLAUDE.md 文件做概览、钩子做持续改进、技能按需加载、插件和 MCP 服务器。直接在本地代码库上搜索,不用搞 RAG 索引——因为活跃大型代码库里索引永远是过时的。
28.开源项目OpenSquilla:智能路由与本地检索,大幅降低LLM使用成本 — X:Vista (@vista8)
OpenSquilla 是个有意思的开源项目:给 LLM 配了个"智能路由",简单问题走便宜模型,难的就交给强模型,路由判断在本地做不花 Token。再加本地向量检索,增量发送加缓存命中,实际传输的 Token 能省 90% 以上。记忆系统还能在上下文快满的时候自动压缩关键信息。
29.Moonshot AI创始人杨植麟最近放出了一个40分钟视频 — X:Berry Xia (@berryxia)
杨植麟发了一个 40 分钟视频,拆解 Kimi K2 的训练过程。只花了 460 万美元就在编程基准上打赢了 GPT-5.5。靠的是极致优化和线性注意力之类的架构创新,证明了小团队靠聪明设计也能抹平资源差距。
📬 每日 AI 资讯精选 · 数据来源 [AI HOT](https://aihot.virxact.com)
夜雨聆风