AI大模型周报|第21周
报告周期:2026年5月19日 - 5月25日信息来源:B站 @Akinokoe AI大模型周报(5月d)、@IT咖啡馆 GitHub一周热点(115期)
一、产品与服务
1. Google I/O 2026 — Gemini 3.5、Spark、Omni 全面发布
Google 发布 Gemini 3.5 Flash,首次将前沿智能与极速推理结合 Gemini Spark:24/7个人AI代理,设备关闭后仍独立运行,自动协调Workspace工作流 Gemini Omni:创意引擎,文本/图片/视频输入输出电影级视频,对话式编辑+数字化身 Google AI Ultra Plan:250美元/月高级会员,优先访问Omni和Spark Beta 出处 [1]
2. Qwen3.7-Max — 阿里推理代理模型
100万 token 上下文窗口,可加载整个中型代码库 原生函数调用+多步规划,内部测试自主执行超1000次工具调用 Artificial Analysis 智能指数56.6分排名第五 扩展思维模式:生成内部推理链后再输出结果 出处 [2]
3. Qwen3.5-LiveTranslate — 实时多模态同传
60种语言输入、29种语言语音输出,延迟仅2.8秒 视觉增强理解:口型、手势、屏幕文字辅助翻译 实时声学克隆:一句样本复制说话人音色 支持运行时注入领域术语表,流式输出无需等完整句子 出处 [3]
4. OpenAI 个人理财 — ChatGPT连接银行
ChatGPT Pro(美国)通过Plaid连接12000+金融机构 消费摘要、账单追踪、长期预算建议,输入@Finances即用 可随时断开,自动删除数据 出处 [4]
5. OpenAI × 马耳他 — 全国ChatGPT Plus
为全体马耳他公民提供一年免费ChatGPT Plus 首个国家层面AI助手全民覆盖计划 出处 [5]
6. Cursor Composer 2.5 — 编码代理升级
基于Kimi K2.5的MoE模型,编码代理指数排名第三 单次请求成本约7美分,成为Cursor 3.4默认引擎 出处 [6]
7. Manus Scheduled Tasks 2.0 — 定时任务自动化
带历史上下文的循环工作流,非简单定时触发 自动嵌入Web应用,日历视图追踪执行状态 出处 [7]
8. QoderWork 设计工作台 — 语音驱动AI设计
语音输入驱动,无限画布生成可运行可交付设计产物 "设计即代码"架构,设计师与工程师共享源文件 出处 [8]
9. 腾讯 Ardot — AI智能设计工具
文生UI、图片转设计稿、矢量编辑、动态布局 自然语言描述界面需求,自动生成设计稿 出处 [9]
10. Shopify UCP — 通用商业协议
与Google联合发布,AI代理可连接并交易任何商家 模块化+去中心化命名空间,灵活支付双向议价 出处 [10]
二、技术研究与开源项目
11. OpenAI 证伪 Erdős 单位距离猜想
通用模型证伪80年历史的离散几何猜想 AI辅助数学发现的重大突破 出处 [11]
12. NVIDIA SANA-WM — 分钟级世界模型
2.6B参数,单GPU生成分钟级720p视频 36倍吞吐量优势,混合线性注意力+Gated DeltaNet 出处 [12]
13. Cohere Command A+ — 开源企业级模型
Apache 2.0开源,MoE 218B总参/25B激活 48种语言,128K上下文,支持本地部署 出处 [13]
14. Chronicles-OCR — 跨时代汉字识别基准
首个全面评估VLLM处理汉字演变轨迹的基准 覆盖七大书体,四项任务:跨时期检测、古文识别、文本解析、书体分类 出处 [14]
15. OpenHuman — 桌面AI超级助理
开源,118+第三方集成,一键OAuth连接 本地知识库,每20分钟自动同步,可加入Google Meet 出处 [15]
16. CLI-Anything — 软件转AI可用的CLI
港大HKUDS开发,全自动7阶段流水线 分析源码映射GUI/API为命令,支持Claude Code等代理平台 出处 [16]
17. LingBot-Map — 流式3D重建模型
前馈式3D基础模型,稳定20FPS推理超10000帧 几何上下文Transformer,分页KV缓存注意力 出处 [17]
三、行业动态
18. Anthropic 收购 Stainless
收购SDK工具公司,估值超3亿美元 Stainless被OpenAI/Google/Cloudflare使用,收购后仅限Anthropic 掐住SDK生态咽喉的战略性收购 出处 [18]
19. Karpathy 加入 Anthropic
OpenAI联合创始人加入Anthropic预训练团队 建立新预训练部门,用Claude加速预训练研究 标志从大规模算力扩展向机器辅助发现的转型 出处 [19]
20. Anthropic 创始人手册
发布《The Founder's Playbook: Building an AI-Native Startup》 重新映射创业生命周期:Idea / MVP / Launch / Scale 出处 [20]
本周趋势总结
- Google I/O定义代理化AI元年
:Gemini 3.5/Spark/Omni三连击,从24/7代理到电影级创作,覆盖消费端到创意端 - 阿里双模型出击自主代理
:Qwen3.7-Max百万token+千次工具调用指向长期自主代理,LiveTranslate以2.8秒延迟重定义同传 - Anthropic基础设施+技术前沿双线作战
:收购Stainless锁SDK生态,引入Karpathy攻预训练研究 - Agent工具链持续深化
:Cursor 2.5降成本、Manus 2.0加上下文、CLI-Anything打通软件代理化 - AI设计工具爆发
:QoderWork、Ardot、Gemini Omni三路并行,自然语言到设计产出的路径趋近成熟
参考链接
[1] https://blog.google/innovation-and-ai/sundar-pichai-io-2026[2] https://qwen.ai/blog?id=qwen3.7[3] https://qwen.ai/blog?id=qwen3.5-livetranslate[4] https://openai.com/index/personal-finance-chatgpt[5] https://openai.com/index/malta-chatgpt-plus-partnership[6] https://cursor.com/cn/blog/composer-2-5[7] https://manus.im/zh-tw/blog/manus-schedules[8] https://qoder.com/en/qoderwork[9] https://ardot.tencent.com[10] https://shopify.dev/docs/agents[11] https://openai.com/index/model-disproves-discrete-geometry-conjecture[12] https://nvlabs.github.io/Sana/WM[13] https://cohere.com/blog/command-a-plus[14] https://github.com/VirtualLUOUCAS/Chronicles-OCR[15] https://github.com/tinyhumansai/openhuman[16] https://github.com/HKUDS/CLI-Anything[17] https://github.com/Robbyant/lingbot-map[18] https://www.anthropic.com/news/anthropic-acquires-stainless[19] https://x.com/karpathy/status/2056753169888334312[20] https://claude.com/blog/the-founders-playbook
夜雨聆风