AI播报—菲尔兹大佬实测AI碾压

🔥 AI HOT · 日报 2026 年 5 月 12 日星期二 · 北京时间

今日 AI 行业聚焦模型迭代、智能体落地、基建竞争、资本动态与学术突破，国产模型与国际巨头同步推进，AI 从 “跑分竞赛” 转向产业深度落地，小模型调控大模型、AI 攻克顶级数学难题等新进展凸显技术跃迁。

一、大模型密集发布，聚焦智能体与复杂推理

国内：商汤 SenseNova U1 登陆 ComfyUI，8 步极速推理；腾讯混元 Hy3 预览版发布，256K 上下文 + 混合专家架构，专攻复杂智能体任务；AntLingAGI 发布万亿参数思考模型 Ring-2.6-1T，限时免费。
国际：Anthropic 开源金融 AI 全栈模板并在 AWS 上线 Claude 平台；OpenAI 成立 DeployCo 主攻企业 AI 落地；Pareto Code 以市场数据重构模型选择，DeepSeek V4 Pro 居首。

二、多模态与工具生态加速落地，降低创作门槛

图像 / 视频：HappyHorse AI 视频引擎登陆阿里云，支持 1080p 唇形同步；Luma Agents 实现从情绪板到广告的全流程自动化；GPT-Image-2 结构化提示词框架提升生图质量。
效率工具：Claude Code 更新 Agent 视图与多任务管理；开源 PPT 工具新增瑞士风格与 AI 配图；AI 批量生成知识产权申请材料引发行业讨论。

三、AI 基建与资本热度飙升，国家队入局

基础设施：中国移动上线 MoMA 模型中转平台，接入 300 + 模型，被视为 AGI 时代 “智能电网”。
资本动态：AI 芯片企业 Cerebras IPO 获 20 + 倍超额认购；Cognition AI 估值 250 亿美元，Devin 年化营收 4.45 亿美元。

四、技术新发现与学术突破，暴露现存短板

小模型控大模型：7B 模型经强化学习可高效指挥 GPT-5 等前沿模型，推理成本显著降低。
学术里程碑：菲尔兹奖得主实测 AI 17 分钟解决加法数论公开难题，达博士论文水平。
现存短板：SocialReasoning Bench 显示模型执行能力强但价值对齐不足，难以持续优化用户利益；Apple 提出 BalCapRL 框架解决图像描述幻觉问题。

五、行业趋势

智能体成核心战场：模型竞争从参数 / 基准转向现实任务有效性，快慢思维、多步执行成标配。
AI 基建竞争白热化：模型中转站、算力网络成新赛道，国家队与科技巨头同台竞技。
技术普惠与风险并存：AI 大幅降低创作与科研门槛，但知识产权、价值对齐、安全合规等问题亟待解决。

1. SenseNova U1图像生成模型登陆ComfyUI平台

商汤SenseNova U1 图像生成模型已在 ComfyUI 上可运行，支持 8 步快速推理，速度极快。REBEL AI 发布的实践教程展示了部署工作流，场景覆盖人像、超现实艺术、文字标志和生物设计等，相关资源已在 Hugging Face、GitHub 开放。

https://github.com/OpenSenseNova/SenseNova-U1

2. AntLingAGI 发布万亿参数模型 Ring-2.6-1T

AntLingAGI 推出旗舰"思考模型" Ring-2.6-1T，5月15日前可通过 OpenRouter 免费使用。核心特性包括可调节思考强度、适合高频智能体工作流的多步执行，以及深度思考能力用于数学逻辑和科学研究任务。

3. 腾讯混元 Hy3 预览版发布，专注复杂智能体任务

腾讯混元 Hy3 预览版开放早期体验，被称为该系列最强模型，核心设计面向现实有效性而非基准测试。采用 256K 上下文长度，融合快慢思维机制的混合专家架构，基于重建的预训练和强化学习基础设施构建。

4.Anthropic 开源金融 AI 全栈模板，定义行业落地新标准

Anthropic 在 GitHub 开源金融服务 AI 解决方案完整模板库，包含 10 个端到端智能体、7 个垂直行业插件及 11 家金融数据商 MCP 连接器，覆盖投研、投行、风控核心工作流，支持 Microsoft 365 及私有云部署。

5.帕累托代码以市场需求重塑模型选择

Pareto Code 是利用真实市场需求观察帕累托前沿的新方法，由 OpenRouter 发布。当前排行中 DeepSeek V4 Pro 占据首位，其次是 GPT 5.4 Mini 和 Gemini 3.1 Pro，为用户提供基于实际使用数据的模型选择参考。

6.Luma Agents：从情绪板到完整广告的自动化创作

Luma Agents 可将参考素材从情绪板自动转化为完整广告。用户只需上传参考素材并设定方向，系统即可自动完成从创意板到成片广告的全流程内容生产，极大降低视频广告制作门槛。

7.Claude Code v2.1.139 版本更新

新增 Agent 视图（集中管理会话）、/goal 命令、/scroll-speed 命令，MCP 服务器可获取 CLAUDE_PROJECT_DIR 变量，/context all 的令牌估算会考虑模型分词器，同时修复了超过 20 项问题。

8.HappyHorse AI 视频引擎登陆阿里云

HappyHorse AI 视频引擎正式上线阿里云 Model Studio，提供原生 1080p 唇形同步和复杂物理交互能力，已通过资产审核，面向生产就绪内容，是面向企业的高精度 AI 视频生成方案。

9.Claude Code 发布多任务管理工具 Agent View

Claude Code 推出 Agent View，将所有会话集中在一个界面管理，用户可直观查看各 Agent 状态（工作中/等待输入/已完成），快速切换或接管任务，实现类似"AI 多任务调度中心"的高效管理体验。

10.中国移动上线 AI 模型中转平台 MoMA，国家队入局 AI 基础设施竞争

中国移动推出 AI 模型中转平台 MoMA，已接入 DeepSeek、通义千问等 300 多个主流模型，并获央视新闻宣传。AI 中转站被视为未来 AGI 时代的"智能电网"，标志着行业竞争升至基础设施层面。

11.Anthropic 在 AWS 上正式推出 Claude 平台

Anthropic 在 AWS 正式推出 Claude 平台，为 AWS 客户提供完整 Claude API 功能，包含托管智能体、代码执行、文件 API 等。与 Amazon Bedrock 不同，该平台由 Anthropic 直接运营，数据在 AWS 边界外处理。

12.OpenAI 推出 DeployCo 以协助企业围绕智能构建业务

OpenAI 正式推出企业部署公司 DeployCo，帮助组织将前沿 AI 技术投入生产并转化为可衡量的商业影响。此举标志着 OpenAI 进一步深入企业服务领域，专注解决模型从测试到规模化部署的落地挑战。

13.AI 芯片企业 Cerebras IPO 获 20+ 倍超额认购，拟上调发行价近三成

Cerebras IPO 获超 20 倍超额认购，有望成为 2026 年以来全球最大 IPO。发行价区间从 115-125 美元上调至 150-160 美元，最高可筹资 48 亿美元。已获亚马逊和 OpenAI 大额订单。

14.微软 CEO 纳德拉在马斯克诉 OpenAI 案中作证，出示马斯克 2016 年感谢邮件，证明其当时完全支持微软与 OpenAI 合作。纳德拉还将 2023 年 OpenAI 董事会解雇奥尔特曼称为"业余之举"。

15.Anthropic 估值五日激增 2000 亿美元，营收呈指数级增长

Anthropic 市场隐含估值五天内从 1.2 万亿跃升至 1.4 万亿美元，年化收入从 2023 年 1 亿美元飙升至当前 450 亿美元，12 个月内增长 1400%。链上 Pre-IPO 交易正实时反映市场对其 IPO 的估值预期。

16.旧金山 AI 模型开发者盛会本周三举行

本周三（5月13日）在旧金山与 Vercel、Anthropic 和 Kimi Moonshot 联合举办美国下一代模型盛会，每位参与者可获 $30 MiniMax API 积分，太平洋时间下午 5:30 开始，设有大奖池。

17.MiniMax 组建"10x 团队"，邀领域专家共推 AI 跨越式发展

MiniMax 宣布成立"10x 团队"，邀请顶尖领域专家直接参与模型研发、问题定义和评估构建。提供全球竞争力薪酬、股权及上海、北京、香港、旧金山、伦敦多地办公选择，目标实现"智能普及"。

18.7B 小模型通过强化学习，成功指挥 GPT-5 等前沿大模型

新研究证明，一个 7B 语言模型通过强化学习训练可有效指挥 GPT-5、Claude Sonnet 4 和 Gemini 2.5 Pro。在 GPQA Diamond、LiveCodeBench 等基准上全面超越单个前沿模型，平均每题仅调用约 3 次大模型。

19. SocialReasoning Bench：智能体执行能力强但优化用户立场不足

SocialReasoning Bench 测试发现，各模型呈现稳定模式——智能体能胜任执行任务，但即便在明确要求优化用户利益的指令下，仍无法持续改善用户处境，揭示了当前模型在价值对齐上的系统性不足。

20.BalCapRL：基于强化学习的 MLLM 图像描述平衡框架

Apple 研究团队提出 BalCapRL 框架，通过多维度奖励函数系统解决多模态大语言模型图像描述任务中的幻觉、噪声和冗长问题，在多个基准测试中实现更均衡的性能，突破了传统方法的权衡局限。

21.在脚本的 shebang 行中使用 LLM

介绍将 LLM 工具直接嵌入脚本 shebang 行的创新方法。通过 LLM 的 fragments 模式，shebang 行可执行生成 SVG、调用外部工具创作俳句、运行 YAML 模板进行数学计算等多样化任务，展现 LLM 作为脚本解释器的扩展性。

22.开源 PPT 工具"鬼藏PPT技能"重大更新，新增瑞士风格与 AI 配图功能

新增瑞士国际主义视觉风格（克莱因蓝等四套主题色），通过接入 GPT-Image 2.0 可根据内容自动生成胶片质感配图，并支持一键生成公众号、小红书、视频号等多种规格封面图，预设 22 种版式。

23.AI 工具批量生成知识产权申请材料引关注

有人利用 AI Skill 批量生成发明专利和软著申请材料，对应开源项目已发布。设计专利和实用新型门槛更低，可通过 Claude Design 和 image2 生成。此现象引发对 AI 冲击知识产权申请体系的广泛讨论。

24.人机交互界面的演进：从文本到交互式神经视频

Karpathy 认为 AI 输出界面正从 Markdown 向更丰富的 HTML 格式演进，长远目标是由扩散神经网络直接生成交互式神经视频。输入侧需整合手势等自然交互方式，现阶段建议尝试让 LLM 以 HTML 格式输出。

组合多模态能力：文本→HTML→图片→短视频，逐步升级视觉化程度；

25.GPT-Image-2 生图入门：结构化提示词框架拆解

提升 AI 生图质量的结构化提示词框架：依次定义画幅与用途、主题与主体、视觉隐喻、画面风格（如 Apple 风格）、文字系统（主副标题、关键词），并列明应避免的限制元素。"结构越清晰，输出质量越好"。

【画幅比例+用途】，【主体人物/场景+动作】，【氛围情绪】，【艺术风格】，【光影色调】，细节精致、高清8K、极致质感，避免：低分辨率、模糊、畸形脸、多余手脚、水印、杂乱元素、文字错乱

26.菲尔兹奖得主亲测：AI 17 分钟出论文级成果，对博士生拉响红色警报

菲尔兹奖得主 Timothy Gowers 测试 ChatGPT 5.5 Pro，AI 17 分钟内独立解决加法数论公开难题，达博士论文水平。Gowers 警告这将很快对数学研究领域构成危机，呼吁数学系紧急帮助学生寻找新出路。

[1]https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/[2]https://x.com/wtgowers/status/2052830948685676605[3]https://mathstodon.xyz/@tao/116551624228986501

27.Cognition AI 总部"Cog House"首度公开：Scott Wu 与 Devin 的崛起之路

Cognition AI 总部首次公开内部影像。创始人 Scott Wu 三获信息学奥赛金牌，2023 年 11 月创立 Cognition。AI 软件工程师 Devin 上线 18 个月即实现 4.45 亿美元年化营收，客户包括美国陆军、高盛，估值约 250 亿美元。

28.3.3 万星 AI 论文学习库，收录精选视频教程

GitHub 上获得 3.3 万星的 AI 论文学习资源库，系统收录了 YouTube 和 Bilibili 上的高质量 AI 学习视频，包括李沐论文精讲系列，按时间和主题详细分类，为学习者提供结构化视频学习路径。

https://github.com/mli/paper-reading