AI 资讯日报 2026-05-13 蚂蚁·安诊儿医疗大模型:6.1B 激活即登顶三大医疗榜单,魔搭在线体验已开放.

2026年5月13日星期三 · 共 51 条 AI 资讯

今日摘要

1. Google推出Gemini Intelligence，为安卓设备引入主动AI能力

2. Jina AI发布通用嵌入模型v5-omni，支持多模态混合检索

3. Perceptron发布Mk1模型，专注视频理解与具身推理

4. GitHub更新Copilot计费模式，引入弹性配额与Max计划

5. Xiaomi MiMo发布API适配说明，要求回传reasoning_content字段

6. 供应链攻击“Mini Shai-Hulud”爆发，波及Mistral AI等超160个包

7. Hermes Agent 推出 macOS 后台 Computer Use 功能

8. StepFun 宣布 Step 3.5 Flash 在 Nous Portal 免费开放15天

9. Google DeepMind 推出由 Gemini 驱动的 AI 指针实验原型

10. 豆包输入法 Mac 版上线，支持免费 AI 语音输入

11. 智谱清言上线 AgentMore AI 群聊功能

12. DuckDB发布Quack协议与DuckLake，支持跨端远程查询

13. Meta完成数据摄取系统升级，保障大模型训练数据底座

14. Claude Opus 4.7 快速模式以研究预览形式上线

15. 宇树科技发布GD01载人机甲，定价390万元

16. AWS云平台集成Claude模型，支持免密钥调用

17. Google发布ADK指南，演示如何构建长期运行的AI Agent

18. curl作者质疑Anthropic的Mythos模型宣传存在夸大

19. Shopify数据：AI引荐流量转化率较自然搜索高出近50%

20. Qwen-Image-2.0技术报告发布，统一生成与编辑能力

产品与功能更新

1 Meta完成数据摄取系统升级，保障大模型训练数据底座

技术Meta数据系统大模型训练自动化运维影子测试

Meta宣布成功完成其数据摄取系统的升级与迁移。通过影子测试确保了迁移过程零误差，并利用自动化工具监控调度了上万个任务资源。此次升级为大规模AI模型训练提供了更坚实的数据基础设施。

📌 解读

Meta升级数据摄取系统，其商业逻辑是为下一代更大规模、更复杂的AI模型训练构建无可挑剔的数据供应链。这属于典型的“重仓基础设施”策略，通过确保海量训练数据注入的可靠性、效率和可监控性，从根本上提升模型迭代速度和实验自由度。一个关键细节是“影子测试”和自动化监控上万任务，这揭示了超大规模AI工程化已进入“高精度、全自动化运维”阶段，数据系统的稳健性已成为模型竞争力的隐形基石。

💡 启示

谁应该关注：AI基础设施部门、数据工程部门，超大规模模型训练的数据准备与管道管理
格局变化：AI竞赛的底层焦点从算法创新扩展到数据工程与基础设施的极致优化。
机会窗口：为企业级AI训练构建类似的高可靠、自动化数据流水线。
行动建议：审视自身数据管道在规模、可靠性和自动化方面的短板。

2 Claude Opus 4.7 快速模式以研究预览形式上线

大模型Claude OpusAPICursor研究预览快速模式

Claude 宣布，Claude Opus 4.7 的快速模式已以研究预览形式在 API 和 Claude Code 中开放。该模式速度为标准版的 2.5 倍，成本则为 6 倍。Claude Code 用户今日起可选择启用，周四起将自动成为默认模型。该模式同期也在 Cursor、Emergent Labs 等六款第三方工具的研究预览中可用。API 用户需加入候补名单方可使用。

📌 解读

Anthropic推出Claude Opus快速模式，其战略意图是在高端模型市场提供“速度溢价”选项，满足对延迟极度敏感的特定场景（如实时编码、交互式分析），从而拓宽模型的应用边界和收入来源。将成本设为标准版6倍是精明的定价策略，旨在区隔需求，避免侵蚀标准版市场，同时测试市场对极致性能的支付意愿。容易被忽略的是其优先通过Cursor等开发者工具落地，这表明其推广策略是“通过影响核心开发者来辐射更广市场”，而非直接面向所有API用户。

💡 启示

谁应该关注：研发部门、战略部门，对AI响应速度有极致要求的实时交互应用
格局变化：大模型市场出现按“速度-成本-能力”多维细分的产品矩阵。
机会窗口：在金融交易、实时创意等场景集成高速模型创造新体验。
行动建议：评估关键业务场景是否值得为6倍成本换取2.5倍速度。

3 Xiaomi MiMo发布API适配说明，要求回传reasoning_content字段

大模型Xiaomi MiMoAPI适配Agent产品多轮对话

Xiaomi MiMo团队发布最新适配说明，要求在Agent产品的多轮对话中，若启用了思考模式且历史会话存在工具调用，开发者必须在后续交互中完整回传assistant消息的reasoning_content字段，否则API将报400错误。官方强调，缺失该字段会导致模型上下文不完整，可能引发指令遵循能力下降和幻觉增多。该要求影响TRAE、Cursor、GitHub Copilot CLI等多个主流框架及MiMo-V2.5系列等多款模型。

📌 解读

小米此举表面是技术规范，实则是为了在Agent多轮复杂交互中强制保持完整的思维链（reasoning_content），以提升工具调用的可靠性和减少幻觉，这反映了其将MiMo定位为高可靠Agent基座，而不仅是聊天模型的战略意图。一个容易被忽略但重要的细节是，该要求影响Cursor、Copilot CLI等主流开发工具，这意味着小米正积极推动其模型深度融入开发者工作流，构建从底层模型到上层应用的生态控制力。

💡 启示

谁应该关注：AI平台部门、开发者生态部门，基于大模型构建复杂多轮对话与工具调用Agent
格局变化：模型API的交互协议趋于严谨，对开发者规范性要求提高。
机会窗口：遵循规范可优先获得更稳定、可靠的Agent开发体验与支持。
行动建议：立即检查并适配现有Agent应用，确保回传字段符合要求。

4 Perceptron发布Mk1模型，专注视频理解与具身推理

大模型Perceptron AI视频理解具身推理API发布Mk1模型

Perceptron AI发布了专为视频理解和具身推理构建的闭源模型Perceptron Mk1，并已通过其平台和SDK开放API调用。官方称该模型在视频推理能力上匹配Gemini、GPT等前沿模型，支持最高2 FPS的原生视频处理和32K token上下文窗口，具备时间推理、密集计数、复杂OCR及跨摄像头像素级推理能力。其API定价为每百万输入token 0.15美元、输出token 1.50美元，成本低于Gemini Flash Lite。

📌 解读

Perceptron选择在视频与具身推理这一高壁垒、高价值的垂直领域进行闭源突破，其商业逻辑是提供比通用模型巨头更专注、更具性价比的API服务，切入机器人、自动驾驶、安防监控等专业市场。一个容易被忽略的细节是“跨多摄像头的像素级具身推理”，这直指工业质检、仓储物流等需要空间理解和多视角协同的刚需场景，而非简单的视频内容理解。

💡 启示

谁应该关注：自动驾驶部门、机器人部门、AI研究部门，需要时空理解和环境交互的AI决策系统
格局变化：AI模型市场出现垂直化、专业化分工，挑战通用模型的统治力。
机会窗口：以较低成本获取专业级视频理解能力，用于特定行业解决方案。
行动建议：针对具身智能场景，评估Mk1 API与通用模型的性能成本差异。

5 StepFun 宣布 Step 3.5 Flash 在 Nous Portal 免费开放15天

应用StepFunStep 3.5 FlashNous Portal免费试用

StepFun 宣布，其 Step 3.5 Flash 模型目前在 Nous Research 的 Nous Portal 上再次向用户免费开放。官方表示，由于此前10天的免费时间不足，本次特将免费使用期限延长至15天。用户现可直接在平台上体验该模型。

📌 解读

StepFun通过延长免费期，实质是在拥挤的中等规模模型市场中实施激进的用户获取策略。其核心商业逻辑是通过Nous Research的开发者社区门户进行精准投放，以高质量免费体验换取用户反馈、开发者粘性及潜在的企业API调用转化。一个关键细节是“此前10天免费时间不足”，这暗示了模型性能可能获得了社区的积极测试反馈，此次延长既是回应需求，也是进一步收集数据以优化模型的营销手段。

💡 启示

谁应该关注：市场部门、战略部门，评估和选型性价比高的中型AI模型
格局变化：中型模型市场通过“限免”进行用户争夺，加剧了模型即服务的流量竞争。
机会窗口：在免费窗口期内，低成本测试该模型在特定任务上的性能极限。
行动建议：组织技术团队在期限内完成模型评测，形成内部选型报告。

6 Google推出Gemini Intelligence，为安卓设备引入主动AI能力

客户端侧产品GoogleGemini安卓系统AI助手任务自动化

Google在Android Show上宣布推出Gemini Intelligence，旨在通过整合软硬件将Android系统向智能系统演进。该功能套件引入了跨应用多步骤任务自动化、智能表单填写、语音整理及个性化界面生成等多项AI能力。相关功能将于今年夏季开始分批推送，首发支持最新的Samsung Galaxy S26和Google Pixel 10手机，并计划后续扩展至手表、汽车等更多设备。

📌 解读

谷歌此举旨在将AI从被动工具升级为主动智能体，将安卓生态的核心竞争力从应用分发转向系统级的AI服务集成，以此巩固其移动生态护城河并挑战苹果的封闭系统体验。一个关键细节是首发仅限最新旗舰机型，这暗示了其对硬件算力的强依赖，可能加速高端手机市场的AI军备竞赛，同时将大部分中低端存量用户暂时排除在外。

💡 启示

谁应该关注：移动操作系统部门、AI产品部门，移动端AI助手与系统集成开发
格局变化：操作系统竞争从功能集成转向原生AI能力深度整合。
机会窗口：为旗舰安卓设备开发深度集成Gemini Intelligence的原生应用。
行动建议：评估Gemini Intelligence API，规划应用任务自动化功能。

7 宇树科技发布GD01载人机甲，定价390万元

产业 / 商业化宇树科技载人机器人双足机甲产品发布人形机器人

宇树科技正式发布了名为GD01的载人机甲，标志着量产载人机器人进入新阶段。该产品官方定价为390万元人民币。其具备双足行走模式，并配备了科幻风格的座舱操控系统。

📌 解读

宇树科技发布高价载人机甲，其商业逻辑并非立即打开大众消费市场，而是进行顶尖技术展示、树立行业标杆并探索特种应用场景（如高危作业、娱乐体验）。定价390万元和强调“一拳碎墙”的性能，旨在强化其“尖端机器人技术领导者”的品牌形象，吸引投资、合作伙伴及高端B端/G端客户。一个容易被忽略的细节是“科幻座舱操控感”，这揭示了其产品定义不仅追求机能，更注重营造沉浸式人机交互体验，为未来人形机器人的“可驾驶化”和娱乐化应用埋下伏笔。

💡 启示

谁应该关注：战略投资部门、创新事业部，特种作业、高端娱乐或品牌技术营销
格局变化：人形机器人技术从实验室演示向有限商业化、场景化落地迈进。
机会窗口：探索在主题公园、消防救灾等特定场景与机甲技术结合。
行动建议：关注其技术路径和早期应用反馈，研判对人机交互的长期影响。

8 AWS云平台集成Claude模型，支持免密钥调用

应用AWSClaude云平台集成模型部署免密钥调用

亚马逊AWS云平台现已集成Anthropic的Claude模型服务。用户无需注册额外账号或管理密钥，即可通过AWS控制台直接调用该模型。这一集成旨在降低顶级大模型的使用门槛，简化部署流程。

9 DuckDB发布Quack协议与DuckLake，支持跨端远程查询

技术DuckDBQuack协议嵌入式数据库Wasm远程查询

嵌入式数据库DuckDB发布了Quack协议，旨在实现跨端远程查询。该协议配合DuckLake功能，能够有效减少查询开销。同时，其Wasm版本结合HTTP/2协议，显著提升了性能表现。

📌 解读

DuckDB发布Quack协议，核心战略是将轻量级嵌入式数据库的能力“云化”和“网络化”，旨在挑战传统重型数据仓库/湖仓的远程查询场景。它通过Wasm和高效协议降低跨端数据处理的延迟与开销，试图在边缘计算和AI数据预处理领域建立新标准。容易被忽略的是其与“DuckLake”的配合，这暗示其野心不止于查询协议，而是构建一个从本地到云端的轻量级数据栈，直接切入AI数据管道的基础设施层。

💡 启示

谁应该关注：数据平台部门、架构部门，需要高性能、低延迟跨网络数据查询与分析
格局变化：数据处理架构向更轻量、更融合、更靠近计算边缘的方向演进。
机会窗口：在边缘AI、数据密集型应用中采用该协议优化数据链路。
行动建议：技术团队调研Quack协议对现有数据架构的潜在优化价值。

10 Hermes Agent 推出 macOS 后台 Computer Use 功能

应用Hermes AgentComputer UsemacOS后台控制

Nous Research 发布的 Hermes Agent 近日推出 macOS 后台 Computer Use 功能。该功能允许 Agent 在不移动光标或干扰用户操作的情况下，在后台驱动桌面，兼容 Claude、GPT、Gemini 及各类本地开源模型。其通过开源驱动 cua-driver 和苹果私有接口实现，并配备了针对破坏性操作的安全护栏。目前该功能仅限 macOS 平台。

📌 解读

Hermes Agent此举旨在将AI Agent从“对话助手”升级为“隐形操作系统”，通过后台无感控制桌面，实现真正的自动化工作流执行。这模糊了人机交互的边界，让AI能以前所未有的深度融入用户日常工作环境。一个容易被忽略的细节是其兼容各类开源模型，这降低了接入门槛，可能加速形成一个以Hermes为中间件、连接各类模型与实际操作系统的生态，而非锁定单一模型供应商。

💡 启示

谁应该关注：产品部门、研发部门，开发桌面端自动化AI助手或工作流
格局变化：AI交互范式从“前台对话”向“后台执行”演进，操作系统级AI集成竞争加剧。
机会窗口：基于其开源驱动，开发跨平台或特定垂直场景的增强型Agent。
行动建议：评估该技术对现有桌面产品智能化升级的可行性及安全风险。

11 GitHub更新Copilot计费模式，引入弹性配额与Max计划

工具 / 效率GitHub Copilot计费模式订阅套餐AI creditsMax计划

GitHub宣布其Copilot服务将于6月1日全面转向基于使用量的计费模式，计费单位为AI credits。为帮助用户规划，官方现已允许企业版管理员及Pro、Pro+个人用户下载4月份的使用报告以预估模型消耗。同日，GitHub更新了个人订阅套餐，在维持原价的Pro和Pro+计划中引入动态调整的“弹性配额”，并针对高频用户推出了每月100美元的新Max计划。在新体系下，代码补全和下一次编辑建议仍保持无限使用且不消耗credits。

📌 解读

GitHub将Copilot从固定订阅转向弹性计费，核心商业逻辑是精细化运营以匹配用户真实价值，同时通过Max计划锁定高价值开发者，这标志着AI开发工具从“普惠式”售卖进入“价值分层”运营阶段。一个关键细节是代码补全和下一次编辑建议不消耗额度，这巧妙地将高频、低决策成本的“习惯性”使用免费化，而将高价值的复杂代码生成和聊天交互作为计费点，引导用户行为并优化成本结构。

💡 启示

谁应该关注：开发者关系部门、技术采购部门，企业级AI编程工具采购与成本管理
格局变化：AI生产力工具定价模式从简单订阅转向复杂的价值导向型计费。
机会窗口：基于用量报告优化团队使用策略，控制成本并提升效率。
行动建议：分析4月用量报告，为新计费模式下的团队预算和套餐选择做准备。

12 Google DeepMind 推出由 Gemini 驱动的 AI 指针实验原型

应用Google DeepMindGeminiAI指针人机交互Google AI Studio

Google DeepMind 发布了一款由 Gemini 驱动的“AI pointer”实验原型，旨在重新定义鼠标指针。用户可通过手势、语音和“这个/那个”等自然简写，让 AI 直接理解屏幕上的视觉与语义上下文并执行任务。该原型已在 Google AI Studio 开放图片编辑与地图查找演示体验。相关能力也已引入 Gemini in Chrome，并计划在未来的 Googlebook 笔记本电脑上推出名为“Magic Pointer”的功能。

📌 解读

Google DeepMind的战略意图是将AI从“文本对话框”解放出来，使其成为直接理解并操作图形用户界面的“第一人称智能体”。这重新定义了人机交互的入口，将指针从被动工具变为具备意图理解能力的主动代理。一个容易被忽略的细节是“将像素转化为可操作的实体”，这意味着AI开始构建对屏幕的视觉-语义统一理解，这比单纯基于可访问性API的自动化更底层、更通用，为未来AI原生操作系统铺路。

💡 启示

谁应该关注：交互设计部门、前沿技术部门，设计下一代自然交互式软件或操作系统
格局变化：人机交互范式面临根本性变革，指向“所见即所得”的AI直接操控时代。
机会窗口：探索基于视觉理解的GUI自动化测试、无障碍辅助等新应用场景。
行动建议：深入研究该原型，思考其对现有产品交互逻辑的颠覆性影响。

13 Jina AI发布通用嵌入模型v5-omni，支持多模态混合检索

多模态Jina AI嵌入模型混合检索Matryoshkajina-embeddings-v5

Jina AI正式推出jina-embeddings-v5-omni嵌入模型系列，将多模态支持扩展至文本、图像、音频和视频。该系列提供small和nano两个版本，均支持Matryoshka维度截断。模型通过冻结文本主干与新增的视听编码器，仅训练少量投影层，官方称其性能可与参数量大5倍以上的模型持平。两个版本已上线HuggingFace、Jina API和Elastic Inference Service，采用CC BY-NC 4.0许可证。

📌 解读

Jina AI通过高效的投影层训练，以极低成本实现了多模态嵌入的统一，其战略是避开与巨头在通用大模型上的正面竞争，转而深耕高性价比、易集成的垂直基础设施层。一个关键细节是其文本向量与旧版字节级相同，这意味着企业可以无缝升级至多模态能力，无需重构现有文本检索系统，大大降低了迁移门槛和风险。

💡 启示

谁应该关注：AI研发部门、搜索与推荐部门，跨模态内容检索与理解系统构建
格局变化：多模态AI基础设施门槛降低，推动应用从单模态向多模态迁移。
机会窗口：低成本为现有文本应用快速增加图像、音视频检索能力。
行动建议：测试该模型在业务场景下的检索精度与成本效益。

14 智谱清言上线 AgentMore AI 群聊功能

应用智谱清言AgentMoreAI Agent多智能体协作群聊功能

智谱清言宣布其 AgentMore 平台上线 AI 群聊功能。用户可将最多 5 个不同的 AI Agent 拉入同一群组协作，支持手动挑选或通过输入需求由系统智能招募生成角色。功能内置头脑风暴与任务分配两种发言模式，并配备共享文件工作区。作为群主，用户可管理群设置与成员，并拥有一键打断 AI 对话的静音特权。

📌 解读

智谱此举旨在抢占AI Agent协同工作的平台入口，将单点AI工具竞争升级为生态和协作效率的竞争。其战略是通过提供“指挥中心”式的群聊功能，提升用户粘性并沉淀工作流数据，为未来更复杂的多智能体应用铺路。一个关键细节是“一键打断”功能，这体现了对多智能体交互可能失控的预见性设计，强调用户对复杂系统的最终控制权，这是推广多Agent应用必须解决的心理和实用门槛。

💡 启示

谁应该关注：产品部门、AI部门，需要多AI协作完成复杂任务的场景
格局变化：AI竞争从单一模型能力转向多智能体协作平台生态的构建。
机会窗口：开发适配多Agent协作的垂直领域工作流或中间件。
行动建议：评估自身业务中引入多AI协作的可能性和试点场景。

15 豆包输入法 Mac 版上线，支持免费 AI 语音输入

客户端侧产品字节跳动豆包输入法语音输入Mac应用

字节跳动旗下免费的 AI 语音输入法产品“豆包输入法”的 Mac 版本已正式上线官网。用户现可通过产品链接获取更多信息或进行下载。

📌 解读

字节跳动将“豆包”从对话AI扩展至系统级输入法，是典型的生态卡位策略。通过提供免费的AI语音输入，其核心商业逻辑是获取高频、刚需的用户交互入口数据，并培养用户对字节AI服务的依赖，为后续的广告、订阅或生态内服务导流奠定基础。一个关键细节是选择率先推出Mac版，这可能是针对高价值、对效率工具有强需求的苹果用户群体进行精准渗透，避开Windows平台激烈的输入法竞争红海。

💡 启示

谁应该关注：生态部门、产品部门，规划AI能力与操作系统级入口的结合
格局变化：AI大模型竞争正从独立应用向操作系统原生集成与基础工具渗透。
机会窗口：评估在特定垂类工具（如写作、编程IDE）中集成智能输入组件的可能性。
行动建议：体验产品，分析其语音识别准确率、响应延迟及与系统的集成深度。

16 供应链攻击“Mini Shai-Hulud”爆发，波及Mistral AI等超160个包

网安 / 安全供应链攻击Mini Shai-HuludMistral AInpm/PyPI

安全机构Aikido Security及多名开发者警告，代号为“Mini Shai-Hulud”的大规模供应链攻击正在爆发。该恶意软件专门针对AI开发者工具，已波及TanStack、Mistral AI、UiPath等超过160个npm和PyPI包。攻击通过劫持GitHub Actions CI管道窃取凭证，并利用合法项目自动发布带有SLSA 3级证明的带毒版本以绕过验证。已知受影响的包括PyPI上的mistralai@2.4.6等版本。安全专家建议开发者立即停止安装包、轮换云密钥和CI凭证，并使用安全工具排查。

📌 解读

此次攻击揭示了AI基础设施安全的极端脆弱性，攻击者精准选择高价值、高活跃度的AI开发工具作为跳板，意图窃取核心模型、算法及云资源。其利用SLSA认证和CI/CD自动化流程的信任机制，实现了高度隐蔽的渗透，这不仅威胁单个企业，更可能动摇整个开源AI生态的协作基础。一个关键细节是攻击者利用了6分钟的发布窗口期，这暴露了即使采用版本固定等常规安全实践，在面对自动化、高频率的供应链攻击时仍存在致命盲区。

💡 启示

谁应该关注：安全部门、研发部门，使用开源AI包进行模型开发与部署
格局变化：开源AI工具链的信任基础遭到侵蚀，安全合规成本将显著上升。
机会窗口：催生针对AI供应链的专项安全审计工具与服务市场。
行动建议：立即审计CI/CD流水线，对所有AI依赖包进行恶意代码扫描。

前沿研究

1 研究揭示个性化对齐理论：覆盖奖励方向可实现最优对齐

大模型个性化对齐奖励模型贪婪算法用户多样性定制化AI

一项研究揭示了用户多样性对AI对齐效率的影响，提出只要覆盖奖励方向即可实现最优对齐。研究还发现，贪婪算法在特定多样性条件下表现极佳，为定制化AI提供了数学标准。

2 OpenAI举办参数优化挑战赛，吸引上千开发者参与

编程OpenAI挑战赛AI代理参数优化开发者社区

OpenAI举办了一场旨在优化模型参数的“高尔夫”竞赛，吸引了上千名顶尖开发者参与。赛事中，参赛者广泛运用量化等技术，并借助AI代理进行快速迭代。官方发布的回顾总结了此次技术探索的成果。

3 Shopify数据：AI引荐流量转化率较自然搜索高出近50%

产业 / 商业化ShopifyAI电商转化率客单价流量分析

Shopify官方博客发布分析指出，2026年第一季度，其平台来自ChatGPT、Perplexity和Google Gemini等AI平台的引荐流量同比增长超过8倍。数据显示，这些AI引荐的购物者在产品详情页的转化率比自然搜索高出近50%，平均客单价高出14%，且超过一半的会话直接从特定产品页面开始。尽管自然搜索在总流量上仍占主导且同期保持约5%的增长，但Shopify认为AI主导的购物模式已展现出显著的早期商业价值。平台建议商家将AI作为独立渠道进行优化，并已推出相关基础设施以支持未来Agent直接完成交易。

4 Google发布ADK指南，演示如何构建长期运行的AI Agent

工具 / 效率Agent Development KitAI AgentGoogle开源企业工作流

Google发布技术指南，介绍如何使用Agent Development Kit (ADK)构建支持暂停、恢复且不丢失上下文的长期运行AI Agent。该方案旨在管理跨越数天甚至数周的复杂企业工作流，通过持久化状态机、事件驱动休眠及多Agent协作架构，解决传统无状态机器人在长流程中的问题。开发者可通过ADK的DatabaseSessionService实现会话状态持久化，并在外部Webhook触发时自动恢复执行。配套的新员工入职协调Agent源代码已在GitHub开源，支持通过Agents CLI一键部署至生产环境。

5 AI IQ评估项目上线，对比模型智商、情商与成本

大模型AI评估IQ测试基准测试成本效益Ryan Shea

Ryan Shea发布了一项名为AI IQ的评估项目，旨在通过人类IQ量表来量化评估前沿AI模型。该项目整合了公开基准排行榜的数据，通过校准的难度曲线将得分映射为IQ值。IQ估算基于抽象推理、数学推理、程序推理和学术推理四个维度的平均分，涵盖了ARC-AGI-2、FrontierMath、SWE-bench等12项基准测试。此外，项目还结合了Arena Elo和EQ-Bench数据来评估模型的EQ（情商）。用户可通过交互式图表对比不同模型在智商、情商及成本效益方面的综合表现。

6 Qwen-Image-2.0技术报告发布，统一生成与编辑能力

多模态Qwen-Image-2.0图像生成Diffusion Transformer技术报告通义千问

Qwen-Image-2.0的技术报告近日发布。该模型是一个统一了高保真图像生成与精确编辑能力的全能基础模型。在架构上，它结合Qwen3-VL作为条件编码器与多模态Diffusion Transformer进行联合建模，支持最长1K tokens的指令输入，可用于生成幻灯片、海报等富文本内容。官方表示，广泛的人类评估表明，该模型在生成和编辑任务上的性能均大幅优于旧版Qwen-Image模型，在多语言排版和真实感生成等方面也有显著增强。

7 IMDM架构利用随机掩码机制，提升语言模型生成效率

技术IMDM架构知识蒸馏推理加速随机掩码生成效率

一项名为IMDM的新架构通过引入随机掩码机制，旨在突破语言模型蒸馏中的步数限制。该模型解决了采样次数过多的问题，能够在少量推理步数下保持稳健的性能表现，从而显著提升解码速度。

8 EGL-SCA协进化智能体框架通过结构化信用分配提升任务成功率

前瞻EGL-SCA智能体框架信用分配算法合成图任务

EGL-SCA框架通过结构化信用分配机制定位错误源，支持指令与工具空间协同进化。该算法合成方案在复杂图任务中表现出色，任务成功率达到了92%。

9 curl作者质疑Anthropic的Mythos模型宣传存在夸大

大模型AnthropicMythos漏洞检测curlAI安全

curl项目创建者Daniel Stenberg收到一份由第三方使用Anthropic的Mythos模型生成的漏洞扫描报告。经curl安全团队复核，Mythos在分析超过17万行代码后报告的5个漏洞中，仅1个被确认为真实的低危安全漏洞，其余3个为误报，1个仅为普通Bug。Stenberg认为，与其他现有AI工具相比，Mythos并未展现出显著优势，其宣传更像营销手段。该低危漏洞计划随6月下旬发布的curl 8.21.0版本同步修复。此前，Anthropic因声称Mythos发现漏洞能力极强而拒绝公开发布，仅通过Linux Foundation项目提供有限访问。

行业展望与社会影响

1 美国参议院发布CLARITY法案修订草案

政策 / 监管CLARITY法案美国参议院跨党派谈判技术领先法律保障

美国参议院发布了《CLARITY法案》的修订版草案，旨在保护技术创新并确保美国在未来数十年内保持技术领先地位。该法案通过跨党派谈判，致力于为开发者提供明确的法律保障。业界人士呼吁尽快通过法案，以维护公共利益。

2 短视频发布前将强制要求勾选内容属性标签

政策 / 监管短视频内容标注AI生成平台治理合规

针对短视频虚构摆拍、AI生成内容等误导公众的问题，有关部门近日全面部署推进短视频内容标注工作。要求各网站平台必须提供包含“含有AI生成内容”“含有虚构演绎内容”等在内的6类“必选标签”，并将勾选标签设为短视频发布的强制必经环节。在前期12家平台试点的基础上，全行业预计于5月底前陆续完成功能上线。同时，将对存量未规范标注的视频进行分批回溯整改。

3 亚马逊被曝利用MeshClaw模拟虚假AI操作以达成用量指标

伦理 / 合规亚马逊AI用量造假MeshClaw数据刷取自动化风险

据报道，亚马逊部分员工为应对硬性指标，利用MeshClaw工具模拟虚假AI操作以刷取数据。这种因巨额投入焦虑导致的数据注水行为，引发了专家对自动化系统风险的担忧。

4 Google推出以Gemini为核心的笔记本新品类Googlebook

客户端侧产品GoogleGeminiGooglebookChromeOSAndroid生态

Google宣布推出名为Googlebook的全新笔记本电脑品类，该设备以Gemini为核心，融合Android应用生态与ChromeOS优势。它首发集成了与Google DeepMind团队合作的Magic Pointer功能，可通过光标获取Gemini的上下文建议，并支持用自然语言生成个性化桌面组件。设备基于部分Android技术栈构建，支持在电脑端直接访问手机应用及文件。包括Acer、ASUS、Dell等合作伙伴将推出相关硬件，具体设备计划于今年秋季上市。

5 Alphabet旗下Isomorphic Labs完成21亿美元B轮融资

投融资 / 创业Isomorphic LabsAI制药B轮融资Alphabet药物设计

Alphabet旗下的AI药物研发公司Isomorphic Labs宣布完成21亿美元B轮融资，本轮由Thrive Capital领投，Alphabet、GV、MGX等机构参投。新资金将用于扩展其AI药物设计引擎IsoDDE，扩大全球业务，并推进候选药物进入临床试验阶段。公司创始人Demis Hassabis表示，当前重点是将该技术规模化扩展。

6 Codex团队考虑每周四进行较大版本发布

编程Codex版本发布发布节奏Tibo

Codex团队成员Tibo在社交平台表示，团队正考虑为Codex建立稳定的发布节奏，初步计划在每周四进行一次较大规模的版本更新。Tibo指出这种安排可能降低每周初的期待感，因此该节奏仍处于内部思考和征求社区意见阶段，尚未得到官方最终确认。

7 韩国拟征收AI超额利润并探索公民红利制度

政策 / 监管韩国AI政策超额利润税公民红利利益分配政策创新

韩国总统府正考虑利用人工智能（AI）产生的超额利润设立公民红利制度。由于AI收益高度集中，政府正在研究如何将这部分利益回馈给公众，相关政策的探索进程正在提速。这一旨在重新分配AI经济利益的创新举措，已引发全球关注。

8 360 OpenClaw生态报告披露智能体二十三个高危漏洞

网安 / 安全智能体安全OpenClaw高危漏洞Agent对抗风险通告

根据360发布的OpenClaw生态安全报告，其审计发现智能体存在二十三个高危漏洞。报告指出，智能体风险通告日均增长超过四条，基于Agent的对抗正开启网络安全新范式。

9 OpenAI庭审文件披露员工巨额股权财富

投融资 / 创业OpenAI股权分配员工财富庭审揭秘

根据法庭披露信息，OpenAI首席科学家持有价值约七十亿美元的股权，总裁财富估值突破三百亿美元。公司内部诞生了约六百位百万富翁，其股权总价值据称已超过英伟达的全年营收。

10 DeepSeek要求腾讯入股须绑定其开源AI生态

投融资 / 创业DeepSeek腾讯开源生态投资谈判AI新势力

AI创业公司DeepSeek在与腾讯的入股谈判中，要求后者必须绑定其开源AI生态。这一绑定谈判被业界视为中国开源AI力量崛起的体现，并引发了广泛讨论。

11 报道称亚马逊员工为应对考核刷AI工具使用量

产业 / 商业化亚马逊AI工具滥用内部考核MeshClawToken消耗

据媒体报道，为应对亚马逊设定的每周AI工具使用目标及内部排行榜，部分员工使用公司内部AI产品“MeshClaw”自动化非必要任务，以增加Token消耗量。尽管亚马逊官方称该数据不用于绩效评估，但多名员工表示管理者仍在监控这些数据，此举已在团队中引发不良竞争。

12 Android版Chrome将集成Gemini 3.1并支持Agent浏览

客户端侧产品ChromeGemini 3.1AndroidAgent浏览Google

Google宣布将在Android版Chrome中引入由Gemini 3.1驱动的个人浏览助手及自动浏览功能。该助手支持网页总结、连接Google应用管理日程，并能使用Nano Banana工具在浏览器内生成或修改图像。自动浏览功能可代为执行预订等操作，但敏感操作需用户确认。这些功能计划于6月底起在美国部分运行Android 12及以上的设备推出，其中自动浏览功能仅限AI Pro和Ultra订阅用户使用。

13 智能体技术开始应用于维护老旧大型机系统

应用智能体大型机COBOLAgentic生产系统

通过代码交互界面，智能体（Agent）技术现已能支持对COBOL等语言编写的旧大型机系统进行维护。这一方案有助于缓解因资深开发者退休而导致的核心业务知识断层危机。然而，专家对于将此类智能体直接接入生产系统仍持谨慎态度。

开源TOP项目

1 开源项目openhuman致力于打造离线隐私助手

客户端侧产品openhuman个人助手离线AI隐私架构本地运行

开源项目openhuman致力于打造一个离线的超级智能个人助手。其注重隐私保护的架构吸引了大量关注，项目仓库在一天内就获得了超过2600颗星。用户可在本地运行该助手，从而确保个人数据的安全与私密性。

2 Needle模型通过蒸馏获得Gemini工具调用能力

大模型Needle能力蒸馏工具调用本地部署轻量化模型

研究团队通过知识蒸馏技术，将Gemini模型的工具调用能力迁移至轻量级模型Needle。该模型体积仅14MB，非常轻量，其量化特性极大提升了本地部署的效率。开发者的热情并未受到相关使用协议的限制。

社媒分享

1 ChatGPT 5.5 Pro在数论研究上取得突破

大模型ChatGPT 5.5 Pro数学推理数论AI研究

据报道，ChatGPT 5.5 Pro在数学逻辑领域实现研究突破，仅用一小时便破解了一道加法数论难题。其原创解题思路甚至令菲尔兹奖得主感到震惊，显示出AI正从传统的启发式搜索向更具证明性的推理方向演进。

2 Hermes AI自主构建开源艺术展馆《授时》

应用Hermes AI开源项目生成式艺术代码生成互动网页

Hermes AI独立打造了一个名为《授时》的开源展馆项目。该项目能够自主生成代码，并成功上线了一个互动网页，展示了AI在艺术创作领域的应用潜力。用户可访问其交互式在线艺术展厅进行体验。

3 Claude模型引入自我验证与梦境学习新机制

大模型Claude自我验证梦境学习自动编程自我博弈

Anthropic公司为其Claude模型引入了自我验证与梦境学习等新功能。这是一种前卫的结果驱动思路，旨在让AI模型能在离线状态下通过自我博弈实现自主进化。现场演示显示，该机制能显著提升自动编程等任务的效率，可能改变未来大模型的训练范式。

4 报告称AI实验室可能引发民主治理危机

伦理 / 合规AI治理算法黑盒信任危机民主制度

一份评述报告指出，科技巨头在制造信息混乱后，又接管了政务项目，形成了权力闭环。报告警告，疲惫的选民可能向不透明的“黑盒”算法让步，这种对公共机构信任的削弱正在剧烈动摇民主根基。

5 多智能体协同推理框架HeavySkill正式开源

工具 / 效率HeavySkill多智能体协同开源框架推理优化Codex

基于相关论文，开发者正式开源了多智能体协同推理框架HeavySkill。该框架通过Sub agent进行深度逻辑碰撞以解决推理盲点，并由Codex模型担任主持角色以汇总最佳结论。实测表明，此机制能显著提升模型的复杂推理质量。

6 Gemini模型因宗教偏见争议陷入舆论风波

大模型GeminiAI对齐宗教偏见安全机制

近日，谷歌Gemini模型因被曝在宗教话题上存在偏见而引发争议。有观点认为其安全对齐机制存在漏洞，导致输出内容处理不当。目前，开发团队面临修复安全机制以挽回用户信任的压力，Gemini模型仍处于舆论漩涡之中。

7 业内专家驳斥AI替代论，呼吁理性看待社会转型

伦理 / 合规AI替代论社会情绪吴恩达媒体叙事社会转型

当前，关于AI替代人类的讨论被多方势力用于操弄社会情绪。吴恩达等专家驳斥了相关的失业恐慌论调，指出部分企业可能借裁员叙事掩盖经营决策失误，而媒体渲染技术末日则多为博取流量。个人在社会转型中应保持冷静，避免被极端言论影响。

8 行业博主揭露AI中转站暴利黑幕与掺假乱象

网安 / 安全AI中转站暴利黑幕模型混淆低价API算力市场

有行业博主揭露了部分底层AI中转站服务存在的暴利黑幕。这些平台通过混淆模型标识来降低成本并宣称高利润，实则可能秘密掺假，以低价API欺骗用户。此类乱象正侵蚀算力市场的信任根基，开发者需警惕其对业务质量的影响。

9 Anthropic开源发布法律专用工具集Claude for Legal

工具 / 效率AnthropicClaude for Legal开源工具法律科技MCP

Anthropic发布开源工具集Claude for Legal，包含12个面向不同法律岗位的插件及20余个MCP连接器，已在Claude Cowork和Claude Code中上线。插件覆盖合同审查、并购尽调、诉讼管理等场景，连接器可打通iManage、DocuSign、Everlaw等行业平台及Office软件。所有输出均标注为供律师审阅的草稿。法律援助及非营利机构可通过Claude for Nonprofits计划获得折扣，部分插件可作为Managed Agent经API无界面部署。

精选内容

1 《AI4S实战派》第六期回顾：AI如何理解化学与预测反应文章

技术AI for Science化学信息学反应预测分子表征机器学习

文章回顾了《AI4S实战派》第六期直播内容，主题为“让AI读懂化学：从表征到反应预测”。主讲人梳理了AI for Science的发展脉络，并重点介绍了分子与反应的四种表征方法（字符串、表格、分子指纹、图网络），以及化学反应预测的三个难度层级。实战案例部分，使用Tampo氧化剂催化的伯醇氧化反应数据，通过RDKit生成Morgan指纹构建反应指纹，并采用Random Forest Regressor建模，测试集R²达到57%。文章还探讨了与原文结果的差距、逆合成预测、负数据缺失等话题，并预告了下期关于机器学习势函数的内容。

2 蚂蚁发布安诊儿医疗大模型，6.1B参数激活即登顶三大医疗榜单文章

大模型AntAngelMed医疗大模型MoE架构开源模型基准测试

蚂蚁集团发布了全球首个开源千亿级医疗大模型AntAngelMed。该模型基于Ling-flash-2.0的高效MoE架构，总参数量为100B，激活6.1B参数即可达到约40B密集模型的性能水平。在OpenAI HealthBench、MedAIBench和MedBench三大权威医疗基准测试中，其表现均位居前列，超越了所有开源模型及多个顶尖闭源模型。技术层面，模型采用三阶段训练流程，结合FP8量化和EAGLE3优化，在H20硬件上推理速度超过200 tokens/s，并支持128K上下文。目前，模型已在魔搭社区开放在线体验，并可通过官方API或使用vLLM、SGLang进行本地推理。

访问链接

长按识别二维码可点击访问原文链接

也可点击底部“阅读原文”直接打开完整链接页

Meta完成数据摄取系统升级，保障大模型训练数据底座

https://engineering.fb.com/2026/05/12/data-infrastructure/migrating-data-ingestion-systems-at-meta-scale/

Claude Opus 4.7 快速模式以研究预览形式上线

https://x.com/alexalbert__/status/2054268569337389487

Claude Opus 4.7 快速模式以研究预览形式上线

https://x.com/ClaudeDevs/status/2054299069804433576

Claude Opus 4.7 快速模式以研究预览形式上线

https://x.com/cursor_ai/status/2054274305345618163

Xiaomi MiMo发布API适配说明，要求回传reasoning_content字段

https://platform.xiaomimimo.com/docs/en-US/usage-guide/passing-back-reasoning_content

Perceptron发布Mk1模型，专注视频理解与具身推理

https://www.perceptron.inc/blog/introducing-perceptron-mk1

StepFun 宣布 Step 3.5 Flash 在 Nous Portal 免费开放15天

https://x.com/StepFun_ai/status/2054254112603045978

Google推出Gemini Intelligence，为安卓设备引入主动AI能力

https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/

宇树科技发布GD01载人机甲，定价390万元

https://x.com/_FORAB/status/2054083833566552264

AWS云平台集成Claude模型，支持免密钥调用

https://x.com/abskoop/status/2054141275688034702

DuckDB发布Quack协议与DuckLake，支持跨端远程查询

https://newshacker.me/story?id=48111765

Hermes Agent 推出 macOS 后台 Computer Use 功能

https://hermes-agent.nousresearch.com/docs/user-guide/features/computer-use

GitHub更新Copilot计费模式，引入弹性配额与Max计划

https://github.blog/changelog/2026-05-12-april-reports-are-now-available-to-prepare-for-usage-based-billing/

GitHub更新Copilot计费模式，引入弹性配额与Max计划

https://github.blog/news-insights/company-news/github-copilot-individual-plans-introducing-flex-allotments-in-pro-and-pro-and-a-new-max-plan/

Google DeepMind 推出由 Gemini 驱动的 AI 指针实验原型

https://deepmind.google/blog/ai-pointer/

Google DeepMind 推出由 Gemini 驱动的 AI 指针实验原型

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

Jina AI发布通用嵌入模型v5-omni，支持多模态混合检索

https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video

Jina AI发布通用嵌入模型v5-omni，支持多模态混合检索

https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

智谱清言上线 AgentMore AI 群聊功能

https://mp.weixin.qq.com/s/iuwu6pWCswxkyZ-ktLX-SA

豆包输入法 Mac 版上线，支持免费 AI 语音输入

http://shurufa.doubao.com/pc

供应链攻击“Mini Shai-Hulud”爆发，波及Mistral AI等超160个包

https://aikido.dev/blog/mini-shai-hulud-is-back-tanstack-compromised

供应链攻击“Mini Shai-Hulud”爆发，波及Mistral AI等超160个包

https://github.com/mistralai/client-python/issues/523

研究揭示个性化对齐理论：覆盖奖励方向可实现最优对齐

https://arxiv.org/abs/2605.09119

OpenAI举办参数优化挑战赛，吸引上千开发者参与

https://openai.com/index/what-parameter-golf-taught-us/

Shopify数据：AI引荐流量转化率较自然搜索高出近50%

https://www.shopify.com/enterprise/blog/ai-search-insights

Google发布ADK指南，演示如何构建长期运行的AI Agent

https://developers.googleblog.com/build-long-running-ai-agents-that-pause-resume-and-never-lose-context-with-adk/

Google发布ADK指南，演示如何构建长期运行的AI Agent

https://github.com/GoogleCloudPlatform/generative-ai/tree/main/agents/adk/new-hire-onboarding/

AI IQ评估项目上线，对比模型智商、情商与成本

https://aiiq.org/

Qwen-Image-2.0技术报告发布，统一生成与编辑能力

https://huggingface.co/papers/2605.10730

IMDM架构利用随机掩码机制，提升语言模型生成效率

https://arxiv.org/abs/2605.10518

EGL-SCA协进化智能体框架通过结构化信用分配提升任务成功率

https://arxiv.org/abs/2605.10366

curl作者质疑Anthropic的Mythos模型宣传存在夸大

https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/

美国参议院发布CLARITY法案修订草案

https://x.com/pmarca/status/2054309198251585925

短视频发布前将强制要求勾选内容属性标签

https://www.cac.gov.cn/2026-05/12/c_1780328273038196.htm

短视频发布前将强制要求勾选内容属性标签

https://www.cac.gov.cn/2026-05/12/c_1780328273108117.htm

亚马逊被曝利用MeshClaw模拟虚假AI操作以达成用量指标

https://arstechnica.com/ai/2026/05/amazon-employees-are-tokenmaxxing-due-to-pressure-to-use-ai-tools/

Google推出以Gemini为核心的笔记本新品类Googlebook

https://blog.google/products-and-platforms/platforms/android/meet-googlebook/

Google推出以Gemini为核心的笔记本新品类Googlebook

https://googlebook.com/

Alphabet旗下Isomorphic Labs完成21亿美元B轮融资

https://www.isomorphiclabs.com/articles/isomorphic-labs-announces-series-b-investment-round

Codex团队考虑每周四进行较大版本发布

https://x.com/thsottiaux/status/2054218626862141856

韩国拟征收AI超额利润并探索公民红利制度

https://x.com/fxtrader/status/2054034439345426488

360 OpenClaw生态报告披露智能体二十三个高危漏洞

https://www.qbitai.com/2026/05/416582.html

OpenAI庭审文件披露员工巨额股权财富

https://www.bloomberg.com/news/articles/2026-05-11/sutskever-says-his-openai-stake-worth-about-7-billion

DeepSeek要求腾讯入股须绑定其开源AI生态

https://x.com/baoshu88/status/2054188079108231362

报道称亚马逊员工为应对考核刷AI工具使用量

https://www.ft.com/content/8ee0d3ef-9548-422d-8ff1-ebd48ad4b2ca

Android版Chrome将集成Gemini 3.1并支持Agent浏览

https://blog.google/products-and-platforms/products/chrome/bringing-chrome-ai-to-android/

智能体技术开始应用于维护老旧大型机系统

https://newshacker.me/story?id=48111143

开源项目openhuman致力于打造离线隐私助手

https://github.com/tinyhumansai/openhuman

Needle模型通过蒸馏获得Gemini工具调用能力

https://newshacker.me/story?id=48111896

ChatGPT 5.5 Pro在数论研究上取得突破

https://x.com/Gorden_Sun/status/2054227658750431276

Hermes AI自主构建开源艺术展馆《授时》

https://m.okjike.com/originalPosts/6a02cfa87f82528246a818cd

Hermes AI自主构建开源艺术展馆《授时》

https://github.com/shengyu-meng/granted-hours

Hermes AI自主构建开源艺术展馆《授时》

https://shengyu-meng.github.io/granted-hours/

Claude模型引入自我验证与梦境学习新机制

https://x.com/hongming731/status/2054048208838672564

报告称AI实验室可能引发民主治理危机

https://aiweekly.co/issues/100-years-from-now-the-last-election

多智能体协同推理框架HeavySkill正式开源

https://github.com/joeseesun/qiaomu-heavyskill

多智能体协同推理框架HeavySkill正式开源

https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic

多智能体协同推理框架HeavySkill正式开源

https://www.32kw.com/view/f4acd0c

Gemini模型因宗教偏见争议陷入舆论风波

https://www.reddit.com/r/artificial/comments/1tbgqbb/gemini_just_admited_that_islam_promote_hatered/

业内专家驳斥AI替代论，呼吁理性看待社会转型

https://x.com/frxiaobei/status/2054245095587959004

行业博主揭露AI中转站暴利黑幕与掺假乱象

https://x.com/ezshine/status/2054280308552557033

Anthropic开源发布法律专用工具集Claude for Legal

https://github.com/anthropics/claude-for-legal

Anthropic开源发布法律专用工具集Claude for Legal

https://claude.com/blog/claude-for-the-legal-industry

《AI4S实战派》第六期回顾：AI如何理解化学与预测反应

https://www.bestblogs.dev/article/183e1aee?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

蚂蚁发布安诊儿医疗大模型，6.1B参数激活即登顶三大医疗榜单

https://www.bestblogs.dev/article/223df871?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

🌟 点亮星标 🌟AI前沿进展每日见

点击右上角「...」→「AI网罗」→右上角「...」→点亮「星标」，锁定AI网罗最新推送！