AI 早报 — 2026年04月18日周六

每日精选 AI 领域重要动态，为你节省信息筛选时间

📋 今日摘要

• OpenAI推出GPT-Rosalind，专为缩短药物发现周期至3-5年设计
• Anthropic发布Claude Opus 4.7，在GDPVal-AA基准以1753分超越GPT-5.4（1674分），并支持375万像素视觉处理与自主验证功能
• OpenAI发布Codex重大更新，支持macOS后台操控所有应用、生成图像、预览网页，活跃开发者达300万
• 阿里开源Qwen3.6-35B-A3B，350亿总参数下每次推理仅激活30亿，SWE-bench性能显著提升
• 阿里推出支持音视频联合生成的开放式世界模型，开启实时交互世界生成内测

今日共收录 25 条动态，涵盖大模型与核心产品 7条、开源生态与开发者工具 5条、技术实践与深度洞察 5条、学术与前沿研究 4条、行业风向与社区热议 4条。

🚀 大模型与核心产品

1. OpenAI发布生命科学AI模型GPT-Rosalind

OpenAI正式发布其首款生命科学领域AI模型GPT-Rosalind，专攻生物化学与基因组数据分析，旨在通过高精度推理加速新药研发流程。该模型基于大语言架构，针对科学文献、实验数据和分子结构进行专项训练，可辅助科研人员预测药物靶点、筛选候选分子并优化临床前路径。

此举标志着OpenAI从通用AI向专业科学计算的关键拓展，若能实现预期效果，有望将传统10-15年的药物发现周期压缩至3-5年，对全球生物医药产业产生深远影响，也引发国内AI制药企业对模型能力与数据壁垒的重新评估。

2. Claude Opus 4.7发布，以微弱优势登顶最强开源LLM

Anthropic正式发布Claude Opus 4.7，成为当前最强大的通用大模型，在GDPVal-AA知识工作评估中以1753分小幅领先OpenAI的GPT-5.4（1674分）和Google的Gemini 3.1 Pro（1314分）。该模型在智能编码、研究生级推理和视觉推理等任务中表现突出，尤其引入高分辨率多模态支持（最高375万像素）和自主验证机制，能像人类工程师一样构建并测试代码，显著减少幻觉循环。API定价保持不变，已上线AWS、Google Cloud和Microsoft Azure。

尽管Opus 4.7在专业场景中赢得企业用户高度评价——如Replit和Notion称其‘像更好的同事’——但其对指令的字面服从性增强，导致旧提示失效，且token消耗上升1.0–1.35倍。Anthropic同步推出‘努力等级’和‘任务预算’功能以控制成本，并通过‘网络安全验证计划’限制高风险用途。此举标志着AI从创意工具向可审计、可管控的生产系统转型，但其商业霸权正面临监管围堵与开发者信任危机。

3. OpenAI升级Codex：AI可操控全机应用

OpenAI今日大幅升级Codex桌面应用，使其能访问并操控用户计算机上的所有程序，包括点击、输入、启动应用等光标级操作，仅限macOS首发。同时集成gpt-image-1.5图像生成、内置浏览器预览前端、SSH远程连接及90+插件，实现从代码编写到资源生成、项目管理的全链路自动化，标志着其从代码辅助工具向智能代理平台的转型。

此次更新强化了‘持续代理’能力，通过‘记忆’功能学习用户习惯，主动推送每日工作建议，如未读评论或待处理PR，与Anthropic的Claude Cowork形成直接竞争。OpenAI明确将Codex作为构建‘超级应用’的起点，目标是成为开发者日常工作的‘中枢神经系统’，并已面向300万周活跃开发者逐步推送，企业版功能将分阶段上线。

4. 阿里开源Qwen3.6-35B-A3B：350亿参数仅激活30亿

阿里通义实验室正式开源Qwen3.6-35B-A3B，采用稀疏混合专家（MoE）架构，总参数达350亿，但推理时仅激活30亿参数，大幅降低计算开销。该模型在SWE-bench和Terminal-Bench等专业基准测试中相较前代Qwen3.5-35B-A3B表现显著提升，展现出更强的代码理解与终端任务处理能力。

这一发布标志着国产大模型在高效推理架构上的持续突破，为中小企业和开发者提供了高性价比的开源选择，有助于推动国内AI应用在代码辅助、DevOps等场景的落地，进一步巩固通义千问在开源生态中的竞争力。

5. 阿里HappyOyster开放内测

阿里巴巴ATH创新事业部旗下HappyOyster正式开放内测，该产品是一款基于原生多模态架构的开放式世界模型，可实时理解并生成包含图像、音频与视频的交互式场景，突破传统提示词-渲染的单向流程。

这一进展标志着国内大厂在生成式AI从单模态内容生成向动态、沉浸式世界构建的关键跃迁，有望为游戏、虚拟人、元宇宙应用提供新一代底层引擎，推动国产AI在交互式内容生成领域进入新阶段。

6. 科大讯飞发布AstronClaw软硬一体AI Agent

4月15日，科大讯飞正式升级发布AstronClaw AI Agent平台，推出9项创新产品，首次构建‘软硬一体’架构体系，使AI智能体不再局限于对话交互，而是能通过语音与传感器直接控制智能终端、机器人等物理设备，实现从‘听懂你’到‘帮你做事’的跃迁。

这一突破标志着国产AI从对话模型向具身智能迈出关键一步，尤其在办公自动化、智能家居和工业控制场景具有落地潜力，强化了科大讯飞在AI Agent赛道的国产领先优势。

7. 腾讯开源混元3D世界模型2.0

腾讯昨日正式开源混元3D世界模型2.0（HY-3D v2），该模型能根据一句话描述生成高度细节的可交互3D场景，实测可构建出吉卜力动画风格的小镇，支持角色跑跳与环境互动，标志着国产大模型在世界模型赛道实现关键突破。

此举不仅填补了国内在生成式3D世界模型领域的空白，也与李飞飞团队的Spark 2.0形成直接竞争，推动AI从2D图像生成迈向三维物理世界建模，为游戏、元宇宙和AI助手提供底层引擎支持。

🛠️ 开源生态与开发者工具

1. OpenAI发布新版Agent SDK：内置沙箱支持长任务

OpenAI正式更新Agents SDK，新增原生沙箱执行环境，允许智能体在隔离空间内安全读写文件、调用工具并执行代码，避免系统风险。开发者可直接使用内置沙箱，或对接Blaxel、Cloudflare、Modal等第三方服务，同时支持AWS S3、Azure Blob等云存储挂载，实现从开发到生产的一致性部署。

此次升级还实现管控框架与计算资源的分离，通过状态快照与恢复机制，确保智能体在容器崩溃后能从检查点续跑，大幅提升长任务稳定性。该架构支持多沙箱并行调度，提升执行效率，并计划后续推出TypeScript版本。此举标志着AI智能体从原型走向企业级可靠部署的关键一步，与Anthropic的Claude Managed Agents形成技术对标。

2. llm-anthropic 0.25发布：支持Claude Opus 4.7

llm-anthropic 0.25版本正式发布，新增对Anthropic最新模型claude-opus-4.7的支持，并引入xhigh级别的thinking_effort参数，允许开发者启用更高强度的推理模式。同时，新增thinking_display和thinking_adaptive布尔选项，用于控制思维过程的展示方式，目前仅在JSON输出或日志中可见。

该版本还统一提升了各模型的max_tokens上限至API允许的最大值，并移除了对已废弃的structured-outputs测试头的依赖，提升了稳定性和兼容性。虽为工具库更新，但对使用Claude系列模型的开发者而言，是提升推理控制精度的重要迭代。

3. 极客用胶带和旧摄像头造AI黑客机械臂

独立开发者gainsec利用废旧摄像头、CNC机床和大量胶带，搭建了一套AI驱动的硬件探针系统，能自动定位并测试电路板上的安全漏洞。该系统通过视觉识别目标焊点，结合机械臂精准触碰，实现自动化渗透测试，代码已开源在GitHub。

该项目虽为个人极客作品，但展示了低成本AI硬件自动化在安全研究中的潜力，为嵌入式安全测试提供了新颖思路，适合硬件黑客和渗透测试爱好者参考借鉴。

4. PPIO上线PPHermes：一键部署Hermes Agent

PPIO正式上线PPHermes平台，支持开发者通过云端沙箱一键部署Hermes Agent，无需本地配置环境，大幅简化AI智能体的测试与上线流程。该工具集成资源调度与安全隔离机制，适用于多场景AI代理验证。

5. Mozilla开源自托管AI客户端Thunderbolt

Mozilla与德国AI公司deepset联合发布开源项目Thunderbolt，提供可本地部署的AI客户端解决方案，旨在让企业与组织摆脱对公有云AI服务的依赖，实现数据与模型的自主控制。

该项目呼应了当前企业对AI隐私与合规的日益关注，尤其适合政府、金融和医疗等敏感领域，标志着Mozilla从浏览器厂商向AI基础设施参与者的战略延伸。

💡 技术实践与深度洞察

1. Amazon Bedrock引入自动推理提升AI合规

Amazon Bedrock新引入自动推理技术，通过形式化验证方法替代传统概率性AI验证，为受监管行业提供数学上可证明的AI输出结果，解决生成式AI在金融、医疗等高合规场景中的可信度问题。

该功能已获六大行业客户实证应用，支持生成可审计、可追溯的AI响应，企业可直接通过Bedrock调用，标志着云平台在AI合规基础设施上迈出关键一步，对国内金融与政务AI落地具有参考价值。

2. NVIDIA发布DeepStream编码代理

NVIDIA在GTC26前夕发布DeepStream Coding Agents，这是首个专为实时视觉AI应用设计的AI编码助手，能根据自然语言描述自动生成高效、优化的视频分析管道代码，覆盖摄像头接入、推理、追踪与输出等全流程。

该工具基于NVIDIA Metropolis平台，显著降低开发门槛，尤其利好工业质检、智能安防等场景的中小企业，标志着AI原生开发从通用代码生成迈向垂直领域自动化的重要一步。

3. Anthropic MCP漏洞波及20万服务器

以色列网络安全公司OX Security披露，Anthropic主导的模型上下文协议（MCP）存在架构级安全漏洞，其官方10种语言SDK均默认允许STDIO接口直接执行任意系统命令，无需校验。该缺陷已影响超3.2万个开源代码库，7374台公开服务器被确认可被远程控制，潜在暴露服务器超20万台，攻击者可窃取API密钥、数据库与聊天记录。

尽管OX多次负责任披露并提出四项可自动修复的方案（如命令白名单、仅清单模式），Anthropic、LangChain、微软、谷歌等主要厂商均以‘预期设计’或‘非漏洞’为由拒绝修复，仅更新文档警告‘谨慎使用’，将安全责任转嫁开发者，暴露AI基础设施供应链的系统性安全失职。

4. 网站是否准备好迎接AI代理？

开发者推出在线工具isitagentready.com，通过分析网站结构、API接口和语义标记，自动评估其是否适合被AI代理调用和交互。工具重点关注可爬取内容、结构化数据和动态响应能力，帮助开发者提前优化站点以适配下一代AI应用。

该工具虽为初创项目，但直击AI代理生态的关键痛点——数据接入门槛，为国内开发者提供低成本的适配参考，尤其对构建智能客服、自动化爬取或Agent工作流的团队具有实用价值。

5. 用Claude Code打通SPICE仿真与示波器闭环

一位开发者基于MCP协议构建了连接SPICE电路仿真器与物理示波器的服务器，使AI编码助手Claude Code能实时读取仿真结果与实际测量数据，自动识别差异并生成修复建议，实现仿真-硬件验证闭环。

此举为电子设计自动化（EDA）提供了轻量级AI验证新路径，虽非工业级方案，但为嵌入式开发者提供了低成本、可复用的调试范式，值得关注开源社区后续扩展。

🔬 学术与前沿研究

1. 字节发布Seedance 2.0论文，登顶多模态视频生成榜

字节跳动Seed团队于4月15日发布Seedance 2.0技术论文，系统披露其在多模态视频生成领域的四大核心能力：真实世界物理建模、多模态指令理解、高保真音视频同步生成与生产力场景适配。该模型支持文本、图像、音频、视频四模态输入，可同时接收3段视频+9张图+3段音频，输出4–15秒、480p/720p视频，并已接入豆包、即梦AI等产品。评测显示，Seedance 2.0在文生视频（T2V）和图生视频（I2V）六大维度全面领先，运动质量与音画同步得分达3.75，显著优于Sora 2 Pro、Kling 3.0等竞品。

尤其在音频生成上，Seedance 2.0在英语、方言、演唱等17个细项全第一，音频质量满意率达57.08%，是竞品的10倍以上；其自建评测集SeedVideoBench 2.0新增叙事与多模态编辑评估体系，强化了对专业创作场景的适配能力。尽管未公开架构细节，但其在可控合成与工业落地方面的表现，标志着国产视频生成模型已具备全球一线竞争力。

2. AI临床诊断错误率超80%，JAMA重磅警告

美国医学会旗下期刊JAMA Network Open发布研究，对GPT-5、Claude 4.5 Opus、Gemini 3等21款主流大模型进行临床推理测试，发现其在早期鉴别诊断阶段错误率普遍超过80%，远高于后续诊断与治疗环节，暴露出AI在信息不全时过早锁定单一结论的致命缺陷。

研究指出，AI擅长处理信息完整的推理场景，但无法像医生那样在初期保持多假设、动态修正的思维模式，导致其当前无法安全用于真实临床决策，凸显了AI辅助医疗仍需突破推理鲁棒性与不确定性管理的核心瓶颈。

3. ImageNet作者苏昊回国任复旦通用物理AI院长

ImageNet关键贡献者苏昊正式回国，受聘为复旦大学通用物理AI研究院院长。作为李飞飞团队核心成员，他主导的具身智能研究长期位居全球高被引榜首，其工作深刻影响了机器人感知与物理推理的发展方向。

此次任职标志着国内在物理智能这一前沿领域迎来关键人才回归，有望推动AI从感知走向理解物理世界，加速通用人工智能在机器人、自动驾驶等具身场景的落地，重塑国产AI底层范式。

4. 机器人新脑π0.7学会未训练任务

机器人初创公司Physical Intelligence推出名为π0.7的新AI模型，该模型能通过物理直觉推断从未被明确训练过的任务，如使用不熟悉工具完成操作，标志着通用机器人大脑从仿真走向现实的关键进展。

这一突破有望降低机器人对海量人工标注数据的依赖，推动工业与家庭场景中更灵活的自动化落地，虽仍处早期阶段，但为国产机器人AI提供了可借鉴的路径。

🌐 行业风向与社区热议

1. DeepSeek拟融资超100亿美元估值

据《The Information》报道，中国AI初创公司DeepSeek正就首轮外部融资展开谈判，计划以不低于100亿美元估值募集至少3亿美元资金，以加速大模型研发、人才引进与全球化布局。此前该公司多次拒绝国内大厂与顶级风投的投资邀约，此次转向外部资本标志着其战略重心转向规模化扩张。

若融资成功，DeepSeek将成为全球少数估值超百亿美金的AI原生初创企业，与OpenAI、Anthropic等并列，凸显中国AI基础设施公司在全球竞争中的资本吸引力。当前行业融资回暖背景下，此轮资金动向将成观察中国AI产业实力的关键指标。

2. OpenAI斥1300亿押注英伟达竞品Cerebras

OpenAI计划在未来三年内向AI芯片初创公司Cerebras支付超200亿美元（约1364亿人民币），采购其晶圆级引擎WSE-3芯片，并额外注资10亿美元支持其数据中心建设。Cerebras的芯片体积是主流GPU的56倍，单位功耗更低，训练与推理速度比竞品快20倍以上，目前已为OpenAI新模型Codex-Spark提供算力支持。

此举不仅是OpenAI规避英伟达单一供应链风险的战略布局，更是财务优化手段——通过将支出记为资产与利息收入，为自身IPO铺路。同时，Cerebras借OpenAI与亚马逊订单缓解对阿联酋G42的收入依赖，计划下月重启IPO，目标估值350亿美元。这场交易标志着AI算力生态正从采购转向深度资本绑定。

3. 中国具身智能最大融资诞生

国内具身智能公司完成4.55亿美元单笔融资，创中国该领域历史新高，由高瓴资本与红杉中国联合领投，资金将主要用于研发全栈式具身大脑系统，整合感知、决策与控制能力，构建端到端智能体架构。

此次融资标志着资本对具身智能从硬件驱动转向‘大脑’驱动的战略共识，全栈大脑有望成为区别于传统机器人公司的核心壁垒，推动中国在通用机器人赛道实现技术突围。

4. 荣耀详解AI手机三大演进方向

荣耀AI专家李向东透露，公司已从智能手机制造商全面转型为AI终端生态公司，并在Magic V6上率先实现AI从‘问答工具’向‘生产力助手’的跃迁，如AI会议参谋可自动完成会前提醒、会中转写与会后纪要生成。他指出，端侧AI虽方向未定，但AI手机是当前最佳载体，其核心在于通过MagicOS与YOYO智能体构建‘越用越懂你’的个性化服务系统。

李向东强调，未来AI手机将具备三大突破：Agent自动执行任务、跨应用全局记忆、多模态交互（如视觉+语音），并指出手机厂商相比大模型公司更懂用户场景与生态协同，但需平衡成本与体验。荣耀通过分层策略，将前沿AI能力聚焦旗舰机，同时为中低端机提供轻量化AI方案，确保全系体验升级，而非盲目追求‘豆包式’高成本模式。

以上内容由 AI 自动生成并整理，仅供参考。

声明： 本早报内容来源于公开渠道，版权归原作者所有。