每日精选 AI 领域重要动态,为你节省信息筛选时间
📋 今日摘要
- • OpenAI推出GPT-Rosalind,专为缩短药物发现周期至3-5年设计
- • Anthropic发布Claude Opus 4.7,在GDPVal-AA基准以1753分超越GPT-5.4(1674分),并支持375万像素视觉处理与自主验证功能
- • OpenAI发布Codex重大更新,支持macOS后台操控所有应用、生成图像、预览网页,活跃开发者达300万
- • 阿里开源Qwen3.6-35B-A3B,350亿总参数下每次推理仅激活30亿,SWE-bench性能显著提升
- • 阿里推出支持音视频联合生成的开放式世界模型,开启实时交互世界生成内测
今日共收录 25 条动态,涵盖 大模型与核心产品 7条、开源生态与开发者工具 5条、技术实践与深度洞察 5条、学术与前沿研究 4条、行业风向与社区热议 4条。
🚀 大模型与核心产品
1. OpenAI发布生命科学AI模型GPT-Rosalind
OpenAI正式发布其首款生命科学领域AI模型GPT-Rosalind,专攻生物化学与基因组数据分析,旨在通过高精度推理加速新药研发流程。该模型基于大语言架构,针对科学文献、实验数据和分子结构进行专项训练,可辅助科研人员预测药物靶点、筛选候选分子并优化临床前路径。
此举标志着OpenAI从通用AI向专业科学计算的关键拓展,若能实现预期效果,有望将传统10-15年的药物发现周期压缩至3-5年,对全球生物医药产业产生深远影响,也引发国内AI制药企业对模型能力与数据壁垒的重新评估。
2. Claude Opus 4.7发布,以微弱优势登顶最强开源LLM

Anthropic正式发布Claude Opus 4.7,成为当前最强大的通用大模型,在GDPVal-AA知识工作评估中以1753分小幅领先OpenAI的GPT-5.4(1674分)和Google的Gemini 3.1 Pro(1314分)。该模型在智能编码、研究生级推理和视觉推理等任务中表现突出,尤其引入高分辨率多模态支持(最高375万像素)和自主验证机制,能像人类工程师一样构建并测试代码,显著减少幻觉循环。API定价保持不变,已上线AWS、Google Cloud和Microsoft Azure。
尽管Opus 4.7在专业场景中赢得企业用户高度评价——如Replit和Notion称其‘像更好的同事’——但其对指令的字面服从性增强,导致旧提示失效,且token消耗上升1.0–1.35倍。Anthropic同步推出‘努力等级’和‘任务预算’功能以控制成本,并通过‘网络安全验证计划’限制高风险用途。此举标志着AI从创意工具向可审计、可管控的生产系统转型,但其商业霸权正面临监管围堵与开发者信任危机。
3. OpenAI升级Codex:AI可操控全机应用

OpenAI今日大幅升级Codex桌面应用,使其能访问并操控用户计算机上的所有程序,包括点击、输入、启动应用等光标级操作,仅限macOS首发。同时集成gpt-image-1.5图像生成、内置浏览器预览前端、SSH远程连接及90+插件,实现从代码编写到资源生成、项目管理的全链路自动化,标志着其从代码辅助工具向智能代理平台的转型。
此次更新强化了‘持续代理’能力,通过‘记忆’功能学习用户习惯,主动推送每日工作建议,如未读评论或待处理PR,与Anthropic的Claude Cowork形成直接竞争。OpenAI明确将Codex作为构建‘超级应用’的起点,目标是成为开发者日常工作的‘中枢神经系统’,并已面向300万周活跃开发者逐步推送,企业版功能将分阶段上线。
4. 阿里开源Qwen3.6-35B-A3B:350亿参数仅激活30亿
阿里通义实验室正式开源Qwen3.6-35B-A3B,采用稀疏混合专家(MoE)架构,总参数达350亿,但推理时仅激活30亿参数,大幅降低计算开销。该模型在SWE-bench和Terminal-Bench等专业基准测试中相较前代Qwen3.5-35B-A3B表现显著提升,展现出更强的代码理解与终端任务处理能力。
这一发布标志着国产大模型在高效推理架构上的持续突破,为中小企业和开发者提供了高性价比的开源选择,有助于推动国内AI应用在代码辅助、DevOps等场景的落地,进一步巩固通义千问在开源生态中的竞争力。
5. 阿里HappyOyster开放内测
阿里巴巴ATH创新事业部旗下HappyOyster正式开放内测,该产品是一款基于原生多模态架构的开放式世界模型,可实时理解并生成包含图像、音频与视频的交互式场景,突破传统提示词-渲染的单向流程。
这一进展标志着国内大厂在生成式AI从单模态内容生成向动态、沉浸式世界构建的关键跃迁,有望为游戏、虚拟人、元宇宙应用提供新一代底层引擎,推动国产AI在交互式内容生成领域进入新阶段。
6. 科大讯飞发布AstronClaw软硬一体AI Agent
4月15日,科大讯飞正式升级发布AstronClaw AI Agent平台,推出9项创新产品,首次构建‘软硬一体’架构体系,使AI智能体不再局限于对话交互,而是能通过语音与传感器直接控制智能终端、机器人等物理设备,实现从‘听懂你’到‘帮你做事’的跃迁。
这一突破标志着国产AI从对话模型向具身智能迈出关键一步,尤其在办公自动化、智能家居和工业控制场景具有落地潜力,强化了科大讯飞在AI Agent赛道的国产领先优势。
7. 腾讯开源混元3D世界模型2.0
腾讯昨日正式开源混元3D世界模型2.0(HY-3D v2),该模型能根据一句话描述生成高度细节的可交互3D场景,实测可构建出吉卜力动画风格的小镇,支持角色跑跳与环境互动,标志着国产大模型在世界模型赛道实现关键突破。
此举不仅填补了国内在生成式3D世界模型领域的空白,也与李飞飞团队的Spark 2.0形成直接竞争,推动AI从2D图像生成迈向三维物理世界建模,为游戏、元宇宙和AI助手提供底层引擎支持。
🛠️ 开源生态与开发者工具
1. OpenAI发布新版Agent SDK:内置沙箱支持长任务

OpenAI正式更新Agents SDK,新增原生沙箱执行环境,允许智能体在隔离空间内安全读写文件、调用工具并执行代码,避免系统风险。开发者可直接使用内置沙箱,或对接Blaxel、Cloudflare、Modal等第三方服务,同时支持AWS S3、Azure Blob等云存储挂载,实现从开发到生产的一致性部署。
此次升级还实现管控框架与计算资源的分离,通过状态快照与恢复机制,确保智能体在容器崩溃后能从检查点续跑,大幅提升长任务稳定性。该架构支持多沙箱并行调度,提升执行效率,并计划后续推出TypeScript版本。此举标志着AI智能体从原型走向企业级可靠部署的关键一步,与Anthropic的Claude Managed Agents形成技术对标。
2. llm-anthropic 0.25发布:支持Claude Opus 4.7
llm-anthropic 0.25版本正式发布,新增对Anthropic最新模型claude-opus-4.7的支持,并引入xhigh级别的thinking_effort参数,允许开发者启用更高强度的推理模式。同时,新增thinking_display和thinking_adaptive布尔选项,用于控制思维过程的展示方式,目前仅在JSON输出或日志中可见。
该版本还统一提升了各模型的max_tokens上限至API允许的最大值,并移除了对已废弃的structured-outputs测试头的依赖,提升了稳定性和兼容性。虽为工具库更新,但对使用Claude系列模型的开发者而言,是提升推理控制精度的重要迭代。
3. 极客用胶带和旧摄像头造AI黑客机械臂
独立开发者gainsec利用废旧摄像头、CNC机床和大量胶带,搭建了一套AI驱动的硬件探针系统,能自动定位并测试电路板上的安全漏洞。该系统通过视觉识别目标焊点,结合机械臂精准触碰,实现自动化渗透测试,代码已开源在GitHub。
该项目虽为个人极客作品,但展示了低成本AI硬件自动化在安全研究中的潜力,为嵌入式安全测试提供了新颖思路,适合硬件黑客和渗透测试爱好者参考借鉴。
4. PPIO上线PPHermes:一键部署Hermes Agent
PPIO正式上线PPHermes平台,支持开发者通过云端沙箱一键部署Hermes Agent,无需本地配置环境,大幅简化AI智能体的测试与上线流程。该工具集成资源调度与安全隔离机制,适用于多场景AI代理验证。
5. Mozilla开源自托管AI客户端Thunderbolt
Mozilla与德国AI公司deepset联合发布开源项目Thunderbolt,提供可本地部署的AI客户端解决方案,旨在让企业与组织摆脱对公有云AI服务的依赖,实现数据与模型的自主控制。
该项目呼应了当前企业对AI隐私与合规的日益关注,尤其适合政府、金融和医疗等敏感领域,标志着Mozilla从浏览器厂商向AI基础设施参与者的战略延伸。
💡 技术实践与深度洞察
1. Amazon Bedrock引入自动推理提升AI合规

Amazon Bedrock新引入自动推理技术,通过形式化验证方法替代传统概率性AI验证,为受监管行业提供数学上可证明的AI输出结果,解决生成式AI在金融、医疗等高合规场景中的可信度问题。
该功能已获六大行业客户实证应用,支持生成可审计、可追溯的AI响应,企业可直接通过Bedrock调用,标志着云平台在AI合规基础设施上迈出关键一步,对国内金融与政务AI落地具有参考价值。
2. NVIDIA发布DeepStream编码代理

NVIDIA在GTC26前夕发布DeepStream Coding Agents,这是首个专为实时视觉AI应用设计的AI编码助手,能根据自然语言描述自动生成高效、优化的视频分析管道代码,覆盖摄像头接入、推理、追踪与输出等全流程。
该工具基于NVIDIA Metropolis平台,显著降低开发门槛,尤其利好工业质检、智能安防等场景的中小企业,标志着AI原生开发从通用代码生成迈向垂直领域自动化的重要一步。
3. Anthropic MCP漏洞波及20万服务器

以色列网络安全公司OX Security披露,Anthropic主导的模型上下文协议(MCP)存在架构级安全漏洞,其官方10种语言SDK均默认允许STDIO接口直接执行任意系统命令,无需校验。该缺陷已影响超3.2万个开源代码库,7374台公开服务器被确认可被远程控制,潜在暴露服务器超20万台,攻击者可窃取API密钥、数据库与聊天记录。
尽管OX多次负责任披露并提出四项可自动修复的方案(如命令白名单、仅清单模式),Anthropic、LangChain、微软、谷歌等主要厂商均以‘预期设计’或‘非漏洞’为由拒绝修复,仅更新文档警告‘谨慎使用’,将安全责任转嫁开发者,暴露AI基础设施供应链的系统性安全失职。
4. 网站是否准备好迎接AI代理?

开发者推出在线工具isitagentready.com,通过分析网站结构、API接口和语义标记,自动评估其是否适合被AI代理调用和交互。工具重点关注可爬取内容、结构化数据和动态响应能力,帮助开发者提前优化站点以适配下一代AI应用。
该工具虽为初创项目,但直击AI代理生态的关键痛点——数据接入门槛,为国内开发者提供低成本的适配参考,尤其对构建智能客服、自动化爬取或Agent工作流的团队具有实用价值。
5. 用Claude Code打通SPICE仿真与示波器闭环
一位开发者基于MCP协议构建了连接SPICE电路仿真器与物理示波器的服务器,使AI编码助手Claude Code能实时读取仿真结果与实际测量数据,自动识别差异并生成修复建议,实现仿真-硬件验证闭环。
此举为电子设计自动化(EDA)提供了轻量级AI验证新路径,虽非工业级方案,但为嵌入式开发者提供了低成本、可复用的调试范式,值得关注开源社区后续扩展。
🔬 学术与前沿研究
1. 字节发布Seedance 2.0论文,登顶多模态视频生成榜

字节跳动Seed团队于4月15日发布Seedance 2.0技术论文,系统披露其在多模态视频生成领域的四大核心能力:真实世界物理建模、多模态指令理解、高保真音视频同步生成与生产力场景适配。该模型支持文本、图像、音频、视频四模态输入,可同时接收3段视频+9张图+3段音频,输出4–15秒、480p/720p视频,并已接入豆包、即梦AI等产品。评测显示,Seedance 2.0在文生视频(T2V)和图生视频(I2V)六大维度全面领先,运动质量与音画同步得分达3.75,显著优于Sora 2 Pro、Kling 3.0等竞品。
尤其在音频生成上,Seedance 2.0在英语、方言、演唱等17个细项全第一,音频质量满意率达57.08%,是竞品的10倍以上;其自建评测集SeedVideoBench 2.0新增叙事与多模态编辑评估体系,强化了对专业创作场景的适配能力。尽管未公开架构细节,但其在可控合成与工业落地方面的表现,标志着国产视频生成模型已具备全球一线竞争力。
2. AI临床诊断错误率超80%,JAMA重磅警告
美国医学会旗下期刊JAMA Network Open发布研究,对GPT-5、Claude 4.5 Opus、Gemini 3等21款主流大模型进行临床推理测试,发现其在早期鉴别诊断阶段错误率普遍超过80%,远高于后续诊断与治疗环节,暴露出AI在信息不全时过早锁定单一结论的致命缺陷。
研究指出,AI擅长处理信息完整的推理场景,但无法像医生那样在初期保持多假设、动态修正的思维模式,导致其当前无法安全用于真实临床决策,凸显了AI辅助医疗仍需突破推理鲁棒性与不确定性管理的核心瓶颈。
3. ImageNet作者苏昊回国任复旦通用物理AI院长

ImageNet关键贡献者苏昊正式回国,受聘为复旦大学通用物理AI研究院院长。作为李飞飞团队核心成员,他主导的具身智能研究长期位居全球高被引榜首,其工作深刻影响了机器人感知与物理推理的发展方向。
此次任职标志着国内在物理智能这一前沿领域迎来关键人才回归,有望推动AI从感知走向理解物理世界,加速通用人工智能在机器人、自动驾驶等具身场景的落地,重塑国产AI底层范式。
4. 机器人新脑π0.7学会未训练任务

机器人初创公司Physical Intelligence推出名为π0.7的新AI模型,该模型能通过物理直觉推断从未被明确训练过的任务,如使用不熟悉工具完成操作,标志着通用机器人大脑从仿真走向现实的关键进展。
这一突破有望降低机器人对海量人工标注数据的依赖,推动工业与家庭场景中更灵活的自动化落地,虽仍处早期阶段,但为国产机器人AI提供了可借鉴的路径。
🌐 行业风向与社区热议
1. DeepSeek拟融资超100亿美元估值
据《The Information》报道,中国AI初创公司DeepSeek正就首轮外部融资展开谈判,计划以不低于100亿美元估值募集至少3亿美元资金,以加速大模型研发、人才引进与全球化布局。此前该公司多次拒绝国内大厂与顶级风投的投资邀约,此次转向外部资本标志着其战略重心转向规模化扩张。
若融资成功,DeepSeek将成为全球少数估值超百亿美金的AI原生初创企业,与OpenAI、Anthropic等并列,凸显中国AI基础设施公司在全球竞争中的资本吸引力。当前行业融资回暖背景下,此轮资金动向将成观察中国AI产业实力的关键指标。
2. OpenAI斥1300亿押注英伟达竞品Cerebras

OpenAI计划在未来三年内向AI芯片初创公司Cerebras支付超200亿美元(约1364亿人民币),采购其晶圆级引擎WSE-3芯片,并额外注资10亿美元支持其数据中心建设。Cerebras的芯片体积是主流GPU的56倍,单位功耗更低,训练与推理速度比竞品快20倍以上,目前已为OpenAI新模型Codex-Spark提供算力支持。
此举不仅是OpenAI规避英伟达单一供应链风险的战略布局,更是财务优化手段——通过将支出记为资产与利息收入,为自身IPO铺路。同时,Cerebras借OpenAI与亚马逊订单缓解对阿联酋G42的收入依赖,计划下月重启IPO,目标估值350亿美元。这场交易标志着AI算力生态正从采购转向深度资本绑定。
3. 中国具身智能最大融资诞生

国内具身智能公司完成4.55亿美元单笔融资,创中国该领域历史新高,由高瓴资本与红杉中国联合领投,资金将主要用于研发全栈式具身大脑系统,整合感知、决策与控制能力,构建端到端智能体架构。
此次融资标志着资本对具身智能从硬件驱动转向‘大脑’驱动的战略共识,全栈大脑有望成为区别于传统机器人公司的核心壁垒,推动中国在通用机器人赛道实现技术突围。
4. 荣耀详解AI手机三大演进方向
荣耀AI专家李向东透露,公司已从智能手机制造商全面转型为AI终端生态公司,并在Magic V6上率先实现AI从‘问答工具’向‘生产力助手’的跃迁,如AI会议参谋可自动完成会前提醒、会中转写与会后纪要生成。他指出,端侧AI虽方向未定,但AI手机是当前最佳载体,其核心在于通过MagicOS与YOYO智能体构建‘越用越懂你’的个性化服务系统。
李向东强调,未来AI手机将具备三大突破:Agent自动执行任务、跨应用全局记忆、多模态交互(如视觉+语音),并指出手机厂商相比大模型公司更懂用户场景与生态协同,但需平衡成本与体验。荣耀通过分层策略,将前沿AI能力聚焦旗舰机,同时为中低端机提供轻量化AI方案,确保全系体验升级,而非盲目追求‘豆包式’高成本模式。
以上内容由 AI 自动生成并整理,仅供参考。
声明: 本早报内容来源于公开渠道,版权归原作者所有。
夜雨聆风