清华五道口AI俱乐部 |AI大模型多项能力同步推进:Anthropic新模型、语音模型、类脑长记忆、3D世界模型、体集中亮相-夜雨聆风

清华五道口AI俱乐部 |AI大模型多项能力同步推进:Anthropic新模型、语音模型、类脑长记忆、3D世界模型、体集中亮相

大家早上好！这里是清华五道口AI俱乐部，每天为你报道最新AI行业相关要闻。

Anthropic发布Claude Opus 4.7，代码与视觉能力大幅提升

2026年4月16日，Anthropic正式推出Claude Opus 4.7。代码能力显著增强，模型会主动验证输出再汇报，Cursor内部基准测试解决率从58%升至70%，部分合作伙伴生产任务量提升3倍。视觉支持从约100万像素跃升至375万像素（翻三倍），在渗透测试精度上从54.5%飙至98.5%。新增跨会话长期记忆、xhigh推理等级、/ultrareview代码审查命令及task budgets。价格保持不变（输入5美元/百万token，输出25美元），但新tokenizer可能导致实际消耗增加1.0至1.35倍。此外，Opus 4.7的网络安全能力被刻意降低，作为“Project Glasswing”安全机制的试验场，为未来Mythos级别模型的开放铺路。模型已在官网、API、Amazon Bedrock等平台上线。

谷歌推出Gemini 3.1 Flash TTS模型，支持音频标签与多语言

2026年4月16日，谷歌正式推出新一代文本转语音模型Gemini 3.1 Flash TTS，在语音质量、可控性与表现力上实现显著提升。该模型在Artificial Analysis TTS排行榜中以1211分ELO评分跻身“最优选象限”，位居行业前列。其核心功能包括音频标签——用户可通过自然语言指令精细控制风格、语速和情感表达；原生支持多说话人对话，适用于有声读物、播客等场景；覆盖70余种语言，满足全球化需求。开发者可通过Gemini API及Google AI Studio预览版调用，企业用户经Vertex AI接入，Workspace用户则可直接在Google Vids中使用。所有生成音频均内置SynthID数字水印，确保内容来源可追溯。此次发布进一步巩固了谷歌在AI语音生成领域的技术领先地位。

Synthius提出类脑记忆架构，AI记忆能力首次超越人类

2026年4月16日，Synthius公司提出类脑记忆架构Synthius-Mem，旨在解决大语言模型长期存在的“健忘”与“幻觉”问题。该架构通过结构化记忆设计，将对话中的关键信息提炼并归纳为身份、偏好、任务、知识、情感、交互历史六个语义域的个人档案，实现高效的知识沉淀与调用。在LoCoMo长对话记忆基准测试中，Synthius-Mem综合准确率达94.37%，超越人类基线87.9%；抗幻觉率高达99.55%，核心信息准确率为98.64%。相比传统全上下文重放方案，推理成本降低约80%，平均查询耗时仅22毫秒，具备极高的实用效率。该技术为智能体的长期记忆层提供了全新基础设施。

腾讯开源混元3D世界模型2.0，无缝对接游戏引擎

2026年4月16日，腾讯正式发布并开源混元3D世界模型2.0（HY-World 2.0）。该多模态模型支持文字、图片、视频输入，可生成完整3D世界并输出Mesh、3DGS或点云等资产，无缝导入Unity、UE等游戏引擎。技术上采用HY-Pano-2.0端到端隐式学习方案，无需相机参数即可生成360度全景映射，并通过自研空间Agent技术实现角色物理碰撞探索。点云F1-score达43.16，超越SEVA等开源模型30%以上。

蚂蚁灵波开源LingBot-Map，实现单摄像头实时流式三维重建

2026年4月16日，蚂蚁灵波正式开源流式三维重建模型LingBot-Map。该模型采用纯自回归式建模与几何上下文Transformer，通过几何上下文注意力机制（GCA）高效组织跨帧几何信息，仅用普通RGB摄像头即可边采集视频边完成相机定位与场景三维重建。在Oxford Spires数据集上，其绝对轨迹误差（ATE）达6.42米，轨迹精度较此前最优流式方法提升约2.8倍；推理速度达20 FPS，支持10,000+帧长视频连续推理且精度无衰减。技术已在Hugging Face和Model Scope开源，适用于机器人导航、自动驾驶等场景。

阶跃星辰发布StepAudio 2.5 TTS语音生成模型，支持零样本音色复刻

2026年4月16日，阶跃星辰发布语音生成模型StepAudio 2.5 TTS，将语境理解能力引入语音生成全流程。该模型具备全局语境控制（自定义整段语音的情绪基调、角色状态）、文中语境控制（调节语气、节奏、停顿）及零样本复刻与全音色控制（保留目标音色特征的同时灵活调节情感、风格）。官方表示，该技术使语音生成更自然、灵活且有表现力，已提供在线演示平台供开发者测试，适用于内容创作、虚拟助手等场景。

谷歌Gemini新增Agents入口，强化企业级任务执行能力

近日，谷歌Gemini平台新增「Agents」一级入口，用户可直接新建任务、指定目标、挂载工具和文件。该功能基于Agent Designer无代码平台，支持多步骤任务编排、连接Gmail/谷歌Drive等工具及定时执行。Gemini Enterprise同步整合目标、智能体、应用连接与文件面板，新增人工审核节点以强化企业级多Agent协作能力。此举标志着谷歌将Agent能力深度嵌入Workspace产品矩阵，与Anthropic、OpenAI形成差异化竞争。

Adobe发布Firefly AI助手，跨应用自主执行创意任务

2026年4月16日，Adobe宣布推出Firefly AI Assistant，一款具备自主决策能力的智能体工具。该助手可跨Creative Cloud核心应用（Photoshop、Premiere、Lightroom等）编排多步骤工作流，用户仅需用自然语言描述目标，AI即可独立规划步骤并完成操作，无需持续引导。Adobe创意与生产力业务总裁称此举开启了“智能体创意时代”。助手预置多种创意技能，支持统一人像修饰等一键操作，并能学习用户偏好保持风格一致，同时集成Frame.io审阅功能。Firefly AI Assistant尚未正式发布，未来几周将向Beta测试者开放公测。

Anthropic MCP协议存在设计缺陷，超20万台AI服务器面临风险

2026年4月15日，网络安全公司OX Security发布报告称，Anthropic的MCP（模型上下文协议）存在设计缺陷，可导致远程代码执行。该缺陷位于modelcontextprotocol SDK的STDIO接口，底层执行逻辑会运行任何传入的OS命令且无校验机制，影响超20万台AI服务器，波及Python、TypeScript等11种语言。Cursor、Claude Code等工具及LangFlow、Letta AI等平台受影响。Anthropic于1月7日收到通报后仅更新文档提示风险，未做架构改动，目前部分平台已发布补丁。

华为云发布办公智能体OfficeClaw，支持微信扫码直连多平台

2026年4月16日，华为云发布自研龙虾办公智能体OfficeClaw，具备对话生成专业级PPT、自动排版美化、每日行业动态推送及深度研究报告生成功能。该智能体可在微信、飞书、钉钉等平台发起远程办公任务，自动识别、分类归档本地文件。内置工具调用安全护栏（高危操作需确认）及敏感数据自动脱敏机制，支持微信一键扫码直连多平台。华为云官网每日10点限量发放邀请码，首批开放企业用户测试。

腾讯QQ原生接入Hermes Agent，支持全平台消息收发

2026年4月16日，腾讯QQ宣布原生接入Hermes Agent，其QQ Bot插件已正式合入该AI智能体官方文档。用户可通过在Messaging Platforms配置中选择QQ Bot通道，实现文字、语音、图片等消息类型的收发，更多消息类型和通道能力正在迭代中。接入需通过QQ开放平台创建QQ Bot获取AppID及AppSecret，并在Hermes Agent安装流程中完成配置连接。Hermes Agent是Nous Research于2026年2月开源的自主AI智能体，具备自我进化、跨会话记忆及全平台通信能力。

以上就是今日AI快讯的全部内容，感谢大家的收听。