乐于分享
好东西不私藏

清华五道口AI俱乐部 |AI大模型多项能力同步推进:Anthropic新模型、语音模型、类脑长记忆、3D世界模型、体集中亮相

清华五道口AI俱乐部 |AI大模型多项能力同步推进:Anthropic新模型、语音模型、类脑长记忆、3D世界模型、体集中亮相

大家早上好! 这里是清华五道口AI俱乐部,每天为你报道最新AI行业相关要闻。

Anthropic发布Claude Opus 4.7,代码与视觉能力大幅提升

2026年4月16日,Anthropic正式推出Claude Opus 4.7。代码能力显著增强,模型会主动验证输出再汇报,Cursor内部基准测试解决率从58%升至70%,部分合作伙伴生产任务量提升3倍。视觉支持从约100万像素跃升至375万像素(翻三倍),在渗透测试精度上从54.5%飙至98.5%。新增跨会话长期记忆、xhigh推理等级、/ultrareview代码审查命令及task budgets。价格保持不变(输入5美元/百万token,输出25美元),但新tokenizer可能导致实际消耗增加1.0至1.35倍。此外,Opus 4.7的网络安全能力被刻意降低,作为“Project Glasswing”安全机制的试验场,为未来Mythos级别模型的开放铺路。模型已在官网、API、Amazon Bedrock等平台上线。

谷歌推出Gemini 3.1 Flash TTS模型,支持音频标签与多语言

2026年4月16日,谷歌正式推出新一代文本转语音模型Gemini 3.1 Flash TTS,在语音质量、可控性与表现力上实现显著提升。该模型在Artificial Analysis TTS排行榜中以1211分ELO评分跻身“最优选象限”,位居行业前列。其核心功能包括音频标签——用户可通过自然语言指令精细控制风格、语速和情感表达;原生支持多说话人对话,适用于有声读物、播客等场景;覆盖70余种语言,满足全球化需求。开发者可通过Gemini API及Google AI Studio预览版调用,企业用户经Vertex AI接入,Workspace用户则可直接在Google Vids中使用。所有生成音频均内置SynthID数字水印,确保内容来源可追溯。此次发布进一步巩固了谷歌在AI语音生成领域的技术领先地位。

Synthius提出类脑记忆架构,AI记忆能力首次超越人类

2026年4月16日,Synthius公司提出类脑记忆架构Synthius-Mem,旨在解决大语言模型长期存在的“健忘”与“幻觉”问题。该架构通过结构化记忆设计,将对话中的关键信息提炼并归纳为身份、偏好、任务、知识、情感、交互历史六个语义域的个人档案,实现高效的知识沉淀与调用。在LoCoMo长对话记忆基准测试中,Synthius-Mem综合准确率达94.37%,超越人类基线87.9%;抗幻觉率高达99.55%,核心信息准确率为98.64%。相比传统全上下文重放方案,推理成本降低约80%,平均查询耗时仅22毫秒,具备极高的实用效率。该技术为智能体的长期记忆层提供了全新基础设施。

腾讯开源混元3D世界模型2.0,无缝对接游戏引擎

2026年4月16日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0)。该多模态模型支持文字、图片、视频输入,可生成完整3D世界并输出Mesh、3DGS或点云等资产,无缝导入Unity、UE等游戏引擎。技术上采用HY-Pano-2.0端到端隐式学习方案,无需相机参数即可生成360度全景映射,并通过自研空间Agent技术实现角色物理碰撞探索。点云F1-score达43.16,超越SEVA等开源模型30%以上。

蚂蚁灵波开源LingBot-Map,实现单摄像头实时流式三维重建

2026年4月16日,蚂蚁灵波正式开源流式三维重建模型LingBot-Map。该模型采用纯自回归式建模与几何上下文Transformer,通过几何上下文注意力机制(GCA)高效组织跨帧几何信息,仅用普通RGB摄像头即可边采集视频边完成相机定位与场景三维重建。在Oxford Spires数据集上,其绝对轨迹误差(ATE)达6.42米,轨迹精度较此前最优流式方法提升约2.8倍;推理速度达20 FPS,支持10,000+帧长视频连续推理且精度无衰减。技术已在Hugging Face和Model Scope开源,适用于机器人导航、自动驾驶等场景。

阶跃星辰发布StepAudio 2.5 TTS语音生成模型,支持零样本音色复刻

2026年4月16日,阶跃星辰发布语音生成模型StepAudio 2.5 TTS,将语境理解能力引入语音生成全流程。该模型具备全局语境控制(自定义整段语音的情绪基调、角色状态)、文中语境控制(调节语气、节奏、停顿)及零样本复刻与全音色控制(保留目标音色特征的同时灵活调节情感、风格)。官方表示,该技术使语音生成更自然、灵活且有表现力,已提供在线演示平台供开发者测试,适用于内容创作、虚拟助手等场景。

谷歌Gemini新增Agents入口,强化企业级任务执行能力

近日,谷歌Gemini平台新增「Agents」一级入口,用户可直接新建任务、指定目标、挂载工具和文件。该功能基于Agent Designer无代码平台,支持多步骤任务编排、连接Gmail/谷歌Drive等工具及定时执行。Gemini Enterprise同步整合目标、智能体、应用连接与文件面板,新增人工审核节点以强化企业级多Agent协作能力。此举标志着谷歌将Agent能力深度嵌入Workspace产品矩阵,与Anthropic、OpenAI形成差异化竞争。

Adobe发布Firefly AI助手,跨应用自主执行创意任务

2026年4月16日,Adobe宣布推出Firefly AI Assistant,一款具备自主决策能力的智能体工具。该助手可跨Creative Cloud核心应用(Photoshop、Premiere、Lightroom等)编排多步骤工作流,用户仅需用自然语言描述目标,AI即可独立规划步骤并完成操作,无需持续引导。Adobe创意与生产力业务总裁称此举开启了“智能体创意时代”。助手预置多种创意技能,支持统一人像修饰等一键操作,并能学习用户偏好保持风格一致,同时集成Frame.io审阅功能。Firefly AI Assistant尚未正式发布,未来几周将向Beta测试者开放公测。

Anthropic MCP协议存在设计缺陷,超20万台AI服务器面临风险

2026年4月15日,网络安全公司OX Security发布报告称,Anthropic的MCP(模型上下文协议)存在设计缺陷,可导致远程代码执行。该缺陷位于modelcontextprotocol SDK的STDIO接口,底层执行逻辑会运行任何传入的OS命令且无校验机制,影响超20万台AI服务器,波及Python、TypeScript等11种语言。Cursor、Claude Code等工具及LangFlow、Letta AI等平台受影响。Anthropic于1月7日收到通报后仅更新文档提示风险,未做架构改动,目前部分平台已发布补丁。

华为云发布办公智能体OfficeClaw,支持微信扫码直连多平台

2026年4月16日,华为云发布自研龙虾办公智能体OfficeClaw,具备对话生成专业级PPT、自动排版美化、每日行业动态推送及深度研究报告生成功能。该智能体可在微信、飞书、钉钉等平台发起远程办公任务,自动识别、分类归档本地文件。内置工具调用安全护栏(高危操作需确认)及敏感数据自动脱敏机制,支持微信一键扫码直连多平台。华为云官网每日10点限量发放邀请码,首批开放企业用户测试。

腾讯QQ原生接入Hermes Agent,支持全平台消息收发

2026年4月16日,腾讯QQ宣布原生接入Hermes Agent,其QQ Bot插件已正式合入该AI智能体官方文档。用户可通过在Messaging Platforms配置中选择QQ Bot通道,实现文字、语音、图片等消息类型的收发,更多消息类型和通道能力正在迭代中。接入需通过QQ开放平台创建QQ Bot获取AppID及AppSecret,并在Hermes Agent安装流程中完成配置连接。Hermes Agent是Nous Research于2026年2月开源的自主AI智能体,具备自我进化、跨会话记忆及全平台通信能力。

以上就是今日AI快讯的全部内容,感谢大家的收听。