🎤 千问 PC 端上线 AI 语音输入功能
阿里千问于5月7日正式在PC端上线了AI语音输入功能,标志着其从单纯的对话助手向跨应用任务调度中枢演进。用户只需长按快捷键(Windows为右Alt,Mac为右Command),即可在钉钉、微信、浏览器等任何桌面应用中唤醒该功能。其核心突破在于,语音输入不再仅仅是“打字”,而是能自动修正口误、去除语气词,并基于上下文智能生成回复、创作内容或执行翻译等复杂指令。这极大地提升了办公效率,例如用户口述周报后,AI能自动整理成结构清晰的要点。目前,该功能已向所有用户免费开放。
🌐 字节跳动发布全模态大模型 Doubao-Seed-2.0-lite
字节跳动旗下火山引擎于5月6日发布了豆包大模型家族的首款全模态理解模型——Doubao-Seed-2.0-lite。该模型实现了对视频、图像、音频、文本四种模态的原生统一理解,在物理、医疗等复杂推理任务上的表现已超越今年2月发布的Pro版本。其核心能力在于“音画同步”的深度联合推理,例如能分析长达25小时的比赛视频与语音,自动生成电竞战术复盘图谱。此外,模型还首次实现了GUI(图形用户界面)的理解与操作一体化,能像真人一样识别并点击网页按钮、拖拽元素,完成端到端的任务闭环。
🔍 谷歌更新其 AI 搜索功能
谷歌近日对其生成式AI搜索功能(AI Overviews)进行了重大升级,旨在通过整合社交媒体、论坛等一手信息源,优化用户获取真实经验与信任资讯的效率。此次更新最显著的变化是引入了“观点预览”功能,将Reddit等网络论坛的真实对话直接关联到搜索结果中,有时甚至会被标注为“专家建议”。同时,谷歌在AI回复中新增了创作者名称、社区昵称等上下文标识,并优先高亮用户已订阅的新闻媒体链接,帮助用户快速判别信息来源的可靠性。这一系列调整旨在应对用户日益倾向于在社交平台而非传统网页中寻找答案的趋势。
🏷️ 月之暗面申请注册KimiClaw商标
近日,北京月之暗面科技有限公司申请注册了多枚“KimiClaw”商标,国际分类涵盖科学仪器、网站服务、通讯服务等,目前状态为“等待实质审查”。公开信息显示,KimiClaw是月之暗面于今年2月推出的云端化OpenClaw产品,用户可在Kimi智能助手内直接部署,极大地降低了使用AI代理的门槛。此次商标注册被视为该公司在AI代理领域构建商业护城河的关键一步,既是为了防御性保护品牌,避免混淆,也是为了将这一底层能力进行清晰的品牌化,为未来服务企业客户铺平道路。
🔎 腾讯发布OpenSearch-VL
腾讯混元(Tencent Hunyuan)联合加州大学洛杉矶分校、香港中文大学等机构,于5月6日发布了OpenSearch-VL开源多模态训练方案。该项目旨在解决当前顶尖多模态搜索智能体因训练数据、轨迹合成流程不透明而难以复现的行业瓶颈,提供了一套从数据、工具到训练算法的完整开源“配方”。其核心是通过强化学习技术,训练AI智能体能够处理图像、文本等多种输入,并主动调用搜索引擎、图像处理等外部工具,进行多步骤推理与证据验证,以解决知识密集型的复杂视觉问答。测试显示,基于该方案训练的模型在七项基准测试中平均性能提升超过10个百分点,部分任务表现已可比肩顶级闭源商业模型。
🖥️ 本地 AI 工作站开源项目
近期,多个本地AI工作站开源项目涌现,旨在让个人电脑成为高效、私有的AI开发与运行平台。例如,Mininglamp开源的Cider和Mano-P项目,分别针对Mac端侧推理加速和GUI智能体操作两大痛点。Cider专注于深度优化苹果M系列芯片的INT8计算能力,以提升大型语言模型和视觉语言模型的本地推理速度并降低内存消耗。而Mano-P则是一个纯视觉GUI智能体,能让AI像人类一样“看屏”并操作电脑界面。此外,开源社区还出现了如AionUi这样的一站式本地AI协作平台,以及OpenVitamin等平台型架构,它们共同推动了AI应用开发与部署的本地化、平民化进程。
⚙️ OpenAI 联合硬件厂商推出提升 GPU 效率的新协议
为解决超大规模AI训练中因网络延迟和故障导致的GPU闲置浪费问题,OpenAI于5月6日联合AMD、博通、英特尔、微软和英伟达,共同推出并开源了“多路径可靠连接”(MRC)协议。该协议基于RoCE标准扩展,结合SRv6技术,通过将单一数据流分散到数百条路径并行传输,并能在微秒级内绕开故障链路,从而显著提升大型AI集群网络的可靠性与效率。目前,MRC已部署在OpenAI用于训练前沿模型的所有超级计算机上,包括甲骨文云基础设施站点和微软的Fairwater集群。OpenAI表示,引入MRC后,他们甚至可以在不中断集群训练任务的情况下重启核心网络交换机。
夜雨聆风