AI 前沿动态日报|2026年4月30日:原生多模态、识图模式与端侧翻译, 正在从“云端模型”走向“随身智能”

AI 前沿动态日报｜2026年4月30日：原生多模态、识图模式与端侧翻译，AI 正在从“云端模型”走向“随身智能”

今天的 AI 动态，如果放在一起看，一个非常明显的趋势是：

AI 正在从云端大模型，向多模态、端侧化和本地智能快速下沉。

商汤发布 SenseNova U1，把多模态理解、推理和生成放进一个原生统一架构；
DeepSeek 灰度上线“识图模式”，从纯文本对话正式迈向图文交互；
腾讯混元推出 440MB 的手机端离线翻译模型，把 33 种语言翻译能力压缩进普通手机；
Google Gemini 新增文件生成功能，让用户可以直接在对话里生成 PDF、Excel、CSV、Markdown 等文件；
苹果则被曝计划在 iOS 27 相机中加入 Siri 模式，把 Visual Intelligence 变成相机里的显性入口。

这些消息共同说明：

AI 的下一阶段，不只是更强的大模型，而是更自然地进入图片、文件、相机、手机、终端和本地系统。

一、商汤 SenseNova U1：多模态从“拼接系统”走向“原生统一架构”

今天技术侧最值得关注的，是商汤科技发布并开源 SenseNova U1 系列模型。

按照商汤官方和开源仓库的介绍，SenseNova U1 基于 NEO-unify 架构，试图在一个单一模型里统一多模态理解、推理和生成。

这和过去主流多模态系统有很大不同。

过去很多多模态模型本质上是“拼接式架构”：

• 图像理解依赖视觉编码器；
• 文本推理依赖语言模型；
• 图像生成依赖扩散模型或 VAE；
• 不同模块之间再通过适配器连接。

这种路线能快速做出效果，但也有问题：

• 模态之间不是原生统一；
• 理解和生成链路割裂；
• 图像信息常被压缩成文本或离散表示；
• 对视觉细节、空间关系和真实世界推理不够自然。

NEO-unify 的核心思路，是让模型直接处理更接近原生形态的视觉和文本信息，而不是先把图像“翻译”成文本再思考。

这听起来像一个架构细节，但背后其实是多模态 AI 的路线问题。

如果未来 AI 要进入机器人、自动驾驶、空间智能、地理仿真、工业视觉等场景，它不能只会“看图说话”。

它需要真正理解视觉世界：

• 物体在哪里；
• 空间关系是什么；
• 材质和形状如何变化；
• 动作可能产生什么后果；
• 图像生成和图像理解能否互相支持。

所以 SenseNova U1 的重点不是“又一个图像模型”，而是尝试把多模态能力从系统拼接推向原生统一。

这可能是多模态模型下一阶段的关键路线。

二、DeepSeek 上线识图模式：从纯文本助手走向多模态入口

DeepSeek 灰度上线“识图模式”，也是今天国内 AI 产品侧非常值得关注的一条。

据 TechWeb 与新浪科技报道，DeepSeek 网页版和 App 端已出现“识图模式”，与“快速模式”“专家模式”并列，用户可以上传图片进行内容理解与分析。目前该功能仍处于灰度测试阶段，并非所有用户都能看到。

这条消息看似只是一个功能更新，但意义很大。

DeepSeek 此前最核心的用户心智是：

• 文本对话；
• 代码；
• 推理；
• 数学；
• 长上下文；
• 低成本 API。

但当它加入识图模式后，产品入口就发生了变化。

用户可以让 DeepSeek 处理：

• 截图；
• 图表；
• 海报；
• 商品图片；
• 手写内容；
• 票据和表格；
• 设计稿和界面截图。

这意味着 DeepSeek 正式从纯文本对话，走向图文交互。

未来用户不再只问一句话，而是把真实世界的信息直接丢给模型。

这对 AI 助手非常关键。

因为现实工作中，信息很少只以纯文本存在。大量任务本来就来自图片、PDF、表格、截图、白板、设计图、视频帧和手机拍照。

所以 DeepSeek 的多模态化，不只是补齐一个功能，而是补齐 AI 助手进入真实工作流的入口。

三、腾讯混元 440MB 离线翻译模型：端侧 AI 开始进入“真可用”阶段

腾讯混元推出 Hy-MT1.5-1.8B-1.25bit，也是一条非常有代表性的技术动态。

这款模型把支持 33 种语言、5 种方言和民族语言的翻译大模型压缩到 440MB，可以在手机本地离线运行。相关报道提到，它不需要联网，下载后即可在手机端完成翻译，腾讯方面还声称其翻译质量优于谷歌翻译。

这条消息的重点不是“翻译模型又变强了”。

真正重要的是：

大模型开始进入手机本地运行。

过去大家提到大模型，默认想到云端：

• 请求发到服务器；
• GPU 推理；
• 返回结果；
• 用户按量付费；
• 数据可能经过云端系统。

但端侧模型的价值完全不同。

它解决的是几个非常现实的问题。

第一，离线可用。
出国旅行、地下空间、弱网环境，翻译不能总是依赖网络。

第二，隐私更好。
邮件、聊天、合同、医疗信息、身份证件翻译，如果全部上传云端，会有隐私顾虑。

第三，成本更低。
本地推理不需要每次调用云端模型，适合高频小任务。

第四，响应更快。
端侧翻译可以更接近实时交互。

腾讯混元这个模型最值得关注的地方，是 1.25-bit 极致量化。

1.8B 参数模型本来就不算大，但要真正在手机上顺滑运行，还需要进一步压缩。腾讯通过 Sherry 等量化技术，把模型压缩到 440MB，并适配移动端 CPU 指令集。

这说明端侧 AI 的关键，不只是模型设计，也包括量化、推理引擎、硬件适配和产品体验。

端侧 AI 不会替代云端大模型，但它会承担越来越多高频、隐私敏感、低延迟任务。

四、Google Gemini 文件生成：AI 正在从“给答案”变成“交付文件”

Google Gemini 新增文件生成功能，是今天海外产品侧最值得关注的更新之一。

Google 官方博客显示，Gemini 现在可以直接在对话中创建可下载文件，包括 PDF、Microsoft Word、Excel、Google Docs、Sheets、Slides 等。用户不再需要先生成文字，再复制到 Docs 或 Sheets 里整理。

这件事非常重要。

过去 AI 聊天机器人的主要输出是文本。

用户问一个问题，模型回答一段话。
但真实工作里，用户真正想要的往往不是“回答”，而是“文件”：

• 一份 PDF 报告；
• 一个 Excel 表格；
• 一份会议纪要；
• 一个 CSV 数据集；
• 一份 Markdown 文档；
• 一套幻灯片；
• 一份项目计划表。

所以 Gemini 的文件生成能力，代表 AI 产品从“聊天”向“交付”迈进。

这也是未来 AI 助手的核心方向。

用户不应该再经历这样的流程：

先问 AI；
再复制文本；
再打开 Word；
再整理格式；
再导出 PDF；
再手动改表格。

更自然的流程应该是：

说出目标，AI 直接生成可用文件。

这类能力对办公场景非常关键。企业用户不缺聊天窗口，缺的是能直接进入工作成果的系统。

五、苹果 iOS 27 Siri 相机模式：AI 正在进入“默认相机入口”

苹果 iOS 27 被曝将在相机中加入 Siri 模式，也是今天值得关注的消费级 AI 动态。

根据彭博社相关报道和 IT之家等媒体转述，苹果计划把 Visual Intelligence 功能更深度整合进相机 App，让它以“Siri 模式”的形式出现在照片、视频、人像、全景等模式旁边。用户可以用它扫描食品标签、名片、活动门票等信息。

这条消息的关键词不是 Siri，而是入口。

相机是手机里最重要的现实世界入口之一。

用户看到什么，就可以拍下来；
拍下来以后，AI 可以识别、理解、整理、归档、提醒和执行。

比如：

• 拍食品标签，记录营养信息；
• 拍名片，添加联系人；
• 拍海报，创建日历提醒；
• 拍菜单，翻译并推荐菜品；
• 拍票据，自动报销；
• 拍物品，识别品牌和价格。

如果视觉智能真正进入相机主界面，用户不需要记住隐藏手势，也不需要打开独立 App。

这会让 AI 使用频率显著上升。

苹果的优势一向不是最早推出所有 AI 功能，而是把功能放进系统默认入口。

一旦相机、相册、Siri、搜索、快捷指令、邮件和备忘录都接入 Apple Intelligence，AI 就会变成 iPhone 系统层能力。

这说明消费级 AI 的竞争重点正在变化：

不是谁有一个 AI App，而是谁能把 AI 放进用户每天使用的入口。

六、小米 MiMo-V2.5：开源 Agent 模型与终端生态结合

小米 MiMo-V2.5 系列开源的后续影响也在持续发酵。

根据小米官方和 Hugging Face 页面，MiMo-V2.5-Pro 是一个 1.02T 总参数、42B 激活参数的 MoE 模型，支持最高 100 万 token 上下文，面向 Agent、复杂软件工程和长周期任务。MiMo-V2.5 则强调全模态能力，支持文本、图像、视频和音频理解。

小米的特殊之处在于，它不是单纯模型公司。

它有手机、IoT、汽车、智能家居和可穿戴设备。

这意味着 MiMo 系列模型如果进入小米生态，可能不是只提供聊天服务，而是变成终端智能的底层能力。

未来小米 AI 可能出现在：

• 手机系统；
• 车机；
• 家庭中控；
• 智能音箱；
• 电视；
• 手表；
• 机器人；
• 开发者 Agent 工具。

这和腾讯混元离线翻译、苹果 Siri 相机模式放在一起看，会发现一个共同趋势：

AI 正在从云端 API 下沉到用户手边的设备。

七、Poolside Laguna XS.2 与本地编程 Agent：开发者也在回到本地

Poolside 发布开源编码模型 Laguna XS.2，也值得放进今天的技术观察里。

据 VentureBeat 报道，Laguna XS.2 是一个面向本地 agentic coding 的高性能开源模型，参数规模为 33B，Poolside 希望通过开放权重让研究者和创业公司进行评估、微调和改进。

这条消息和 MiMo、DeepSeek、Warp 开源放在一起看，会形成一个明显趋势：

AI 编程不只在云端，也开始向本地和开源工具链扩散。

开发者为什么需要本地编码模型？

• 代码隐私；
• 低延迟；
• 离线开发；
• 降低成本；
• 与内部工具深度集成；
• 可自定义微调；
• 避免对单一闭源 API 依赖。

未来企业开发流程，很可能不是只用一个 Copilot，而是多种模型组合：

• 云端强模型处理复杂架构；
• 本地模型处理代码补全和低风险任务；
• 开源模型做批量分析；
• Agent 工具负责运行测试和提交修改。

这会让编程模型市场更加分层。

八、结语：今天的关键词是“入口下沉”

如果用一句话概括今天的技术与产品动态，我会写：

AI 正在从云端模型能力，向端侧入口、文件交付和原生多模态下沉。

商汤 SenseNova U1 代表多模态架构从拼接走向原生统一；
DeepSeek 识图模式代表文本助手进入图文交互；
腾讯混元 440MB 离线翻译模型代表端侧 AI 开始真正可用；
Google Gemini 文件生成代表 AI 从回答走向交付；
苹果 Siri 相机模式代表 AI 正在进入手机默认入口；
小米 MiMo-V2.5 和 Poolside Laguna XS.2 则说明开源模型正在进入终端和开发者工作流。

过去 AI 的问题是：

“模型够不够强？”

现在的新问题是：

• AI 能不能在手机上跑；
• AI 能不能离线用；
• AI 能不能看图；
• AI 能不能直接生成文件；
• AI 能不能进入相机；
• AI 能不能保护隐私；
• AI 能不能成为终端默认能力。

这才是今天最值得关注的变化。

AI 的下一阶段，不只是更大的云端模型，而是无处不在的随身智能。

参考资料

• WIRED：SenseTime Releases SenseNova U1
• SenseNova U1 GitHub / 商汤 NEO-unify 官方介绍
• 新浪科技 / TechWeb：DeepSeek 上线“识图模式”
• Google 官方博客：You can now generate files in Gemini
• IT之家 / 彭博社转述：iOS 27 相机 Siri 模式
• 腾讯混元 Hy-MT1.5-1.8B-1.25bit 开源资料
• Xiaomi MiMo-V2.5-Pro 官方页面与 Hugging Face
• VentureBeat：Poolside Laguna XS.2