乐于分享
好东西不私藏

谷歌与通用合作车载AI;OpenAI登上亚马逊云;国产视觉登顶;英伟达推多模态;腾讯混元新模型;迪士尼启用人脸识别

谷歌与通用合作车载AI;OpenAI登上亚马逊云;国产视觉登顶;英伟达推多模态;腾讯混元新模型;迪士尼启用人脸识别

今日热点导览

  • OpenAI 正式登陆 AWS Bedrock,微软不再独享
  • 通用汽车与谷歌合作,Gemini 车载助手覆盖 400 万辆
  • 英伟达发布 Nemotron 3 Nano Omni,多模态推理效率最高提升 9 倍
  • 商汤开源 SenseNova U1:原生统一的理解与生成架构
  • 腾讯混元 Hy3 preview 登顶 OpenRouter 调用量榜首
  • 中文视觉大模型新格局:字节豆包登顶,国产全面领跑
  • Mistral AI 上线企业级 Workflows,支持 Python 与人工审批
  • 迪士尼乐园启用人脸识别通道,引发隐私讨论

新模型发布

商汤开源 SenseNova U1:走向原生统一的多模态架构

商汤开源“日日新”SenseNova U1 系列,采用自研 NEO-unify 架构,将视觉与语言在同一表征空间统一建模,摒弃传统“拼接式”多模态,显著提升复杂场景理解与生成的一致性,为具身智能与通用多模态应用提供新底座。先行开放 Lite 版本,后续更大规模模型在路上。

英伟达 Nemotron 3 Nano Omni:多模态推理效率最高提升 9 倍

英伟达发布开放式多模态模型 Nemotron 3 Nano Omni(30B MoE),内置视觉与音频编码器,统一处理视频、音频、图像与文本。实测在复杂文档和视频理解等任务的吞吐量较同类开放方案最高提升 9 倍,适配企业级智能体的实时感知与执行需求。

讯飞发布星火 X2-Flash:30B MoE,256K 超长文本

星火 X2-Flash 在国产昇腾 910B 集群训练完成,采用 MoE 架构,支持最高 256K 上下文,重点强化 Agent 与代码生成能力;引入稀疏注意力与多 Token 预测,降低长文本训练与推理成本,API 已开放,适合长文档分析与多轮交互应用。

蚂蚁百灵 Ling-2.6-flash 开源:104B 总参,7.4B 激活

蚂蚁集团重磅开源 Ling-2.6-flash,提供 BF16/FP8/INT4 多精度版本。混合线性架构带来高吞吐与低时延,主流环境下推理峰值约 340 tokens/s;在相同任务质量下 Token 消耗大幅降低,定向增强工具调用与长路径规划,面向 Agent 场景优化明显。

蚂蚁数科 LingDT-2.6-flash 商业版:主打 Token 效率

LingDT-2.6-flash 在相同评测任务下可将 Token 消耗降至同规模模型的约 10%,总参 104B、激活 7.4B,面向企业实战优化推理效率与成本,提供私有化与金融级安全选项,DT MaaS 平台上线限时优惠计费。

腾讯混元 Hy3 preview:OpenRouter 调用量登顶

腾讯混元 Hy3 preview 在 OpenRouter 全球 API 调用量榜单位居第一,工具调用与编程场景表现突出,显示其在开发者生态的快速渗透。伴随国内多家厂商新模型密集发布,行业竞争重心由“参数竞赛”转向“应用实效”。

腾讯 Hy-MT1.5 1.8B 量化离线翻译:手机端 440MB 可用

腾讯混元团队推出 1.8B 参数、1.25bit 极致量化离线翻译模型,APK 约 440MB 可在手机本地流畅运行,支持 33 语种与多方言,断网场景仍可高质量翻译,隐私更友好,并已开源提供体验包。

GPT Image2 登顶评测:文本与复杂场景生成提升明显

SuperCLUE 最新评测中,OpenAI 的 GPT Image2 超越谷歌 Nano Banana2,位列文生图第一。在中文文字生成与材质融合、长提示词逻辑图示等难点上表现突出,显示文生图正走向高精度与强逻辑阶段。

Kimi K3 传将于 Q3 发布:2.5 万亿参数,长文本升级

消息称月之暗面下一代主力模型 K3 计划 Q3 上线,参数规模或达 2.5T,目标 100 万字上下文处理能力。叠加此前在工程与商业落地上的高效节奏,K3 或在长文本与复杂推理场景形成差异化优势。

新产品发布

DeepSeek 开启“识图模式”灰度:多模态理解更强

DeepSeek 新增“识图模式”,主打超越 OCR 的多模态理解,支持对图片进行深入分析与描述。部分用户反馈响应“像闪电一样”,偶见“暂不可用”提示,功能仍在打磨中。

Anthropic 发布 Claude for Creative Work:深度打通创意工具

Anthropic 推出面向创意协作的新套餐,借助连接器将 Claude 嵌入 Adobe、Autodesk、Ableton、Blender、Splice 等工作流,在图像、视频、音乐与 3D 建模中承担文档解读、脚本生成与批量自动化等角色,定位“协作伙伴”。

Photoshop/Lightroom 大更新:AI 旋转对象与光影协调

Photoshop 新增“旋转对象”工具,让 2D 素材在 3D 空间中旋转、倾斜并自动匹配光影;Lightroom 支持自然语言搜索,滑块响应更快并新增复古预设,显著提速影像管理与合成体验。

TRAE SOLO 上线进阶语音输入,携 Insta360 推联名麦

字节 TRAE 在 SOLO 模式加入语义级语音输入,能纠错、重组口语表达并直接触发 /Plan、/Skills 等命令;与 Insta360 合作推出 Mic Air 联名无线麦,主打高保真与长续航,完善“用嘴办公/编程”工作流。

WorkBuddy 打通腾讯文档:资料“取‑用‑存”一站式

WorkBuddy 新增“资料库”功能,支持在产品内直接调取、编辑并保存腾讯文档文件,无需下载/切换应用,手机端小程序同步支持,打通个人知识管理闭环。

Win11 时钟应用将上新:专注模式与 AI 建议

微软计划升级 Win11 时钟,强化 Focus 专注功能,新增自动暂停与反思面板;任务面板更大且与 To Do 同步,并提供本地 NPU 驱动的智能建议,提高时间管理与效率。

Snapchat 推“AI 赞助 Snap”:在聊天页直接与品牌对话

Snapchat 将品牌 AI 代理嵌入聊天页,用户可就广告直接对话、获得个性化推荐并完成下单,实现从“曝光”到“对话即转化”,提升商业化效率与用户体验。

Comet AI 浏览器登陆 iPad:多窗口与多模型深度整合

Perplexity 的 Comet 推出 iPad 版,适配 iPadOS 多任务;内置接入 OpenAI 与 Anthropic 等模型,让检索与对话更高效,延续其在移动端与桌面的 AI 浏览体验布局。

企业案例

GM 引入 Google Gemini:安吉星加持的“懂车”助手

通用汽车在 2022 款及之后的凯迪拉克、雪佛兰、别克与 GMC 车型上线 Gemini AI 助手,深度融入车机与 OnStar 联网能力,提供更贴合驾驶与车辆状态的交互体验,后续将拓展全球市场与多语言支持。

迪士尼乐园上新人脸识别通道:入园更快更安心

迪士尼在部分通道启用人脸识别以遏制年票共用并提升二次入园效率;游客可选择非识别通道。隐私与误识别风险引发讨论,官方称采取多重防护但承认无法做到绝对安全。

三七互娱 × 百度智能云:AI 原生游戏提效降本

三七互娱披露与百度智能云协作进展,AI 客服 SLA 达成率由 61% 升至 99.3%,综合成本下降 61%;自研行业大模型打造版权保护平台“灵察察”,能力对行业开放,标志游戏业从“人力密集”转向“AI 驱动”。

腾讯云 × 虹魔方:共建 AI 玩具新生态

双方联手打造可拟人化互动的 AI 玩偶,面向儿童教育与情感陪伴;虹魔方全面接入腾讯云底座,打通语音对话、多模态理解与 CDN 等能力,推动 AI 玩具从概念走向规模化落地。

美图 RoboNeo 升级:行业首创 Agent Teams

美图将影像创作从单一工具升级为多 Agent 协作系统,围绕灵感构思、素材生产、风格统一与品牌资产沉淀的全流程协同,减少反复改稿与参数调校,面向短剧、自媒体与电商内容等核心场景。

腾讯智能体生态亮相福州:Hy3 preview 首秀

腾讯以“好用的 AI,成为普惠生产力”为主题集中展示 Agent 生态,Hy3 preview 模型(295B 总参、21B 激活、256K 上下文)在展会首秀;SkillHub 已收录超 3.5 万技能,并推出个人与企业级安全方案,降低智能体部署门槛。

行业突破/动态

OpenAI 正式登陆 AWS Bedrock:多云时代开启

OpenAI 顶级模型接入 AWS Bedrock 受限预览,打破长期“Azure 独享”格局,企业可在亚马逊云生态中合规调用 OpenAI 模型与代码工具,敏感代码不回流基础模型训练,未来更强版本将陆续部署。

Google 与美防部达成 AI 合作:Gemini 服务涉密任务

谷歌将 Gemini 提供给国防部在保密网络使用,明确不得用于面向本土民众的广域监控与完全自主武器。业界对伦理边界与合同执行仍有讨论,内部员工也表达不同声音。

欧盟 AI 立法谈判未果:下月重启

欧盟成员国与议会在高风险行业豁免等关键条款上未达一致,计划于下月继续磋商。法规预计按阶段落地,旨在平衡安全监管与产业创新。

2025 年中国 AI 数据规模预计达 199.48EB

国家数据局预测 2025 年推理数据量将首次超过训练数据;系统软件与 AI 产生的数据体量将超过物联网感知数据。推理/训练算力需求或达 3:1,城市级低时延高可靠算力场景将重点布局。

联合研究:至 2025 年中超 35% 新网站含 AI 内容

伦敦帝国理工、互联网档案馆与斯坦福联合研究显示,AI 生成文本显著提高语义相似度与积极性倾向,可能导致内容同质化与“现实冷漠”。同时警示模型在自我输出上再训练的“模型崩溃”风险。

MemoraX AI 获千万美元种子轮:做“会记忆”的模型

MemoraX 以 Agentic RL 打造内生记忆模块,目标解决大模型“记忆碎片化与检索不准”。在 LoCoMo-Refined 测试集上召回准确率领先,训练效率最高提升 400 倍,正推进在自动驾驶、EDA 与工业求解器等领域落地。

GPT-5 带动 OpenAI 爬虫流量暴涨至 3 倍

监测显示 OpenAI 名下爬虫活跃度显著提升,尤其实时检索的 OAI-SearchBot 超过 GPTBot,显示其在新闻与动态信息上的强化布局。网站需在数据版权与 AI 搜索可见性之间权衡。

其他新闻

其他新闻概览

中文多模态评测 SuperCLUE-VLM 显示,字节 Doubao-Seed-2.0-Pro-260215 以 90.66 分登顶,总体上国产模型在中文环境理解上强势领先,工业与医疗推理仍需打磨。OpenAI 面向消费者的订阅今年预估达 1.22 亿,低价层级推动用户规模扩张,同时带来并发与成本挑战;公司也强势回应外界对增长放缓的质疑,称多线业务推进顺利。Mistral AI 发布企业级编排层 Workflows,基于 Temporal 引擎支持 Python 开发与“人工在环”审批,助推复杂自动化流程落地。Parallel Web Systems 获 1 亿美元 B 轮、估值升至 20 亿美元,聚焦长时间运行的网络型 AI 代理基础设施。山东首个百度 AI 漫剧创作基地落地淄博,校企合作推进 AI 文创人才培养。苹果 iOS27 曝光三项 AI 修图能力(Extend/Enhance/Reframe),实现画面“脑补”与空间影像重构,仍在打磨中。DeepMind CEO 访韩与三星、现代等高层会面,谋求在芯片、车载与家电等领域加深 AI 与制造融合。擎天租获数亿元 Pre-A 融资,完善机器人履约服务与保险体系,加速具身智能商业化。网易有道宣布 AI 化转型,在线营销首次成营收第一,推出 AI 答疑笔、个人助理与知识库等新品。

更多AI资讯请关注公众号或点击阅读原文查看