【AI连线】4月报-夜雨聆风

【AI连线】4月报

4月1日

谷歌发布 Veo3.1Lite:视频生成成本降幅超50%，支持1080p 多格式输出

Veo3.1Lite 支持4至8秒视频生成，适配多种画幅需求。
720p 分辨率起售价每秒0.05美元，成本降低超50%。
谷歌通过定价调整应对市场竞争，推动视频生成技术商业化应用。

ClawHub 推出官方中国镜像站！国内 AI Agent 开发者访问技能库再无延迟

ClawHub 是 OpenClaw AI Agent 框架的官方技能市场，被称为“AI Agent 的 npm”
中国镜像地址为 https://mirror-cn.clawhub.com，为中国用户提供更快速、稳定的技能访问体验
镜像由字节跳动旗下 VolcanoEngine 提供基础设施赞助支持，推动 AI Agent 生态本土化
🔗https://mirror-cn.clawhub.com

具身智能新突破:高德全量开源通用机器人基座模型 ABot-M0

ABot-M0在多项基准测试中展现了卓越性能，任务成功率高达80.5%。
高德开源了底层数据、核心算法与预训练模型三大维度，降低开发门槛。
ABot-M0的开源旨在构建连接学术研究与产业应用的桥梁，推动具身智能发展。

4月2日

智谱发布 GLM-5V-Turbo 多模态 Coding 大模型

多模态基座模型GLM-5V-Turbo发布，实现视觉与编程能力的深度融合。
支持前端复刻、GUI自主探索和交互式编辑，提升开发效率。
AutoClaw智能体接入后，具备真正的视觉能力，可解读复杂图表并输出分析报告。

美团 LongCat-AudioDiT 开源:首创波形潜空间建模，刷新音色克隆 SOTA

创新性地采用波形潜空间建模，摆脱传统梅尔频谱中间表征的限制。
通过 Wav-VAE 和 DiT 构建极简架构，提升语音生成效率与质量。
引入双重约束机制和自适应投影引导技术，解决音色漂移问题并优化生成效果。
🔗https://github.com/meituan-longcat/LongCat-AudioDiT

AI 编程进入“靠谱”时代：通义实验室正式发布 Qwen3.6-Plus

编码能力飞跃：在前端页面生成、代码修复及终端自动化场景中表现卓越。
百万级上下文：默认支持 100万字符上下文窗口，大幅提升长文档解析与多轮对话的信息提取精度。
生态兼容：无缝集成主流开发工具，支持多种第三方编程助手的深度适配。

4月3日

腾讯云推出 “龙虾” 记忆服务Agent Memory，提升 AI 助理智能水平

Agent Memory 服务提升了 OpenClaw 的回答准确率，达76.10%。
四层记忆架构确保 AI 助理能够精准记忆用户的需求与偏好。
用户可通过简单操作一键启用 Agent Memory 插件，企业版即将上线。

谷歌正式发布 Gemma4开源大模型:涵盖四种规格，31B 版本位列全球开源榜单第三

Gemma4系列包含高效版E2B（2.3B）、E4B(4.5B)以及高性能版26B MoE与31B稠密模型。
支持多模态输入，包括图片、视频和语音，实现端侧实时语音理解。
本地部署门槛降低，支持消费级显卡及移动端设备，提升隐私性与本地化应用能力。

小米MiMo大模型发布Token订阅套餐:四档位覆盖全模态，月费39元起

MiMo大模型推出四档Token Plan订阅套餐，月费从39元至659元不等，实现多模型、多模态调用的计费透明化。
MiMo-V2-Pro凭借万亿级参数及百万级上下文窗口，在Text Arena双盲评测中位列全球Model Rank第五。
小米通过“包月订阅制”将不可预测的研发成本转化为可预算、可规模化的产品服务，构建起从技术研发到商业经营的完整闭环。
🔗https://mimo.mi.com/

4月7日

谷歌发布首款离线 AI 听写应用 Eloquent：手机秒变专业速录员

离线运行，隐私与效率兼得
智能“去水”与文本润色
生产力工具:深度适配专业场景

要做“AI 时代的皮克斯”！专业动画 Agent 工具 OiiOii 正式上线

OiiOii 采用多智能体协作模式，简化动画创作流程。
覆盖分镜、角色连贯性到视频生成的全链路工具。
全球化布局，日本用户对镜头打磨表现出极高热情。

通义千问“深度研究”上线财经分析模块，接入万只股票实时行情与百万份财报

通义千问升级，接入全球约1.3万只股票的分钟级行情及近百万份财报、公告与权威研报。
引入Agentic架构，实现从需求解析到数据调取的全链路自主执行，生成专业深度研报。
系统支持关键结论原始出处追溯，提升研报时效性与可靠性，并展示清晰分析框架。

4月8日

腾讯正式发布“龙虾”QBotClaw:国内首个支持主流大模型API自由配置的AI浏览器

支持用户自由配置国内主流大模型的API Key，打破AI浏览器与单一模型绑定的局限。
首期上线Mac版本并深度集成QQ浏览器Skill，Windows版本即将推出，降低大模型使用门槛。
打通移动端与桌面端壁垒，通过微信扫码绑定Clawbot实现远程操作。

Anthropic 推出强大 AI 模型 Mythos 仅限安全伙伴试用

Mythos 是 Anthropic 推出的最新 AI 模型，目前仅限少数安全合作伙伴试用。
该模型在测试中发现了数千个零日漏洞，展示了在挖掘历史漏洞上的潜力。
公司与美国联邦官员讨论其在国家级关键系统中的应用，同时面临法律纠纷。

智谱发布GLM-5.1:SWE-bench评分全球领跑，模型单价上调10%

GLM-5.1在SWE-bench Pro基准测试中刷新世界纪录，超越Claude4.6Opus，位居国产及开源模型首位。
智谱GLM全线提价10%，在Coding等核心场景的缓存命中Token价格已基本锚定Anthropic旗下Claude3.5Sonnet。
GLM-5.1具备极强的自主工程能力，能够在单次任务中持续工作长达8小时，独立完成规划、执行与测试。

4月9日

字节跳动发布原生全双工语音大模型 Seeduplex：懂倾听、抗干扰

Seeduplex 实现了“边听边说”的同步处理框架，提升了语音交互的自然感。
通过语音与语义的联合建模，显著提升了模型在复杂声学环境下的抗干扰能力。
引入动态判停技术，优化对话节奏控制，提升用户体验。
🔗https://seed.bytedance.com/seeduplex

Anthropic 上线 Claude Managed Agents 公测版，一站式解决 AI 代理生产部署

一体化集成：无需自行搭建复杂基础设施，即可快速构建高性能 AI 代理。
高效开发流程：从原型设计到正式发布，整个过程可在几天内完成。
生产就绪：内置经过优化的代理框架，支持大规模部署需求。
🔗https://claude.com/customers/rakuten

MiniMax 发布 MMX-CLI：一行代码原生接入全模态模型

原生调用，告别 MCP Server：MMX-CLI 简化了 Agent 与大模型的交互逻辑，实现零适配门槛。
商业场景落地提速：淘宝闪购 AI 店铺助手上线语音搜索功能，实现复杂操作闭环。
AI Agent 接管“执行权”：AI 正从辅助者变为真正的协同伙伴，深入编程、经营和创作环节。

即梦AI发布协作型叙事工具“小章鱼”Octo，首推VibeCreate创作模式

Octo支持“对话+多模态混合”的同屏共创，实现与创作者的异步并行创意碰撞。
构建了从故事大纲梳理到短片成片输出的全流程制作闭环，深度联动即梦最新底层模型。
VibeCreate模式将AI定位为“创意合伙人”，推动AI视频创作向工作流集成与交互体验革新。

4月10日

Google Gemini 推出交互式模拟功能：让复杂概念“动”起来

新功能允许用户通过交互式3D模型理解复杂概念，提升学习效率。
用户可以实时调整参数并观察物理模拟的变化，增强直观体验。
Google Gemini 在多模态交互领域进一步巩固了其领先地位。

扣子 2.5 重磅升级！给 AI Agent 配云电脑 + 云手机 + 独立邮箱，还建了个“平行世界”

Agent World 平台为 AI Agent 提供独立身份、长期记忆和专属虚拟世界，使其能够自主生存、学习与协作。
云电脑和云手机的引入，让 AI Agent 能够运行代码脚本、浏览网页、处理文件，并支持下载安装各类原生 APP。
Agent 获得独立邮箱身份（@coze.email），可与其他 Agent 或外部系统进行沟通协作，拓展了应用边界。

AI 音乐进入“翻唱”时代！MiniMax 发布 Music 2.6：推出全新 Cover 功能与 Agent 技能

核心升级：更聪明、更顺滑、更好听
创新功能：上线“Cover”与 AI Agent 技能
创作者福利：全球免费内测开启

4月14日

AI 交互新突破：Skywork AI 发布 Matrix-Game 3.0，实现 720p 40 帧实时高清“世界生成”

引入相机感知的记忆检索机制，解决AI视频生成中的“失忆”问题。
利用虚幻引擎5开发Unreal-Gen平台，生成电影级交互视频。
通过多段自回归蒸馏策略和VAE解码器剪枝技术，提升解码速度。
🔗https://arxiv.org/pdf/2604.08995

4月15日

Midjourney V8.1 重磅发布：原生 2K 高清渲染速度成本双降 3 倍，图像提示功能强势回归！

提升了高清渲染模式的效率和性价比，原生2K高清模式渲染速度比V8快3倍，成本降低3倍。
回归了V7的经典美学，同时恢复了图像提示功能，增强了视觉风格的稳定性。
新增了“Run as HD”按钮和“Describe”描述功能，提升了工作流灵活性和提示词创作方式。
🔗https://alpha.midjourney.com/explore

4月16日

蚂蚁灵波科技开源 LingBot-Map：支持单摄像头实时流式三维重建

支持单个普通RGB摄像头实时估计相机位姿并重建场景三维结构。
采用流式处理架构，实现边接收画面边输出定位与结构的实时交互。
开源模型降低高精度三维感知的硬件门槛，加速具身智能设备发展。
🔗https://huggingface.co/robbyant/lingbot-map ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map

4月17日

Perplexity推出Mac端AI助手：7× 24 小时运行，可代用户操作电脑

人工智能搜索领军者Perplexity发布了Mac端AI助手Personal Computer，具备直接访问文件系统和原生应用的能力。
该工具支持文本与语音交互，并能实时感知用户当前的活跃窗口，主动提供操作建议。
Perplexity为助手设计了严密的防御机制，所有操作都在隔离的安全沙箱中完成，保障用户隐私。

4月20日

单张图片生成可行走 3D 世界！NVIDIA 开源 Lyra 2.0，彻底解决长视频“空间遗忘”和“时间漂移”难题

空间记忆机制：维护3D几何信息，用于信息路由，避免几何误差积累。
自增强训练策略：让模型接触自身生成的退化输出，主动纠正漂移。
开源与应用价值：适用于机器人训练、游戏开发和3D资产生成管道。
🔗https://huggingface.co/papers/2604.13036

4月21日

突发福利！AI Studio 彻底免费开放，Pro/Ultra 会员可畅玩Gemini Pro等顶级模型

谷歌 AI Studio 免费开放，Pro/Ultra 会员可直接使用 Gemini Pro 等模型。
用户无需绑定信用卡或生成 API Key，即可立即开始实验和开发。
谷歌此举提升了 AI 工具的亲民度，降低了入门门槛。
🔗https://aistudio.google.com/prompts/new_chat

4月22日

百灵大模型正式发布 Ling-2.6-flash 1/10 成本跑出超高性能

Ling-2.6-flash 模型在性能与效率之间找到了最优解，总参数量达到 104B，但实际运行中仅激活 7.4B 参数。
在权威评测中，Ling-2.6-flash 完成同等任务仅消耗 15M tokens，仅为同类模型的十分之一左右。
该模型通过优化参数激活机制，在保持大规模知识储备的同时，降低了推理门槛，为企业提供了更具经济效益的替代方案。

4月23日

字节跳动发布Seed3D2.0:几何与纹理双SOTA，API同步上线火山引擎

Seed3D2.0在几何精度上实现突破，达到行业SOTA水平。
纹理生成采用统一PBR架构，提升物理属性精准分解能力。
支持部件级拆解与复杂场景组合，可无缝对接物理仿真引擎。
🔗https://seed.bytedance.com/seed3d_2_0

4月24日

DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代

DeepSeek-V4 预览版上线并开源，实现1M超长上下文能力标准化。
提供两个版本：Pro（性能接近顶级闭源模型）和 Flash（性价比高）。
采用DSA机制优化长上下文处理，降低计算成本。
🔗https://huggingface.co/collections/deepseek-ai/deepseek-v4
🔗https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

4月27日

小米开源VLA大模型后训练全流程，机器人亚毫米级操作成现实

Xiaomi-Robotics-0模型通过后训练流程，显著提升了机器人在复杂任务中的表现。
该模型成功实现了亚毫米级的精细操作能力，展示了强大的空间感知和实时反馈能力。
小米开源了技术报告、模型权重和源代码，推动了开发者生态建设，降低了高性能机器人开发门槛。
🔗https://robotics.xiaomi.com/xiaomi-robotics-0.html#pack-earbuds

4月29日

ima上线知识 Agent copilot:内置记忆系统并支持多端联动

copilot集成了自主进化记忆系统，包括Soul、User、Memory和Agent四大模块。
实现了全场景感知，可作为浮窗悬停于应用内，实时理解与处理当前浏览内容。
支持Skills生态，用户可通过Skillhub或API接入主流大模型，构建定制化技能链路。

4月30日

Chrome 正式发布 Prompt API：浏览器原生 AI 时代来临，网页直接调用 Gemini Nano 本地模型

Prompt API 是 Chrome 内置 AI 框架的一部分，允许网页应用调用 Gemini Nano 模型。
模型在本地运行，数据不上传云端，提升隐私保护。
开发者无需依赖外部 API，降低开发成本和复杂性。
🔗https://developer.chrome.com/docs/ai/prompt-api

程序员“数字分身”上岗:阿里发布 QoderWake，实现代码修复全流程无人值守

QoderWake作为生产级数字员工，能够自主执行代码变更简报整理、错误诊断等任务并生成修复代码。
Qoder移动端支持跨端协同与交互体验革新，用户可通过手机远程操控桌面端Agent执行复杂任务。
阿里通过Qoder产品布局，推动AI从辅助工具演变为具备独立任务处理能力的生产要素。
🔗https://qoder.com/qoderwake

蚂蚁集团正式开源万亿级大模型Ling-2.6-1T

Ling-2.6-1T采用混合架构，提升智效比
支持多工具、多约束的复杂业务场景
在代码生成和精准推理方面达到开源领域顶尖水平
🔗https://huggingface.co/inclusionAI/Ling-2.6-1T

编辑丨冯雨菲