【AI连线】4月报
4月1日
谷歌发布 Veo3.1Lite:视频生成成本降幅超50%,支持1080p 多格式输出
-
Veo3.1Lite 支持4至8秒视频生成,适配多种画幅需求。
-
720p 分辨率起售价每秒0.05美元,成本降低超50%。
-
谷歌通过定价调整应对市场竞争,推动视频生成技术商业化应用。
ClawHub 推出官方中国镜像站!国内 AI Agent 开发者访问技能库再无延迟
-
ClawHub 是 OpenClaw AI Agent 框架的官方技能市场,被称为“AI Agent 的 npm”
-
中国镜像地址为 https://mirror-cn.clawhub.com,为中国用户提供更快速、稳定的技能访问体验
-
镜像由字节跳动旗下 VolcanoEngine 提供基础设施赞助支持,推动 AI Agent 生态本土化
-
🔗https://mirror-cn.clawhub.com
具身智能新突破:高德全量开源通用机器人基座模型 ABot-M0
-
ABot-M0在多项基准测试中展现了卓越性能,任务成功率高达80.5%。
-
高德开源了底层数据、核心算法与预训练模型三大维度,降低开发门槛。
-
ABot-M0的开源旨在构建连接学术研究与产业应用的桥梁,推动具身智能发展。
4月2日
智谱发布 GLM-5V-Turbo 多模态 Coding 大模型
-
多模态基座模型GLM-5V-Turbo发布,实现视觉与编程能力的深度融合。
-
支持前端复刻、GUI自主探索和交互式编辑,提升开发效率。
-
AutoClaw智能体接入后,具备真正的视觉能力,可解读复杂图表并输出分析报告。
美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA
-
创新性地采用波形潜空间建模,摆脱传统梅尔频谱中间表征的限制。
-
通过 Wav-VAE 和 DiT 构建极简架构,提升语音生成效率与质量。
-
引入双重约束机制和自适应投影引导技术,解决音色漂移问题并优化生成效果。
-
🔗https://github.com/meituan-longcat/LongCat-AudioDiT
AI 编程进入“靠谱”时代:通义实验室正式发布 Qwen3.6-Plus
-
编码能力飞跃:在前端页面生成、代码修复及终端自动化场景中表现卓越。
-
百万级上下文:默认支持 100万 字符上下文窗口,大幅提升长文档解析与多轮对话的信息提取精度。
-
生态兼容:无缝集成主流开发工具,支持多种第三方编程助手的深度适配。
4月3日
腾讯云推出 “龙虾” 记忆服务Agent Memory,提升 AI 助理智能水平
-
Agent Memory 服务提升了 OpenClaw 的回答准确率,达76.10%。
-
四层记忆架构确保 AI 助理能够精准记忆用户的需求与偏好。
-
用户可通过简单操作一键启用 Agent Memory 插件,企业版即将上线。
谷歌正式发布 Gemma4开源大模型:涵盖四种规格,31B 版本位列全球开源榜单第三
-
Gemma4系列包含高效版E2B(2.3B)、E4B(4.5B)以及高性能版26B MoE与31B稠密模型。
-
支持多模态输入,包括图片、视频和语音,实现端侧实时语音理解。
-
本地部署门槛降低,支持消费级显卡及移动端设备,提升隐私性与本地化应用能力。
小米MiMo大模型发布Token订阅套餐:四档位覆盖全模态,月费39元起
-
MiMo大模型推出四档Token Plan订阅套餐,月费从39元至659元不等,实现多模型、多模态调用的计费透明化。
-
MiMo-V2-Pro凭借万亿级参数及百万级上下文窗口,在Text Arena双盲评测中位列全球Model Rank第五。
-
小米通过“包月订阅制”将不可预测的研发成本转化为可预算、可规模化的产品服务,构建起从技术研发到商业经营的完整闭环。
-
🔗https://mimo.mi.com/
4月7日
谷歌发布首款离线 AI 听写应用 Eloquent:手机秒变专业速录员
-
离线运行,隐私与效率兼得
-
智能“去水”与文本润色
-
生产力工具:深度适配专业场景
要做“AI 时代的皮克斯”!专业动画 Agent 工具 OiiOii 正式上线
-
OiiOii 采用多智能体协作模式,简化动画创作流程。
-
覆盖分镜、角色连贯性到视频生成的全链路工具。
-
全球化布局,日本用户对镜头打磨表现出极高热情。
通义千问“深度研究”上线财经分析模块,接入万只股票实时行情与百万份财报
-
通义千问升级,接入全球约1.3万只股票的分钟级行情及近百万份财报、公告与权威研报。
-
引入Agentic架构,实现从需求解析到数据调取的全链路自主执行,生成专业深度研报。
-
系统支持关键结论原始出处追溯,提升研报时效性与可靠性,并展示清晰分析框架。
4月8日
腾讯正式发布“龙虾”QBotClaw:国内首个支持主流大模型API自由配置的AI浏览器
-
支持用户自由配置国内主流大模型的API Key,打破AI浏览器与单一模型绑定的局限。
-
首期上线Mac版本并深度集成QQ浏览器Skill,Windows版本即将推出,降低大模型使用门槛。
-
打通移动端与桌面端壁垒,通过微信扫码绑定Clawbot实现远程操作。
Anthropic 推出强大 AI 模型 Mythos 仅限安全伙伴试用
-
Mythos 是 Anthropic 推出的最新 AI 模型,目前仅限少数安全合作伙伴试用。
-
该模型在测试中发现了数千个零日漏洞,展示了在挖掘历史漏洞上的潜力。
-
公司与美国联邦官员讨论其在国家级关键系统中的应用,同时面临法律纠纷。
智谱发布GLM-5.1:SWE-bench评分全球领跑,模型单价上调10%
-
GLM-5.1在SWE-bench Pro基准测试中刷新世界纪录,超越Claude4.6Opus,位居国产及开源模型首位。
-
智谱GLM全线提价10%,在Coding等核心场景的缓存命中Token价格已基本锚定Anthropic旗下Claude3.5Sonnet。
-
GLM-5.1具备极强的自主工程能力,能够在单次任务中持续工作长达8小时,独立完成规划、执行与测试。
4月9日
字节跳动发布原生全双工语音大模型 Seeduplex:懂倾听、抗干扰
-
Seeduplex 实现了“边听边说”的同步处理框架,提升了语音交互的自然感。
-
通过语音与语义的联合建模,显著提升了模型在复杂声学环境下的抗干扰能力。
-
引入动态判停技术,优化对话节奏控制,提升用户体验。
-
🔗https://seed.bytedance.com/seeduplex
Anthropic 上线 Claude Managed Agents 公测版,一站式解决 AI 代理生产部署
-
一体化集成:无需自行搭建复杂基础设施,即可快速构建高性能 AI 代理。
-
高效开发流程:从原型设计到正式发布,整个过程可在几天内完成。
-
生产就绪:内置经过优化的代理框架,支持大规模部署需求。
-
🔗https://claude.com/customers/rakuten
MiniMax 发布 MMX-CLI:一行代码原生接入全模态模型
-
原生调用,告别 MCP Server:MMX-CLI 简化了 Agent 与大模型的交互逻辑,实现零适配门槛。
-
商业场景落地提速:淘宝闪购 AI 店铺助手上线语音搜索功能,实现复杂操作闭环。
-
AI Agent 接管“执行权”:AI 正从辅助者变为真正的协同伙伴,深入编程、经营和创作环节。
即梦AI发布协作型叙事工具“小章鱼”Octo,首推VibeCreate创作模式
-
Octo支持“对话+多模态混合”的同屏共创,实现与创作者的异步并行创意碰撞。
-
构建了从故事大纲梳理到短片成片输出的全流程制作闭环,深度联动即梦最新底层模型。
-
VibeCreate模式将AI定位为“创意合伙人”,推动AI视频创作向工作流集成与交互体验革新。
4月10日
Google Gemini 推出交互式模拟功能:让复杂概念“动”起来
-
新功能允许用户通过交互式3D模型理解复杂概念,提升学习效率。
-
用户可以实时调整参数并观察物理模拟的变化,增强直观体验。
-
Google Gemini 在多模态交互领域进一步巩固了其领先地位。
扣子 2.5 重磅升级!给 AI Agent 配云电脑 + 云手机 + 独立邮箱,还建了个“平行世界”
-
Agent World 平台为 AI Agent 提供独立身份、长期记忆和专属虚拟世界,使其能够自主生存、学习与协作。
-
云电脑和云手机的引入,让 AI Agent 能够运行代码脚本、浏览网页、处理文件,并支持下载安装各类原生 APP。
-
Agent 获得独立邮箱身份(@coze.email),可与其他 Agent 或外部系统进行沟通协作,拓展了应用边界。
AI 音乐进入“翻唱”时代!MiniMax 发布 Music 2.6:推出全新 Cover 功能与 Agent 技能
-
核心升级:更聪明、更顺滑、更好听
-
创新功能:上线“Cover”与 AI Agent 技能
-
创作者福利:全球免费内测开启
4月14日
AI 交互新突破:Skywork AI 发布 Matrix-Game 3.0,实现 720p 40 帧实时高清“世界生成”
-
引入相机感知的记忆检索机制,解决AI视频生成中的“失忆”问题。
-
利用虚幻引擎5开发Unreal-Gen平台,生成电影级交互视频。
-
通过多段自回归蒸馏策略和VAE解码器剪枝技术,提升解码速度。
-
🔗https://arxiv.org/pdf/2604.08995
4月15日
Midjourney V8.1 重磅发布:原生 2K 高清渲染速度成本双降 3 倍,图像提示功能强势回归!
-
提升了高清渲染模式的效率和性价比,原生2K高清模式渲染速度比V8快3倍,成本降低3倍。
-
回归了V7的经典美学,同时恢复了图像提示功能,增强了视觉风格的稳定性。
-
新增了“Run as HD”按钮和“Describe”描述功能,提升了工作流灵活性和提示词创作方式。
-
🔗https://alpha.midjourney.com/explore
4月16日
蚂蚁灵波科技开源 LingBot-Map:支持单摄像头实时流式三维重建
-
支持单个普通RGB摄像头实时估计相机位姿并重建场景三维结构。
-
采用流式处理架构,实现边接收画面边输出定位与结构的实时交互。
-
开源模型降低高精度三维感知的硬件门槛,加速具身智能设备发展。
-
🔗https://huggingface.co/robbyant/lingbot-map ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map
4月17日
Perplexity推出Mac端AI助手:7× 24 小时运行,可代用户操作电脑
-
人工智能搜索领军者Perplexity发布了Mac端AI助手Personal Computer,具备直接访问文件系统和原生应用的能力。
-
该工具支持文本与语音交互,并能实时感知用户当前的活跃窗口,主动提供操作建议。
-
Perplexity为助手设计了严密的防御机制,所有操作都在隔离的安全沙箱中完成,保障用户隐私。
4月20日
单张图片生成可行走 3D 世界!NVIDIA 开源 Lyra 2.0,彻底解决长视频“空间遗忘”和“时间漂移”难题
-
空间记忆机制:维护3D几何信息,用于信息路由,避免几何误差积累。
-
自增强训练策略:让模型接触自身生成的退化输出,主动纠正漂移。
-
开源与应用价值:适用于机器人训练、游戏开发和3D资产生成管道。
-
🔗https://huggingface.co/papers/2604.13036
4月21日
突发福利!AI Studio 彻底免费开放,Pro/Ultra 会员可畅玩Gemini Pro等顶级模型
-
谷歌 AI Studio 免费开放,Pro/Ultra 会员可直接使用 Gemini Pro 等模型。
-
用户无需绑定信用卡或生成 API Key,即可立即开始实验和开发。
-
谷歌此举提升了 AI 工具的亲民度,降低了入门门槛。
-
🔗https://aistudio.google.com/prompts/new_chat
4月22日
百灵大模型正式发布 Ling-2.6-flash 1/10 成本跑出超高性能
-
Ling-2.6-flash 模型在性能与效率之间找到了最优解,总参数量达到 104B,但实际运行中仅激活 7.4B 参数。
-
在权威评测中,Ling-2.6-flash 完成同等任务仅消耗 15M tokens,仅为同类模型的十分之一左右。
-
该模型通过优化参数激活机制,在保持大规模知识储备的同时,降低了推理门槛,为企业提供了更具经济效益的替代方案。
4月23日
字节跳动发布Seed3D2.0:几何与纹理双SOTA,API同步上线火山引擎
-
Seed3D2.0在几何精度上实现突破,达到行业SOTA水平。
-
纹理生成采用统一PBR架构,提升物理属性精准分解能力。
-
支持部件级拆解与复杂场景组合,可无缝对接物理仿真引擎。
-
🔗https://seed.bytedance.com/seed3d_2_0
4月24日
DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代
-
DeepSeek-V4 预览版上线并开源,实现1M超长上下文能力标准化。
-
提供两个版本:Pro(性能接近顶级闭源模型)和 Flash(性价比高)。
-
采用DSA机制优化长上下文处理,降低计算成本。
-
🔗https://huggingface.co/collections/deepseek-ai/deepseek-v4
-
🔗https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
4月27日
小米开源VLA大模型后训练全流程,机器人亚毫米级操作成现实
-
Xiaomi-Robotics-0模型通过后训练流程,显著提升了机器人在复杂任务中的表现。
-
该模型成功实现了亚毫米级的精细操作能力,展示了强大的空间感知和实时反馈能力。
-
小米开源了技术报告、模型权重和源代码,推动了开发者生态建设,降低了高性能机器人开发门槛。
-
🔗https://robotics.xiaomi.com/xiaomi-robotics-0.html#pack-earbuds
4月29日
ima上线知识 Agent copilot:内置记忆系统并支持多端联动
-
copilot集成了自主进化记忆系统,包括Soul、User、Memory和Agent四大模块。
-
实现了全场景感知,可作为浮窗悬停于应用内,实时理解与处理当前浏览内容。
-
支持Skills生态,用户可通过Skillhub或API接入主流大模型,构建定制化技能链路。
4月30日
Chrome 正式发布 Prompt API:浏览器原生 AI 时代来临,网页直接调用 Gemini Nano 本地模型
-
Prompt API 是 Chrome 内置 AI 框架的一部分,允许网页应用调用 Gemini Nano 模型。
-
模型在本地运行,数据不上传云端,提升隐私保护。
-
开发者无需依赖外部 API,降低开发成本和复杂性。
-
🔗https://developer.chrome.com/docs/ai/prompt-api
程序员“数字分身”上岗:阿里发布 QoderWake,实现代码修复全流程无人值守
-
QoderWake作为生产级数字员工,能够自主执行代码变更简报整理、错误诊断等任务并生成修复代码。
-
Qoder移动端支持跨端协同与交互体验革新,用户可通过手机远程操控桌面端Agent执行复杂任务。
-
阿里通过Qoder产品布局,推动AI从辅助工具演变为具备独立任务处理能力的生产要素。
-
🔗https://qoder.com/qoderwake
蚂蚁集团正式开源万亿级大模型Ling-2.6-1T
-
Ling-2.6-1T采用混合架构,提升智效比
-
支持多工具、多约束的复杂业务场景
-
在代码生成和精准推理方面达到开源领域顶尖水平
-
🔗https://huggingface.co/inclusionAI/Ling-2.6-1T

编辑丨冯雨菲
夜雨聆风