乐于分享
好东西不私藏

【AI连线】4月报

【AI连线】4月报

4月1日

谷歌发布 Veo3.1Lite:视频生成成本降幅超50%,支持1080p 多格式输出

  • Veo3.1Lite 支持4至8秒视频生成,适配多种画幅需求。

  • 720p 分辨率起售价每秒0.05美元,成本降低超50%。

  • 谷歌通过定价调整应对市场竞争,推动视频生成技术商业化应用。

ClawHub 推出官方中国镜像站!国内 AI Agent 开发者访问技能库再无延迟

  • ClawHub 是 OpenClaw AI Agent 框架的官方技能市场,被称为“AI Agent 的 npm”

  • 中国镜像地址为 https://mirror-cn.clawhub.com,为中国用户提供更快速、稳定的技能访问体验

  • 镜像由字节跳动旗下 VolcanoEngine 提供基础设施赞助支持,推动 AI Agent 生态本土化

  • 🔗https://mirror-cn.clawhub.com

具身智能新突破:高德全量开源通用机器人基座模型 ABot-M0

  • ABot-M0在多项基准测试中展现了卓越性能,任务成功率高达80.5%。

  • 高德开源了底层数据、核心算法与预训练模型三大维度,降低开发门槛。

  • ABot-M0的开源旨在构建连接学术研究与产业应用的桥梁,推动具身智能发展。

4月2日

智谱发布 GLM-5V-Turbo 多模态 Coding 大模型

  • 多模态基座模型GLM-5V-Turbo发布,实现视觉与编程能力的深度融合。

  • 支持前端复刻、GUI自主探索和交互式编辑,提升开发效率。

  • AutoClaw智能体接入后,具备真正的视觉能力,可解读复杂图表并输出分析报告。

美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA

  • 创新性地采用波形潜空间建模,摆脱传统梅尔频谱中间表征的限制。

  • 通过 Wav-VAE 和 DiT 构建极简架构,提升语音生成效率与质量。

  • 引入双重约束机制和自适应投影引导技术,解决音色漂移问题并优化生成效果。

  • 🔗https://github.com/meituan-longcat/LongCat-AudioDiT

AI 编程进入“靠谱”时代:通义实验室正式发布 Qwen3.6-Plus

  • 编码能力飞跃:在前端页面生成、代码修复及终端自动化场景中表现卓越。

  • 百万级上下文:默认支持 100万 字符上下文窗口,大幅提升长文档解析与多轮对话的信息提取精度。

  • 生态兼容:无缝集成主流开发工具,支持多种第三方编程助手的深度适配。

4月3日

腾讯云推出 “龙虾” 记忆服务Agent Memory,提升 AI 助理智能水平

  • Agent Memory 服务提升了 OpenClaw 的回答准确率,达76.10%。

  • 四层记忆架构确保 AI 助理能够精准记忆用户的需求与偏好。

  • 用户可通过简单操作一键启用 Agent Memory 插件,企业版即将上线。

谷歌正式发布 Gemma4开源大模型:涵盖四种规格,31B 版本位列全球开源榜单第三

  • Gemma4系列包含高效版E2B(2.3B)、E4B(4.5B)以及高性能版26B MoE与31B稠密模型。

  • 支持多模态输入,包括图片、视频和语音,实现端侧实时语音理解。

  • 本地部署门槛降低,支持消费级显卡及移动端设备,提升隐私性与本地化应用能力。

小米MiMo大模型发布Token订阅套餐:四档位覆盖全模态,月费39元起

  • MiMo大模型推出四档Token Plan订阅套餐,月费从39元至659元不等,实现多模型、多模态调用的计费透明化。

  • MiMo-V2-Pro凭借万亿级参数及百万级上下文窗口,在Text Arena双盲评测中位列全球Model Rank第五。

  • 小米通过“包月订阅制”将不可预测的研发成本转化为可预算、可规模化的产品服务,构建起从技术研发到商业经营的完整闭环。

  • 🔗https://mimo.mi.com/

4月7日

谷歌发布首款离线 AI 听写应用 Eloquent:手机秒变专业速录员

  • 离线运行,隐私与效率兼得

  • 智能“去水”与文本润色

  • 生产力工具:深度适配专业场景

要做“AI 时代的皮克斯”!专业动画 Agent 工具 OiiOii 正式上线

  • OiiOii 采用多智能体协作模式,简化动画创作流程。

  • 覆盖分镜、角色连贯性到视频生成的全链路工具。

  • 全球化布局,日本用户对镜头打磨表现出极高热情。

通义千问“深度研究”上线财经分析模块,接入万只股票实时行情与百万份财报

  • 通义千问升级,接入全球约1.3万只股票的分钟级行情及近百万份财报、公告与权威研报。

  • 引入Agentic架构,实现从需求解析到数据调取的全链路自主执行,生成专业深度研报。

  • 系统支持关键结论原始出处追溯,提升研报时效性与可靠性,并展示清晰分析框架。

4月8日

腾讯正式发布“龙虾”QBotClaw:国内首个支持主流大模型API自由配置的AI浏览器

  • 支持用户自由配置国内主流大模型的API Key,打破AI浏览器与单一模型绑定的局限。

  • 首期上线Mac版本并深度集成QQ浏览器Skill,Windows版本即将推出,降低大模型使用门槛。

  • 打通移动端与桌面端壁垒,通过微信扫码绑定Clawbot实现远程操作。

Anthropic 推出强大 AI 模型 Mythos 仅限安全伙伴试用

  • Mythos 是 Anthropic 推出的最新 AI 模型,目前仅限少数安全合作伙伴试用。

  • 该模型在测试中发现了数千个零日漏洞,展示了在挖掘历史漏洞上的潜力。

  • 公司与美国联邦官员讨论其在国家级关键系统中的应用,同时面临法律纠纷。

智谱发布GLM-5.1:SWE-bench评分全球领跑,模型单价上调10%

  • GLM-5.1在SWE-bench Pro基准测试中刷新世界纪录,超越Claude4.6Opus,位居国产及开源模型首位。

  • 智谱GLM全线提价10%,在Coding等核心场景的缓存命中Token价格已基本锚定Anthropic旗下Claude3.5Sonnet。

  • GLM-5.1具备极强的自主工程能力,能够在单次任务中持续工作长达8小时,独立完成规划、执行与测试。

4月9日

字节跳动发布原生全双工语音大模型 Seeduplex:懂倾听、抗干扰

  • Seeduplex 实现了“边听边说”的同步处理框架,提升了语音交互的自然感。

  • 通过语音与语义的联合建模,显著提升了模型在复杂声学环境下的抗干扰能力。

  • 引入动态判停技术,优化对话节奏控制,提升用户体验。

  • 🔗https://seed.bytedance.com/seeduplex

Anthropic 上线 Claude Managed Agents 公测版,一站式解决 AI 代理生产部署

  • 一体化集成:无需自行搭建复杂基础设施,即可快速构建高性能 AI 代理。

  • 高效开发流程:从原型设计到正式发布,整个过程可在几天内完成。

  • 生产就绪:内置经过优化的代理框架,支持大规模部署需求。

  • 🔗https://claude.com/customers/rakuten

MiniMax 发布 MMX-CLI:一行代码原生接入全模态模型

  • 原生调用,告别 MCP Server:MMX-CLI 简化了 Agent 与大模型的交互逻辑,实现零适配门槛。

  • 商业场景落地提速:淘宝闪购 AI 店铺助手上线语音搜索功能,实现复杂操作闭环。

  • AI Agent 接管“执行权”:AI 正从辅助者变为真正的协同伙伴,深入编程、经营和创作环节。

即梦AI发布协作型叙事工具“小章鱼”Octo,首推VibeCreate创作模式

  • Octo支持“对话+多模态混合”的同屏共创,实现与创作者的异步并行创意碰撞。

  • 构建了从故事大纲梳理到短片成片输出的全流程制作闭环,深度联动即梦最新底层模型。

  • VibeCreate模式将AI定位为“创意合伙人”,推动AI视频创作向工作流集成与交互体验革新。

4月10日

Google Gemini 推出交互式模拟功能:让复杂概念“动”起来

  • 新功能允许用户通过交互式3D模型理解复杂概念,提升学习效率。

  • 用户可以实时调整参数并观察物理模拟的变化,增强直观体验。

  • Google Gemini 在多模态交互领域进一步巩固了其领先地位。

扣子 2.5 重磅升级!给 AI Agent 配云电脑 + 云手机 + 独立邮箱,还建了个“平行世界”

  • Agent World 平台为 AI Agent 提供独立身份、长期记忆和专属虚拟世界,使其能够自主生存、学习与协作。

  • 云电脑和云手机的引入,让 AI Agent 能够运行代码脚本、浏览网页、处理文件,并支持下载安装各类原生 APP。

  • Agent 获得独立邮箱身份(@coze.email),可与其他 Agent 或外部系统进行沟通协作,拓展了应用边界。

AI 音乐进入“翻唱”时代!MiniMax 发布 Music 2.6:推出全新 Cover 功能与 Agent 技能

  • 核心升级:更聪明、更顺滑、更好听

  • 创新功能:上线“Cover”与 AI Agent 技能

  • 创作者福利:全球免费内测开启

4月14日

AI 交互新突破:Skywork AI 发布 Matrix-Game 3.0,实现 720p 40 帧实时高清“世界生成”

  • 引入相机感知的记忆检索机制,解决AI视频生成中的“失忆”问题。

  • 利用虚幻引擎5开发Unreal-Gen平台,生成电影级交互视频。

  • 通过多段自回归蒸馏策略和VAE解码器剪枝技术,提升解码速度。

  • 🔗https://arxiv.org/pdf/2604.08995

4月15日

Midjourney V8.1 重磅发布:原生 2K 高清渲染速度成本双降 3 倍,图像提示功能强势回归!

  • 提升了高清渲染模式的效率和性价比,原生2K高清模式渲染速度比V8快3倍,成本降低3倍。

  • 回归了V7的经典美学,同时恢复了图像提示功能,增强了视觉风格的稳定性。

  • 新增了“Run as HD”按钮和“Describe”描述功能,提升了工作流灵活性和提示词创作方式。

  • 🔗https://alpha.midjourney.com/explore

4月16日

蚂蚁灵波科技开源 LingBot-Map:支持单摄像头实时流式三维重建

  • 支持单个普通RGB摄像头实时估计相机位姿并重建场景三维结构。

  • 采用流式处理架构,实现边接收画面边输出定位与结构的实时交互。

  • 开源模型降低高精度三维感知的硬件门槛,加速具身智能设备发展。

  • 🔗https://huggingface.co/robbyant/lingbot-map ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map

4月17日

Perplexity推出Mac端AI助手:7× 24 小时运行,可代用户操作电脑

  • 人工智能搜索领军者Perplexity发布了Mac端AI助手Personal Computer,具备直接访问文件系统和原生应用的能力。

  • 该工具支持文本与语音交互,并能实时感知用户当前的活跃窗口,主动提供操作建议。

  • Perplexity为助手设计了严密的防御机制,所有操作都在隔离的安全沙箱中完成,保障用户隐私。

4月20日

单张图片生成可行走 3D 世界!NVIDIA 开源 Lyra 2.0,彻底解决长视频“空间遗忘”和“时间漂移”难题

  • 空间记忆机制:维护3D几何信息,用于信息路由,避免几何误差积累。

  • 自增强训练策略:让模型接触自身生成的退化输出,主动纠正漂移。

  • 开源与应用价值:适用于机器人训练、游戏开发和3D资产生成管道。

  • 🔗https://huggingface.co/papers/2604.13036

4月21日

突发福利!AI Studio 彻底免费开放,Pro/Ultra 会员可畅玩Gemini Pro等顶级模型

  • 谷歌 AI Studio 免费开放,Pro/Ultra 会员可直接使用 Gemini Pro 等模型。

  • 用户无需绑定信用卡或生成 API Key,即可立即开始实验和开发。

  • 谷歌此举提升了 AI 工具的亲民度,降低了入门门槛。

  • 🔗https://aistudio.google.com/prompts/new_chat

4月22日

百灵大模型正式发布 Ling-2.6-flash 1/10 成本跑出超高性能

  • Ling-2.6-flash 模型在性能与效率之间找到了最优解,总参数量达到 104B,但实际运行中仅激活 7.4B 参数。

  • 在权威评测中,Ling-2.6-flash 完成同等任务仅消耗 15M tokens,仅为同类模型的十分之一左右。

  • 该模型通过优化参数激活机制,在保持大规模知识储备的同时,降低了推理门槛,为企业提供了更具经济效益的替代方案。

4月23日

字节跳动发布Seed3D2.0:几何与纹理双SOTA,API同步上线火山引擎

  • Seed3D2.0在几何精度上实现突破,达到行业SOTA水平。

  • 纹理生成采用统一PBR架构,提升物理属性精准分解能力。

  • 支持部件级拆解与复杂场景组合,可无缝对接物理仿真引擎。

  • 🔗https://seed.bytedance.com/seed3d_2_0

4月24日

DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代

  • DeepSeek-V4 预览版上线并开源,实现1M超长上下文能力标准化。

  • 提供两个版本:Pro(性能接近顶级闭源模型)和 Flash(性价比高)。

  • 采用DSA机制优化长上下文处理,降低计算成本。

  • 🔗https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • 🔗https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

4月27日

小米开源VLA大模型后训练全流程,机器人亚毫米级操作成现实

  • Xiaomi-Robotics-0模型通过后训练流程,显著提升了机器人在复杂任务中的表现。

  • 该模型成功实现了亚毫米级的精细操作能力,展示了强大的空间感知和实时反馈能力。

  • 小米开源了技术报告、模型权重和源代码,推动了开发者生态建设,降低了高性能机器人开发门槛。

  • 🔗https://robotics.xiaomi.com/xiaomi-robotics-0.html#pack-earbuds

4月29日

ima上线知识 Agent copilot:内置记忆系统并支持多端联动

  • copilot集成了自主进化记忆系统,包括Soul、User、Memory和Agent四大模块。

  • 实现了全场景感知,可作为浮窗悬停于应用内,实时理解与处理当前浏览内容。

  • 支持Skills生态,用户可通过Skillhub或API接入主流大模型,构建定制化技能链路。

4月30日

Chrome 正式发布 Prompt API:浏览器原生 AI 时代来临,网页直接调用 Gemini Nano 本地模型

  • Prompt API 是 Chrome 内置 AI 框架的一部分,允许网页应用调用 Gemini Nano 模型。

  • 模型在本地运行,数据不上传云端,提升隐私保护。

  • 开发者无需依赖外部 API,降低开发成本和复杂性。

  • 🔗https://developer.chrome.com/docs/ai/prompt-api

程序员“数字分身”上岗:阿里发布 QoderWake,实现代码修复全流程无人值守

  • QoderWake作为生产级数字员工,能够自主执行代码变更简报整理、错误诊断等任务并生成修复代码。

  • Qoder移动端支持跨端协同与交互体验革新,用户可通过手机远程操控桌面端Agent执行复杂任务。

  • 阿里通过Qoder产品布局,推动AI从辅助工具演变为具备独立任务处理能力的生产要素。

  • 🔗https://qoder.com/qoderwake

蚂蚁集团正式开源万亿级大模型Ling-2.6-1T

  • Ling-2.6-1T采用混合架构,提升智效比

  • 支持多工具、多约束的复杂业务场景

  • 在代码生成和精准推理方面达到开源领域顶尖水平

  • 🔗https://huggingface.co/inclusionAI/Ling-2.6-1T

编辑冯雨菲