AI 从会生成到会执行,Gemini 3.5 来了
Google 发布了 Gemini 3.5 模型系列,先上线的是 Gemini 3.5 Flash。从这篇官方稿的内容来看,Google 这次想强调的不只是模型能力继续提升,而是模型开始更适合处理复杂、长流程、需要持续执行的智能体任务。
普通用户已经可以在 Gemini app 和 Google Search 的 AI Mode 中使用它,开发者可通过 Google Antigravity、Gemini API、Google AI Studio 和 Android Studio 接入,企业侧则覆盖 Gemini Enterprise Agent Platform 和 Gemini Enterprise。Google 还提到,3.5 Pro 已在内部使用,计划下个月推出。
能力部分,Google 把 3.5 Flash 放在“又快又强”的位置上来讲。文章列出的几项成绩包括 Terminal-Bench 2.1 的 76.2%、GDPval-AA 的 1656 Elo、MCP Atlas 的 83.6%,以及 CharXiv Reasoning 的 84.2%。除了这些分数,官方还特别强调速度,称它的输出速度比其他前沿模型快 4 倍。整个表述很集中,就是想说明这个模型不再只是在少数测试里表现突出,而是试图把高水平推理、多模态理解和低延迟同时放进一个 Flash 模型里。
配合更新后的 Antigravity harness,3.5 Flash 可以调动多个子智能体执行多步工作流,用在开发应用、维护代码库、整理金融文件这类任务上。文中举了不少例子:自动整理非结构化资产、在 6 小时内综合 AlphaZero 论文并做出可玩的游戏、把老旧代码库迁移到 Next.js,还能生成更丰富的网页 UI、交互动画和品牌方案。模型不只是回答问题,而是开始承担一段完整流程里的实际工作。
企业案例也说明这一点。Shopify 在做复杂数据分析和商家增长预测,Macquarie Bank 用它处理上百页文档的开户流程,Salesforce 把它接入 Agentforce,Ramp 用在发票 OCR,Xero 让它处理跨多周的行政任务,Databricks 则把它放进大规模数据监控和问题诊断流程里。这些场景都不是单一步骤,而是需要上下文、判断和连续执行。
在个人产品上,3.5 Flash 已经成为 Gemini app 和 Search AI Mode 的默认模型。Google 还展示了 Gemini Spark,把它定义成 24 小时运行的个人 AI 智能体,目前先向受信测试者开放,并计划在美国向 Google AI Ultra 订阅者推出 Beta。
Gemini 3.5 是按 Frontier Safety Framework 开发的,强化了网络安全和 CBRN 相关防护,也加入了新的安全训练和可解释性工具。Gemini 3.5 Flash 既是新一代模型,也是 Google 把 AI 从“会生成”继续往“会执行”推进的一次产品化落地。
#AI #Gemini
夜雨聆风