本期日报涵盖最新模型发布、价格策略调整、安全研究突破、AI应用可靠性讨论及开发者工具生态更新。整体趋势显示AI能力竞争正逐步转向可靠性与经济性的双重考验。
1. 阿里 Qwen3.7-Max 正式发布,专为 Agent 时代打造
阿里巴巴发布 Qwen3.7-Max 旗舰模型,专为 Agent 时代设计,支持端到端编码 Agent、办公助手和 MCP 集成,在 AI Intelligence Index 得分 56.6,较前代提升 4.8 分。模型在 35 小时连续执行中自主完成 432 次内核评估、1158 次工具调用,实现对 Extend Attention Kernel 的 10.0 倍加速,展现出强大的长时自主 Agent 能力,无需人工干预。API 已同步上线阿里云百炼。第三方评测显示,在编写自训练俄罗斯方块机器人任务中,Qwen3.7-Max 成本仅 1.32 美元(提升 56%),而 Claude Opus 4.7 成本 12.15 美元(提升 28%),GPT-5.5 成本 2.85 美元(提升 7%),Qwen 在成本效益上全面领先。
2. Anthropic Project Glasswing 发现上万个高危软件漏洞
Anthropic 联合合作伙伴通过 Project Glasswing 找到超过一万个高危或严重级别的软件漏洞,由 Claude Mythos Preview 模型辅助发现。项目揭示了 AI 在安全测试领域的规模化能力边界——AI 发现漏洞的规模已远超传统人工审计方法所能企及的高度。Anthropic 官方表示,软件行业需要重新适应 AI 发现漏洞的规模,这将从根本上改变安全审计的工作方式。
3. 智谱 GLM-5.1 highspeed 上线,输出速度达 400 TPS
智谱发布 glm-5.1-highspeed,实测输出速度 300-400 tokens/s,首 token 延迟稳定 1 秒,是普通 GLM-5.1 接口的 10 倍。官方与 TensorRT 团队合作,从底层优化推理链路,将 GPU 性能压榨到接近物理极限。使用 GLM-5.1 编程的开发者可直接切换新模型获得显著加速,无需修改代码。对于需要高吞吐量实时交互的应用场景,400 TPS 的速度意味着近乎无感知的响应体验。
4. 腾讯 Hy-MT2 翻译模型实测:可本地部署,指令遵循超越 DeepSeek-V4-Pro
用户实测 Hy-MT2-30B-A3B 在翻译测试中全面超越 DeepSeek-V4-Pro,支持 33 种语言(含粤语)。1.8B 量化版本仅需不到 1GB 内存,可搭配 LunaTranslator 本地部署,用于网页、游戏、PDF 翻译等场景。测试显示其指令遵循能力强,尤其在专业术语和上下文一致性方面表现突出。随着小模型推理速度可达 200 tokens/s,翻译软件与 API 之间的速度差距已基本消失,本地部署方案在隐私和成本上的优势更加显著。
5. AI 应用翻车事件频发:毕业典礼念错名字、航班信息出错
亚利桑那州格伦代尔社区学院使用 AI 系统宣布毕业生姓名,出现发音错误、名字显示错误、跳过学生等问题,校长被迫暂停仪式改用人工宣读。同时,用户反馈 Google AI 查询航班时生成错误日期信息,导致实际损失。分析指出 AI 能力不等于可靠性,尤其在实时数据、高后果场景下必须人工验证。行业正从单纯追求能力转向解决验证与信任问题。
6. AI 编码工具 Token 成本暴涨:微软停用 Claude Code,Uber 四个月烧光预算
微软计划内部停用 Claude Code 转推 GitHub Copilot CLI;Uber CTO 称其 2026 年 AI 预算在四个月内耗尽,部分用户月费达数千美元。GitHub 将转向按用量计费。行业进入"AI 经济理性期",企业开始要求清晰的 ROI 证明。这一趋势将推动 AI 工具从"先用再说"转向"按需付费"的理性使用阶段。
7. DeepSeek-V4-Pro 永久降价,性价比再提升
DeepSeek 宣布将限时折扣改为永久降价,使用 DeepSeek-V4-Pro 比同等水平模型便宜约 3 倍。社区用户评价其为"价格屠夫",此次降价将进一步加剧大模型 API 价格战。对比 Arena.ai 发布的 GPT-4 级别质量成本已从 2023 年的约 50 美元降至约 0.10 美元/百万 token,低价端模型得分从 1000 升至 1440,与顶尖差距从 350 分缩小到 60 分。
8. LM Studio 0.4.14 支持多标记预测(MTP)
LM Studio 发布 0.4.14 版本,新增 MTP(Multi-Token Prediction)功能,可提升本地模型生成效率。该版本需要更新 llama.cpp 引擎至 2.15.0,并在加载模型时手动启用。MTP 技术允许模型在单次前向传播中预测多个 token,而非传统的自回归生成方式,对于提升本地推理速度具有实际意义,尤其在长文本生成场景。
9. Google Gemini 3.5 Flash 正式发布并免费开放,性能超越 3.1 Pro
Gemini 3.5 Flash 编码能力强于 3.1 Pro,速度提升 4 倍,在 Code Arena: Frontend 排名第 9,较上一代提升 70 分。官方同时预告 Gemini 3.5 Pro 将于下月发布。Google 再次为 Antigravity 付费用户三倍提升 Gemini 配额,并重置所有已有额度,回应开发者对配额不足的担忧。
10. 网易有道开源 Confucius4 双模型:数学视觉推理 + 语音克隆
网易有道发布 Confucius4 系列,包含两个开源模型:一个用于数学视觉推理,另一个用于语音克隆。两个模型均开源完整权重而非仅提供 API,强调工程精度与落地成本控制。这标志着国内大厂在开源领域的持续投入,为开发者提供更多本地部署选择。
11. YC 孵化多款 AI 新工具:仓库机器人、Agent 监控、代码审查平台
Y Combinator 本期发布多个 AI 工具:Pentagon 是人与 Agent 的协调层,支持跨工具通信协作;Netter.ai 提供全栈数据科学 Agent,帮助无数据工程师团队处理复杂数据;InLoopRobotics 部署可按月租赁的仓库机器人员工,拣选速度 300+ 件/小时;Armature 帮助公司监控 AI Agent 在产品中的运行体验;Stage 推出专为 AI 生成代码设计的代码审查平台。YC 系项目持续在企业级 AI 应用场景深耕。
12. MiniMax 在美国参与多项 AI 生态活动
MiniMax 在美国参与 Vercel 模型黑客马拉松、Notion 平台黑客松(与 OpenAI、Anthropic 等合作),以及 AWS 的 AI Agent 实战分享,推动从 POC 到生产落地。MiniMax 还在 Together AI 上线 Speech 2.8 Turbo 模型,带来 600+ 新语音支持多种场景应用。这展现了中国 AI 公司积极拓展国际开发者生态的战略意图。
总结
本期 AI 科技领域呈现几个重要趋势:模型能力层面,Qwen3.7-Max 成为国产旗舰模型代表,智谱 GLM-5.1 highspeed 以 400 TPS 刷新推理速度纪录;价格战持续深化,DeepSeek 永久降价和 Gemini 3.5 Flash 免费开放进一步拉低大模型使用门槛;与此同时,AI 应用可靠性问题集中爆发——毕业典礼念错名字、航班信息错误、豆包留存低迷——表明行业正从能力竞争转向可靠性验证;企业层面开始对 AI 工具成本进行理性审视,微软停用 Claude Code、Uber 预算耗尽等案例敲响警钟。开发者生态方面,开源工具与技能包持续涌现,推动 AI 工具向更广泛人群普及。
夜雨聆风