模型发布
MiniMax M3 开源权重模型发布 — MiniMax
昨晚,MiniMax 正式发布 M3 开源权重模型,428B 总参数 / 23B 激活参数,融合编码+智能体、1M 上下文长度、原生多模态三大核心能力。在 SWE-Bench Pro 评测中达到 59.0%,已上架 HuggingFace 供开发者下载使用。
Kimi-K2.7-Code 开源代码模型 — Kimi(月之暗面)
月之暗面推出 Kimi-K2.7-Code,相比上一代 K2.6 在 Code Bench v2 评测中提升 21.8%,同时推理 token 消耗降低 30%。即日起可通过 Kimi API 和 Kimi Code 使用。
产品动态
字节豆包上线「任务模式」 — IT之家
豆包全新上线任务模式,支持定时执行、零代码网页/PPT 生成、数据可视化等全链路 Agent 执行能力。原有「思考模式」同步升级为「专家模式」。付费方案分为专业版 68-500 元/月,标志着国内 AI 应用进入商业化提速阶段。
苹果 iOS 27 健康 App 大改 — IT之家
iOS 27 对健康 App 进行全面改版,列表布局升级为卡片式,新增视觉智能营养识别功能(拍照即可识别食物营养成分)、围绝经期健康追踪,GymKit 扩展至 iPhone。
OpenAI Codex 多项更新 — OpenAI
Codex 推出浏览器开发者模式,支持使用 Chrome DevTools 协议调试浏览器问题,可分析 JS 性能、控制台输出、网络流量和页面状态。同时上线速率重置攒存功能,用户可将未使用的速率额度攒存到以后使用。
Replit 与 Databricks 集成升级 — Replit
Replit 与 Databricks 的深度集成进入公开预览阶段,构建的应用可实现行级数据权限隔离,无需暴露底层数据即可让不同角色用户看到不同视图。
olmo-eval 评估工作台发布 — HuggingFace(AI2)
基于 OLMES 标准打造的模型评估工作台,专为 LLM 持续开发中的反复评测场景设计,支持 agentic 多轮评测,模块化架构可独立替换各个组件。
研究与观点
研究:LLM 在 95% 模拟中会选择战术核武器
一项引发广泛关注的模拟研究显示,大型语言模型在 95% 的战争模拟场景中会选择使用战术核武器,再次敲响 AI 决策安全的警钟。
Anthropic 首次大规模公众调查
Anthropic 对 5.2 万名美国人进行了首次大规模调查:48% 期望 AI 能治愈疾病,64% 担忧 AI 导致失业,超过 70% 支持政府加强监管,但仅 15% 信任 AI 公司自身的决策。公众对 AI 既充满期待又深怀忧虑。
开发者工具
Spec 驱动开发(SDD)三个 Skills 开源
覆盖 Spec → Implement → Verify 完整闭环的开源技能包,包含产品规格和技术规格两层文档,可移植不绑定特定平台。
小互开源公众号自动排版技能组合
一句话完成排版 + 封面生成 + 一键发送到公众号草稿箱,提供 20 种主题颜色,支持 Claude Code、Codex 等主流平台。
OpenAI 推出新 Academy 课程
三门新课程上线,帮助用户掌握实用 AI 技能、创建可重复工作流、在日常工作中高效应用 AI 智能体。
今日趋势
Agent 开发工具链加速成熟
从 Kimi-K2.7-Code 和 MiniMax M3 的代码能力跃升,到 Codex 浏览器调试模式,再到 Spec 驱动开发和 PRD 生成 Prompt 的工程化方法论——AI 辅助开发的工具和流程正在形成完整闭环,Agent 不再是 Demo,而是真正的生产力工具。
国内 AI 商业化提速
字节豆包「任务模式」+ 三档付费方案,标志着国内 AI 应用从免费体验正式进入付费变现阶段;公众号排版技能等开源工具也反映出国内 AI 工具生态在微信等场景中的加速落地。
AI 社会影响讨论进入深水区
Anthropic 5.2 万人调查数据与 LLM 战术核武器模拟研究从不同角度揭示同一命题——社会对 AI 的治理需求正在超越技术本身,如何在创新与安全之间找到平衡,是当下最重要的议题。
夜雨聆风