数据侧:Databricks 打通 Iceberg 互操作、阿里云/百度云同步启动算力涨价、国产模型调用量连续 5 周领先。AI 侧:OpenAI 发布 GPT-6、Anthropic 连下 Opus 4.7 + Claude Design、Codex 升级到"能自己跑项目",斯坦福 AI 指数报告同步落地。
Data
Azure Databricks 4 月发布:Unity Catalog 与 Iceberg 互操作继续加码
Databricks 在本月的平台更新里做了三件对数据团队有感的事。
Unity Catalog Pipelines 新增 cascade=false 选项,删除 Pipeline 时不再连带清掉其下的物化视图和流表,运维事故半径被实质性缩小。Delta Share 开始支持对接外部 Iceberg Catalog 的表联邦,订阅方以只读方式直接消费外部 Iceberg 数据,不用先落盘到 Delta。C5、TISAX、K-FSI 合规控制同步 GA,合规要求严格的客户可以直接勾选。
信号不在功能本身,而在方向——Databricks 正在从"全家桶"改写成"也能吃别家格式"。对还在做湖仓选型的团队,Iceberg 的中立地位在越来越稳。
阿里云、百度云 4.18 起调整 AI 算力与存储价格
涨幅区间 5%~34%,涉及 GPU 算力和对象存储。信号非常明确:补贴换用户的时代告一段落,精打细算时代开始了。
这件事对数据团队的影响被低估了——一旦云侧资源不再"白菜价",Token 成本核算、缓存命中率、Prompt 瘦身、批量处理、冷热数据分层这些"抠细节"的活,会被重新定价。今年下半年,数据平台的"成本可观测性"会从加分项变成刚需。
国产大模型调用量连续 5 周超越美国,差距拉大到 4.3 倍
智源社区《AI 治理周报》披露的数字:中国大模型周调用量连续 5 周反超美国,绝对差距持续扩大。
背后不是单一原因——能力追平(DeepSeek、Qwen3.6-Plus、MiniMax M2.7 先后拿下关键榜单)、政策托底、企业采购逻辑转向(合规 + 数据本地化 + 成本控制)三件事同时到位。做中文业务的数据团队,今年做模型选型再把国产方案排在备胎位置,已经不合理了。
AI
OpenAI 发布 GPT-6(代号 Spud)
4 月 14 日全球同步发布。核心数字:200 万 Token 上下文窗口(前代约 10 倍)、主流基准性能 +40%、5~6 万亿参数 MoE(激活约 10%)。
架构层面最大的变化叫 Symphony——文本、图像、音频、视频从设计之初就落在同一个向量空间,双系统推理框架负责在"快答"和"深思"之间切换。
对数据工程师意味着什么?"把整个项目一次性喂给模型"从口号变成了操作。一个中型数仓的全部 DDL + 血缘 + 指标口径打包进 200 万 Token 完全装得下,"问一个字段"升级到"问整条链路"的门槛正式消失。
Anthropic 连发两弹:Claude Opus 4.7 + Claude Design
4 月 16 日发布 Claude Opus 4.7,SWE-bench Pro 64.3%、CursorBench 70%、视觉分辨率提升 3 倍,继续坐稳编程/Agent 场景头把交椅。
紧接着 4 月 17 日推出 Claude Design——由 Opus 4.7 驱动的 AI 设计协作工具,文字或图片直接转成可编辑的交互原型,设计–产品–前端三方协作链路又被压薄一层。
两弹连发的节奏说明一件事:Anthropic 在把 Opus 4.7 当"引擎"往上游产品里铺,而不是单纯卖模型 API。这和 OpenAI 以"模型发布"为单位的节奏已经明显分叉。
OpenAI Codex 大升级:从"写代码的 AI"到"能自己跑项目的 AI"
4 月 16 日,Codex 升级支持全系统操作——视觉识别、点击、键盘输入全链路打通,可在真实操作系统里完成多步骤任务,同时支持多 Agent 协作。
直白说就是:Codex 现在可以打开 IDE、改代码、跑测试、看结果、再改,一套闭环不需要人盯。对数据工程师的影响不在"能省写代码的时间",而在"你搭的数据平台,未来要让 Agent 跑得起来"——权限、元数据完整性、错误反馈链路,都要按"Agent 可用"来重新审视。
智元机器人 2026 合作伙伴大会 + 斯坦福《2026 AI 指数报告》
4 月 17 日,智元一次性发布 4 款本体新品、4 个 AI 大模型、7 个解决方案和开放数据集。具身智能正在从"概念秀"过渡到"批量出货"——一季度四足机器人库存卖空,2026 年营收目标 5 亿。
同周斯坦福发布《2026 AI 指数报告》:阿里进入全球顶级模型贡献榜前三(中国第一),Anthropic 登顶总榜。报告里有一条被低估的警示——顶级模型"读指针时钟"正确率仅 50.1%,人类 90.1%。别被 SWE-bench、MMLU 迷惑,评测体系照不到的地方,模型仍然笨拙。做数据评测集的团队,本周值得回头照镜子:你的评测集真的覆盖了业务的边角吗?
小结
数据侧:Iceberg 互操作继续扩散、云厂商开始涨价、国产模型调用量领先,三件事合在一起指向同一个结论——数据团队的"成本敏感度"和"平台中立性"今年会被重新定价。
AI 侧: OpenAI 用 GPT-6 把上下文天花板顶到 200 万 Token,Anthropic 用 Opus 4.7 + Design 铺产品矩阵,Codex 升级把"Agent 自主跑项目"这件事推到工程团队面前。评测体系的盲区,是本周斯坦福报告给所有数据人的提醒。
下周见。
如果对 Data+AI 方向感兴趣,欢迎关注公众号「小友 Data+AI」。我们也在打磨一套 Data+AI 全链路实战项目,后台回复「项目」即可获取相关信息。
夜雨聆风