AI 测安全,数据一出,圈内大佬都炸了!
🎯10 行代码就能攻破 8 个主流 AI 评测,这场信任危机比你想象的更严重
伯克利团队用 10 行代码就让 8 个主流 AI 评测基准”失效”,而就在同一周,YZ Index 宣布 7 款新模型上榜、9 款老将退役,AILuminate 发布了越狱基准 V05 版本。这不是巧合——当所有人都在庆祝”国产模型登顶”时,评测体系本身正在经历一场看不见的崩塌。
📰YZ Index 一次性换血 16 款模型,但没人问”为什么要换”

YZ Index 在 5 月同时迎来 7 款新模型和 9 款退役模型,这是该基准成立以来最大规模的阵容调整。新入榜的包括 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 系列,而退役名单中不乏曾经的”榜首常客”。
表面上看,这是技术迭代的正常节奏。但时间点很微妙:就在 YZ Index 换血的同一周,伯克利团队公布了他们的”破解实验”——用 10 行代码攻破 8 个主流评测基准。这些基准并非无名之辈,而是行业内广泛引用的权威标准。
更值得注意的是评测逻辑的变化。DeepSeek V4 Pro 在新榜单中拿到 70.98 分,V4 Flash 得分 68.82,双双登顶国产模型榜首。但没有任何官方说明解释:这些分数与上一版本的计分规则是否可比?退役的 9 款模型是因为”测不出差异”还是”测出了不该出现的结果”?
🔄伯克利团队没有用黑客技术,他们只是”按说明书操作”
伯克利团队的破解方法简单到让人不安:他们没有攻击评测系统的后台,也没有篡改测试数据,而是利用了评测基准本身的设计漏洞。10 行代码的核心逻辑是针对评测题目的”模式识别”——因为大多数基准题库是公开的,模型只需要记住”什么样的问题对应什么样的答案格式”,就能在不真正理解任务的情况下拿高分。
这暴露了一个更深层的问题:当前 AI 评测体系的设计假设是”模型没见过题目”,但实际情况是,题库公开后,所有模型都在用这些题目做训练数据。结果就是,评测变成了”谁更会背答案”的比赛,而不是”谁更聪明”的测试。
更讽刺的是,这种”针对评测优化”的现象在行业内早已是公开秘密。多位从业者私下承认,他们的模型在发布前会专门针对主流基准做”调优”——不是为了提升真实能力,而是为了让排名好看。伯克利团队的 10 行代码只是把这个潜规则摆到了台面上。
🔍小米开源模型”首日适配 5 款国产芯片”,这个细节藏着评测的另一个问题

小米发布的罗浮狸开源模型号称”超越 DeepSeek-V4″,最引人注意的不是性能数字,而是它首日就适配了 5 款国产芯片。这个看似技术性的成就,实际上揭示了评测基准的另一个盲区:硬件适配性。
现有的主流评测几乎都默认模型运行在标准化的 GPU 环境(通常是英伟达 A100 或 H100)。但在实际部署场景中,尤其是国内市场,模型需要运行在各种国产芯片上——而这些芯片的算力、内存带宽、指令集都与标准环境存在差异。一个在 A100 上跑分 90 分的模型,放到某款国产芯片上可能只有 60 分的实际表现。
小米的”首日适配”本质上是在说:我们提前知道评测会在哪些硬件上跑,所以我们专门针对这些硬件做了优化。这再次证明,当评测规则透明到一定程度,”针对评测优化”就会成为比”提升真实能力”更高效的策略。
🏭字节豆包拿下”中文视觉大模型第一”,但这个榜单的参照系已经变了

字节豆包在中文视觉大模型榜单上拿到第一名,而且整个榜单前列已经被国产模型占据。这个结果在社交媒体上引发了大量”国产超越”的庆祝,但很少有人注意到一个细节:这个榜单的对比样本已经不包括最新的 GPT-5.5 和 Claude Opus 4.7。
原因很简单:这些最新的海外模型还没有开放中文视觉测试的 API 接口。所以”国产第一”实际上是在一个”海外选手缺席”的赛场上拿到的。这不是说国产模型没有进步,而是说,当评测的参照系发生变化时,排名的意义也在发生变化。
更关键的问题是:如果评测基准本身存在漏洞,那么”第一名”这个标签的含金量还剩多少?当所有人都知道可以用 10 行代码”优化”分数时,分数还能代表什么?
🔮接下来要看的不是”谁又登顶了”,而是”谁在重新定义评测”
国际 AI 安全报告在 2026 年2月发布时,就已经指出评测体系的系统性风险。但真正值得追踪的信号不在报告本身,而在于:谁会率先推出”抗破解”的新评测体系。
有两个方向值得关注:一是”动态题库”——每次评测都随机生成新题目,让模型无法提前”背答案”;二是”黑盒测试”——不公开评测方法和题库,只公布最终结果。前者技术难度高,后者透明度低,都不是完美方案。
但可以确定的是,现有的评测体系已经走到了十字路口。YZ Index 的大规模换血、伯克利团队的破解演示、小米的”首日适配”,这些看似独立的事件都在指向同一个事实:当所有人都在针对评测优化时,评测本身就失去了意义。
✨当评测变成军备竞赛,我们需要的不是更高的分数,而是更诚实的对话
AI 评测的信任危机不是技术问题,而是激励机制问题。当”登顶榜单”能直接转化为融资估值、客户订单和媒体曝光,所有参与者都有动力去”优化评测”而不是”优化能力”。伯克利团队的 10 行代码只是把这个游戏的底牌翻了出来。
真正需要改变的不是评测工具,而是行业对”第一名”的迷恋。或许我们应该问的不是”谁的模型最强”,而是”这个模型在我的实际场景中表现如何”。毕竟,没有用户会在意你的模型在某个基准上比竞品高 2 个百分点——他们只在意,这个模型能不能解决他们的问题。
🔗参考资料
winzheng.com / itsolotime.com / ai.zol.com.cn / finance.sina.com.cn / internationalaisafetyreport.org
夜雨聆风