AI 测安全,数据一出,圈内大佬都炸了!-夜雨聆风

AI 测安全,数据一出,圈内大佬都炸了!

🎯10 行代码就能攻破 8 个主流 AI 评测，这场信任危机比你想象的更严重

伯克利团队用 10 行代码就让 8 个主流 AI 评测基准”失效”，而就在同一周，YZ Index 宣布 7 款新模型上榜、9 款老将退役，AILuminate 发布了越狱基准 V05 版本。这不是巧合——当所有人都在庆祝”国产模型登顶”时，评测体系本身正在经历一场看不见的崩塌。

📰YZ Index 一次性换血 16 款模型，但没人问”为什么要换”

YZ Index 在 5 月同时迎来 7 款新模型和 9 款退役模型，这是该基准成立以来最大规模的阵容调整。新入榜的包括 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 系列，而退役名单中不乏曾经的”榜首常客”。

表面上看，这是技术迭代的正常节奏。但时间点很微妙：就在 YZ Index 换血的同一周，伯克利团队公布了他们的”破解实验”——用 10 行代码攻破 8 个主流评测基准。这些基准并非无名之辈，而是行业内广泛引用的权威标准。

更值得注意的是评测逻辑的变化。DeepSeek V4 Pro 在新榜单中拿到 70.98 分，V4 Flash 得分 68.82，双双登顶国产模型榜首。但没有任何官方说明解释：这些分数与上一版本的计分规则是否可比？退役的 9 款模型是因为”测不出差异”还是”测出了不该出现的结果”？

🔄伯克利团队没有用黑客技术，他们只是”按说明书操作”

伯克利团队的破解方法简单到让人不安：他们没有攻击评测系统的后台，也没有篡改测试数据，而是利用了评测基准本身的设计漏洞。10 行代码的核心逻辑是针对评测题目的”模式识别”——因为大多数基准题库是公开的，模型只需要记住”什么样的问题对应什么样的答案格式”，就能在不真正理解任务的情况下拿高分。

这暴露了一个更深层的问题：当前 AI 评测体系的设计假设是”模型没见过题目”，但实际情况是，题库公开后，所有模型都在用这些题目做训练数据。结果就是，评测变成了”谁更会背答案”的比赛，而不是”谁更聪明”的测试。

更讽刺的是，这种”针对评测优化”的现象在行业内早已是公开秘密。多位从业者私下承认，他们的模型在发布前会专门针对主流基准做”调优”——不是为了提升真实能力，而是为了让排名好看。伯克利团队的 10 行代码只是把这个潜规则摆到了台面上。

🔍小米开源模型”首日适配 5 款国产芯片”，这个细节藏着评测的另一个问题

小米发布的罗浮狸开源模型号称”超越 DeepSeek-V4″，最引人注意的不是性能数字，而是它首日就适配了 5 款国产芯片。这个看似技术性的成就，实际上揭示了评测基准的另一个盲区：硬件适配性。

现有的主流评测几乎都默认模型运行在标准化的 GPU 环境（通常是英伟达 A100 或 H100）。但在实际部署场景中，尤其是国内市场，模型需要运行在各种国产芯片上——而这些芯片的算力、内存带宽、指令集都与标准环境存在差异。一个在 A100 上跑分 90 分的模型，放到某款国产芯片上可能只有 60 分的实际表现。

小米的”首日适配”本质上是在说：我们提前知道评测会在哪些硬件上跑，所以我们专门针对这些硬件做了优化。这再次证明，当评测规则透明到一定程度，”针对评测优化”就会成为比”提升真实能力”更高效的策略。

🏭字节豆包拿下”中文视觉大模型第一”，但这个榜单的参照系已经变了

字节豆包在中文视觉大模型榜单上拿到第一名，而且整个榜单前列已经被国产模型占据。这个结果在社交媒体上引发了大量”国产超越”的庆祝，但很少有人注意到一个细节：这个榜单的对比样本已经不包括最新的 GPT-5.5 和 Claude Opus 4.7。

原因很简单：这些最新的海外模型还没有开放中文视觉测试的 API 接口。所以”国产第一”实际上是在一个”海外选手缺席”的赛场上拿到的。这不是说国产模型没有进步，而是说，当评测的参照系发生变化时，排名的意义也在发生变化。

更关键的问题是：如果评测基准本身存在漏洞，那么”第一名”这个标签的含金量还剩多少？当所有人都知道可以用 10 行代码”优化”分数时，分数还能代表什么？

🔮接下来要看的不是”谁又登顶了”，而是”谁在重新定义评测”

国际 AI 安全报告在 2026 年2月发布时，就已经指出评测体系的系统性风险。但真正值得追踪的信号不在报告本身，而在于：谁会率先推出”抗破解”的新评测体系。

有两个方向值得关注：一是”动态题库”——每次评测都随机生成新题目，让模型无法提前”背答案”；二是”黑盒测试”——不公开评测方法和题库，只公布最终结果。前者技术难度高，后者透明度低，都不是完美方案。

但可以确定的是，现有的评测体系已经走到了十字路口。YZ Index 的大规模换血、伯克利团队的破解演示、小米的”首日适配”，这些看似独立的事件都在指向同一个事实：当所有人都在针对评测优化时，评测本身就失去了意义。

✨当评测变成军备竞赛，我们需要的不是更高的分数，而是更诚实的对话

AI 评测的信任危机不是技术问题，而是激励机制问题。当”登顶榜单”能直接转化为融资估值、客户订单和媒体曝光，所有参与者都有动力去”优化评测”而不是”优化能力”。伯克利团队的 10 行代码只是把这个游戏的底牌翻了出来。

真正需要改变的不是评测工具，而是行业对”第一名”的迷恋。或许我们应该问的不是”谁的模型最强”，而是”这个模型在我的实际场景中表现如何”。毕竟，没有用户会在意你的模型在某个基准上比竞品高 2 个百分点——他们只在意，这个模型能不能解决他们的问题。

🔗参考资料

winzheng.com / itsolotime.com / ai.zol.com.cn / finance.sina.com.cn / internationalaisafetyreport.org