AI给人类打分,优秀人类只得了7.5分

AI给人类打分，优秀人类只得了7.5分

以前我们给AI跑分，现在AI反手给我们打分了。

Anthropic（就是做Claude的那家公司）悄悄上线了一个灰度功能：你打开Claude的设置面板，点一个叫"AI Fluency"的按钮，几秒钟后，一份关于你AI使用习惯的"体检报告"就出来了。

满分11分，优秀线是7.5分。

已经有手快的网友晒出了自己的成绩单——7.5分，刚好踩线。而Claude给他的评语是："你极其频繁地使用各种Connector，但只要话题涉及体育数据、食谱，甚至地图和地理位置，你就表现得一无所知。"

这哪里是软件，简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。

近万份对话，揭开了人类使用AI的真实水平

这事的背景是Anthropic联合学术界搞了一份《AI流利度指数报告》，研究团队在一个星期里扫描了9830段真实的匿名对话，全程用AI分析，没有人工干预。

他们发现了一个残酷的事实：这世上用AI的人，差距比人和狗都大。

研究团队提出了一个"4D AI流利度框架"，总结出24项衡量人机协作的标准。其中有13项发生在屏幕之外——比如你是否对老板隐瞒了工作是AI做的，你是否考虑了AI生成内容的伦理后果。

剩下的11项，是可以在聊天框里直接观测到的指标。这11项就是Claude给你打分的底层逻辑。

这11项指标围绕三个维度展开：描述、委托、辨别。

很多人的对话框长这样："帮我写个周报"、"写一个贪吃蛇代码"。

在Claude眼里，这种指令的流利度几乎为零。真正的高手会做三件事：

第一，明确目标。 你是否向AI解释了你做这件事的最终目的？

第二，指定格式。 高分玩家懂得说："请用Markdown表格输出"、"请以3个小标题+每段不超过50字的要点格式呈现"。

第三，提供示例。 Few-shot永远是王者。在让AI干活前，先喂给它一个你认可的范例："请模仿以下这篇爆款文章的口吻来写……"

研究团队发现了一个惊人的数据：最常见的人机协作模式是"增强型"——人类提出方向，AI填充细节。

但高手不止于此。他们会：

有个很有意思的发现：有13%的对话中，用户明确表示"这不是我想要的"——而这些用户往往得分更高。敢否定AI的人，反而更懂AI。

这是最高阶的能力。高手会：

研究发现，只有不到5%的用户会主动要求AI提供信息来源——而这恰恰是辨别能力的核心标志。

根据报告的数据分布：

那个晒出7.5分的网友，Claude给他的建议是："在让我写第一稿之前，试着对我说——给我一个简洁的要点摘要，不要任何前言废话。这样能让你的初稿干净得多。"

注意到了吗？AI不仅给你打分，还直接告诉你怎么提分。

表面上看，这只是Anthropic搞的一个趣味功能。但往深了想，有几个问题值得琢磨：

第一，AI正在定义"什么是好的人类行为"。 7.5分是"优秀"，那6分是什么？是"及格"还是"不合格"？谁有权定义这个标准？

第二，你的使用习惯正在被AI学习和分析。 虽然报告说是匿名的，但AI确实在"看"你的每一次对话，分析你的行为模式。

第三，人机协作的能力正在被量化。 以前"会用AI"是个模糊的概念，现在它有了具体的分数。这个分数未来会不会影响你的职业发展？

报告里有一句话特别扎心："这世上用AI的人，差距比人和狗都大。"

想想你自己平时怎么用AI的——是直接甩一句"帮我写个方案"，还是会花5分钟想清楚目标、格式、示例？

如果是前者，那你在Claude眼里，可能连3分都不到。

但好消息是，这些技能是可以学的。而且一旦掌握了，你和AI的协作效率会有质的飞跃。

毕竟，在AI时代，最稀缺的不是会用AI的人，而是会用好AI的人。

本文为原创内容，首发于公众号「新一技术宅」，转载请注明出处。

数据来源：IT之家、新智元