AI给人类打分,优秀人类只得了7.5分
以前我们给AI跑分,现在AI反手给我们打分了。
Anthropic(就是做Claude的那家公司)悄悄上线了一个灰度功能:你打开Claude的设置面板,点一个叫"AI Fluency"的按钮,几秒钟后,一份关于你AI使用习惯的"体检报告"就出来了。
满分11分,优秀线是7.5分。
已经有手快的网友晒出了自己的成绩单——7.5分,刚好踩线。而Claude给他的评语是:"你极其频繁地使用各种Connector,但只要话题涉及体育数据、食谱,甚至地图和地理位置,你就表现得一无所知。"
这哪里是软件,简直是一个拿着教鞭、对你恨铁不成钢的赛博导师。
近万份对话,揭开了人类使用AI的真实水平
这事的背景是Anthropic联合学术界搞了一份《AI流利度指数报告》,研究团队在一个星期里扫描了9830段真实的匿名对话,全程用AI分析,没有人工干预。
他们发现了一个残酷的事实:这世上用AI的人,差距比人和狗都大。
研究团队提出了一个"4D AI流利度框架",总结出24项衡量人机协作的标准。其中有13项发生在屏幕之外——比如你是否对老板隐瞒了工作是AI做的,你是否考虑了AI生成内容的伦理后果。
剩下的11项,是可以在聊天框里直接观测到的指标。这11项就是Claude给你打分的底层逻辑。
11项评分标准:你在哪一步现了原形?
这11项指标围绕三个维度展开:描述、委托、辨别。
维度一:描述——你真的知道自己想要什么吗?
很多人的对话框长这样:"帮我写个周报"、"写一个贪吃蛇代码"。
在Claude眼里,这种指令的流利度几乎为零。真正的高手会做三件事:
第一,明确目标。 你是否向AI解释了你做这件事的最终目的?
• 低分玩家:"帮我润色这段英文。" • 高分玩家:"我要给硅谷的一家风投机构发Cold Email争取融资,请帮我润色这段英文,确保语气自信但不过分傲慢。"
第二,指定格式。 高分玩家懂得说:"请用Markdown表格输出"、"请以3个小标题+每段不超过50字的要点格式呈现"。
第三,提供示例。 Few-shot永远是王者。在让AI干活前,先喂给它一个你认可的范例:"请模仿以下这篇爆款文章的口吻来写……"
维度二:委托——把AI当合伙人,而不是自动售货机
研究团队发现了一个惊人的数据:最常见的人机协作模式是"增强型"——人类提出方向,AI填充细节。
但高手不止于此。他们会:
• 迭代优化:不指望AI一次出完美结果,而是通过多轮对话不断打磨 • 情境激发:主动给AI设置约束条件,逼它发挥更好的辨别力 • 质量把控:在AI输出后,自己做最终审核和调整
有个很有意思的发现:有13%的对话中,用户明确表示"这不是我想要的"——而这些用户往往得分更高。敢否定AI的人,反而更懂AI。
维度三:辨别——你分得清AI什么时候在胡说八道吗?
这是最高阶的能力。高手会:
• 识别幻觉:知道AI什么时候在编造事实 • 评估置信度:判断AI输出的可靠性 • 交叉验证:用多个信息源确认关键信息
研究发现,只有不到5%的用户会主动要求AI提供信息来源——而这恰恰是辨别能力的核心标志。
7.5分是什么水平?
根据报告的数据分布:
• 0-3分:AI小白,只会说"帮我写个XXX" • 4-6分:进阶用户,开始有意识地给AI提供上下文 • 7-8分:高手,能熟练运用各种技巧与AI协作 • 9-11分:大师级,把AI当成真正的思考伙伴
那个晒出7.5分的网友,Claude给他的建议是:"在让我写第一稿之前,试着对我说——给我一个简洁的要点摘要,不要任何前言废话。这样能让你的初稿干净得多。"
注意到了吗?AI不仅给你打分,还直接告诉你怎么提分。
值得思考的是
表面上看,这只是Anthropic搞的一个趣味功能。但往深了想,有几个问题值得琢磨:
第一,AI正在定义"什么是好的人类行为"。 7.5分是"优秀",那6分是什么?是"及格"还是"不合格"?谁有权定义这个标准?
第二,你的使用习惯正在被AI学习和分析。 虽然报告说是匿名的,但AI确实在"看"你的每一次对话,分析你的行为模式。
第三,人机协作的能力正在被量化。 以前"会用AI"是个模糊的概念,现在它有了具体的分数。这个分数未来会不会影响你的职业发展?
一个有趣的细节
报告里有一句话特别扎心:"这世上用AI的人,差距比人和狗都大。"
想想你自己平时怎么用AI的——是直接甩一句"帮我写个方案",还是会花5分钟想清楚目标、格式、示例?
如果是前者,那你在Claude眼里,可能连3分都不到。
但好消息是,这些技能是可以学的。而且一旦掌握了,你和AI的协作效率会有质的飞跃。
毕竟,在AI时代,最稀缺的不是会用AI的人,而是会用好AI的人。
本文为原创内容,首发于公众号「新一技术宅」,转载请注明出处。
数据来源:IT之家、新智元
夜雨聆风