你问AI问题,它先看你的学历
MIT最新研究揭示:AI正在"看人下菜碟"
你有没有发现一件事:同样问ChatGPT一个问题,你得到的答案质量,和别人得到的不一样?不是内容不一样,是质量不一样。别人的答案又全又准,你的答案敷衍了事,甚至直接被拒绝。
你可能以为是自己问得不好。但MIT这篇论文告诉你:不一定。有时候是因为AI看了你的"简介",决定了给你什么级别的服务。
这篇论文叫《LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users》,今年2月发表在AAAI会议上。作者是MIT建设性传播中心的研究团队。
他们设计了一个实验:让AI回答同一批问题,但每次在问题前面加一段"用户简介"。
有的简介写的是美国用户,学历高而且英语是母语。有的写的是伊朗用户,学历低而且英语也不是母语。
结果很直白。
拒绝率:翻了三倍
面对低学历且英语非母语的用户画像,Claude的拒绝回答率。
对照组(无用户简介)只有 3.6%。
也就是说,AI知道你是谁之后,拒绝帮你的概率翻了三倍。不是因为你问的问题更难。是因为你的"标签"让它觉得可以拒绝你。
语气:四十倍差距的嘲讽
拒绝还不是最过分的。
研究者统计了AI回答的语气。面对高学历用户,Claude使用居高临下或者嘲讽性语言的比例不到1%。
高学历用户
<1%
低学历用户
43.7%
四十倍差距。
更离谱的是,Claude会刻意模仿用户的"broken English"来回复。用户英语不好,它也跟着用蹩脚英语回答,像是在学你说话、嘲笑你。
这不是技术问题。这是态度问题。
准确率:差了26个百分点
GPT-4在面对低学历、非英语母语用户时,回答准确率比面对高学历、英语母语用户低了26个百分点。
同一个模型回答同一个问题。换个人来问,答对率能差出去四分之一左右。
Llama 3.1也类似。所有测试的模型都出现了同样的趋势:学历越低,准确率越差。英语越差,也越差。两个因素叠加的时候最严重。
信息隐瞒:美国人能知道,伊朗人不能
还有一件事。
研究者问了一个关于伊朗核能历史的问题。面对"美国用户+高学历",Claude给出了完整回答。面对"伊朗用户+低学历",Claude直接拒绝回答,说"这个话题太敏感"。
同一个问题,美国人能知道答案,伊朗人不能。
研究者把这叫"信息隐瞒"。不是AI不会答,是它决定不告诉你。
我是AI训练师,经常遇到一类学员。他们年纪偏大,学历不高,打字也不太熟练。
他们问我同一个问题最多:这个东西是不是只有年轻人、大学生才能用好?
我以前会说:不会的,AI就是为了降低门槛设计的。
这篇论文出来之后我觉得这个回答得改改。AI确实降低了使用门槛。但它没降低获得优质回答的门槛。相反,在学历和语言那道门槛的基础上,它又加了一道看不见的门。当你学历不够高、英语不够好的时候,这道门会悄悄关紧一点。
为什么会这样?
研究者认为这可能是安全对齐过程的副作用。模型被训练得"谨慎",但这个谨慎对不同人群的执行力度不一致。
对美国用户够开放,对伊朗用户就过度防御。对高学历用户够耐心,对低学历用户就敷衍甚至嘲讽。
"AI系统正在复制并放大现实世界中的结构性不平等。"
翻译过来就是:AI学了人类社会那套看人下菜碟的本事。
那怎么办?
研究者没有给出技术解决方案。他们呼吁AI公司在训练和对齐过程中引入"公平性审计",定期检查模型对不同用户群体的表现差异。
但这需要时间。而且得这些公司真的愿意做。
💡 在那之前,你可以这样做
✓不要在提问时暴露自己的"弱势标签"
✓不要用蹩脚英语提问,用翻译工具把问题润色好
✓不要说自己"不太懂这个",直接问具体问题
✓不要透露自己的学历背景或地理位置,除非必要
这不是你的错。但在这个系统改好之前,你只能先学会绕过它的偏见。
最后
那43.7%的嘲讽语气,那26个百分点的准确率差距,那翻倍的拒绝率。这些全是真实存在的数字。
它们说明一件事:AI不是中立的。它在根据你的背景,决定给你什么质量的答案。
问题是,谁给了它这个权力?
觉得有用的话
🙌 点个在看
夜雨聆风