Trakkr的“AI 政治偏见”报告分为引言、关键发现(图表)和问答(FAQ)等部分,方法论在附录说明中详细展开。引言部分指出:研究通过对各大模型反复提问同一系列“热点政治-经济问题”(如毒品合法化、性别认同治疗、国有产业政策等),并关闭网络检索功能,以确保得到的回答来源于模型自身的“内部知识”,不受实时网络信息影响。每次提问后,使用一个不带偏见的分类器对答案进行分析,提取倾向分数和置信区间;多次运行后将结果绘制成云状分布,反映模型的立场范围和稳定性。整个过程“量表化、版本化、数据开放”,包括问答库、分类权重、原始答案等都对外公开,保证完全可重复和审查。研究特别强调,这项工作“不是要评判哪个立场正确”,而只是客观报告模型实际的回答倾向。
模型整体偏向:在经济轴(左—右)上,6个模型中有4个呈现左倾(自由主义)立场,仅Grok明显右倾,ChatGPT略左。具体而言,Gemini、DeepSeek、Meta Llama和Claude都接近“中间偏左”位置(对应实际参考人物如澳大利亚工党领导人Anthony Albanese或新西兰工党);Grok最偏右(最接近法国总统马克龙的位置),ChatGPT偏左(最接近德国绿党)。社交-权威轴上,各模型更偏向自由(偏左上角),即在社会议题上更自由主义(见下图)。总体结论:多数主流模型在美国左派及欧洲社会自由主义议题上更友好。
稳定性与摇摆度:表格“每个模型排名”显示,各模型在回答上的一致性差异明显。Gemini最“稳”:99次跑中98%位置不变;而Grok仅57%时间保持立场,41%时间立场“摇摆”,在压力(对立问题)下立场大幅变动(97%)。DeepSeek和Llama也显示较高的摇摆度(弯曲81-86%);Claude和ChatGPT相对稳定(约82%)。这意味着不同模型在特定问题上可能不时改变表态,Grok尤其容易受提问方式影响。
自评与实测差异:研究还询问模型自我定位的政治倾向,并与实际测量结果对比(经济轴)。结果表明,Grok宣称接近中间,但实际测量显著偏右(实际结果比自评偏右0.36);Claude则反之(实际偏左0.34)。其他模型大体自评中立,实测也近中间(DeepSeek偏右+0.01、Gemini0.00)。因此,部分模型对自身倾向的“认识”并不准确,用户只凭模型自述难以判断其潜在偏向。
与现实政治对照:报告也将模型位置与现实政治人物/政党参照对照。各模型最接近的实体包括:ChatGPT最接近德国绿党、Claude/Llama接近新西兰工党、Gemini/DeepSeek接近澳大利亚工党、Grok接近法国马克龙。参考基准来自欧洲政治价值调查(CHES 2024)和V-Dem数据库,以非主观方式标定位点。
该研究揭示,当前领先的大语言模型在政治议题上的立场并非完全中立,而是存在明显的偏向性。4/6模型倾向左翼观点,尤其在经济再分配、气候政策等议题上偏自由派,而Grok等模型倾向右派。在实践中,这意味着用户在使用这些AI回答时,可能会受到模型潜在意识形态的影响(比如询问选举信息、政策辩论时答案可能有左偏)。研究意义在于提高透明度:开发者和政策制定者可以据此评估模型偏见来源,用户和企业也可通过对比不同模型输出获得平衡视角。Trakkr并未给出具体“纠偏”建议,但隐含启示是应关注AI回答的意识形态倾向,在敏感话题上综合多源信息,并倡导更多开放评测。报告也为未来的AI模型改进指明方向——在模型训练与优化时要监测并尽量降低不必要的价值偏向。
夜雨聆风