AI、隐形劳动与数字时代的提取链
谈 AI,不能只谈模型,要谈它的数据从哪里来,劳动在哪里发生,价值最后又流向哪里。
“人工智能”这四个字本身就很有意思。“人工”好像只是修饰“智能”的前缀,最后被讨论的总是智能,参数多少、能力多强、是不是涌现、会不会有意识、会不会替代人。可是“人工”反而被丢掉了。它像一个已经完成的脚手架,被产品界面一遮,就只剩下屏幕上那个回答问题的东西。人们围着这个东西讨论它像不像人、懂不懂语言、有没有主体,却很少追问它是怎样被人造出来的:哪些生活痕迹被抽取成数据,哪些人的时间、判断和重复劳动被压进了这个所谓智能里。
这就像面对一座城市,只看见摩天楼发光,不去看地基、管道、矿石、钢筋、工地、债务和维持城市运转的日常劳动。AI 的“云端”也是这样,云端不是云,而是一整套物质现实:数据中心、电力、芯片、海底光缆、冷却系统、训练集、外包公司、标注平台、内容审核队列、红队测试、工单、绩效表和无数人坐在电脑前完成的微小动作。更重要的是,云端也不是中性的空间,它是一个持续抽取和转化的装置:把人的语言、图像、偏好、点击、位置、劳动判断变成可储存、可计算、可训练、可出售的东西。
所以这一篇不想继续问 AI 有没有主体。这个问题前面已经说过,它当然不是主体,至少不是那种会被自己的话击中、会在失败中被改造、会背负历史和责任的主体。这里更要问的是另一个方向:当我们说它是“无主体的符号机器”时,会不会也把另外一些真实的人抹掉了?这台机器并不拥有一个主体,但它吸收了许多人的生活痕迹和具体活动。它没有自己的经验结构,但它有数据来源和供应链;它不会自己负责,但有许多人在它变得可用之前,已经替它完成过一部分必要而低可见度的工作。
说得直白一点:机器不是自己学会体面的。它的礼貌、克制、拒绝、免责声明、温和语气,都是被生产出来的。而这个生产过程并不只是“训练模型”,也是把人类生活变成数据、把数据交给劳动流程加工、再把加工后的东西收归模型和平台所有的过程。
先看生活如何变成数据
大语言模型最初学到的东西,并不是什么纯净的人类知识,而是世界已经写下来的语言沉积物。论文、新闻、代码、广告、论坛、小说、说明书、辱骂、阴谋论、色情文本、极端主义文本、营销话术、官僚文件、日常废话,都混在里面。预训练阶段的模型不是一个接受通识教育的学生,而更像一个大规模压缩装置,它把这些东西压成参数,压成分布,压成下一步可以继续生成的概率路径。
这里首先要注意的不是模型多聪明,而是这些文本为什么可以被当作训练材料。互联网上的语言原本来自具体的人、具体的机构、具体的场景,有些是公共表达,有些是商业内容,有些是论坛争吵,有些是知识劳动,有些是情绪发泄,有些只是人们无意中留下的痕迹。可一旦进入训练语料,它们就被重新命名为 data。这个命名很关键:数据听起来像天然存在的资源,好像只是在那里等着被收集、清洗和利用。但它不是天然资源,它是人的活动被抽象、切分、搬运之后形成的东西。
data colonialism 讲的正是这个问题。殖民不只是占领土地,也可以是把人的生活过程变成可提取的原料。过去的殖民把土地、矿产、劳动力和贸易路线纳入外部资本的积累体系;今天的数据殖民则把语言、行为、关系、偏好和注意力纳入平台和模型的积累体系。区别在于,它不总是以暴力占领的形式出现,而是以连接、便利、服务、开放网络、用户体验和技术进步的形式出现。
这里需要先把概念说谨慎一点。说“数据殖民”,并不是说今天的数据提取和历史殖民完全等同。历史殖民涉及军事占领、主权剥夺、种族等级制度、强制迁徙和直接统治,这些机制不能被轻率地抹平。数据提取的形式更柔软,也更日常,它常常通过用户协议、平台服务、便利功能和“我同意”按钮完成。正因为它带着形式上的自愿,反而更容易把不平等关系包装成普通交换:你得到了服务,所以你交出了数据;你使用了平台,所以平台获得了分析、组合、训练和再利用这些数据的权利。
所以这个概念真正要指出的,是结构上的相似,而不是历史经验的一比一复刻。相似之处在于:某些地区、群体和生活过程被转化为原料,这些原料经过外部制度和技术系统加工,最后服务于他处的资本积累和权力集中。差异则在于:数据殖民更依赖基础设施、协议、标准、便利和习惯,而不是直接的领土占领。它不是把人排除在系统之外,而是让人每天都必须进入系统,并在进入系统时持续产生可被抽取的东西。
如果只停在这里,模型当然会把训练分布中各种问题也带出来。于是后面还要有 SFT、RLHF、内容过滤、安全评测、红队测试、系统提示词和产品策略。技术论文里会把这些写成一套训练流程:收集示范回答,收集偏好比较,训练奖励模型,再用强化学习去优化模型行为。这个流程当然重要,但如果只按工程图去看,就容易错过其中最关键的一点:所谓对齐,就是在数据提取之后,再把人的判断变成机器可以吸收的形式。
OpenAI 的 InstructGPT 论文里说,他们雇佣承包标注员写理想回答、比较模型输出、给回答排序。这里不是简单的“人类反馈”四个字就可以轻轻带过的。一个回答为什么更好?是因为更有用,还是更安全?是因为更迎合用户,还是更符合平台政策?拒绝到什么程度算谨慎,拒绝到什么程度算过度?一个危险问题应该直接挡回去,还是应该解释为什么不能做?这些东西都不是从数学里自然长出来的,而是在具体的人类劳动中被不断规定、妥协、压平、固化。
这就回到了生产过程本身。模型不是直接从“价值”走向“价值对齐”的,中间有标注指南、任务平台、审核流程、外包合同、劳动纪律、绩效压力和一整套组织结构。价值不是飘在天上的,它必须落到表格里,落到选项里,落到“这个回答比那个回答好”的点击里。所谓人类价值,到了生产线上,首先表现为一连串可计价、可验收、可追责、可替换的微任务。
这不是说技术不重要,而是说技术从来不是孤零零的技术。一个 reward model 背后有人的排序,一个 safety classifier 背后有人的分类,一个“我不能帮助你完成这个请求”背后有许多人提前划过边界。工程最后把这些边界写进模型行为里,好像机器自己拥有了判断力。但实际上,判断力先是被拆开,再被外包,再被统计化,最后被重新命名为能力。
这里面最值得警惕的,是“人类价值”这个词被过早地说得太圆满了。好像只要把 RLHF 叫作 reinforcement learning from human feedback,这个 human 就天然代表了人类。可现实里根本没有这样一个抽象的人类坐在那里给机器打分。坐在那里的是具体的人,是某个地区、某种语言、某种教育背景、某种工资结构、某种任务压力下的人。他们的判断当然是人的判断,但这种判断已经被生产关系组织过了。它不是自由讨论出来的公共理性,而是被塞进平台界面、选项按钮和验收指标里的被压缩的判断。
所以要小心“对齐”这个词。对齐听起来像是让机器和人类价值站在一起,但在实际生产里,它首先意味着把价值变成可操作的差异,把差异变成可比较的回答,把回答变成可排序的数据,再把数据变成模型的倾向。这个过程当然能让模型更好用,也能减少很多危险输出,但它同时把价值问题变成了劳动问题。谁来判断?按什么标准判断?判断错了谁负责?判断者能不能修改规则?他们只是替别人点击,还是也能参与决定这套系统应该成为什么?
更具体地说,RLHF 并不是把人的判断原样复制进模型。它通常先让标注员比较两个或多个回答,得到“这个比那个好”的偏好排序;再训练一个 reward model,让它学会预测哪类回答更可能被偏好;最后用这个奖励信号去优化语言模型。复杂的人类判断在这里被转成可训练的比较数据,再被压成一个可以优化的分数。这个转化很有效,也很粗糙:多元的文化语境、语气差别、政治敏感性和道德犹豫,最后往往要进入一个 chosen/rejected 的比较框架,或者进入一个标量奖励函数。模型学到的不是“人类价值本身”,而是某套流程中被整理、筛选、量化之后的偏好信号。
这些问题不解决,所谓“人类反馈”就很容易变成一种新的抽象说法。过去我们说机器自己会思考,现在我们说机器被人类对齐了。听起来后者更谦逊,其实也可能遮蔽掉真正的生产过程:不是“人类”对齐了机器,而是一套企业、平台、外包链和劳动纪律,把某些人的判断组织起来,训练出一种看起来可以代表“人类”的回答风格。数据殖民到这里并没有结束,它只是从原始数据的抽取,进入了判断数据、偏好数据和安全数据的继续生产。
安全边界也是被外包出来的
2023 年 TIME 报道过一个很典型的案例。为了让 ChatGPT 更少输出有害内容,OpenAI 曾把部分文本标注工作外包给肯尼亚的 Sama 工人。这些工人需要阅读、分类大量高风险文本,内容包括性虐待、仇恨言论、暴力、谋杀、自残、酷刑等。报道里说,一些工人的到手工资大约在每小时 1.32 到 2 美元之间。
这个案例重要,不只是因为低工资,而是因为它把“安全”的生产过程直接展示出来了。用户最后看到的是一个更稳定的聊天框,是一段拒答,是一句风险提醒。可是这个结果的前提,是有人先对相关内容进行阅读、分类和标注。有人把一段文字标成性暴力,有人把一句话标成仇恨,有人在长时间轮班里反复处理那些本来应该被挡在普通用户之外的内容。机器后来学会了不要这样说,好像它突然长出了一道伦理边界,但那道边界其实是许多人通过标注工作一点点划出来的。
这就是 AI 安全里面容易被忽略的地方:为了让多数用户避开有害内容,少数劳动者要先处理这些内容。为了让模型看起来无害,有人必须替它建立有害内容的边界。为了让界面保持温和,有人要在后台完成大量不温和材料的分类工作。
这里面不是单纯的道德瑕疵,而是一种分工方式。前台负责呈现稳定的产品体验,后台负责处理高风险材料;技术公司负责讲创新,外包链条负责完成其中较低可见度的劳动;论文负责报告指标提升,工人负责把复杂内容变成可训练的数据。我们在使用一个更安全的 AI 时,并不是相关风险自然消失了,而是风险被提前处理、被流程化、被外包到用户看不见的地方。
这正是数据殖民在劳动层面的展开。数据并不是被抽取以后就自动产生价值,它还需要被整理、分类、清洗、筛选、评价。原料的提取和原料的加工往往发生在不同位置,收益和风险也被分配到不同位置。模型公司拥有产品、接口、品牌和估值,外包工人拥有任务、工时和绩效压力。前者把经过处理的数据转化为能力,后者把具体判断交给系统,却很少在最终叙事中出现。
这就是所谓进步里面常被忽略的一面。技术把一部分问题解决了,同时把另一部分问题转移到更低可见度的层级。AI 的安全性不能只看最终输出是否有害,还要看这种无害性是怎么被生产出来的,是谁完成了分类、筛选和审核,谁获得了名声,谁被留在统计表之外。
这也是为什么不能把内容审核和数据标注只理解为附属劳动。实际上,它在整个系统里承担的是边界生产。什么东西要被挡住,什么东西可以进入训练,什么东西需要被标成高风险,什么东西可以被包装成帮助,这些都不是模型自己决定的。所谓安全,首先是一个边界系统;而边界系统从来不是中性的,它总要依赖一部分人去处理边界上的材料。
从这个意义上说,肯尼亚工人不是 AI 故事里的注脚,而是 AI 进入公共生活之前的一道现实关口。他们不是在机器之外做一点辅助工作,而是在机器和用户之间形成一个缓冲层。用户之所以能在屏幕前获得相对干净的使用体验,是因为另一些人先完成了筛选和分类。这里不是一个温情的“幕后英雄”故事,而是一个劳动分配问题:谁被安排去处理,谁被允许不处理;谁完成过滤,谁使用过滤后的结果。数据殖民并不只是在“拿走数据”时发生,也在这种分工中持续发生。
标注把生活变成可训练对象
数据标注很容易被说成低级活。看图,点框;读句子,分类;比较两个回答,选一个更好。因为它被拆得足够碎,所以看起来不需要思想;因为它可以按件计费,所以看起来只是操作;因为做它的人通常在产业叙事里没有名字,所以它就更像一种背景噪音。
但真正看进去就会发现,标注不是简单贴标签,而是在替系统解释世界。一个路面上的坑算不算 pothole?一句话是在讽刺、泄愤、歧视,还是威胁?一个回答是过度拒绝,还是必要谨慎?一段政治文本是事实叙述,还是煽动?一个地方性黑话在某个语境里是不是侮辱?这些问题不可能只靠选项本身解决。现实总是比分类表复杂,分类表只是为了让现实能够被训练、被计算、被交付,才必须把复杂的东西折成几个格子。
这里就有一个很关键的症候。AI 系统需要人的解释能力,却不愿承认这是解释能力;需要人的文化经验,却只把它算作廉价劳动力;需要人在模糊处做判断,却在最后把判断结果写成数据集质量、模型准确率和产品能力。人的判断被吸收进去,出来的时候就变成了机器性能。
数据标注的关键就在这里。表面上只是给一段文本、一个图像、一次回答分配类别,背后却是对边界的规定:什么算有害,什么算正常,什么算可说,什么算不可说;什么只是粗鲁,什么已经越界;什么可以进入训练集,什么必须被剔除出去。它看起来只是技术流程中的一个小动作,实际上是在把混乱的社会语境压成模型能够学习的格式。
当然,标注员自己也不是自由地解释。他们在任务说明、客户要求、平台界面、工资结构和绩效考核中做判断。一个人如果想继续拿到任务,就要学会猜 requester 想要什么,学会在速度和准确率之间取舍,学会把自己的理解压进对方给出的分类体系里。这里并不是没有判断,而是判断被限制在很小的操作空间中。
所以标注不是技术流程的边角料。它是 AI 生产中非常关键的一道转化工序。没有这道工序,所谓原始数据只是一堆未被规定的材料;经过这道工序,材料才变成可以训练模型的对象。机器的“理解”往往就建立在这些被压低的、被外包的、被反复校验的人类理解之上。
也正是在这道工序里,数据殖民从“占有材料”变成了“规定材料”。被抽取的不只是文本、图像和行为痕迹,还有对这些东西如何分类、如何命名、如何进入模型的解释权。一个平台要求工人按照它的标签体系理解世界,按照它的安全政策划分边界,按照它的任务说明处理复杂语境。工人当然在判断,但这种判断被限定在既定框架里;世界当然复杂,但复杂性必须被折叠进模型可用的格式里。
自动化把提取关系藏到哪里去了
“自动化”这个词最容易骗人。它让人以为机器来了,人就退场了,好像劳动真的被消灭了。但资本从来不会因为机器先进就自动变得高尚,它更常做的事,是重新安排劳动的位置,把某些劳动从可见处移到不可见处,从本地移到远方,从长期雇佣移到短期任务,从工厂纪律移到平台纪律。
过去的服务劳动可能在柜台、办公室、呼叫中心、车间里完成,至少还有一个比较明确的空间。现在它被拆成更细的片段:有人收集数据,有人清洗数据,有人标注数据,有人审核模型输出,有人假装成用户测试边界,有人替系统补上机器还做不好的最后一段。最终产品看起来自动了,不是因为劳动不存在,而是因为劳动被分散到全球供应链里,变得难以追踪、难以组织、难以向最终受益者索要说法。
法国公司可以把数据任务外包到马达加斯加,美国平台可以通过 BPO 公司连接肯尼亚、印度、菲律宾和委内瑞拉的工人。商业 AI 看起来在本地完成了自动化,实际上是在全球尺度上拉长了外包链。它不是把劳动取消了,而是把劳动送到更便宜、更弱势、更少被看见的地方。
如果用数据殖民的角度看,这不是单纯的“哪里工资低就去哪里外包”,而是一个更完整的提取关系:全球北方的公司掌握平台、模型、资本和客户,全球南方的劳动者承担大量数据加工和审核任务;前者拥有最终产品的产权和品牌,后者在外包链条里被拆成可替换的劳动单元。数据从人的生活中被抽取出来,再经过分布式劳动加工,最后回到少数企业的模型资产中。
这就是 Ghost Work 那个概念真正有力的地方。幽灵劳动不是说劳动神秘,而是说劳动被系统性地做成幽灵。它存在,甚至必不可少,但用户看不见,新闻稿不写,融资路演不讲,技术论文也很少把它放在中心。软件界面把人的劳动伪装成了机器反应,API 把人的判断包装成了服务能力,平台把雇佣关系拆成了任务关系。最后,人的工作就像基础设施一样存在:一旦顺利运行,就被当作不存在。
更糟糕的是,这种不可见还会反过来塑造人们对智能的理解。我们越看不见后台的人,就越容易相信前台的机器真的会自己思考。我们越相信机器自己思考,就越觉得后台的人只是辅助、低级、可替换。这个循环一旦形成,劳动者就被卡在一个很难翻身的位置:他们越重要,越要被隐藏;他们越被隐藏,越容易被说成不重要。
这里有一种很现代的讽刺。过去的工厂至少还有厂门、烟囱、机器声、工人上下班的队伍,剥削虽然会被意识形态遮蔽,但它还是有一个空间形态。数字时代的工厂却越来越像一张网络,它不一定集中在一个地方,而是散落在家庭电脑、外包办公室、众包平台、临时合同、API 调用和审核后台里。工厂没有消失,只是失去了传统工厂的外形。流水线也没有消失,只是从传送带变成了任务队列,从工头的眼睛变成了平台评分,从计件工资变成了点击、准确率和完成时间。
这也是为什么 AI 时代的劳动问题不太容易被看见。人们会把算法当作生产者,把平台当作通道,把数据当作自然资源,把用户当作免费参与者,把外包工人当作成本项。每个环节都像是合理的、技术性的、不可避免的。可把这些环节连起来看,就会发现一个新的隐形工厂正在形成:它不再只生产商品,而是生产判断、生产分类、生产安全边界、生产“智能”的表面。
这座工厂最厉害的地方,是它让工人也难以把自己看成一个整体。一个人只是在标一小段文本,一个人只是在比较两个回答,一个人只是在审核一张图片,一个人只是在做一份临时任务。他看不到模型,看不到产品,看不到最终利润,也看不到和自己一样的人在哪里。劳动被拆碎以后,劳动者对整体生产链的位置感也被削弱了。要组织起来变得困难,要理解自己在整个机器中的位置也变得困难。
数据殖民不是比喻
如果继续往深处看,AI 的问题就不只是某个公司付钱少、某个外包项目管理差,而是一个更大的提取结构。Couldry 和 Mejias 讲 data colonialism,说人的生活、行为、关系被转化成可提取的数据原料。Kate Crawford 讲 AI 的 atlas,也是把 AI 放回矿产、能源、劳动、数据、国家机器和资本结构里去看。这个方向是对的,因为 AI 从来不是一个只发生在电脑里的东西。
过去的殖民要土地、矿产、劳动力和贸易路线。今天的数字资本不一定直接占领土地,但它要人的生活痕迹,要语言,要图像,要偏好,要位置,要点击,要情绪反应,要注意力,要可以不断被抽取、清洗、标注、训练、商品化的一切。人的生活被当作原料,人的判断被当作校准工具,人的闲暇也被各种平台转化成可分析的数据。
所以 data colonialism 不是一个夸张比喻,而是在指出一种关系:人的生活被转化成数据原料,数据原料被平台和模型吸收,吸收后的能力又作为产品、服务、基础设施卖回给人。这个循环里,用户既是使用者,也是数据来源;工人既是劳动者,也是被隐藏的基础设施;企业既控制入口,也控制结果。所谓智能,就是在这个循环中被生产出来的。
这里面的历史性不能被抹掉。全球南方不是偶然成为数据劳动的蓄水池,低工资地区不是偶然承接那些高压力、重复性、难以组织的任务。这里有殖民史、发展不平衡、语言等级、平台垄断、外包产业和劳动法缺位共同形成的不平等结构。AI 公司当然会讲普惠、效率、未来、生产力,但现实要看钱流向哪里,风险落在哪里,谁拥有模型,谁只拥有任务,谁收割估值,谁拿计件工资。
受影响的人也不只有外包标注工人。普通用户在许多时候是不清楚自己的行为数据会如何被组合、推断和再利用的;内容创作者的文章、图像、代码、音乐和视频可能进入训练集,却很难知道是否被使用、如何被使用、是否有退出和补偿机制;一些原本依靠写作、翻译、设计、客服、审核、初级编程维持生活的人,会在模型部署之后面对新的替代压力;数据中心耗电、冷却用水、矿产开采和电子废弃物又把环境成本转移给具体地区和社区。平台和外包工人之间的关系很重要,但它只是整个提取链中的一个环节。数据殖民真正复杂的地方,正是它把用户、创作者、劳动者、社区和消费者同时卷进来,只是每个人被卷入的位置不同。
所以要把 AI 放进已有的世界结构里看。它不是单纯的工具,也不是从天上掉下来的新生产力。它带着旧世界的许多问题进入新世界:殖民遗产、劳动保护缺位、平台经济的外包逻辑、发展主义叙事、技术中立神话。只是这些问题现在被包装进一个更好看的词里,叫智能。
这里当然不能简单得出一个结论,说 AI 就只是剥削。这样说太容易,也太像一种廉价的批判姿态。AI 确实能提高效率,能帮助写作、编程、检索、翻译、诊断、教育,能把许多过去只有少数人能接触到的能力扩散出去。问题不在于否认这些能力,而在于不要被能力本身迷住。很多技术都是这样:它一方面打开新的可能性,另一方面把旧的压迫关系改头换面地带进来。真正要看的不是它单方面好或坏,而是它把现实关系重新排布到了哪里。
如果 AI 让一些人变得更有能力,同时让另一些人的劳动更不可见;如果它让用户更轻松,同时让外包工人承担更多心理负担;如果它让企业更容易讲普惠叙事,同时把利润、模型所有权和数据控制权集中到少数公司手里,那么这就不是一个单纯的工具使用问题,而是一个发展方向的问题。它在生产什么样的世界?它让哪些人靠近未来,哪些人被放在生产链的低处?它把哪些人的生活变成数据,又让谁拥有这些数据产生的收益?
看 AI 也要看这种地方。不要只看它宣称自己是什么,要看它实际调动了什么资源;不要只看它解决了什么问题,也要看它把问题转移到了哪里;不要只看它把哪些东西变得更轻,也要看它让哪些东西变得更重。AI 的公共历史还很短,但它已经足够暴露出一种基本结构:越是被说成无人的技术,越需要追问人在哪里。
被抽象掉的人
回到最开始的问题:这台机器到底是谁在说话?
如果从模型结构看,当然是参数在生成,是 token 在接 token,是概率分布在上下文里不断被压成具体词语。但如果从生产史看,它又不是一台孤零零的机器。它的每一次温和拒绝,每一次像样的解释,每一次看起来中立的分类,都有许多人的判断残留在里面。工程师、研究员、标注员、审核员、红队成员、外包管理者、政策制定者、普通用户,都以不同方式参与了这台机器的形成。
只是他们进入系统的位置完全不一样。有些人的名字在论文作者栏里,有些人在发布会上,有些人在公司官网和融资新闻里;另一些人只留下标签、点击、排序、工时、准确率、KPI 和被吸收进模型行为的一点点痕迹。前者被称为创新者,后者被称为成本。前者拥有愿景,后者拥有任务。前者谈未来,后者处理流程中最不体面的部分。
所以,AI 的自动性不是单纯来自技术本身,而是来自两层遮蔽同时发生:一层是把机器装扮成会自己说话的主体,另一层是把真正参与生产的人压成不可见的基础设施。它没有自己的身体,却依赖许多人的劳动;它没有自己的经验,却建立在一条很长的劳动史、殖民史和资本史之上。数据殖民的结果并不只是数据被拿走,而是人被重新安排成数据来源、任务执行者、审核者、反馈者和用户,却很少作为共同生产者出现。
人不是自然资源。人的时间不是矿。人的眼睛也不只是过滤器。那些被拆成微任务、压成标签、外包到远处的判断,不应该在模型变得更强以后就被说成机器自己的天赋。
我们当然不可能退回一个没有 AI 的世界,也没有必要装作只要揭露劳动就能把机器重新变干净。现实从来不会因为道德批判就自动让路。真正要紧的是重新看清关系:谁提供数据,谁加工数据,谁拥有模型,谁承担风险,谁获得名声,谁被允许作为主体出现,谁只能作为基础设施沉在下面。
如果说还有一点可能的行动方向,也不会是那种空泛的“让 AI 更有伦理”。伦理如果不能落到工资、合同、知情权、心理支持、工人组织、数据来源披露、外包链透明、标注规则参与权上,就很容易变成另一种漂亮话。今天很多 AI 公司最擅长的就是漂亮话:负责任的 AI,普惠的 AI,安全的 AI,造福全人类的 AI。可是负责任首先要问谁对谁负责,普惠首先要问谁在付出成本,安全首先要问谁在替别人承受不安全。
也不能只满足于“让隐形劳动被看见”。看见当然重要,但只是第一步。资本也完全可以把看见变成新的装饰:拍几张标注员的照片,讲几个励志故事,说他们参与了改变世界的技术,然后继续让他们拿计件工资,继续让他们没有规则制定权。真正的问题不是把幽灵劳动者重新拍进宣传片,而是要改变他们在生产链中的位置,让他们不只是被感谢的幕后,而是能要求权利、参与决策、拒绝不合理任务、分享收益的人。
说到底,机器不会自己说话,并不意味着我们只要找到它背后的人就够了。还要继续问,这些人之间是什么关系。工程师和标注员是什么关系,平台和外包工人是什么关系,全球北方和全球南方是什么关系,用户的便利和他人的劳动负担是什么关系,模型的能力和劳动的不可见是什么关系。只有把这些关系看清,AI 才不会继续作为一个封闭的技术对象站在我们面前,而会重新落回数据提取、劳动分配、模型占有和风险转嫁之中。
机器仍在回答。它会继续回答下去。但如果还有必要在这段回答前停一下,也许不是为了再问它有没有意识,而是为了问:这段看起来从机器里自然流出的语言,究竟经过了多少人的手?它从哪些地方抽取了材料?经过哪些劳动流程?最后又归谁所有?
AI 最值得警惕的地方,也许不是它像人,而是它能把许多人吸收进生产过程以后,再以“没有人”的形式出现。它把人的语言变成语料,把人的判断变成数据,把人的劳动变成基础设施,把人的经验变成模型能力。然后它站在屏幕中央,安静、干净、迅速、温和,好像一切本来就该如此。
可一切并不本来如此。要理解 AI,不能只拆它的算法,也要拆它的数据关系和生产关系。真正的问题不是机器有没有意识,而是人的生活在什么条件下被转化成数据,人的劳动在什么条件下进入机器,又在机器成功以后如何从叙事中消失。把这些被处理成背景的人、数据来源和劳动关系重新说出来,至少是拒绝把提取关系误认为自然秩序的第一步。
参考与延伸阅读
-
Ouyang et al., Training language models to follow instructions with human feedback -
Billy Perrigo, OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic -
Mary L. Gray, Siddharth Suri, Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass -
James Muldoon, Callum Cant, Boxi Wu, Mark Graham, A typology of artificial intelligence data work -
The problem with annotation: Human labour and outsourcing between France and Madagascar -
Lilly Irani, The cultural work of microwork -
Kate Crawford, Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence -
Nick Couldry, Ulises A. Mejias, The Costs of Connection: How Data Is Colonizing Human Life and Appropriating It for Capitalism -
Nick Couldry, Ulises A. Mejias, Data Colonialism: Rethinking Big Data’s Relation to the Contemporary Subject -
Nathan Lambert, Reward Models -
Fairwork, Cloudwork Report 2025 -
Turkopticon FAQ -
Ada Lovelace Institute, Exploring legal mechanisms for data stewardship
夜雨聆风