16个AI素养量表怎么选?研究者和学校的避坑指南-夜雨聆风

16个AI素养量表怎么选?研究者和学校的避坑指南

在填写一个性格测试量表时，遇到“我是一个容易交到新朋友的人”这样的题时，我总是不知道该填“基本同意”，“比较同意”还是“非常同意”。

关于AI素养的测试往往也是如此。

把真假难辨的AI生成的图片混在同类型的真实图片里，你可能分不出来——但你填写量表时候很有可能会地说自己能分出来。

测一个人 AI 素养的工具，目前绝大多数靠的也是自我评分：你说你懂，那就是你懂。

捷克学者 Tomáš Lintner 于2024年在 npj Science of Learning 发了一篇系统综述，把 2021 年以来出现的 16 个 AI 素养量表搬上检验台，用医学测量学最严的 COSMIN 标准逐项打分。结果是：没有一个量表可以在全部维度上拿到证据。

学校要开 AI 素养课、研究者要在论文里报告学生的 AI 素养水平、教师要找评估工具——这篇综述基本告诉你：每一个量表都有坑，问题只是哪个坑你能接受。

一、这个问题为什么现在变尖锐

短短三年里，AI 素养从一个新词变成了课程内容。中小学到大学都在加，韩国、欧洲多国甚至已经把它写进国家课程标准。研究者也在拿这个概念发文章，从信息技术教育到医学教育、教师教育都有。

可问题是：你怎么知道一个学生学完了之后“具备 AI 素养”？

直觉答案是用一个测评工具量一下，前后比较。但工具从哪儿来？

Lintner 把 Scopus 和 arXiv 上能找到的全部 5574 篇文献筛了一遍，最后剩下 22 项研究、16 个量表。最早的那个（MAIRS-MS）出生于 2021 年。

也就是说，整个领域的测量工具都还在襁褓期——最老的一个量表也才三岁，而它正在被全球的研究者和学校大量使用。

这是 Lintner 这篇综述真正的价值：它不是介绍量表，而是给这个还没站稳的领域，做了第一次外部体检。

体检的标尺叫 COSMIN（健康测量工具选择的国际共识标准），原本用于医学，后来扩展到心理学和教育学。

它把一个测量工具的质量拆成八个维度：内容效度、结构效度、内部一致性、跨文化效度、信度、测量误差、构念效度、反应度。再用 GRADE 把每个维度的证据强度分级。

按 COSMIN 的逻辑，最重要的维度是内容效度——你测的真的是 AI 素养，而不是别的什么吗？这个维度，恰恰也是现有量表最薄弱的地方。

二、你想测谁，你能用什么

Lintner 最实操的贡献，是按目标人群把现有量表分了组，并对每组哪些证据最强、哪些短板未补做了排序。

（一）一般大众

最稳的是 AILS（AI Literacy Scale），Wang 等人 2022 年发表，从结构效度、内部一致性到构念效度都有较强证据，还在土耳其语境做过两次再验证（虽然没做正式的跨文化效度比较）。共 12 道 7 点 Likert 题，分四个因子：意识、使用、评估、伦理。

SNAIL 紧随其后，德国团队 Laupichler 等人开发，基于一项扎实的 Delphi 专家研究，目前是唯一公开了原始数据的量表（这点很重要，后面会说为什么）。被三次再验证过——土耳其语、德语，以及用作课程学习增益评估。短板是没在目标人群上做内容效度，且有“地板效应”：一半题目里有超过 15% 的人选了最低分，说明最低端的能力没被这把尺子真正覆盖到。

MAILS（Meta AI Literacy Scale）也很有潜力，8 因子模块化，可以单独测“AI 自我效能”“AI 自我感知”等子构念，而且基本没有地板/天花板效应。但同样，目标人群内容效度未做。

SAIL4ALL 是目前唯一面向一般大众的表现性量表（其他都是自评式 Likert），但其中“AI 能做什么”分量表的结构效度和内部一致性有些问题，使用前要谨慎。

（二）高校学生

证据最强的两个：AI literacy test（Hornberger 等，2023）和 ChatGPT literacy scale（Lee & Park，2024）。前者是目前唯一面向高校生的表现性测验，30 道多选题加 1 道排序题，内容覆盖从“识别 AI 在日常生活中的应用”到“区分监督学习与无监督学习”——基础常识到专业知识都有。

医学生有专门工具：MAIRS-MS（土耳其语原版，有波斯语再验证）、GSE-6AI（简版，只有 6 题，适合快速筛查）、SNAIL（也在医学生群体做过验证）。如果你研究医学教育中的 AI 素养，这三个是当前的主选。

（三）中学生

AI-CI（AI Concept Inventory）（Zhang 等，2024）是唯一面向中学生的表现性概念测验，基于一套配套的 AI 课程开发，有内容效度和反应度证据，适合用于课程评估前后测。

AILQ（吴子杰等，2023）采用 ABCE 框架——情感、行为、认知、伦理——四个学习维度，覆盖更广，但是自评式。

Kim & Lee 量表目前只有韩文版，中国研究者用不上。

（四）教师

只有一个选择：Intelligent TPACK（Celik，2023），在传统 TPACK 框架上加了 AI 伦理维度，测教师在教学中整合 AI 工具的自评水平。结构效度和内部一致性都过关，但内容效度没在教师群体上做。

如果你做的是教师 AI 素养相关研究，这是当前唯一选项，但用之前最好自己再补一轮认知访谈或专家审议，把量表对中国教师场景的适配性核一下。

三、共识背后共同的坑在哪

把 16 个量表的因子结构横向对照，会出现一个有意思的画面。

几乎所有量表都同意三件事属于 AI 素养核心——

技术理解（知道 AI 是什么、怎么工作）
社会影响（AI 对社会、就业、信息环境的影响）
AI 伦理（偏见、隐私、问责）。

从中学生量表到一般大众量表再到医学生量表，这三项都不缺席。

但是，另外两件可能更要命的事，16 个量表分裂了：

创造 AI 算不算 AI 素养？Ng 等人最早提出 AI 素养概念时，把“创造 AI”列为四大维度之一。但 MAILS 的 CFA 跑出来发现，“创造 AI”和其他维度并不属于同一个潜在因子——它是个相关但独立的构念。也就是说，你“懂 AI”和你“会做 AI”，在心理统计学上是两回事。AILQ 则坚持把“创造”当作 AI 素养核心维度，理由是中学生也应该具备改造 AI 的初步能力。

批判性评估 AI 算不算核心？多数量表把它当作核心子维度，但实际题目落到操作层面后非常稀薄——大多数自评题问的是“我能否判断 AI 输出是否正确”，而不是真的让你判断一段 AI 生成内容。换句话说，所谓的批判性评估，大多停留在“我觉得我能”这一层。

这两个分歧不是技术细节，而是关系到一个根本判断：AI 素养究竟是教人怎么“用好”AI，还是教人怎么“驾驭”甚至“重塑”AI？

如果三大共识就是答案的全部，那 AI 素养就是一种适应能力——让人在 AI 浸入的环境中不被动挨打。
如果两大分歧的天平倒向“是核心”，那 AI 素养就变成一种主体性能力——让人对技术的轨迹保持主动并塑造AI的未来。

目前这 16 个量表的总体倾向，是前一种。

跳出“哪个量表更好”这个问题，Lintner 的体检报告其实指出了整个领域几条系统性短板，任何要使用这些量表的研究者和学校都要心里有数。

（一）内容效度大面积缺失。16 个量表里，真正在目标人群上做过内容效度验证的不超过 5 个。COSMIN 把内容效度列为最重要的测量学性质——它回答的就是“你这把尺子量的是不是你说要量的东西”。一个没在中学生身上做过内容效度的中学生量表，你拿来做研究，本质上是在赌它问的问题对中学生有意义。

（二）跨文化效度全员零分。16 个量表，没有一个做过严格的跨文化效度检验。AILS 有土耳其语再验证，SNAIL 有德语和土耳其语再验证，MAIRS-MS 有波斯语再验证——但再验证不等于跨文化等值检验：前者只是在新语境里重跑结构效度，后者要做多组测量不变性分析。

这意味着，一个中国研究者用 AILS 中文翻译版测出来的“AI 素养”，跟英文原版测出来的可能不是同一个东西。这是一个被严重低估的问题，尤其对中国语境的研究者。

（三）测量误差和反应度数据稀缺。大多数量表没报告最小可检测变化（SDC）——前后测的差异要多大才算“真的变了”，你不知道。课程评估、干预研究用这些量表测前后变化时，这个空白会让结论站不住。

（四）自评占绝对多数。16 个量表里 13 个是自评。前面说过，人在 AI 相关能力上自评并不可靠。

比如：我就不知道我用AI用得到底算好还是坏，订阅一个新的AI服务时，我会经历至少一周的试错期才能比较得心应手。

这意味着，研究者报告“AI 素养提升”时，可能测到的是自我感知的提升，不是能力的提升——而两者在 AI 这种新技术面前，差距可能比想象的大得多。

（五）原始数据极少公开。除了 Laupichler 团队的 SNAIL，几乎没有量表把原始数据放出来。这让独立的重分析、跨文化等值检验、地板/天花板效应核查都几乎不可能。这本身就是一个独立于工具质量之外的科研规范问题。

四、测量先行，还是概念先行

读完这篇综述，最难绕开的一个问题是：当我们都还没在概念层面真正搞清楚“AI 素养”是什么的时候，我们已经造了 16 个量表来测它了。

每个量表都基于自己的概念框架，概念框架之间又互相分歧，然后大家各自在自己的样本里跑出“良好”的内部一致性和结构效度——这种“良好”，有时候只是一种循环验证：你定义出什么样的因子，题目就按那个因子写，数据当然往那个因子偏。

这不是任何单个量表作者的问题，而是这个领域的发展节奏问题。AI 素养的概念发展速度，跟不上学校和政策机构部署AI的速度，更跟不上 AI 本身的发展速度。

所以“避坑指南”最终的那一条建议是：任何要用这些量表的人，都应该把它当作“在建中的工具”，而不是“成熟的标尺”。

用之前先问自己三件事：

这个量表的概念基础，跟我研究或教学场景里要回答的问题对得上吗？
它在我目标人群上做过内容效度吗？如果没做，我有没有时间、资源补做一轮？
它的语言版本是否做过跨文化等值？如果没有，我用它做出来的国别比较结论，能不能立得住？

如果三个问题的答案都是没有，那么最诚实的态度是——本次调研结果仅供参考。

参考文献：Lintner, T.（2024）. A systematic review of AI literacy scales. npj Science of Learning, 9, 50.https://doi.org/10.1038/s41539-024-00264-4

本篇原始论文发表于2024年，因此，本“指南”同样仅供参考。