AI 领域法律研究系列之九十五:AI小词典│常见术语的法律读解

“九千年前农人埋下粟，第一次学会了等待；今天我们把人类知识封进硅片，随时唤醒——这叫认知时间的贮藏。但贮藏之前，先得弄清：那'词元'是谁定的？那'窗口'谁量的？那'代理'谁授的权？若只看见吞吐的顺畅，看不见算力的洪水与幻觉的迷雾，便是舍本逐末。”

一、基础术语读解

法律人看AI，若一上来就被那些炫目的Demo晃花了眼，那便输了先手。咱们的老祖宗打仗讲究“射人先射马，擒贼先擒王”，到了这硅片江湖，这“王”便是关键术语。

术语不是名词解释，它是责任的锚点，是风险的七寸。

你若看不清“词元（Token）”这粒粮，便守不住数据出境的国门；你若读不懂“上下文窗口（Context Window）”这块碑，便断不明算法歧视的边界；你若识不破“幻觉（Hallucination）”这张皮，便担不起虚假宣传的罪责。这八组术语，便是AI躯体上的八处要穴。咱们不谈那些虚头巴脑的参数，就盯着这八个词——大语言模型、词元、上下文窗口、提示词、工具、模型上下文协议、智能体、代理技能。认准了它们，才算真正摸到了AI的脉门。

1. 大语言模型（LLM）

项目	内容
中文术语	大语言模型
英文术语	LLM (Large Language Model)
中文解释	基于Transformer架构、用海量文本预训练的深度神经网络。它通过“预测下一个词”来生成文本。代表：GPT、Claude、文心、通义。
英文解释	A deep neural network, typically based on the Transformer architecture, pretrained on massive corpora to predict the next most probable token. (Vaswani et al., NeurIPS 2017)
合规要点	【数据来源】训练数据须合法。已公开个人信息使用需符合“正当利益”；用户数据训练须获单独同意。【敏感信息】处理生物识别等信息须获单独同意。【全生命周期】预训练、微调、部署各阶段须做PIA（个人信息保护影响评估）。

法律人按：这东西像个博览群书的书童，但书童若是偷了禁书、或是没经主人允许把家事往外说，便是大错。

2. 词元（Token）

项目	内容
中文术语	词元
英文术语	Token (Ciyuan)
中文解释	模型处理文本的最小单元（字、词或片段）。2026年国家数据局定名“词元”。它是计量、定价、交易的基础。
英文解释	The minimal discrete unit produced by a tokenizer (BPE/SentencePiece). Context length and API billing are measured in Tokens. (Radford et al., OpenAI GPT-2 Tech Report, 2019)
合规要点	【泄露】未加密的Token（如JWT）遭嗅探可致身份盗用。【伪造】缺签名校验可致Token被篡改（如提权）。【诈骗】警惕“词元投资”“低价词元包”骗局。

法律人按：词元是粮票。粮票造假，便是饿殍；粮票被盗，便是饥荒。

3. 上下文窗口（Context Window）

项目	内容
中文术语	上下文窗口
英文术语	Context Window
中文解释	模型单次能记住的文本长度。超出的信息会被遗忘（截断）。窗口越大，记性越好。
英文解释	The maximum number of Tokens a model can attend to in a single forward pass. Exceeding tokens triggers truncation. (Kaplan et al., Scaling Laws, OpenAI 2020)
合规要点	【透明度】须向用户说明限制，提供分段处理等替代方案。【知情权】隐私政策中须披露此限制。

法律人按：人的记性有限，尚可记仇；机器的记性被窗口框死，忘了便是忘了，你告它“选择性遗忘”，它也无话可说。

4. 提示词（Prompt）

项目	内容
中文术语	提示词
英文术语	Prompt
中文解释	用户输入的指令。分User Prompt（用户问）和System Prompt（系统设定的角色与规矩）。
英文解释	Text input steering model behavior. System Prompt defines role/rules; User Prompt is the query. (Wei et al., Chain-of-Thought, NeurIPS 2022)
合规要点	【内容安全】须防Prompt诱导生成违法内容（如暴力、歧视）。【系统约束】 System Prompt不得内置突破安全边界的指令。

法律人按：这是教AI做人的家法。家法不严，徒弟便可能杀人放火。

5. 工具（Tool）

项目	内容
中文术语	工具
英文术语	Tool / Function Calling
中文解释	AI可调用的外部功能（查天气、读文件、跑代码）。让AI突破纯文本，能“做事”。
英文解释	External functions invocable by the LLM during inference (e.g., get_weather, run_code). (Schick et al., Toolformer, arXiv 2023)
合规要点	【最小权限】工具只给完成任务必需的权限。【操作审计】记录谁在何时调用了何工具。【沙箱】代码执行须隔离。

法律人按：给了仆人钥匙，就得盯着他别去开主人的保险柜。

6. 模型上下文协议（MCP）

项目	内容
中文术语	模型上下文协议
英文术语	MCP (Model Context Protocol)
中文解释	统一工具接入的标准接口。工具按此标准做，就能在所有支持MCP的平台上即插即用。
英文解释	An open standard defining a uniform interface between AI apps and external resources. (Anthropic, MCP Spec, 2024)
合规要点	【接口安全】 MCP Server须鉴权，防未授权接入。【数据跨境】若连接境外工具传输个人信息，须做数据出境安全评估。

法律人按：这是给各家工匠定下的统一尺寸，免得插头插不进插座。

7. 智能体（Agent）

项目	内容
中文术语	智能体
英文术语	AI Agent
中文解释	能自主理解目标、规划步骤、调用工具、纠错的AI系统。具备“感知—思考—行动—反馈”闭环。
英文解释	An autonomous system that decomposes goals, invokes tools, and iterates until completion. (Russell & Norvig, AI: A Modern Approach, 4th Ed.; Xi et al., LLM Agent Survey, arXiv 2023)
合规要点	【自动化决策】对个人权益有重大影响的，须告知并获单独同意，提供拒绝权。【人类监督】高风险场景（金融、招聘、司法）须设人工否决节点。

法律人按：从书童变成了管家。管家若是擅自做主把小姐许配了人，这责任，东家是断断要追究的。

8. 代理技能（Agent Skill）

项目	内容
中文术语	代理技能
英文术语	Agent Skill (SKILL.md)
中文解释	告诉Agent如何执行某任务的说明书（步骤、注意事项、格式）。可在Agent间复制传播。
英文解释	A human-readable spec (Markdown/YAML) recording procedural knowledge for a specific task (name, steps, I/O, caveats).
合规要点	【边界约束】 Skill须声明禁止行为（如禁访/etc/passwd）。【可追溯】 Skill变更须版本控制，防恶意注入。

法律人按：这是管家记在手心里的办事章程。章程若被人篡改，叫他半夜开门放贼，那便是一笔写不出两个“祸”字。

二、增补术语与合规映射表（简表）

除却以上词汇。再增补的九组词。算力是引擎，也是吞电的怪兽，关乎国家能源安全；Transformer架构是地基，藏着别人的专利钉子，踩上去便是侵权。幻觉是那糊弄人的鬼影，对齐是拴住鬼影的缰绳。至于RAG、蒸馏、微调，那是工匠偷梁换柱、移花接木的手艺，稍有不慎，便泄露了商业秘密，或是侵犯了他人的版权。多模态牵扯人脸声纹，提示词注入则是那撬门的贼。

这张增补表，为新增高频词汇的速查，便于您快速对照。

中文术语	英文术语	中文解释	合规要点
算力	Compute / FLOPs	芯片执行运算的能力，AI时代的“能源”。	【能源合规】关注数据中心PUE能效国标；【供应安全】警惕高端GPU出口管制风险。
Transformer架构	Transformer Arch.	2017年Google提出的模型基石（自注意力机制）。	【专利风险】排查基础架构专利侵权；【算法备案】上线需履行备案手续。
幻觉	Hallucination	模型一本正经胡说八道，生成事实错误的内容。	【虚假信息责任】必须部署RAG或人工核验降低幻觉率，否则承担赔偿责任。
对齐	Alignment	让AI的目标与人类价值观（有益、无害、诚实）保持一致。	【伦理审查】建立AI伦理委员会，审查训练数据偏见与输出合规性。
检索增强生成	RAG	先检索外部知识库（如法条库），再生成答案，以此治“幻”。	【数据合规】确保检索库数据来源合法；【IP保护】防止抓取受版权保护内容。
模型蒸馏	Distillation	把大模型的“知识”压缩进小模型，以便手机/汽车端运行。	【商业秘密】防止教师模型核心参数泄露；【开源合规】遵守Llama等非Apache协议。
微调	Fine-tuning	用特定领域数据（如医疗、法律）继续训练通用模型。	【防投毒】清洗微调数据，防恶意植入；【重授权】涉及个人信息需再次获同意。
多模态	Multimodal	能同时处理文本、图像、音频（如GPT-4V、Sora）。	【敏感信息】处理人脸/声纹需单独同意并加密。
提示词注入	Prompt Injection	黑客通过输入恶意指令，覆盖系统安全约束。	【安全防护】部署输入过滤器，防范越权操作与数据泄露。

三、结语：规矩与种子

九千年前，农人埋下粟，学会了等待。今天，我们把知识封进硅片，学会了索取。但索取若没有规矩，便是掠夺。Transformer堆叠得再高，若没有对齐的缰绳，也不过是脱缰的野马。词元计量得再精，若没有幻觉的警觉，也不过是沙上建塔。法律人的事，便是把这一粒粒叫作“AI”的种子，种在第三千年该有的规矩里。确保收割的人，不只是股东，还有每一个被这硅片照耀的、活生生的人。