“九千年前农人埋下粟,第一次学会了等待;今天我们把人类知识封进硅片,随时唤醒——这叫认知时间的贮藏。但贮藏之前,先得弄清:那'词元'是谁定的?那'窗口'谁量的?那'代理'谁授的权?若只看见吞吐的顺畅,看不见算力的洪水与幻觉的迷雾,便是舍本逐末。”
一、基础术语读解
法律人看AI,若一上来就被那些炫目的Demo晃花了眼,那便输了先手。咱们的老祖宗打仗讲究“射人先射马,擒贼先擒王”,到了这硅片江湖,这“王”便是关键术语。
术语不是名词解释,它是责任的锚点,是风险的七寸。
你若看不清“词元(Token)”这粒粮,便守不住数据出境的国门;你若读不懂“上下文窗口(Context Window)”这块碑,便断不明算法歧视的边界;你若识不破“幻觉(Hallucination)”这张皮,便担不起虚假宣传的罪责。这八组术语,便是AI躯体上的八处要穴。咱们不谈那些虚头巴脑的参数,就盯着这八个词——大语言模型、词元、上下文窗口、提示词、工具、模型上下文协议、智能体、代理技能。认准了它们,才算真正摸到了AI的脉门。

1. 大语言模型(LLM)
项目 | 内容 |
中文术语 | 大语言模型 |
英文术语 | LLM (Large Language Model) |
中文解释 | 基于Transformer架构、用海量文本预训练的深度神经网络。它通过“预测下一个词”来生成文本。代表:GPT、Claude、文心、通义。 |
英文解释 | A deep neural network, typically based on the Transformer architecture, pretrained on massive corpora to predict the next most probable token. (Vaswani et al., NeurIPS 2017) |
合规要点 | 【数据来源】训练数据须合法。已公开个人信息使用需符合“正当利益”;用户数据训练须获单独同意。【敏感信息】处理生物识别等信息须获单独同意。【全生命周期】预训练、微调、部署各阶段须做PIA(个人信息保护影响评估)。 |
法律人按:这东西像个博览群书的书童,但书童若是偷了禁书、或是没经主人允许把家事往外说,便是大错。
2. 词元(Token)
项目 | 内容 |
中文术语 | 词元 |
英文术语 | Token (Ciyuan) |
中文解释 | 模型处理文本的最小单元(字、词或片段)。2026年国家数据局定名“词元”。它是计量、定价、交易的基础。 |
英文解释 | The minimal discrete unit produced by a tokenizer (BPE/SentencePiece). Context length and API billing are measured in Tokens. (Radford et al., OpenAI GPT-2 Tech Report, 2019) |
合规要点 | 【泄露】未加密的Token(如JWT)遭嗅探可致身份盗用。【伪造】缺签名校验可致Token被篡改(如提权)。【诈骗】警惕“词元投资”“低价词元包”骗局。 |
法律人按:词元是粮票。粮票造假,便是饿殍;粮票被盗,便是饥荒。
3. 上下文窗口(Context Window)
项目 | 内容 |
中文术语 | 上下文窗口 |
英文术语 | Context Window |
中文解释 | 模型单次能记住的文本长度。超出的信息会被遗忘(截断)。窗口越大,记性越好。 |
英文解释 | The maximum number of Tokens a model can attend to in a single forward pass. Exceeding tokens triggers truncation. (Kaplan et al., Scaling Laws, OpenAI 2020) |
合规要点 | 【透明度】须向用户说明限制,提供分段处理等替代方案。【知情权】隐私政策中须披露此限制。 |
法律人按:人的记性有限,尚可记仇;机器的记性被窗口框死,忘了便是忘了,你告它“选择性遗忘”,它也无话可说。
4. 提示词(Prompt)
项目 | 内容 |
中文术语 | 提示词 |
英文术语 | Prompt |
中文解释 | 用户输入的指令。分User Prompt(用户问)和System Prompt(系统设定的角色与规矩)。 |
英文解释 | Text input steering model behavior. System Prompt defines role/rules; User Prompt is the query. (Wei et al., Chain-of-Thought, NeurIPS 2022) |
合规要点 | 【内容安全】须防Prompt诱导生成违法内容(如暴力、歧视)。【系统约束】 System Prompt不得内置突破安全边界的指令。 |
法律人按:这是教AI做人的家法。家法不严,徒弟便可能杀人放火。
5. 工具(Tool)
项目 | 内容 |
中文术语 | 工具 |
英文术语 | Tool / Function Calling |
中文解释 | AI可调用的外部功能(查天气、读文件、跑代码)。让AI突破纯文本,能“做事”。 |
英文解释 | External functions invocable by the LLM during inference (e.g., get_weather, run_code). (Schick et al., Toolformer, arXiv 2023) |
合规要点 | 【最小权限】工具只给完成任务必需的权限。【操作审计】记录谁在何时调用了何工具。【沙箱】代码执行须隔离。 |
法律人按:给了仆人钥匙,就得盯着他别去开主人的保险柜。
6. 模型上下文协议(MCP)
项目 | 内容 |
中文术语 | 模型上下文协议 |
英文术语 | MCP (Model Context Protocol) |
中文解释 | 统一工具接入的标准接口。工具按此标准做,就能在所有支持MCP的平台上即插即用。 |
英文解释 | An open standard defining a uniform interface between AI apps and external resources. (Anthropic, MCP Spec, 2024) |
合规要点 | 【接口安全】 MCP Server须鉴权,防未授权接入。【数据跨境】若连接境外工具传输个人信息,须做数据出境安全评估。 |
法律人按:这是给各家工匠定下的统一尺寸,免得插头插不进插座。
7. 智能体(Agent)
项目 | 内容 |
中文术语 | 智能体 |
英文术语 | AI Agent |
中文解释 | 能自主理解目标、规划步骤、调用工具、纠错的AI系统。具备“感知—思考—行动—反馈”闭环。 |
英文解释 | An autonomous system that decomposes goals, invokes tools, and iterates until completion. (Russell & Norvig, AI: A Modern Approach, 4th Ed.; Xi et al., LLM Agent Survey, arXiv 2023) |
合规要点 | 【自动化决策】对个人权益有重大影响的,须告知并获单独同意,提供拒绝权。【人类监督】高风险场景(金融、招聘、司法)须设人工否决节点。 |
法律人按:从书童变成了管家。管家若是擅自做主把小姐许配了人,这责任,东家是断断要追究的。
8. 代理技能(Agent Skill)
项目 | 内容 |
中文术语 | 代理技能 |
英文术语 | Agent Skill (SKILL.md) |
中文解释 | 告诉Agent如何执行某任务的说明书(步骤、注意事项、格式)。可在Agent间复制传播。 |
英文解释 | A human-readable spec (Markdown/YAML) recording procedural knowledge for a specific task (name, steps, I/O, caveats). |
合规要点 | 【边界约束】 Skill须声明禁止行为(如禁访/etc/passwd)。【可追溯】 Skill变更须版本控制,防恶意注入。 |
法律人按:这是管家记在手心里的办事章程。章程若被人篡改,叫他半夜开门放贼,那便是一笔写不出两个“祸”字。
二、增补术语与合规映射表(简表)
除却以上词汇。再增补的九组词。算力是引擎,也是吞电的怪兽,关乎国家能源安全;Transformer架构是地基,藏着别人的专利钉子,踩上去便是侵权。幻觉是那糊弄人的鬼影,对齐是拴住鬼影的缰绳。至于RAG、蒸馏、微调,那是工匠偷梁换柱、移花接木的手艺,稍有不慎,便泄露了商业秘密,或是侵犯了他人的版权。多模态牵扯人脸声纹,提示词注入则是那撬门的贼。
这张增补表,为新增高频词汇的速查,便于您快速对照。
中文术语 | 英文术语 | 中文解释 | 合规要点 |
算力 | Compute / FLOPs | 芯片执行运算的能力,AI时代的“能源”。 | 【能源合规】关注数据中心PUE能效国标;【供应安全】警惕高端GPU出口管制风险。 |
Transformer架构 | Transformer Arch. | 2017年Google提出的模型基石(自注意力机制)。 | 【专利风险】排查基础架构专利侵权;【算法备案】上线需履行备案手续。 |
幻觉 | Hallucination | 模型一本正经胡说八道,生成事实错误的内容。 | 【虚假信息责任】必须部署RAG或人工核验降低幻觉率,否则承担赔偿责任。 |
对齐 | Alignment | 让AI的目标与人类价值观(有益、无害、诚实)保持一致。 | 【伦理审查】建立AI伦理委员会,审查训练数据偏见与输出合规性。 |
检索增强生成 | RAG | 先检索外部知识库(如法条库),再生成答案,以此治“幻”。 | 【数据合规】确保检索库数据来源合法;【IP保护】防止抓取受版权保护内容。 |
模型蒸馏 | Distillation | 把大模型的“知识”压缩进小模型,以便手机/汽车端运行。 | 【商业秘密】防止教师模型核心参数泄露;【开源合规】遵守Llama等非Apache协议。 |
微调 | Fine-tuning | 用特定领域数据(如医疗、法律)继续训练通用模型。 | 【防投毒】清洗微调数据,防恶意植入;【重授权】涉及个人信息需再次获同意。 |
多模态 | Multimodal | 能同时处理文本、图像、音频(如GPT-4V、Sora)。 | 【敏感信息】处理人脸/声纹需单独同意并加密。 |
提示词注入 | Prompt Injection | 黑客通过输入恶意指令,覆盖系统安全约束。 | 【安全防护】部署输入过滤器,防范越权操作与数据泄露。 |

三、结语:规矩与种子
九千年前,农人埋下粟,学会了等待。今天,我们把知识封进硅片,学会了索取。但索取若没有规矩,便是掠夺。Transformer堆叠得再高,若没有对齐的缰绳,也不过是脱缰的野马。词元计量得再精,若没有幻觉的警觉,也不过是沙上建塔。法律人的事,便是把这一粒粒叫作“AI”的种子,种在第三千年该有的规矩里。确保收割的人,不只是股东,还有每一个被这硅片照耀的、活生生的人。
夜雨聆风