AI知识扫盲:284个专业术语/新名词解释
本词表覆盖学术专业名词、工程落地术语、行业应用/商业化新词、网络黑话,按「基础原理→模型技术→工程落地→应用场景→安全合规→行业黑话」的逻辑分层,共计14大类,284个。
一、AI基础核心术语
1. AI(人工智能,Artificial Intelligence)让机器模拟人类的感知、推理、学习、决策、创造等智能行为的技术总称,是所有相关技术的顶层概念。
2. AGI(通用人工智能,Artificial General Intelligence)具备与人类相当的通用智能,能理解、学习、完成任何人类能做的智力任务,而非仅能解决单一特定问题。
3. ASI(超级人工智能,Artificial Super Intelligence)在所有领域(科学创新、通用智慧、社交能力等)全面远超人类智能水平的人工智能,是远期理论概念。
4. 弱人工智能(Narrow AI / Weak AI)仅能完成特定单一任务的AI,如语音识别、图像分类、下棋AI,是当前所有落地AI的形态。
5. 强人工智能(Strong AI)等同于AGI,具备通用认知、意识和自主思考能力,能跨领域完成各类智力任务。
6. ML(机器学习,Machine Learning)AI的核心分支,核心是让计算机从数据中自动学习规律、优化性能,而非依赖人工逐条编写固定规则。
7. DL(深度学习,Deep Learning)机器学习的子集,基于多层神经网络模拟人脑神经元的连接结构,能自动提取数据的深层特征,是当前大模型、AIGC的核心技术底座。
8. 神经网络(Neural Network, NN)模仿人脑神经元信号传递机制构建的数学模型,是深度学习的基础单元,由输入层、隐藏层、输出层构成。
9. 监督学习(Supervised Learning)用带标签的标注数据训练模型,让模型学习「输入→输出」的固定映射关系,多用于分类、预测任务。
10. 无监督学习(Unsupervised Learning)用无标签的原始数据训练,让模型自动发现数据的内在规律、聚类、关联关系,多用于数据降维、聚类、异常检测。
11. 半监督学习(Semi-supervised Learning)混合少量标注数据和大量无标注数据训练,平衡标注成本和模型效果,是工业界常用的训练范式。
12. 强化学习(Reinforcement Learning, RL)模型通过「环境交互→试错→奖励/惩罚反馈」不断优化决策策略,像人类学习技能一样逐步提升能力,是游戏AI、机器人控制、模型对齐的核心技术。
13. 迁移学习(Transfer Learning)把模型在一个领域(源域)学到的知识/能力,迁移到另一个相关领域(目标域),大幅降低新任务的训练成本和数据需求。
14. 联邦学习(Federated Learning, FL)分布式机器学习范式,多个数据持有方在不共享原始数据的前提下,协同训练一个全局模型,核心解决数据隐私和数据孤岛问题。
15. 持续学习/终身学习(Continual Learning / Lifelong Learning)让模型能持续学习新的任务和知识,同时尽可能不遗忘之前学会的旧知识,解决模型的「灾难性遗忘」问题。
二、模型架构与核心组件术语
1. Transformer2017年谷歌提出的深度学习架构,核心是自注意力机制,能高效捕捉长距离文本的上下文依赖,是当前所有大语言模型、多模态模型、扩散模型的主流底层架构。
2. 自注意力机制(Self-Attention)Transformer的核心组件,能让模型在处理文本时,给不同位置的词语赋予不同的权重,重点关注和当前内容相关的关键信息,精准理解上下文语义。
3. 多头注意力(Multi-Head Attention, MHA)把自注意力机制分成多个并行的头,每个头关注不同维度、不同类型的语义关联,再把结果融合,大幅提升模型的语义理解能力。
4. 编码器(Encoder)Transformer的核心模块之一,负责理解输入内容(文本、图像等),提取深层特征,多用于分类、理解类任务。
5. 解码器(Decoder)Transformer的核心模块之一,基于编码器提取的特征,自回归地生成输出内容,是当前大语言模型(GPT、LLaMA等)的核心架构。
6. 仅解码器架构(Decoder-only)只保留Transformer的解码器模块,是当前绝大多数大语言模型采用的架构,擅长文本生成、对话、创作类任务。
7. 仅编码器架构(Encoder-only)只保留Transformer的编码器模块,擅长文本理解、分类、语义匹配类任务,典型代表是BERT。
8. Encoder-Decoder(编解码架构)同时包含编码器和解码器,多用于机器翻译、文本摘要、语音识别等「输入理解→输出生成」的序列到序列任务。
9. 词嵌入/向量嵌入(Embedding)把文本、图像、语音等非结构化数据,转换成模型能处理的高维数值向量,向量的距离能体现内容的语义相似度,是大模型和RAG的核心基础。
10. 位置编码(Positional Encoding)给文本中的每个词语添加位置信息,让Transformer能理解词语的顺序和句子的语序,解决自注意力机制本身无法捕捉位置信息的问题。
11. 残差连接(Residual Connection)深度学习架构中的常用组件,把输入直接加到输出上,解决深层网络训练时的梯度消失问题,让超深层的大模型能稳定训练。
12. 层归一化(Layer Normalization, LayerNorm)对神经网络每一层的输出做标准化处理,稳定模型训练过程,加快收敛速度,是Transformer架构的标配组件。
13. 混合专家模型(Mixture of Experts, MoE)大模型的主流架构优化方案,把模型拆分成多个「专家子网络」,每次输入只激活和任务相关的少量专家,而非全部参数,在不增加推理算力的前提下,大幅提升模型的参数量和能力。
14. 扩散模型(Diffusion Model)当前AIGC图像、视频生成的主流底层架构,核心原理是「逐步加噪→反向去噪」,通过学习从随机噪声还原成真实图像/视频的过程,实现高质量的可控生成。
15. 扩散Transformer(Diffusion Transformer, DiT)把Transformer架构和扩散模型结合,是当前文生视频大模型(如Sora)的核心架构,能高效处理长视频、高分辨率内容的生成。
16. 生成对抗网络(Generative Adversarial Network, GAN)早期AIGC的主流生成架构,由生成器和判别器两个网络对抗训练,生成器负责生成逼真内容,判别器负责区分真假,二者博弈迭代提升生成效果。
17. 卷积神经网络(Convolutional Neural Network, CNN)计算机视觉领域的经典深度学习架构,通过卷积核滑动提取图像的局部特征,擅长图像分类、目标检测、图像分割等任务。
18. 循环神经网络(Recurrent Neural Network, RNN)早期处理序列数据的经典架构,能按顺序处理文本、语音等序列数据,存在长序列梯度消失的缺陷,已被Transformer替代。
19. 长短期记忆网络(Long Short-Term Memory, LSTM)RNN的优化版本,通过门控机制解决长序列的梯度消失问题,曾广泛用于机器翻译、语音识别,目前已被Transformer替代。
三、模型训练与优化全流程术语
1. 预训练(Pre-training)大模型训练的第一阶段,用海量的通用无标注数据,训练出一个具备通用语言能力、常识、逻辑推理能力的基础模型,是大模型能力的核心来源。
2. 持续预训练(Continual Pre-training, CPT)在通用预训练的基础上,用特定领域的海量数据继续预训练,让基础模型掌握该领域的专业知识,是打造垂直领域大模型的常用方法。
3. 有监督微调(Supervised Fine-tuning, SFT)预训练之后的核心环节,用高质量的「指令-回答」标注数据,对预训练模型做全量/轻量化微调,让模型学会听懂人类指令、按照人类的格式和要求输出内容。
4. 指令微调(Instruction Tuning)SFT的核心范式,用大量不同类型的指令数据微调模型,让模型具备通用的指令遵循能力,能处理各类零样本/少样本任务,而非仅能完成单一任务。
5. 对话微调(Chat Tuning)针对对话场景的微调,用多轮对话数据训练模型,让模型具备多轮上下文记忆、流畅对话、精准问答的能力,是对话类大模型的必备环节。
6. 领域微调(Domain Fine-tuning)用医疗、法律、金融等特定垂直领域的专业数据微调模型,让模型适配专业场景,提升领域内的回答准确率。
7. 参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)轻量化微调技术的总称,核心是只微调模型中极少部分的参数,不改动预训练模型的主干权重,在保证效果的前提下,大幅降低微调的算力和显存成本。
8. 低秩适配(Low-Rank Adaptation, LoRA)当前最主流的PEFT方法,在Transformer的注意力层旁新增两个小型低秩矩阵,只训练这两个矩阵的参数,训练完成后可合并到原模型,也可单独作为插件使用,广泛用于大模型微调、AI绘画模型定制。
9. 量化低秩适配(Quantized Low-Rank Adaptation, QLoRA)LoRA的优化版本,先把预训练模型量化到4bit/8bit低精度,再做LoRA微调,进一步降低微调的显存需求,让消费级显卡也能微调大模型。
10. 前缀微调(Prefix Tuning)PEFT方法之一,给模型的每一层添加可训练的前缀向量,只训练这些前缀参数,不改动模型主干,适配生成类任务。
11. 提示微调(Prompt Tuning)PEFT方法之一,只给输入层添加可训练的提示向量,通过优化提示向量提升模型效果,训练成本极低,适合大模型的轻量级场景适配。
12. 模型蒸馏/知识蒸馏(Model Distillation / Knowledge Distillation, KD)模型压缩的核心技术,把参数量大、能力强的「教师模型」学到的知识和分布,迁移到参数量小、速度快的「学生模型」中,让小模型在大幅降低体积和算力需求的前提下,尽可能接近大模型的效果。
13. 模型炼化/模型精炼(Model Refinement)对预训练完成的模型,进行多轮的精细化优化迭代,包括高质量数据清洗、人类偏好对齐、错误输出修正、安全护栏加固、效果调优等全流程优化,让模型的输出更精准、更安全、更贴合人类使用需求。
14. 对齐训练(Alignment Training)大模型训练的核心收尾环节,通过各类技术让模型的输出行为、目标、价值观,和人类的意图、安全规范、伦理要求保持一致,避免模型生成有害、错误、不符合预期的内容。
14. 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)当前大模型对齐的主流范式,分为三步:①SFT微调;②用人类标注的偏好数据训练奖励模型;③用强化学习(PPO算法)基于奖励模型优化大模型,让模型的输出更符合人类偏好。
15. 基于AI反馈的强化学习(Reinforcement Learning from AI Feedback, RLAIF)RLHF的优化方案,用能力更强的大模型替代人类标注偏好数据,大幅降低对齐的人工成本,同时提升对齐效率。
16. 近端策略优化(Proximal Policy Optimization, PPO)强化学习的经典算法,也是RLHF的核心算法,能在保证训练稳定的前提下,高效优化模型的输出策略,让模型朝着奖励更高的方向迭代。
17. 直接偏好优化(Direct Preference Optimization, DPO)新一代对齐算法,跳过了RLHF中「训练奖励模型+强化学习」的复杂环节,直接用人类偏好数据优化模型,训练更简单、更稳定,效果媲美甚至超越RLHF,是当前开源大模型的主流对齐方案。
18. 量化(Quantization)模型压缩和推理优化的核心技术,把模型的参数从高精度(FP32/FP16)转换成低精度(INT8/INT4/FP8),大幅缩小模型体积、降低显存占用、加快推理速度,同时尽可能减少效果损失。
19. 模型剪枝(Pruning)模型压缩技术之一,移除模型中不重要、权重接近0的神经元和参数,精简模型结构,降低模型的计算量和体积,适配端侧部署。
20. 模型压缩(Model Compression)量化、剪枝、蒸馏等技术的总称,核心是在尽量不损失模型效果的前提下,减小模型体积、降低计算量,让模型能在更低配置的设备上运行。
21. 数据集(Dataset)用于模型训练、验证、测试的结构化/非结构化数据集合,包括文本、图像、语音、视频等各类格式。
22. 训练集(Training Set)数据集的核心部分,用于模型训练过程中学习数据规律、更新模型参数。
23. 验证集(Validation Set)训练过程中用于评估模型效果、调整超参数、防止过拟合的数据集,不参与模型参数更新。
24. 测试集(Test Set)模型训练完成后,用于最终评估模型泛化能力的数据集,完全独立于训练和验证过程,模拟模型在真实场景中的表现。
25. 数据标注(Data Annotation / Labeling)给原始数据打上人工标签,比如给图片标注「这是猫」、给文本标注情感倾向、给对话标注优质回答,是监督学习的基础。
26. 数据清洗(Data Cleaning)对原始训练数据做去重、去噪、纠错、过滤低质内容、去敏感信息等处理,提升数据质量,是决定大模型效果的核心环节。
27. 数据增强(Data Augmentation)对原始数据做变换、扩充、改写等处理,生成更多高质量的训练数据,提升模型的泛化能力,防止过拟合。
28. 过拟合(Overfitting)模型在训练集上表现极好,但在未见过的测试集/真实场景中表现很差,本质是模型死记硬背了训练数据,没有学到通用的规律。
29. 欠拟合(Underfitting)模型没有学到数据的核心规律,在训练集和测试集上的表现都很差,通常是模型容量不足、训练不充分导致。
30. 泛化能力(Generalization Ability)模型对训练集中未出现过的新数据、新场景的处理能力,是衡量模型好坏的核心指标,泛化能力越强,模型的实用性越高。
31. 损失函数(Loss Function)衡量模型的预测输出和真实标签之间差距的函数,模型训练的核心就是通过优化算法,最小化损失函数,提升模型准确率。
32. 梯度下降(Gradient Descent)模型训练的核心优化算法,通过计算损失函数对模型参数的梯度,沿着梯度下降的方向更新参数,逐步最小化损失函数。
33. 反向传播(Backpropagation)神经网络训练的核心流程,先通过前向传播计算模型输出和损失,再反向把损失逐层传递,计算每个参数的梯度,用于梯度下降更新参数。
34. 学习率(Learning Rate)模型训练的核心超参数,控制每次参数更新的步长,学习率太大会导致模型不收敛,太小会导致训练速度过慢、陷入局部最优。
35. 批次(Batch)模型训练时,一次前向传播和反向传播所使用的样本数量,批次大小会影响训练的稳定性和速度。
36. 轮次(Epoch)模型把整个训练集完整遍历训练一遍,称为一个轮次,是衡量模型训练进度的核心单位。
37. 迭代(Iteration)模型完成一次批次数据的训练、一次参数更新,称为一次迭代。
38. 收敛(Convergence)模型训练过程中,损失函数下降到稳定值,不再大幅波动,模型效果基本稳定,称为模型收敛。
39. 早停(Early Stopping)训练过程中,当模型在验证集上的效果不再提升甚至开始下降时,提前停止训练,防止模型过拟合。
40. 缩放定律(Scaling Laws)大模型的核心理论,指大模型的能力,和模型参数量、训练数据量、计算量呈近似幂律的正相关关系,当规模达到一定阈值后,会出现涌现能力。
四、大语言模型(LLM)核心能力与现象术语
1. 大语言模型(Large Language Model, LLM)基于海量文本数据预训练、参数量达到十亿/万亿级、具备强大的语言理解和生成能力的Transformer模型,能完成写作、问答、翻译、推理、代码生成等各类语言任务。
2. 基础模型(Foundation Model)经过大规模通用数据预训练的大模型,具备通用的基础能力,可通过微调、适配等方式,迁移到数百上千个下游任务,是当前AI应用的通用底座。
3. 垂直领域大模型(Domain-specific LLM)在通用基础模型的基础上,通过领域数据持续预训练、微调,适配医疗、法律、金融、工业等特定专业领域的大模型,在该领域内的准确率和专业性远超通用大模型。
4. 轻量级大模型/小语言模型(Lightweight LLM / Small Language Model, SLM)参数量较小(通常十亿级以内)、体积小、推理速度快,通过蒸馏、微调等技术,在特定场景下效果接近大模型,适合端侧部署、轻量化应用。
5. 涌现能力(Emergent Ability)大模型的核心特征,当模型的参数量、训练数据量、计算量达到某个临界阈值后,突然出现的、小模型不具备的复杂能力,比如逻辑推理、数学解题、指令遵循、上下文学习,且无法通过简单外推小模型的效果来预测。
6. 幻觉(Hallucination)大模型的常见问题,指模型生成的内容看似通顺、逻辑自洽,但实际上是编造的虚假事实、错误数据、不存在的引用,和客观现实不符。
7. 思维链(Chain-of-Thought, CoT)大幅提升大模型复杂推理能力的技术,通过引导模型像人类一样「分步思考、先推理再给出答案」,把复杂问题拆解成多个简单步骤,显著提升模型的数学、逻辑、常识推理能力。
8. 零样本思维链(Zero-Shot CoT)不需要给模型提供示例,只需要在提示词里加上「让我们一步步思考」,就能让模型自动生成思维链,完成推理任务。
9. 思维树(Tree-of-Thought, ToT)CoT的进阶版本,让模型像树状结构一样,对问题进行多路径的思考、探索、评估,选择最优的推理路径,解决更复杂的规划和决策问题。
10. 思维图(Graph-of-Thought, GoT)ToT的进阶版本,用图结构替代树结构,让模型的推理路径可以循环、合并、跳转,更贴合人类的复杂思考过程,处理更复杂的多关联问题。
11. 上下文学习(In-Context Learning, ICL)大模型的核心能力,不需要更新模型参数,只需要在提示词的上下文中给模型提供几个示例,模型就能照着示例的格式和逻辑,完成对应的任务。
12. 上下文窗口(Context Window)模型一次能处理和记住的最大文本长度(Token数量),包括输入的提示词、对话历史、生成的内容,上下文窗口越大,模型能处理的长文档、长对话能力越强。
13. 令牌/词元(Token)大模型处理文本的最小单位,中文里一个Token通常对应1-2个汉字,英文里一个Token对应一个单词或单词的一部分,模型的上下文窗口、计费、生成长度,均以Token为单位计算。
14. 分词器(Tokenizer)把自然语言文本转换成模型能处理的Token序列的工具,也能把Token序列还原成文本,是大模型的必备组件。
15. KV缓存(KV Cache)大模型推理优化的核心技术,把之前生成内容的键值对(KV)缓存起来,下一次生成时不需要重新计算,大幅加快推理速度、降低算力消耗,是长对话、长文本生成的必备优化方案。
16. 推理(Inference)模型训练完成后,接收用户的输入,通过计算给出输出结果的过程,也就是我们日常使用AI时,AI生成回答的过程,核心关注速度、延迟、成本。
17. 训练(Training)模型从数据中学习规律、更新参数的过程,耗时长、算力需求极高,通常在高性能GPU集群上完成。
18. 生成式AI(Generative AI)能自主生成文本、图像、语音、视频、3D模型、代码等各类内容的AI技术总称,核心是大模型、扩散模型等生成类架构。
19. 判别式AI(Discriminative AI)用于分类、识别、判断、预测的AI技术,比如图像分类、人脸识别、风险预测,核心是对输入内容做判别,而非生成新内容。
20. 首包延迟(Time to First Token, TTFT)衡量大模型推理速度的核心指标,指从用户发送请求,到模型返回第一个Token的耗时,直接决定用户的对话等待体验。
21. 每令牌延迟(Per-Token Latency)模型生成每个Token的平均耗时,决定了模型的输出打字速度。
22. 吞吐量(Throughput)模型单位时间内能处理的Token数量,是衡量模型推理服务并发能力的核心指标,吞吐量越高,能同时服务的用户越多。
五、提示工程(Prompt)全体系术语
1. 提示词(Prompt)用户向AI输入的所有内容,包括指令、问题、示例、约束、角色设定、上下文信息,是引导AI输出符合预期内容的核心载体。
2. 提示工程(Prompt Engineering)系统性地设计、优化、调试提示词,让AI的输出更精准、更稳定、更符合预期,同时挖掘AI的潜在能力,是当前低成本用好AI的核心技能。
3. 系统提示词(System Prompt)在对话开始前,给AI设定的全局规则,包括身份角色、输出规范、语气风格、约束边界、能力范围,会贯穿整个对话的所有轮次,决定AI的基础行为模式。
4. 用户提示词(User Prompt)用户每一轮对话中,提出的具体问题、需求、指令,是当前轮次AI需要处理的核心内容。
5. 助手提示词(Assistant Prompt)AI在对话中生成的历史回复内容,会作为上下文的一部分,影响后续的输出。
6. 零样本提示(Zero-shot Prompt)不给AI提供任何示例,只给出指令和需求,让AI直接完成任务,考验模型的通用能力。
7. 少样本提示(Few-shot Prompt)在提示词里给AI提供少量的「输入-输出」示例,让AI模仿示例的格式、逻辑、风格,完成对应的任务,大幅提升任务的完成准确率。
8. 角色提示(Role Prompt)给AI设定一个具体的身份角色,比如「资深律师」「小学老师」「资深文案」,让AI站在该角色的视角和专业度输出内容,是提升输出质量的常用方法。
9. 约束提示(Constraint Prompt)在提示词里明确给AI设定禁止项、边界、限制条件,比如「禁止编造数据」「字数不超过200字」「不用专业术语」,避免AI输出不符合要求的内容。
10. 格式提示(Format Prompt)明确要求AI按照指定的格式输出,比如Markdown表格、JSON格式、分点列出、剧本格式,方便后续的内容处理和使用。
11. 分步提示(Step-by-Step Prompt)把复杂的任务拆解成多个清晰的步骤,让AI按照步骤一步步完成,大幅降低任务难度,提升输出的准确率。
12. 负面提示词(Negative Prompt)明确告诉AI不要生成什么内容,多用于AI绘画、视频生成,比如「模糊、低分辨率、畸形、水印」,也可用于文本生成,规避不符合要求的内容。
13. 提示模板(Prompt Template)固定结构、可复用的提示词框架,只需要替换其中的核心变量,就能快速生成对应的提示词,适合批量处理同类任务。
14. 提示词注入(Prompt Injection)一种针对AI的攻击方式,攻击者通过恶意构造的提示词,绕过AI的系统提示和安全护栏,让AI执行预设的恶意指令,比如泄露系统提示、生成有害内容。
15. 提示词泄露(Prompt Leaking)指AI被诱导泄露了开发者设定的系统提示词、核心prompt模板,是提示工程中常见的安全问题。
16. 提示词越狱(Prompt Jailbreaking)通过特殊的提示词构造,绕过AI的安全护栏和内容审核规则,让AI生成原本被禁止的有害、违规内容,属于对抗攻击的一种。
17. 温度系数(Temperature)控制AI生成内容随机性的核心参数,取值范围0-2,数值越低,输出越确定、越严谨、越保守;数值越高,输出越随机、越有创意、越发散。
18. Top-p采样(Nucleus Sampling)控制生成随机性的参数,取值0-1,模型只会从累计概率达到Top-p的Token中选择下一个词,数值越小,输出越确定;数值越大,输出越多样。
19. Top-k采样控制生成随机性的参数,模型只会从概率最高的前k个Token中选择下一个词,k越小,输出越稳定;k越大,输出越丰富。
20. 重复惩罚(Repetition Penalty)控制AI生成内容重复度的参数,数值越高,AI越不会重复生成相同的词语和句子,避免内容啰嗦、循环。
21. 种子(Seed)一个数值参数,固定种子值后,AI在相同的提示词和参数下,会生成完全一致的内容,多用于复现生成结果、批量生成风格一致的内容。
六、AI智能体(Agent)与工作流(Workflow)全链路术语
1. AI智能体(AI Agent)以大模型为核心大脑,具备自主感知、规划、决策、工具调用、记忆、反思能力,能不需要人类持续干预,自主完成复杂的多步骤任务的AI系统,是当前AI应用的核心发展方向。
2. 自主智能体(Autonomous Agent)具备完全自主能力的AI Agent,能自己设定目标、拆解任务、制定计划、执行优化、完成闭环,不需要人类中途干预。
3.多智能体系统(Multi-Agent System, MAS)由多个具备不同能力、不同角色的AI Agent组成的系统,多个Agent分工协作、互相沟通、协同完成复杂任务,比如策划Agent、写作Agent、审核Agent、数据Agent配合完成一份完整的行业报告。
4. 技能(Skill)AI Agent具备的可复用、可组合的原子能力单元,比如写邮件、做表格、翻译、写代码、查天气、数据分析,一个Agent可以拥有多个Skill,组成技能库。
5. 技能库(Skill Library / Skill Set)把多个标准化的Skill集中管理、统一调度的集合,Agent可以根据任务需求,自动从技能库中调用对应的能力。
6. 工具(Tool)Agent可以调用的外部功能和接口,比如搜索引擎、计算器、数据库、API、文件读写工具、代码执行器,是Agent突破大模型自身能力边界、和真实世界交互的核心载体。
7. 工具调用(Tool Use / Tool Calling)大模型/Agent的核心能力,能自主判断「什么时候需要调用工具、调用哪个工具、给工具传入什么参数」,并根据工具返回的结果,继续完成任务。
8. 插件(Plugin)给大模型/Agent扩展能力的模块化组件,本质是封装好的Tool和Skill,用户可以像安装软件一样,给AI安装插件,快速扩展对应的能力。
9. 专家模型(Expert Model)专注于某一个特定领域、特定任务的专用模型或Skill,比如法律专家模型、医疗专家模型、代码专家模型,Agent可以根据任务类型,自动路由到对应的专家模型处理。
10. 工作流(Workflow)完成一个复杂任务的标准化、可复用的全流程步骤,把多个子任务、工具调用、模型调用、人工节点,按照固定的逻辑和顺序串联起来,实现任务的自动化执行。
11. 端到端工作流(End-to-End Workflow)从用户的原始需求输入,到最终的结果输出,全程自动化执行,不需要人工中途干预的完整工作流。
12. 流水线(Pipeline)多个模型、模块、步骤按照固定的顺序串联执行的流程,前一个模块的输出作为后一个模块的输入,多用于数据处理、内容生成、模型推理的标准化流程。
13. 任务编排(Task Orchestration)对复杂任务的多个子步骤、多个工具、多个模型进行统一的调度、管理、监控,按照逻辑顺序和依赖关系执行,保证整个流程的稳定和闭环。
14. 执行链(Execution Chain)Agent完成一个任务的完整执行链路,通常是「接收需求→任务拆解→规划步骤→调用工具→获取结果→整理输出→反思校验」的完整链条。
15. 推理与行动框架(Reasoning and Acting, ReAct)当前AI Agent的主流框架,让Agent把「推理思考」和「行动执行」交替进行,先思考下一步要做什么,再通过工具调用执行,再根据执行结果继续思考,循环迭代,直到完成任务。
16. 规划(Planning)Agent的核心能力,接收用户的复杂目标后,自动把大目标拆解成多个可执行的小步骤,制定执行计划、判断步骤的优先级和依赖关系。
17. 任务拆解(Task Decomposition)规划的核心环节,把一个复杂的、多步骤的大任务,拆解成多个简单的、可直接执行的原子子任务,降低执行难度。
18. 反思(Reflection / Reflexion)Agent的核心能力,对自己的执行过程、输出结果进行自我检查、自我批判、纠错优化,判断是否完成任务、是否有错误、是否需要重新执行,大幅提升任务完成的准确率。
19. 自我优化(Self-Improvement)Agent根据历史执行的经验和反馈,自动优化自己的规划能力、工具调用能力、输出效果,持续提升任务完成的效率和准确率。
20. 记忆(Memory)Agent的核心基础能力,存储对话历史、任务执行信息、用户偏好、外部知识、历史经验,是Agent完成多轮任务、持续学习的基础。
21. 短期记忆(Short-term Memory)对应大模型的上下文窗口,存储当前对话、当前任务的临时信息,任务结束后会清空。
22. 长期记忆(Long-term Memory)存储在外部数据库/向量库中的持久化信息,包括用户的长期偏好、历史对话、专业知识、执行经验,Agent可以随时检索调用,突破上下文窗口的限制。
23. 工作记忆(Working Memory)Agent执行任务时,临时存储的中间结果、思考过程、执行状态,是Agent完成多步骤任务的临时信息载体。
24. 情景记忆(Episodic Memory)存储Agent和用户交互的历史事件、对话场景、具体案例,让Agent能记住和用户的历史交互细节。
25. 语义记忆(Semantic Memory)存储Agent学到的结构化知识、常识、事实、规则,是Agent的知识库。
26. 检索增强生成(Retrieval-Augmented Generation, RAG)解决大模型幻觉、知识更新不及时的核心技术,核心流程是:先把用户的问题转换成向量,从外部知识库中检索相关的精准信息,再把检索到的信息和问题一起传给大模型,让大模型基于真实的参考信息生成回答,大幅提升回答的准确率和时效性。
27. 向量数据库(Vector Database)专门存储和管理高维向量的数据库,支持快速的相似度检索,是RAG、Agent长期记忆的核心载体。
28. 分块(Chunking)RAG的核心预处理环节,把长文档、长文本拆分成多个固定长度的小文本块,再转换成向量存储到向量库中,提升检索的准确率。
29. 召回(Retrieval)RAG的核心环节,根据用户的问题,从向量库中检索出和问题相关的文本块,是保证信息相关性的第一步。
30. 重排(Reranking)RAG的优化环节,对召回的初步结果,用更精准的模型重新排序,筛选出最相关、最优质的信息,传给大模型,提升回答的精准度。
31. 代理RAG(Agentic RAG)RAG和Agent结合的进阶方案,让Agent自主决定「什么时候检索、检索什么内容、检索多少次、怎么处理检索结果」,突破传统RAG的固定流程限制,处理更复杂的多轮问答和长文档任务。
32. 路由(Routing)智能调度的核心环节,根据用户的问题类型、领域、难度,自动把问题分配给对应的专家模型、Skill、Agent处理,提升处理效率和准确率。
33. 状态管理(State Management)工作流和Agent的核心功能,记录任务的执行进度、中间结果、上下文状态、异常信息,保证流程中断后可以恢复,多步骤任务可以稳定执行。
34. 人在回路(Human-in-the-Loop, HITL)在AI的自动化工作流中,加入人工审核、人工确认、人工修正的节点,关键环节由人做最终决策,提升任务的安全性和准确率,避免AI出错。
七、自然语言处理(NLP)专项术语
1. 自然语言处理(Natural Language Processing, NLP)AI的核心分支,研究如何让计算机理解、生成、处理人类自然语言的技术,是大语言模型、对话系统、机器翻译的基础。
2. 自然语言理解(Natural Language Understanding, NLU)NLP的核心方向,研究如何让计算机读懂文本的语义、意图、情感、逻辑,而非仅仅识别文字,是问答系统、对话机器人的核心。
3. 自然语言生成(Natural Language Generation, NLG)NLP的核心方向,研究如何让计算机生成通顺、连贯、符合逻辑、符合场景的自然语言文本,是当前AIGC文本生成的核心。
4. 命名实体识别(Named Entity Recognition, NER)NLP的基础任务,从文本中识别出特定类型的实体,比如人名、地名、组织机构名、时间、日期、金额、专有名词,是信息提取、知识图谱的基础。
5. 词性标注(Part-of-Speech Tagging, POS Tagging)给文本中的每个词语标注对应的词性,比如名词、动词、形容词、副词,是文本理解、句法分析的基础。
6. 情感分析(Sentiment Analysis)识别文本中表达的情感倾向和情绪类型,比如正面、负面、中性,或者喜悦、愤怒、悲伤、惊讶,多用于舆情分析、评论分析、用户反馈处理。
7. 文本分类(Text Classification)把文本按照预设的类别进行分类,比如垃圾邮件识别、新闻分类、评论主题分类、违规内容识别,是NLP最基础的任务之一。
8. 文本摘要(Text Summarization)把长文本压缩成简短的摘要,保留核心信息和主要内容,分为抽取式摘要(从原文中提取关键句子)和生成式摘要(用AI重新生成通顺的摘要)。
9. 机器翻译(Machine Translation, MT)把一种自然语言自动翻译成另一种自然语言,是NLP的经典任务,当前主流方案是基于大语言模型的生成式翻译。
10. 机器阅读理解(Machine Reading Comprehension, MRC)让计算机读懂给定的文本,然后回答基于文本的相关问题,是问答系统、智能客服的核心技术。
11. 意图识别(Intent Recognition)识别用户输入的文本背后的真实意图和需求,比如查天气、订机票、投诉、咨询问题,是对话机器人、智能客服的核心环节。
12. 槽位填充(Slot Filling)配合意图识别,从用户的文本中提取出完成任务所需的关键信息,比如订机票需要的时间、出发地、目的地、舱位,是任务型对话系统的核心技术。
13. 知识图谱(Knowledge Graph, KG)结构化的语义知识库,用「实体-关系-实体」的三元组形式,存储现实世界中的事物和它们之间的关联关系,比如「北京-是首都-中国」,是AI做知识推理、精准问答的重要工具。
14. 文本纠错(Text Correction)自动识别并修正文本中的错别字、语法错误、标点错误、语句不通顺的问题,是输入法、文案工具、内容审核的常用功能。
15. 关键词提取(Keyword Extraction)自动从文本中提取出最核心、最能代表文本主题的关键词和关键短语,是文本分析、搜索引擎、内容推荐的基础技术。
八、计算机视觉(CV)与AIGC专项术语
1. 计算机视觉(Computer Vision, CV)AI的核心分支,研究如何让计算机「看懂」图像和视频,模拟人类的视觉能力,完成识别、检测、分割、生成等任务。
2. AIGC(AI Generated Content,人工智能生成内容)用AI技术自动生成文本、图像、语音、视频、3D模型、代码、音乐等各类内容的技术总称,是当前AI最热门的应用方向。
3. 文生图(Text-to-Image, T2I)根据用户输入的文本提示词,用AI自动生成对应的图像,是当前最成熟的AIGC应用之一。
4. 文生视频(Text-to-Video, T2V)根据用户输入的文本提示词,用AI自动生成对应的视频内容,是当前AIGC的核心发展方向。
5. 图生图(Image-to-Image, I2I)根据用户输入的参考图片和提示词,用AI对图片进行修改、重绘、风格转换、画质提升,生成新的图片。
6. 图生视频(Image-to-Video, I2V)根据用户输入的参考图片,用AI把静态图片转换成动态的视频内容。
7. 视频生视频(Video-to-Video, V2V)根据用户输入的参考视频和提示词,用AI对视频进行风格转换、内容修改、画质提升、时长扩展,生成新的视频。
8. 文生3D(Text-to-3D, T23D)根据用户输入的文本提示词,用AI自动生成3D模型,是AIGC的新兴方向。
9. 潜在扩散模型(Latent Diffusion Model, LDM)当前AI绘画、图像生成的主流底层架构,把图像压缩到潜在空间中进行加噪和去噪,大幅降低计算量,提升生成速度和质量,Stable Diffusion就是基于该架构。
10. 去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)扩散模型的基础版本,定义了扩散模型的核心加噪和去噪流程,是所有扩散模型的理论基础。
11. 控制网络(ControlNet)AI绘画的核心控制工具,通过姿态、深度、边缘、线稿等参考图,精准控制AI生成图像的构图、人物姿态、物体结构,解决生成内容不可控的问题。
12. 重绘(Inpainting)对图片的指定局部区域进行重新绘制,修改局部内容,同时保持图片其他区域不变,多用于图片修图、内容修改。
13. 扩图/外绘(Outpainting)对图片的边缘进行扩展,补全图片之外的内容,扩大图片的尺寸和画面范围。
14. CFG Scale(Classifier-Free Guidance Scale,引导尺度)AI绘画的核心参数,控制生成的图片和提示词的匹配程度,数值越高,图片越贴合提示词;数值越低,生成的创意性越强。
15. 采样器(Sampler)扩散模型中,从噪声中逐步去噪生成图片的算法,不同的采样器生成的图片风格、速度、质量有差异,常见的有Euler、DPM++、DDIM等。
16. 采样步数(Sampling Steps)AI生成图片时,去噪的迭代步数,步数越多,生成的图片细节越丰富、质量越高,但生成速度越慢,通常20-30步就能达到较好的效果。
17. Checkpoint(模型权重文件/底模)预训练完成的AI绘画基础大模型,决定了生成图片的整体风格、画质、基础能力,是AI绘画的核心底座。
18. LoRA模型(AI绘画)轻量级的AI绘画定制模型,用少量图片训练而成,用于给底模添加特定的风格、人物、物体、场景,无需改动底模,可灵活插拔使用。
19. VAE(变分自编码器,Variational Auto-Encoder)扩散模型的组件之一,负责图像和潜在空间之间的编码和解码,影响生成图片的色彩、细节和画质。
20. 蒙版(Mask)在AI绘画重绘时,用来标记需要修改的区域的黑白遮罩,白色区域为需要重绘的部分,黑色区域保持不变。
21. 光学字符识别(Optical Character Recognition, OCR)从图片、扫描件、PDF、视频中提取文字内容,把图像中的文字转换成可编辑的文本,是最常用的CV落地技术之一。
22. 目标检测(Object Detection)CV的基础任务,在图片/视频中定位并识别出物体的位置和类别,比如人脸、车辆、行人、商品,是安防、自动驾驶、智能巡检的核心技术。
23. 图像分割(Image Segmentation)对图片进行像素级的划分,把图片中的不同物体、不同区域精准分割出来,分为语义分割、实例分割、全景分割。
24. 人脸识别(Face Recognition)基于人脸的特征信息,进行身份识别和验证的技术,包括人脸检测、人脸关键点定位、人脸特征提取、人脸比对,是安防、门禁、身份核验的常用技术。
25. 图像超分辨率(Image Super-Resolution)用AI提升图片的分辨率和画质,把低清模糊的图片转换成高清清晰的图片,修复图片细节。
26. 视频超分(Video Super-Resolution)用AI提升视频的分辨率、帧率、画质,修复模糊的视频,把低清视频转换成高清视频。
27. 视频插帧(Video Frame Interpolation)用AI给视频补充中间帧,提升视频的帧率,让视频更流畅,解决视频卡顿、掉帧的问题。
28. AI数字人(AI Digital Human)用AI技术生成的虚拟数字人物,具备形象、声音、动作、对话能力,可用于直播、短视频、客服、品牌代言等场景。
29. 唇形同步(Lip Sync)让数字人的嘴型和语音内容精准匹配,实现口型和说话内容同步,是数字人制作的核心技术。
30. 动作捕捉(Motion Capture, MoCap)捕捉人的肢体动作、面部表情,转换成数字信号,驱动数字人、3D模型做出对应的动作和表情。
31. 神经辐射场(Neural Radiance Field, NeRF)用AI从2D图片中重建出3D场景和物体,实现照片级的3D视图渲染,是3D内容生成、数字孪生的核心技术。
32. 高斯泼溅(3D Gaussian Splatting, 3DGS)新一代的3D场景重建和渲染技术,比NeRF速度更快、渲染效果更真实、对硬件要求更低,是当前3D AIGC的热门技术。
33. 深度伪造(Deepfake)用AI技术对图像、视频中的人脸、声音进行替换、伪造,生成逼真的虚假内容,存在严重的安全和伦理风险。
九、多模态AI专项术语
1. 多模态(Multimodal)指文本、图像、语音、视频、3D、传感器信号等不同类型的信息载体,每一种类型称为一个模态。
2. 多模态大模型(Multimodal Large Language Model, MLLM)能同时处理和理解文本、图像、语音、视频等多种模态信息的大语言模型,能实现图文问答、文生图、视频理解、语音对话等跨模态任务,是当前大模型的主流发展方向。
3. 跨模态(Cross-modal)不同模态之间的转换和关联,比如文本转图像、图像转文本、语音转文本,核心是让不同模态的信息在语义空间中实现对齐。
4. 跨模态对齐(Cross-modal Alignment)让不同模态的信息(比如文本「猫」和猫的图片)在模型的特征空间中对应起来,让模型能理解不同模态之间的语义关联,是多模态模型的核心基础。
5. 视觉语言模型(Vision-Language Model, VLM)能同时处理和理解图像和文本的多模态模型,能实现图文问答、图像描述、图文检索、视觉推理等任务,是多模态大模型的核心分支。
6. 视觉编码器(Vision Encoder)多模态模型的核心组件,负责把图像、视频等视觉信息转换成模型能处理的特征向量,和文本的嵌入向量对齐,让模型能理解视觉内容。
7. 多模态融合(Multimodal Fusion)把文本、图像、语音等不同模态的特征信息,按照合理的方式融合在一起,让模型能综合利用多模态的信息,做出更准确的判断和生成。
8. 跨模态检索(Cross-modal Retrieval)用一种模态的内容,检索另一种模态的相关内容,比如用文本搜图片、用图片搜文本、用视频搜文案。
9. 多模态思维链(Multimodal Chain-of-Thought, MCoT)让多模态模型结合图像和文本信息,分步推理,先理解视觉内容,再结合文本问题,一步步思考给出答案,大幅提升多模态模型的复杂推理能力。
十、语音交互专项术语
1. 自动语音识别(Automatic Speech Recognition, ASR)把人类的语音音频转换成文本内容,也就是语音转文字(Speech-to-Text, STT),是语音交互的第一步。
2. 文本转语音(Text-to-Speech, TTS)把文本内容合成为自然流畅的人类语音,也就是语音合成,是语音交互的核心环节。
3. 语音克隆(Voice Cloning)用少量的用户语音样本,克隆复刻用户的音色、说话风格、语气,让AI合成的语音和目标人的声音几乎一致。
4. 声纹识别(Voiceprint Recognition)通过人的声音特征,识别说话人的身份,用于身份核验、门禁、安防等场景。
5. 语音唤醒(Wake Word Detection / Keyword Spotting, KWS)设备在待机状态下,通过指定的唤醒词,唤醒语音助手,开始接收语音指令,是智能音箱、车载语音的必备功能。
6. 口语理解(Spoken Language Understanding, SLU)对语音识别出来的文本,进行意图识别、槽位填充、语义理解,读懂用户语音指令的真实需求,是语音对话系统的核心。
7. 语音端点检测(Voice Activity Detection, VAD)自动识别音频中人类说话的开始和结束位置,过滤掉静音和背景噪音,只对有效语音进行识别,提升ASR的准确率和效率。
8. 语音增强(Speech Enhancement)过滤掉语音音频中的背景噪音、回声、干扰,提升语音的清晰度和信噪比,提升嘈杂环境下的语音识别准确率。
9. 语音情感识别(Speech Emotion Recognition, SER)从语音音频中识别说话人的情绪状态,比如开心、愤怒、悲伤、紧张,多用于智能客服、心理咨询、舆情分析。
十一、AI工程化、部署与算力术语
1. MLOps(机器学习运维,Machine Learning Operations)把机器学习模型的开发、训练、部署、监控、运维全流程标准化、自动化的工程体系,提升AI模型的落地效率和稳定性。
2. LLMOps(大语言模型运维,Large Language Model Operations)针对大语言模型的MLOps,专门适配大模型的微调、部署、推理优化、监控、版本管理全流程,是当前大模型工程化的核心体系。
3. 推理优化(Inference Optimization)通过量化、KV缓存、算子优化、模型编译、分布式推理等技术,提升大模型的推理速度、降低延迟、减少显存占用、提升并发能力,是大模型落地的核心环节。
4. 分布式训练(Distributed Training)把大模型的训练任务拆分到多个GPU/多个服务器上并行执行,解决单卡显存不足、训练速度过慢的问题,是训练大模型的必备技术。
5. 数据并行(Data Parallelism)分布式训练的基础方案,把训练数据拆分到多个GPU上,每个GPU都有完整的模型,各自计算梯度,再汇总更新参数,提升训练速度。
6. 模型并行(Model Parallelism)针对超大模型的分布式训练方案,把模型的不同层、不同参数拆分到多个GPU上,每个GPU只负责模型的一部分计算,解决单卡放不下大模型的问题,分为张量并行、流水线并行等。
7. 云端部署(Cloud Deployment)把AI模型部署在云端服务器上,通过API接口对外提供服务,用户通过网络调用AI能力,是当前最主流的部署方式。
8. 端侧部署/边缘部署(On-device Deployment / Edge Deployment)把AI模型直接部署在手机、电脑、摄像头、工控机等终端设备上,模型在本地运行,不需要上传数据到云端,响应速度更快、隐私性更好。
9. 端云协同(Device-Cloud Collaboration)结合端侧和云端的优势,简单的任务在端侧本地处理,复杂的任务上传到云端大模型处理,兼顾响应速度、隐私性和模型能力。
10. 私有化部署(Private Deployment)把AI模型和服务部署在企业自己的服务器和私有网络中,数据不经过第三方,保障数据安全和隐私,是金融、政务、医疗等对数据安全要求高的行业的主流部署方式。
11. 模型即服务(Model-as-a-Service, MaaS)把AI大模型的能力封装成标准化的API服务,用户不需要自己训练和部署模型,直接通过接口调用,按需付费使用,是当前大模型商业化的主流模式。
12. 推理引擎(Inference Engine)专门优化过的软件框架,用于高效执行AI模型的推理过程,提升推理速度,降低硬件占用,常见的有TensorRT、ONNX Runtime、vLLM、Text Generation Inference(TGI)。
13. 模型服务化(Model Serving)把训练好的AI模型封装成标准化的API服务,对外提供推理能力,同时管理服务的并发、扩容、监控、版本迭代。
14. 模型漂移(Model Drift)模型部署上线后,因为真实场景的数据分布和训练数据发生变化,导致模型的效果持续下降,是AI模型运维需要重点监控和解决的问题。
15. 算力(Computing Power)计算机处理AI计算任务的能力,核心是GPU、NPU、TPU等AI加速芯片的浮点运算能力,是训练和运行大模型的核心基础资源。
16. FLOPs(每秒浮点运算次数)衡量算力和模型计算量的核心单位,FLOPs越高,算力越强,模型的计算量越大。
17. GPU(图形处理器,Graphics Processing Unit)当前AI训练和推理的核心硬件,具备强大的并行计算能力,远超CPU,是大模型训练和AIGC生成的主力芯片。
18. NPU(神经网络处理器,Neural Processing Unit)专门为神经网络计算设计的AI加速芯片,针对AI推理和训练做了深度优化,能效比更高,多用于端侧设备和国产AI算力场景。
19. TPU(张量处理器,Tensor Processing Unit)谷歌专门为Transformer模型和AI计算设计的AI加速芯片,主要用于谷歌自身的大模型训练和云端服务。
20. 显存(Video Memory, VRAM)GPU上的高速内存,用于存储模型的参数、计算过程中的中间数据,显存的大小决定了能运行的模型的最大规模,是AI显卡的核心指标。
21. CUDA(Compute Unified Device Architecture,计算统一设备架构)英伟达推出的并行计算平台和编程模型,让GPU能用于通用的AI计算,是当前AI训练和推理的主流软件生态。
22. 张量核心(Tensor Core)英伟达GPU上专门为矩阵运算设计的计算单元,是Transformer模型和AI计算的核心,大幅提升AI训练和推理的速度。
23. API(应用程序编程接口,Application Programming Interface)把AI能力封装成标准化的接口,其他软件和系统可以通过接口调用AI的能力,不需要了解模型的底层实现。
24. SDK(软件开发工具包,Software Development Kit)封装了AI能力的开发工具包,提供了现成的接口、函数、示例代码,帮助开发者快速把AI能力集成到自己的应用中。
十二、AI安全、伦理与合规术语
1. AI对齐(AI Alignment)让AI的行为、目标、输出,和人类的意图、价值观、安全规范、伦理要求保持一致,避免AI生成有害内容、做出不符合人类预期的行为,是大模型安全的核心研究方向。
2. 价值对齐(Value Alignment)让AI的目标和价值观,和人类的主流价值观、伦理道德保持一致,避免AI产生和人类相悖的目标和行为。
3. 意图对齐(Intent Alignment)让AI能准确理解人类的真实意图,输出符合用户真实需求的内容,避免误解用户的指令,同时避免被恶意指令诱导。
4. 护栏(Guardrails)给AI模型设定的安全规则、输出边界、禁止项,通过系统提示、对齐训练、内容审核等技术,限制AI生成有害、违规、虚假的内容,保障AI输出的安全。
5. 红队测试(Red Teaming)针对AI模型的安全测试,由专门的红队人员,通过各种对抗性的提示词、攻击方式,主动寻找模型的安全漏洞、越狱风险、偏见问题,提前发现并修复模型的安全隐患。
6. 对抗攻击(Adversarial Attack)通过构造特殊的输入(对抗样本、恶意提示词),让AI模型出现错误的输出、绕过安全护栏、泄露隐私信息,是AI安全的主要威胁。
7. 对抗样本(Adversarial Example)在原始输入中加入人眼无法察觉的微小扰动,让AI模型出现错误的识别和判断,比如给图片加微小的噪声,让图像识别模型把猫识别成狗。
8. 模型投毒(Model Poisoning)给模型的训练数据中加入恶意的、有毒的数据,让模型学到错误的知识、产生后门、生成有害内容,是针对AI模型训练环节的攻击方式。
9. 差分隐私(Differential Privacy)一种隐私保护技术,在模型训练过程中加入适量的噪声,让攻击者无法从训练好的模型中反推出训练数据中的个人隐私信息,保障训练数据的隐私安全。
10. 可解释AI(Explainable AI, XAI)研究如何让AI模型的决策过程、输出结果变得可理解、可追溯、可解释,打破AI的「黑箱」,让人类知道AI为什么做出这样的判断,是AI合规和可信的核心要求。
11. 算法偏见(Algorithm Bias)因为训练数据的不平衡、标注的偏见、模型设计的缺陷,导致AI模型对特定性别、种族、地域、群体产生不公平的判断和歧视性输出,是AI伦理的核心问题。
12. 内容安全(Content Safety)通过技术手段,检测和过滤AI生成的色情、暴力、恐怖、仇恨、虚假信息、违规违法等有害内容,保障AI输出的内容安全合规。
13. 数字水印(Digital Watermarking)在AI生成的图像、视频、文本中,嵌入人眼无法察觉的隐形水印,用于溯源AI生成的内容,识别深度伪造内容,保障AIGC内容的可追溯性。
14. 负责任的AI(Responsible AI)AI开发和落地的核心理念,要求AI的研发、部署、使用全流程,都遵循公平、透明、安全、隐私保护、伦理合规的原则,避免AI带来的负面风险。
15. 可信AI(Trustworthy AI)具备安全可靠、可解释、公平公正、隐私保护、可控可管等特性的AI系统,是AI大规模落地应用的基础。
十三、行业应用与商业化新词
1. AI原生应用(AI-Native Application)从底层设计开始,就以AI大模型为核心能力驱动的应用,而非在传统应用中简单加入AI功能,是未来AI应用的主流形态。
2. Copilot(副驾驶)嵌入到各类软件和工作场景中的AI助手,能辅助用户完成写作、编码、设计、数据分析、办公等各类工作,提升工作效率,是当前AI应用最主流的形态。
3. 垂直大模型(Vertical LLM)针对医疗、法律、金融、工业、教育等特定垂直行业,用行业专业数据训练优化的大模型,在该行业内的专业性、准确率远超通用大模型。
4. 数字孪生(Digital Twin)用数字技术,在虚拟空间中复刻现实世界中的物理实体、场景、流程,通过AI模拟、分析、优化实体的运行状态,多用于工业制造、城市管理、建筑、自动驾驶等场景。
5. RPA+AI把机器人流程自动化(RPA)和AI大模型结合,让RPA不仅能执行固定的流程,还能通过AI理解非结构化数据、自主决策、处理异常情况,实现更智能的自动化办公。
6. 自适应学习(Adaptive Learning)AI教育的核心模式,通过AI分析学生的学习情况、知识薄弱点,自动为学生定制个性化的学习计划和内容,实现因材施教。
7. 工业大模型(Industrial LLM)针对工业制造场景的垂直大模型,能理解工业数据、工艺知识、设备参数,辅助完成工业设计、生产调度、设备故障诊断、质量检测等任务。
8. AI代码助手(AI Code Assistant)嵌入到开发工具中的AI助手,能辅助开发者完成代码生成、代码补全、代码调试、漏洞检测、代码注释等工作,大幅提升开发效率。
9. 低代码/无代码(Low-Code / No-Code)通过可视化的拖拽操作和AI辅助,不需要写代码或者只需要写少量代码,就能快速开发应用系统,AI大模型大幅降低了低代码/无代码的使用门槛。
十四、行业黑话与应用场景新词
1. 炼丹:指AI模型的训练过程,像炼丹一样,需要调整各种参数、优化数据配方,最终的效果有一定的不确定性,行业内把模型训练称为「炼丹」。
2. 炼丹师:调侃AI算法工程师、模型训练工程师。
3. 调参侠:调侃只会调整模型超参数,不懂底层算法原理的算法从业者。
4. 玄学:指AI训练和使用中,无法用理论完全解释、全靠经验和运气的现象。
5. 收敛了:原指模型训练时损失函数稳定,效果达标;现也调侃事情有了结果、人终于想通了。
6. 炸了/不收敛:原指模型训练失败,损失函数飙升,效果完全不行;现也调侃事情搞砸了、人情绪崩溃了。
7. 平替模型:指效果接近GPT等闭源大模型的开源小模型,能低成本替代闭源模型使用。
8. 底座:指通用基础大模型,是二次开发、微调、搭建AI应用的底层核心。
9. 喂数据:指给模型训练输入数据,也调侃给AI提供参考资料。
10. 刷榜:指在大模型的权威测评榜单上,通过各种方式优化模型,刷高榜单分数,证明模型的能力。
11. SOTA(State-of-the-Art):指当前行业内效果最优的模型、算法、方案。
12. 咒语:调侃AI绘画、AI生成中的提示词,尤其是复杂的、能生成优质内容的关键词组合。
13. 出图/跑图:指AI绘画生成图片的过程。
14. 翻车:指AI生成的内容完全不符合预期,出现畸形、错误、逻辑混乱的问题。
15. 嘴替:调侃AI能精准帮人说出想说又说不出来的话,写出想写又写不好的文案。
16. 一本正经地胡说八道:形容AI幻觉的经典表述,指AI看似逻辑严谨、语气肯定,实则全是编造的虚假内容,现也成为网络通用热词。
17. 上下文没了:调侃人忘了之前说的话,记不住对话的前情,对应大模型的上下文窗口限制。
18. 投毒:指给模型的训练数据中加入恶意内容,让模型学到错误的知识,也用于调侃给AI提供错误的参考资料。
19. 黑箱:指AI的思考/决策过程无法解释,没人知道它是怎么得出当前结果的。
(注:AI辅助整理,仅供参考)
夜雨聆风