AI Coding 名词百科全书

收录 AI Coding 领域 100+ 核心名词，涵盖编程范式、工具产品、技术机制、工程实践、协议标准与评估体系，每个名词配有详细解释与横向对比。

全景思维导图

AI Coding 核心概念体系一览。

工具形态演进路径

从传统 IDE 补全到完全自主编程的六阶段演进。

Coding Agent 工作原理时序

一次完整 Coding Agent 任务的内部执行流程。

上下文管理架构

Coding Agent 如何构建、压缩和利用代码上下文。

三种开发范式对比

Vibe Coding、传统开发与 AI 增强开发的工作流对比。

一、编程范式

Vibe Coding

Vibe Coding 由 Andrej Karpathy（前特斯拉 AI 总监、OpenAI 联合创始人）于 2025 年 2 月提出。核心理念是：完全用自然语言驱动编程，忽略代码细节，凭感觉（vibe）和 AI 协作推进项目。

Karpathy 原话：”There’s a new kind of coding I call ‘vibe coding’, where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.”

工作方式：

用自然语言向 AI 描述想要的功能（”做一个能上传图片并分析情绪的 web app”）
AI 生成完整代码，开发者不读代码，直接运行看效果
哪里不对就继续用语言告诉 AI 修改
遇到报错也直接粘给 AI，让 AI 修（”fix the error”）

适用场景： 原型验证、个人项目、快速 demo、非专业程序员构建工具

局限性： 不适合生产级代码质量要求场景；代码可维护性差；需要AI较强能力支撑

AI Native Coding

AI Native Coding 是指从项目设计之初就将 AI 工具深度嵌入开发流程，而不是把 AI 当成外挂插件。

维度	传统开发	AI Augmented	AI Native Coding
AI 角色	无	补全助手	核心协作者
代码所有权	开发者 100%	开发者主导	人机共同
工作流设计	人工优先	人工+AI	AI 优先
上下文管理	不需要	部分	系统化设计
典型工具	VSCode	GitHub Copilot	Cursor / Trae / Claude Code

AI Native Coding 的核心实践包括：维护 Rules 文件、设计 Context 策略、Prompt Engineering for Code、让 AI 负责完整功能模块而非单行补全。

Prompt-Driven Development（PDD）

Prompt-Driven Development 是以”如何写好 prompt”为核心技能的开发范式。类比 TDD（测试驱动开发），PDD 先写清楚需求 prompt，再让 AI 生成代码，再验证。

核心原则：

明确性：指定语言、框架、函数签名、边界条件
示例驱动：给 AI 提供 input/output 示例
约束声明：告知不允许用哪些库、要遵守哪些规范
迭代细化：一次 prompt 不够完美，用对话迭代

Context Engineering

Context Engineering 是 AI Coding 时代的核心工程能力：设计和管理送给 LLM 的上下文，使其产出最高质量的代码。

与 Prompt Engineering 的区别：

Prompt Engineering 关注单条指令的措辞
Context Engineering 关注整个上下文窗口的组织方式，包括代码库结构、文件引用顺序、Rules 文件、历史对话的裁剪策略

实践要点：

Files to Include：哪些文件要放入上下文（当前文件 + 相关依赖 + 接口定义）
Rules File：CLAUDE.md / .cursor-rules / .windsurfrules 等项目级规则文件
Context Compression：超长对话时如何摘要历史，保留关键信息
RAG for Code：用向量检索找最相关的代码片段，而不是全量塞入

Test-Driven AI Development（TDAD）

在 AI Coding 语境下，先让 AI 写测试用例（或人工写测试），再让 AI 根据测试生成实现代码，用测试作为”规格说明”约束 AI 输出质量。

二、工具形态

Code Completion（代码补全）

最基础的 AI Coding 能力：根据光标前的代码上下文，预测并补全下一段代码。

类型	说明	代表产品
单行补全	补全当前行剩余内容	早期 Copilot
多行/块补全	一次生成多行代码块	Copilot、Cursor
函数体补全	看函数签名生成完整实现	所有主流工具
文件级补全	跨文件感知补全	Cursor、Trae

Inline Suggestion（内联建议）

代码编辑器中以灰色幽灵文字显示的 AI 建议，按 Tab 接受，按 Esc 拒绝。是 Code Completion 的 UX 形态。最早由 GitHub Copilot 推广，现已成为所有 AI IDE 的标配。

FIM（Fill-In-the-Middle，中间填充）

FIM 是一种模型训练和推理范式：给定代码的前缀（prefix）和后缀（suffix），让模型预测中间缺失的部分。

Prefix: def calculate_area(radius):    """计算圆的面积"""Suffix:     return area[FIM 预测中间内容]: area = math.pi * radius ** 2

FIM 使 AI 能感知光标后的代码，避免生成与后续代码冲突的内容，是现代 Code Completion 的核心技术之一。

Next Edit Prediction（NEP，下一处编辑预测）

比 Code Completion 更进一步：预测开发者下一个可能要编辑的位置，而不仅仅是当前光标处。

Cursor 的 Tab 功能支持 NEP：完成一处修改后，AI 会高亮预测下一处需要同步修改的代码，开发者再次按 Tab 即可接受。

Copilot（副驾驶模式）

Copilot 泛指”AI 作为编程副驾驶”的产品形态，具体化为 GitHub Copilot 产品，也代指这类工具的工作模式：AI 辅助、人类主导，AI 提供建议，人类决策。

GitHub Copilot 于 2021 年 6 月发布，是第一个基于大语言模型（OpenAI Codex，后升级为 GPT-4/Claude/Gemini）的商业化 AI Coding 产品，彻底改变了软件开发范式。

AI IDE（AI 集成开发环境）

将 AI 能力深度嵌入编辑器，而不是以插件形式附加的 IDE 产品形态。

产品	基础编辑器	核心差异化
Cursor	VSCode fork	Composer 多文件编辑、Tab NEP
Windsurf	VSCode fork	Cascade 流式对话、深度代码感知
Trae	VSCode fork	小米生态集成、国内模型支持
Zed	自研（Rust）	高性能、原生多人协作

Coding Agent（编程代理）

Coding Agent 是能够自主完成完整编程任务的 AI 系统，区别于 Copilot 的关键特征：

多步推理：将大任务拆解为多个子步骤
工具调用：可以读写文件、执行终端命令、搜索代码库
执行-观察循环：执行动作 → 观察结果 → 调整策略 → 继续执行
长时运行：一次任务可能需要几分钟到几小时

代表产品：Claude Code、Cline、Devin、SWE-agent、OpenHands

Autonomous Coding（自主编程）

比 Coding Agent 更进一步的形态：AI 能够完全自主地理解需求、规划方案、实现代码、测试验证、提交 PR，人类只需在关键节点审批。

Devin（Cognition AI，2024 年 3 月）是第一个号称实现 Autonomous Coding 的商业产品，在 SWE-bench 上达到 13.8% 的解决率。

AI CLI Tool（AI 命令行工具）

在终端（命令行）中直接使用的 AI Coding 工具，适合服务器开发、脚本编写等场景。

工具	特点
Claude Code	Anthropic 官方，Agent 能力强，支持 MCP
Aider	开源，Git 深度集成，支持多模型
GitHub Copilot CLI	解释和生成 shell 命令
Codeium CLI	轻量级，多语言支持

三、主流产品详解与对比

GitHub Copilot

发布： 2021 年 6 月（预览）/ 2022 年 6 月（正式）母公司： Microsoft / GitHub（基于 OpenAI 模型）

第一个商业化 AI Coding 工具，开创了 AI Coding 市场。基于 OpenAI Codex（后升级为 GPT-4o、Claude Sonnet 等多模型可选）。

核心功能： Inline Suggestion、Copilot Chat、Copilot Workspace（Agent 模式）、PR Summary、Code Review

Cursor

发布： 2023 年（Anysphere 公司）定位： AI-first IDE，VSCode fork

Cursor 是 AI IDE 的代表性产品，核心创新点：

Composer：多文件编辑对话界面，可以同时修改多个文件
Tab NEP：预测并高亮下一处编辑位置
Codebase Indexing：对整个代码库建立向量索引，支持 @codebase 语义搜索
Rules for AI：项目级 AI 行为规则文件（.cursor-rules）
支持多模型：GPT-4、Claude、Gemini 等可切换

Windsurf

发布： 2024 年 11 月（Codeium 公司）定位： AI-first IDE，VSCode fork

Codeium 由 Codeium 公司发布，定位与 Cursor 直接竞争。核心特性：

Cascade：流式 Agent 对话，实时展示 AI 的思考和操作过程
Flows：将人机协作步骤可视化为工作流
Deep Context Awareness：深度感知代码库结构和语义

Trae

发布： 2025 年（字节跳动）定位： AI-first IDE，面向国内开发者

字节跳动旗下的 AI IDE 产品，基于 VSCode fork，集成字节旗下 Doubao 等模型。支持 MCP、Builder（Agent 模式）等特性，为国内开发者提供本土化 AI Coding 体验。

Claude Code

发布： 2025 年（Anthropic）定位： AI Coding Agent CLI 工具

Anthropic 官方的 Coding Agent，运行在终端中，特点：

深度 Agent 能力：支持复杂多步编程任务
MCP 集成：支持 Model Context Protocol，可连接外部工具和数据
CLAUDE.md：项目级规则文件，控制 AI 行为
Tool Use：文件读写、终端执行、代码搜索等工具调用

Aider

发布： 2023 年（开源，Paul Gauthier）定位： 终端 AI Coding 工具，开源

开源 AI Coding CLI 工具，特点：

Git 深度集成：自动 commit，每次修改可溯源
多模型支持：GPT-4、Claude、Gemini、本地模型（Ollama）
SEARCH/REPLACE 格式：使用结构化 diff 格式修改代码，减少幻觉
Architect Mode：先规划再实现的两阶段工作流

Cline

发布： 2024 年（开源）定位： VSCode 插件形式的 Coding Agent

开源 Coding Agent，以 VSCode 插件运行。特点：

完整 Agent 循环：读文件、写文件、执行命令、浏览器操作
人工确认机制：每次关键操作需要人工批准（可配置）
MCP 支持：支持 Model Context Protocol 扩展工具
多模型：支持 Claude、GPT-4、DeepSeek 等

Devin

发布： 2024 年 3 月（Cognition AI）定位： 全自主 AI 软件工程师

第一个号称能独立完成软件工程任务的 AI Agent，拥有独立的工作环境（浏览器、终端、编辑器）。在 SWE-bench 上首次突破 13% 解决率，引发行业震动。

Replit Agent

发布： 2024 年（Replit）定位： 云端 AI Coding，从 idea 到部署

在线 IDE Replit 的 AI Agent 功能，特点是全程在云端运行，用自然语言描述需求即可生成并部署应用，适合无编程基础的创建者。

Bolt

发布： 2024 年（StackBlitz）定位： 浏览器内全栈应用生成

基于 WebContainers 技术，在浏览器内运行完整的 Node.js 环境，用自然语言生成全栈 Web 应用，实时预览，支持一键部署到 Netlify 等平台。

v0

发布： 2023 年（Vercel）定位： UI 组件生成工具

Vercel 出品的 AI UI 生成工具，专注于生成 React + Tailwind CSS + shadcn/ui 的前端组件，支持在线编辑、实时预览、一键导出到 Next.js 项目。

主流产品横向对比

产品	类型	运行环境	核心优势	适用场景
GitHub Copilot	Copilot/Agent	IDE 插件	生态最广、稳定	日常开发
Cursor	AI IDE	本地	多文件编辑、NEP	专业开发者
Windsurf	AI IDE	本地	Cascade 流式	专业开发者
Trae	AI IDE	本地	国内模型、中文	国内开发者
Claude Code	Agent CLI	终端	强推理、MCP	复杂任务
Aider	Agent CLI	终端	开源、Git集成	开源爱好者
Cline	Agent	VSCode 插件	开源、可控	开源爱好者
Devin	Autonomous	云端	全自主	企业自动化
Bolt	No-code	浏览器	全栈快速	快速原型
v0	UI 生成	浏览器	UI 组件	前端原型

四、技术机制

RAG（Retrieval-Augmented Generation，检索增强生成）

在 AI Coding 语境中，RAG 指通过向量检索从代码库中找出最相关的代码片段，注入到 LLM 的上下文窗口中，而不是把整个代码库全部塞进去。

流程：

对代码库所有文件建立向量索引（Embedding）
用户提问时，将问题也向量化
用余弦相似度找最相关的 N 个代码片段
将这些片段注入 context，LLM 据此生成回答

优势： 解决 Context Window 有限的问题，让 AI 能处理大型代码库

Codebase Indexing（代码库索引）

AI IDE 对整个项目代码库进行扫描和索引的过程，支撑 RAG 检索和语义搜索。

索引内容通常包括：文件路径、函数名、类名、注释、代码语义、依赖关系。

AST（Abstract Syntax Tree，抽象语法树）

将源代码解析为树状结构，每个节点代表代码的语法结构（函数、类、语句、表达式）。AI Coding 工具利用 AST 精确理解代码结构，支持：

精准的代码修改（不依赖字符串匹配）
符号查找（找所有引用、定义跳转）
代码重构

Tree-sitter

一个高性能、增量式解析器生成库，支持 100+ 编程语言。被 Neovim、GitHub、Helix 等广泛使用。AI IDE 普遍使用 Tree-sitter 解析代码 AST，为代码理解提供结构化基础。

LSP（Language Server Protocol，语言服务器协议）

微软提出的编辑器与语言服务通信协议，将语法高亮、跳转定义、自动补全等功能抽象为标准协议，任何编辑器都可以接入任何语言服务器。

AI IDE（Cursor、Windsurf、Trae）大量复用 LSP 提供的代码分析数据，作为 AI 上下文的补充。

Context Window（上下文窗口）

LLM 一次能处理的最大 token 数量。

模型	Context Window
GPT-3.5-turbo	16K tokens
GPT-4o	128K tokens
Claude 3.5 Sonnet	200K tokens
Claude 3.7 Sonnet	200K tokens
Gemini 1.5 Pro	1M tokens

Context Window 越大，AI 能同时感知的代码越多。但更大的 Context 并不总是更好——中间遗失（Lost in the Middle）问题：LLM 对上下文中间部分的注意力会下降。

Long Context（长上下文）

指模型能处理超长文本（通常 > 100K tokens）的能力。在 AI Coding 中，Long Context 使得 AI 能一次性读入整个大型代码库进行分析，而无需 RAG 截断。

Embeddings（向量嵌入）

将代码片段、函数、文档转换为高维向量的技术。语义相近的代码会有相近的向量表示，是 RAG 和代码语义搜索的基础。

Reranking（重排序）

RAG 检索出候选片段后，用一个更精准的模型对候选片段重新排序，确保最相关的片段排在最前面，提高注入 Context 的质量。

Tokenization（分词）

将代码文本切分为 token 的过程。代码的分词有特殊性：标识符、符号、关键字的分词方式会影响模型理解效率。代码专用模型通常有针对代码优化的 tokenizer（如 tiktoken for code）。

System Prompt（系统提示）

发给 LLM 的全局指令，在 AI Coding 工具中通常包含：工具调用格式、代码规范要求、输出格式约束、角色定义。用户不可见但对模型行为影响最大。

五、工程实践

Scaffolding（脚手架）

在 AI Coding 语境中，Scaffolding 指让 AI 生成项目初始结构——目录结构、配置文件、基础代码框架。用一句话描述项目类型，AI 输出完整可运行的初始项目。

Bolt、v0、Replit Agent 等工具的核心价值之一就是强大的 Scaffolding 能力。

Harness（测试框架 / 执行环境）

Harness 在 AI Coding 中有两层含义：

含义一：AI Test Harness（AI 测试执行框架）一套用于测试和评估 AI Coding 能力的基础设施，包括：

测试任务集（Task Set）：标准化的编程任务
执行环境：沙盒容器，AI 写代码后自动运行测试
评估逻辑：判断 AI 生成代码是否通过所有测试用例
结果收集：Pass@k、解决率等指标统计

SWE-bench、HumanEval 等评测基准都内置了 Harness。

含义二：Harness（软件公司）Harness.io^[1] 是一家 AI-Native DevOps 平台公司，提供 CI/CD、特性标志（Feature Flags）、云成本优化等产品，其产品线已深度集成 AI 能力，提供 AI 辅助的 pipeline 构建、代码变更分析等。

在 AI Coding 讨论中，Harness 更多指”测试框架/执行环境”的通用概念，而非特指 Harness.io 公司产品。

Helmers（人名：与 AI Coding 相关的关键人物）

Helmers 在 AI Coding 领域通常指 Aman Sanger 或相关 Cursor 核心团队成员，也可能是指多位研究者或工程师的姓氏。

更明确地，在 AI Coding 社区中经常被提及的关键人物包括：

人物	身份	贡献
Andrej Karpathy	前特斯拉 AI 总监、OpenAI 联创	提出 Vibe Coding 概念，karpathy/nanoGPT
Aman Sanger	Cursor 联合创始人	推动 AI IDE 普及
Scott Wu	Cognition AI CEO	创建 Devin
Paul Gauthier	Aider 作者	开源 AI Coding CLI 鼻祖
Simon Willison	LLM 研究者	LLM 工程实践传播者

如果你的上下文中”Helmers”指的是特定工具或框架，请结合使用场景判断——它可能是某团队内部工具、某论文作者，或某个具体工程组件的名字。

Diff Mode（差异对比模式）

AI Coding 工具修改代码时，以 diff 格式展示修改内容（红色删除行 / 绿色新增行），让开发者清楚看到 AI 做了哪些改变，再决定是否接受。

所有主流 AI IDE（Cursor、Windsurf、Trae）都有 Diff Mode，这是人机协作的关键 UX 设计——AI 提议，人类决策。

SEARCH/REPLACE（搜索替换格式）

Aider 和 Claude Code 等 CLI 工具使用的代码修改格式：

<<<<<<< SEARCHdef old_function():    return "old"=======def new_function():    return "new">>>>>>> REPLACE

优势：

精确定位：通过匹配代码片段（而非行号）定位修改位置
减少幻觉：结构化格式让模型专注于修改内容
可审查：修改意图清晰，便于人工 review

Rules File（规则文件）

放在项目根目录中，用于指导 AI 行为的配置文件。不同工具名称不同：

工具	规则文件名
Claude Code	CLAUDE.md
Cursor	.cursor-rules / .cursorrules
Windsurf	.windsurfrules
Cline	.clinerules
Aider	.aider.conf.yml

内容通常包括：项目技术栈说明、代码规范、禁止使用的库、输出格式要求、测试要求等。

Boilerplate（样板代码）

重复性的、固定结构的代码模板（如 React 组件框架、Express 路由模板、单元测试框架）。AI Coding 工具极大地减少了手写 Boilerplate 的时间，生成 Boilerplate 是最早被 AI 替代的编程任务之一。

Bug Fix Loop（错误修复循环）

AI Coding 中常见的迭代模式：

AI 生成代码
运行报错
将错误信息粘给 AI
AI 修复代码
再次运行，如仍有错误重复步骤 3-4

这个循环在 Vibe Coding 中尤为典型。

Code Review AI（AI 代码审查）

AI 自动分析 PR/代码变更，给出：

代码质量评估
潜在 Bug 识别
安全漏洞提示
性能问题分析
代码规范检查

代表工具：GitHub Copilot Code Review、CodeRabbit、Qodana AI。

Test Generation（测试生成）

让 AI 根据源代码自动生成单元测试、集成测试。AI 能分析函数边界条件、异常路径，生成覆盖率更高的测试用例。是 TDAD（Test-Driven AI Development）的核心工具。

Refactoring（重构）

AI 辅助代码重构：提取函数、重命名变量、消除重复代码、优化算法复杂度。现代 AI IDE 可以理解重构意图并一次性修改多处相关代码。

Prompt Injection（提示注入攻击）

安全威胁：恶意代码库或文件中嵌入指令，欺骗 AI Agent 执行恶意操作（如删除文件、泄露密钥）。Coding Agent 在处理不受信任的代码库时面临此风险。

六、协议标准

MCP（Model Context Protocol，模型上下文协议）

MCP 是 Anthropic 于 2024 年 11 月发布的开放协议，定义了 AI 模型与外部工具/数据源之间的标准通信接口。

核心思想： 用统一协议替代各工具各自定制的集成方式，类似 USB 标准化了设备接口。

架构组成：

组件	角色
MCP Host	AI 应用（Claude Code、Cursor、Cline 等）
MCP Client	内置于 Host，负责与 Server 通信
MCP Server	提供特定能力的服务（文件系统、数据库、浏览器等）

MCP Server 能提供的能力类型：

Resources：上下文数据（文件、数据库记录、API 响应）
Tools：AI 可以调用的函数（执行命令、查询数据）
Prompts：预定义的提示模板

MCP 已被 Claude Code、Cursor、Windsurf、Cline、Trae 等主流工具支持，成为 Coding Agent 生态的重要基础设施。

Tool Use / Function Calling（工具调用 / 函数调用）

LLM 的核心能力扩展：让模型能够输出”调用外部函数”的指令，宿主程序执行后将结果返回给模型，模型继续推理。

这是 Coding Agent 实现文件操作、终端执行、Web 搜索等能力的基础机制。

用户: 帮我读取 src/main.py 文件AI 内部: [Tool Call] read_file(path="src/main.py")系统: [Tool Result] "def main():\n    print('hello')"AI 输出: 文件内容如下：...

LSP（Language Server Protocol）

见”技术机制”章节。LSP 既是技术机制也是协议标准。

DAP（Debug Adapter Protocol，调试适配器协议）

微软提出的调试器通信协议，与 LSP 配套。部分 AI Coding Agent 通过 DAP 接入调试器，实现 AI 辅助的自动调试（设置断点、读取变量值、分析堆栈）。

OpenAPI / Swagger

API 定义规范。AI Coding 工具能直接读取 OpenAPI 规范文件，自动生成 API 调用代码、类型定义、测试用例。

七、评估体系

HumanEval

由 OpenAI 于 2021 年发布的代码生成评测基准，包含 164 个 Python 编程问题，每题有函数签名、文档字符串和测试用例。

指标： Pass@k（前 k 次生成中至少一次通过所有测试的比例）

模型	HumanEval Pass@1
GPT-4	~85%
Claude 3.5 Sonnet	~90%+
Qwen2.5-Coder-32B	~92%
DeepSeek-Coder-V2	~90%

SWE-bench

软件工程 Agent 评测基准，由 Princeton NLP 发布（2023 年）。

不同于 HumanEval 的算法题，SWE-bench 包含来自 GitHub 真实仓库的 Bug 修复任务：给定一个 issue 描述和代码库，AI 需要生成修复 patch。

SWE-bench Verified（子集）：300 个人工验证的高质量任务SWE-bench Lite：300 个”独立”任务，用于快速评估

Agent	SWE-bench Verified 解决率
Claude 3.5 Sonnet (2024-10)	~49%
o3	~71%
Devin (2024-03 首版)	~13.8%

SWE-bench 已成为衡量 Coding Agent 真实能力的黄金标准。

MBPP（Mostly Basic Python Problems）

Google 发布的 Python 编程基础题评测集，约 374 个有难度的问题，用于评估模型处理非算法类、更贴近实际开发场景的代码生成能力。

Pass@k

评估代码生成模型的核心指标：

Pass@1：一次生成就通过测试的概率（最严格，反映实际使用体验）
Pass@10：生成 10 次中至少一次通过的概率
Pass@100：生成 100 次中至少一次通过的概率

Pass@1 更接近真实使用体验，Pass@k（k>1）反映模型的”能力上限”。

CodeBLEU

基于 BLEU（机器翻译评估指标）改进的代码质量指标，同时考虑：token 匹配、语法 AST 相似度、数据流图相似度。比纯字符串匹配更能反映代码语义质量。

LiveCodeBench

持续更新的代码评测基准，使用 LeetCode、AtCoder、CodeForces 上的新题目（模型训练截止日期之后发布），避免”考试泄题”问题，更真实评估模型的实际编程能力。

BigCodeBench

覆盖 1140 个多样化编程任务的大型基准，任务来自真实开发场景（API 调用、数据处理、文件操作等），而不只是算法题，更接近日常软件开发。

EvoEval

通过对 HumanEval 题目进行语义变形生成的评测集，用于测试模型的泛化能力，而不是记忆训练数据中的解题模式。

八、代码专项模型

Code LLM（代码大语言模型）

专门针对代码数据训练或微调的大语言模型。相比通用 LLM，Code LLM 在代码理解、生成、补全、调试方面更准确，通常用大量开源代码（GitHub、HuggingFace、StackOverflow）训练。

Instruct Model vs Base Model

类型	说明	使用场景
Base Model	在原始代码数据上预训练，无指令跟随能力	研究、继续微调的起点
Instruct Model	在 Base Model 基础上经过 RLHF/SFT 对话微调	直接用于 AI Coding 工具

Qwen2.5-Coder（通义千问代码模型）

发布方： 阿里巴巴通义实验室特点：

支持 0.5B 到 72B 多种尺寸
在 HumanEval、MBPP、LiveCodeBench 上达到顶尖性能
支持 92 种编程语言
强大的代码补全（FIM）和代码推理能力
Qwen2.5-Coder-32B 在多项评测上接近 GPT-4o

DeepSeek Coder / DeepSeek-Coder-V2

发布方： 深度求索（DeepSeek）特点：

DeepSeek-Coder-V2（2024 年 6 月）：236B MoE 架构，开源
在 HumanEval、SWE-bench 等多项评测上达到 GPT-4 级别
支持 338 种编程语言
极具性价比：API 价格远低于 GPT-4

StarCoder2

发布方： BigCode 项目（Hugging Face + ServiceNow）特点：

StarCoder2-15B 是最强的 15B 参数代码模型之一
完全开源（BigCode OpenRAIL-M 许可证）
训练数据：The Stack v2（来自 GitHub 的 619 种语言代码）

CodeLlama

发布方： Meta AI（2023 年 8 月）特点：

基于 Llama 2 专门针对代码微调
提供 7B、13B、34B 三种尺寸
CodeLlama-Instruct 支持对话式代码编写
Infilling（FIM）能力：支持代码中间填充

Claude（代码能力）

Anthropic 的旗舰模型系列，在代码生成、理解、重构方面尤为突出：

Claude 3.5 Sonnet：SWE-bench Verified ~49%，是 Coding Agent 最常用的底座模型
Claude 3.7 Sonnet：引入扩展思考（Extended Thinking），代码推理能力进一步增强
是 Cursor、Cline、Claude Code 等主流工具的默认/推荐模型

GPT-4o / o3

OpenAI 的多模态模型系列：

GPT-4o：多模态（文本+图像），代码能力强，HumanEval ~90%
o3：推理增强版，SWE-bench ~71%，代码 Agent 能力目前最强

Codex

OpenAI 于 2021 年发布的代码专用模型，是 GitHub Copilot 最初的底座模型。Codex 基于 GPT-3 在大量代码数据上微调，开创了 AI Coding 时代，已于 2023 年被更强的 GPT-4 系列取代（Codex API 已下线）。

Fine-tuning（微调）

在预训练模型基础上，用特定领域数据进行二次训练，使模型更好地适应特定任务或代码风格。

在 AI Coding 中，企业常对开源 Code LLM 进行 Fine-tuning：

学习公司内部代码规范
适应私有库和 API 使用方式
提高特定业务领域代码生成质量

RLHF（Reinforcement Learning from Human Feedback）

人类反馈强化学习，让模型根据人类偏好优化输出质量。在 Code LLM 中，RLHF 使模型生成的代码不仅功能正确，还符合可读性、安全性等人类偏好。

九、名词速查表（100+ 词汇一览）

名词	中文	类别	一句话定义
Vibe Coding	氛围编程	编程范式	Karpathy 提出，用自然语言驱动、凭感觉与 AI 协作的编程方式
AI Native Coding	AI 原生编码	编程范式	从立项起就将 AI 深度嵌入开发全流程的范式
Prompt-Driven Dev	提示驱动开发	编程范式	以写好 prompt 为核心技能的开发范式
Context Engineering	上下文工程	编程范式	设计和管理送给 LLM 上下文的系统性工程能力
Test-Driven AI	AI 测试驱动	编程范式	先让 AI 写测试再生成实现的开发范式
Code Completion	代码补全	工具形态	根据光标前代码上下文预测并补全后续代码
Inline Suggestion	内联建议	工具形态	编辑器中灰色显示的 AI 建议，Tab 接受
FIM	中间填充	工具形态	给定前后缀让模型预测中间缺失代码的技术
Next Edit Prediction	下一处编辑预测	工具形态	预测开发者下一个可能需要修改的位置
Copilot	副驾驶	工具形态	AI 辅助、人类主导的编程协作模式
AI IDE	AI 集成开发环境	工具形态	AI 能力深度嵌入编辑器的 IDE 产品形态
Coding Agent	编程代理	工具形态	能自主完成完整编程任务、支持工具调用的 AI 系统
Autonomous Coding	自主编程	工具形态	AI 全自主规划、实现、测试、提交代码的形态
AI CLI Tool	AI 命令行工具	工具形态	在终端中使用的 AI Coding 工具
GitHub Copilot	–	主流产品	首个商业化 AI Coding 工具，Microsoft/GitHub 出品
Cursor	–	主流产品	AI-first IDE，Composer 多文件编辑，NEP 功能
Windsurf	–	主流产品	Codeium 出品 AI IDE，Cascade 流式对话
Trae	–	主流产品	字节跳动 AI IDE，面向国内开发者
Claude Code	–	主流产品	Anthropic 官方 AI Coding Agent CLI 工具
Aider	–	主流产品	开源 AI Coding CLI，Git 深度集成
Cline	–	主流产品	开源 VSCode 插件 Coding Agent，支持 MCP
Devin	–	主流产品	首个全自主 AI 软件工程师，Cognition AI 出品
Replit Agent	–	主流产品	云端 AI Coding，从需求到部署全流程
Bolt	–	主流产品	StackBlitz 出品，浏览器内全栈应用生成
v0	–	主流产品	Vercel 出品，React + Tailwind UI 组件生成
OpenHands	–	主流产品	前身 OpenDevin，开源 Coding Agent 框架
SWE-agent	–	主流产品	Princeton 出品，开源自主代码修复 Agent
RAG	检索增强生成	技术机制	向量检索最相关代码片段注入 LLM 上下文
Codebase Indexing	代码库索引	技术机制	AI IDE 对项目代码建立向量索引的过程
AST	抽象语法树	技术机制	源代码的树状结构表示，用于精确代码分析
Tree-sitter	–	技术机制	高性能增量代码解析库，支持 100+ 语言
Embeddings	向量嵌入	技术机制	将代码转为高维向量，支持语义搜索
Reranking	重排序	技术机制	RAG 检索后对候选片段按相关性重新排序
Context Window	上下文窗口	技术机制	LLM 一次能处理的最大 token 数量
Long Context	长上下文	技术机制	模型能处理超长文本（100K+ tokens）的能力
Tokenization	分词	技术机制	将代码文本切分为 token 的过程
System Prompt	系统提示	技术机制	发给 LLM 的全局指令，控制模型行为
Lost in the Middle	中间遗失	技术机制	LLM 对上下文中间部分注意力下降的问题
Scaffolding	脚手架	工程实践	让 AI 生成项目初始结构的能力
Harness	测试框架	工程实践	AI 评测中的测试执行基础设施；也指 DevOps 公司
Helmers	相关人物	工程实践	AI Coding 领域关键人物（如 Karpathy 等）的泛称
Diff Mode	差异对比模式	工程实践	以红绿差异展示 AI 修改内容，供人工审查
SEARCH/REPLACE	搜索替换格式	工程实践	Aider/Claude Code 的结构化代码修改格式
Rules File	规则文件	工程实践	项目级 AI 行为约束文件（CLAUDE.md 等）
Boilerplate	样板代码	工程实践	重复性固定结构的代码模板
Bug Fix Loop	错误修复循环	工程实践	AI 生成→报错→粘给AI修→再次运行的迭代模式
Code Review AI	AI 代码审查	工程实践	AI 自动分析 PR，识别 Bug 和安全漏洞
Test Generation	测试生成	工程实践	AI 根据源代码自动生成测试用例
Refactoring	重构	工程实践	AI 辅助的代码结构优化，保持功能不变
Prompt Injection	提示注入	工程实践	恶意代码嵌入指令欺骗 AI Agent 的安全威胁
Sandboxing	沙箱	工程实践	隔离 AI Agent 执行环境，防止意外破坏
PR Summary	PR 摘要	工程实践	AI 自动生成 Pull Request 的描述和变更摘要
MCP	模型上下文协议	协议标准	Anthropic 发布的 AI 工具接入标准协议
Tool Use	工具调用	协议标准	LLM 输出外部函数调用指令的能力
Function Calling	函数调用	协议标准	OpenAI 定义的结构化工具调用接口规范
LSP	语言服务器协议	协议标准	编辑器与语言服务通信的标准协议
DAP	调试适配器协议	协议标准	编辑器与调试器通信的标准协议
OpenAPI	–	协议标准	REST API 定义规范，AI 可读取自动生成调用代码
HumanEval	–	评估体系	OpenAI 发布的 164 题 Python 代码生成基准
SWE-bench	–	评估体系	GitHub 真实 Bug 修复任务的 Agent 评测基准
MBPP	–	评估体系	Google 发布的 Python 编程基础题评测集
Pass@k	–	评估体系	生成 k 次中至少一次通过测试的概率指标
CodeBLEU	–	评估体系	结合 token/AST/数据流的代码质量评估指标
LiveCodeBench	–	评估体系	使用最新竞赛题目持续更新的代码评测基准
BigCodeBench	–	评估体系	1140 个真实开发场景的大型代码评测基准
EvoEval	–	评估体系	HumanEval 语义变形版，测试模型泛化能力
Code LLM	代码大模型	代码模型	专门针对代码数据训练的大语言模型
Qwen2.5-Coder	千问代码	代码模型	阿里巴巴发布，0.5B~72B，支持 92 种语言
DeepSeek-Coder	深度求索代码	代码模型	深度求索发布，236B MoE，开源，高性价比
StarCoder2	–	代码模型	BigCode 项目出品，完全开源代码模型
CodeLlama	–	代码模型	Meta AI 发布，基于 Llama 2 的代码微调模型
Codex	–	代码模型	OpenAI 发布，GitHub Copilot 最初底座，已停服
Claude	–	代码模型	Anthropic 旗舰模型，SWE-bench 最强之一
GPT-4o	–	代码模型	OpenAI 多模态模型，代码能力强
o3	–	代码模型	OpenAI 推理增强模型，SWE-bench ~71%
Fine-tuning	微调	代码模型	在预训练模型上用特定数据二次训练
RLHF	人类反馈强化学习	代码模型	用人类偏好优化模型输出质量的训练方法
SFT	监督微调	代码模型	用标注对话数据微调，让模型学会指令跟随
Base Model	基础模型	代码模型	预训练阶段的原始模型，无指令跟随能力
Instruct Model	指令模型	代码模型	经 RLHF/SFT 微调后可对话的模型
MoE	混合专家架构	代码模型	大参数量模型的高效架构，每次只激活部分参数
The Stack	–	代码模型	BigCode 整理的开源代码训练数据集
Composer	–	产品特性	Cursor 的多文件编辑对话界面
Cascade	–	产品特性	Windsurf 的流式 Agent 对话功能
Builder	–	产品特性	Trae 的 Coding Agent 工作模式
Copilot Workspace	–	产品特性	GitHub Copilot 的任务级 Agent 功能
Agent Mode	Agent 模式	产品特性	AI IDE 中的多步自主执行工作模式
Chat Mode	对话模式	产品特性	AI IDE 中的问答对话功能
Edit Mode	编辑模式	产品特性	AI IDE 中单文件 AI 直接编辑的功能
CLAUDE.md	–	配置文件	Claude Code 的项目级 AI 行为规则文件
.cursor-rules	–	配置文件	Cursor 的项目级 AI 行为规则文件
.windsurfrules	–	配置文件	Windsurf 的项目级 AI 行为规则文件
WebContainers	–	技术	StackBlitz 的浏览器内 Node.js 运行时技术
Architect Mode	架构师模式	工具特性	Aider 的先规划再实现两阶段工作流
Flows	流	工具特性	Windsurf 中人机协作步骤的可视化工作流
@codebase	–	交互方式	Cursor 中引用整个代码库进行语义搜索的命令
Agentic AI	代理式 AI	概念	能自主规划、执行、反思、调整的 AI 系统
ReAct	推理-行动	概念	Reasoning + Acting，Agent 的思考-行动交替模式
Chain-of-Thought	思维链	概念	让模型逐步推理的提示技术，提高复杂任务准确性
Hallucination	幻觉	概念	LLM 生成不存在的函数、API 或错误代码的现象

本文档收录 AI Coding 领域 100+ 核心名词，持续更新中。如有补充或纠错，欢迎评论。

引用链接

[1]Harness.io: https://harness.io