AI Agent 代码为什么“能用却无品味”-夜雨聆风

AI Agent 代码为什么“能用却无品味”

从技术机制、文化环境到工程治理，重建人机共智时代的代码美学

摘要

AI Agent 生成的代码常常能够跑通，却未必经得起维护、扩展、安全审查和团队协作的检验。所谓“品味”，并不是装饰性的审美判断，而是对边界、抽象、命名、复杂度、异常、长期演进和人机责任分工的综合把握。内容为五个部分：先界定“能用”与“有品味”的差异，再分析技术机制、社会文化、工程实践三类成因，最后提出以规范驱动开发、审查闭环和“总编辑”角色为核心的治理路径。

导语

过去一年，AI Agent 从概念展示走向日常开发现场。它们能够读取文件、调用工具、搜索资料、编写代码、运行测试，甚至根据报错进行多轮修复。对很多团队来说，Agent 带来的第一印象是效率：过去需要半天搭好的脚手架，现在几分钟就能生成；过去需要反复查文档的 API 调用，现在一句自然语言就能拼出可运行版本。

但效率的另一面也越来越清楚：这些代码往往“能用”，却不一定“好用”；可以通过最初的测试，却难以承受第二次需求变更；能够完成局部功能，却破坏了系统整体结构。代码表面上解决了问题，实际上把复杂性转移给了后续维护者。本文所说的“没品味”，正是指这种功能可用与工程质量之间的断裂。

这不是简单的“模型还不够聪明”。它同时来自模型机制、训练数据、上下文管理、开发文化和组织流程。若继续用“能跑就行”的标准评价 Agent，团队很可能在短期效率提升之后，面对更隐蔽、更分散、更难归责的技术债。

一、问题不是不会写，而是只会“跑通”

1. 从对话者到行动者：Agent 的能力跃迁

AI Agent 与传统聊天机器人的关键差异，在于它不只是回答问题，而是进入“感知—决策—行动”的闭环。它可以读取环境状态，理解任务目标，选择工具，执行操作，并根据反馈继续调整。这种行动能力让 Agent 成为软件开发中的新型协作者：它既能写代码，也能运行命令、查阅日志、修改配置、生成文档。

因此，Agent 的“能用”并非夸张说法。在脚手架搭建、样例代码生成、接口封装、测试用例补全、批量重构等任务中，它确实可以显著降低启动成本。很多原本需要工程师重复劳动的环节，被压缩成自然语言指令与工具调用的组合。

但是，行动力不等于工程判断力。一个系统能把代码写出来，不代表它理解了架构边界；一个函数能返回正确结果，不代表它具备异常处理、可读命名和可演进抽象。Agent 的真正风险，不在于完全不能完成任务，而在于它经常以一种看似顺滑的方式完成低质量任务。

2. “品味”在工程中不是玄学

在软件工程语境里，“品味”并不是个人喜好的同义词。它更接近一种综合判断：什么时候应该抽象，什么时候应该保持简单；哪些代码应该复用，哪些逻辑应该隔离；哪些输入必须防御，哪些副作用必须显式说明；哪些命名可以让后来者迅速理解，哪些实现会给系统埋下长期成本。

有品味的代码通常有几个特征：边界清楚，职责稳定，复杂度被控制在合适位置，异常路径不被忽视，安全约束不被省略，局部实现不会破坏整体架构。它未必炫技，也不一定最短，但它能降低团队未来理解、修改和验证的成本。

相反，“能用却无品味”的代码常常表现为：一处需求生成一大段内联逻辑；多个函数重复相似判断；错误处理只写成宽泛的 try-catch；配置、常量和业务规则散落在各处；命名看似自然，实际无法表达领域含义。它最危险的地方在于，短期测试往往发现不了这些问题。

3. 代码异味会与安全风险共同积累

AI 生成代码的许多问题不是立即崩溃的逻辑错误，而是代码异味。代码异味不会马上阻止程序运行，却会增加后续理解、测试、重构和扩展的难度。例如重复逻辑、过长函数、过宽异常捕获、缺少输入校验、死代码、魔法数字、耦合过强，都属于典型风险。

这类问题会形成隐形技术债。项目早期，团队可能只看到功能交付速度变快；项目中后期，才会发现每次修改都要重新理解 Agent 生成的局部逻辑，每次扩展都要绕开早期留下的结构混乱。此时再回头治理，成本通常高于一开始就建立边界和规范。

更重要的是，代码异味与安全漏洞并不彼此独立。缺少边界检查、随意拼接输入、宽泛捕获异常、默认信任外部状态，都可能在可维护性问题之外带来安全风险。低品味代码不是“不漂亮”而已，它可能让系统的可靠性和安全性同时下降。

二、技术底层：统计生成难以自动形成工程判断

1. 大模型擅长模式补全，不天然具备架构意识

LLM 的核心能力来自大规模语料中的统计学习。它可以捕捉常见写法、接口模式和文本结构，并在新任务中生成高度相似的解决方案。这种能力足以支撑大量日常开发工作，却不等于它真正掌握了软件架构中的长期约束。

架构意识要求系统理解“现在的实现”与“未来的演进”之间的关系。人类工程师在写代码时，往往会同时考虑当前需求、潜在变更、团队协作、调试路径和部署环境。Agent 则更倾向于根据当前上下文生成局部最可能的代码，容易选择阻力最小的路径。

这种机制决定了 Agent 容易产生“看上去合理”的方案。它可以写出命名整齐、格式规范、逻辑通顺的代码，但未必会主动追问：这个抽象是否过早？这个模块是否越界？这个实现是否会把业务规则锁死？这个异常处理是否掩盖真实错误？

2. 缺乏元认知：不会自然停下来审查自己

工程品味离不开反思。成熟工程师写完一段代码后，会回看它是否过长、是否重复、是否需要拆分、是否有更清楚的命名、是否遗漏异常路径。这种“思考自己的思考”的能力，可以称为元认知。

普通 Agent 工作流往往缺少稳定的元认知环节。它完成生成后，通常直接进入执行或交付；即使发生报错，也更多是修补当前错误，而不是回到设计层重新审视结构。这会导致第一版粗糙实现被不断打补丁，最终形成一段可以运行但难以理解的代码。

因此，不能指望 Agent 自动形成“写完先重构”的习惯。若流程中没有强制审查、规范检查、架构回顾和安全扫描，它很可能把一次性生成结果直接当成最终答案。所谓“没品味”，很多时候就是缺少反思步骤的制度化后果。

3. 上下文窗口会被污染，也会发生状态断层

Agent 的记忆依赖上下文窗口。复杂开发任务通常包含需求讨论、报错日志、代码片段、工具输出、测试反馈、临时假设和用户补充信息。所有这些内容共同进入上下文后，模型需要在有限注意力中选择重点。

当上下文中混入大量无关内容时，Agent 的注意力会被稀释。它可能忘记早期约束，忽略架构约定，或者在后续步骤中引入与前面不一致的实现。更常见的情况是，前几轮讨论中确认过的边界，在后续修改中被无意打破。

这就是上下文污染和状态断层。它们不会像语法错误那样显眼，却会破坏系统一致性。一个 Agent 前后写出的几个模块可能各自能跑，却在命名、错误处理、依赖方向、配置读取和日志规范上相互冲突。这种不连贯正是低品味代码的典型来源。

4. 评测偏好“完成率”，弱化了可维护性

当前许多 AI 编程评测更关注一次性任务完成率：代码是否通过样例测试，函数是否返回期望结果，补丁是否修复指定报错。这类指标有价值，但它们无法充分衡量软件工程中的长期质量。

真正的工程工作不是一次性考试，而是持续迭代。需求会变，接口会变，数据会变，团队成员也会变。代码如果只为眼前测试而写，就很容易牺牲抽象边界、可读性和扩展性。Agent 在这种评价体系下被强化的，是“尽快跑通”，而不是“长期可维护”。

因此，要评价 Agent 代码的品味，不能只看单元测试是否通过，还要看它是否容易被人读懂、是否能承受下一次需求变更、是否符合项目既有风格、是否把风险留在了可控边界内。

三、文化环境：快交付与快消费如何制造低品味

1. 消费主义逻辑把“好”简化成“快”

Agent 的低品味不只来自模型，也来自它所在的生产环境。当前技术产品普遍受到速度逻辑驱动：更快上线、更快演示、更快验证、更快增长。这样的环境容易把“好代码”简化为“能跑的代码”，把“好系统”简化为“可展示的 Demo”。

在这种语境中，工程美学很容易被视为奢侈品。命名是否准确、模块是否清楚、依赖是否克制、异常是否可追踪，似乎都不如“今天能不能交付”重要。Agent 只是把这种文化倾向放大了：它越能快速生成，团队越容易降低审查标准。

久而久之，组织会形成一种危险习惯：先让 AI 写出来，能跑就合并，等出问题再修。问题在于，低品味代码的成本通常不会立刻出现，它会在下一次需求、下一次排障、下一次新人接手时集中爆发。

2. 算法审美推动同质化表达

互联网内容分发机制偏好易理解、强刺激、低门槛的表达方式。长远看，这会改变人们对“好”的判断：简单、直接、模板化、情绪饱满的内容更容易获得反馈，复杂、克制、含蓄、需要上下文的表达反而不占优势。

这种审美也会影响工程实践。很多 AI 生成结果看起来整齐、完整、甚至“很像专业内容”，但其内部结构可能高度模板化。它会用熟悉的段落、常见的命名、标准化的注释制造一种完成感，却未必真正贴合业务语义和系统结构。

代码的同质化并不总是坏事，规范本身就需要一致性。但低品味的同质化，是用表面格式替代深层判断。它让所有项目都长得像教程，把复杂业务压缩成通用样板，把工程师的领域理解替换成“看起来差不多”的生成惯性。

3. 工程品味是一种文化资本

从社会学角度看，品味并不是凭空出现的个人直觉，而是在长期训练、共同体规则和实践反馈中形成的判断体系。软件工程中的品味也是如此。它来自阅读优秀代码、经历线上事故、参与代码审查、理解业务约束、反复维护旧系统。

Agent 的训练数据虽然庞大，却包含大量质量参差不齐的公开代码、教程和问答。公开可见并不等于高质量，流行写法也不必然符合工程美学。模型学习到的是互联网上常见的模式，而不是一个成熟团队长期打磨出的判断标准。

因此，团队不能把“品味”外包给模型。真正需要被沉淀的是组织内部的文化资本：哪些模式被鼓励，哪些写法被拒绝，哪些约束必须写入规范，哪些设计需要人工拍板。没有这些沉淀，Agent 只能在大众化语料中复制平均水平。

4. Vibe Coding 会削弱人的工程直觉

AI 辅助开发中出现了一种值得警惕的倾向：开发者用模糊、情绪化、过度概括的提示要求 AI 完成复杂任务，然后在大量生成结果中挑选看似可用的片段。这种方式常被概括为 Vibe Coding。

它的短期吸引力很强，因为它降低了开工门槛。但长期看，开发者可能逐渐减少问题拆解、边界定义、算法推敲和架构权衡，把本应属于人的判断交给模型。人类工程师从“设计者”退化为“结果验收者”，甚至只是“提示词试错者”。

当人的直觉变弱，Agent 的低品味也更难被识别。团队会接受越来越多“看上去能用”的方案，直到系统复杂度超过可控范围。换言之，Agent 没品味并不可怕，可怕的是人也逐渐失去判断品味的能力。

四、工程现场：审查缺位让技术债顺利入库

1. 许多“Agent 应用”只是自动化脚本

在实践中，并非所有被称为 Agent 的系统都具备真正的自主规划和动态调整能力。很多应用只是把固定工作流包装成自然语言界面：输入需求，调用模型，生成文本，执行预设步骤。它们更接近自动化脚本，而不是能理解环境并调整策略的智能体。

这种概念混淆会带来工程误判。团队以为自己部署的是具备判断力的 Agent，实际上得到的是缺乏状态管理、缺乏长期记忆、缺乏风险边界的生成器。一旦任务超出预设路径，系统就可能给出僵硬、粗糙甚至危险的操作。

高品味 Agent 的前提，是明确区分工作流、工具链和智能体。固定流程应由工作流系统承担，确定性校验应由传统程序完成，LLM 负责需要语言理解、规划和解释的部分。把所有能力混在一个“智能体”标签下，只会放大不可控性。

2. 缺少长期记忆，体验就会反复从零开始

工程品味不仅体现在代码文本，也体现在交互连续性。一个高质量开发助手应该记得项目结构、团队规范、历史决策、用户偏好和已知风险。没有这些记忆，每次对话都像第一次合作，用户必须重复解释同一套背景。

很多 Agent 实现缺少可靠的记忆系统。它们把历史信息简单塞进上下文，或者只保留未经整理的日志。随着任务变长，关键约束被挤出窗口，临时信息反而留在上下文中。这会造成“记住了不该记的，忘记了必须记的”。

更合理的做法是把记忆分层：项目级规范、用户级偏好、任务级状态、临时观察结果分别管理。不同层级采用不同更新机制和保鲜策略。只有这样，Agent 才能在长期协作中保持一致，而不是每次都生成风格不同的临时方案。

3. 缺少“总编辑”，AI 产物就没有最后责任人

在传统工程流程中，代码合并前需要设计讨论、代码审查、测试、灰度和回滚预案。AI 生成代码加入后，责任链条并不会消失，反而更需要明确。因为 Agent 可以一次性生成大量代码，低质量内容进入仓库的速度也更快。

问题在于，很多团队把 AI 产物视为“工具输出”，却没有安排足够严格的人类审查。工程师可能因为生成速度快而降低警惕，也可能因为调试疲劳而接受一个能跑的补丁。久而久之，代码库中会累积大量来源不清、意图不明、边界不稳的片段。

人类在这里应扮演“总编辑”角色。总编辑不是逐字手写所有内容，而是定义主题、把握结构、删改冗余、统一风格、检查事实、控制风险。对应到软件开发，就是由人类工程师负责需求澄清、架构决策、质量门禁和最终责任。

4. 现有工具更会抓错误，不擅长抓品味

当前自动化工具擅长发现语法错误、格式问题、部分安全漏洞和测试失败，却不总能发现架构不当、抽象失衡、职责混乱和领域命名贫乏。也就是说，工具能抓住“坏掉了”的代码，却不一定能抓住“以后会很难维护”的代码。

这使得品味成为工程治理中的灰色地带。它往往依赖资深工程师经验，难以被明确量化，也难以进入 CI/CD 的硬性门禁。Agent 生成代码越多，这个灰色地带就越危险。因为人类审查压力增加，而自动化门禁又覆盖不足。

要改变这一点，需要把代码异味、架构规则、依赖边界、异常处理策略、日志规范、测试覆盖和文档要求纳入工具链。品味不能只停留在口头评价中，而要被转化为可检查、可追踪、可复盘的工程信号。

五、重建路径：让 Agent 在规范中学习品味

1. 用规范驱动开发替代“随手生成”

提升 Agent 品味的第一步，是把隐性要求显性化。团队不能只告诉 Agent“实现这个功能”，还应明确编码规范、架构边界、安全红线、异常处理标准、日志要求、测试策略和文档格式。规范驱动开发的关键，是让模型在生成前就知道哪些写法不可接受。

这些规范不宜只写在 Wiki 中供人阅读，而应尽可能沉淀到代码库和工具链中。例如，在仓库中维护 agent-rules、architecture.md、coding-standards、security-checklist、review-template 等文件，并在 Agent 工作流中强制读取。

规范的价值不在于束缚创造力，而在于提供判断基线。没有基线时，Agent 只能依据通用语料生成平均方案；有了基线，它才可能贴合团队风格、业务领域和长期演进目标。

2. 在工作流中加入反思、重构与解释

高质量 Agent 不应只包含“生成—运行—修错”的循环，还应包含“解释—审查—重构”的循环。生成代码后，应要求 Agent 说明设计选择、列出潜在风险、指出可替代方案，并检查是否存在重复、过长函数、边界缺失和异常吞噬等问题。

反思步骤必须流程化，而不能依赖开发者临时想起。可以把任务拆为几个固定阶段：需求澄清、方案草案、风险检查、代码生成、自测、代码审查、重构建议、最终补丁。每个阶段的输出都应可读、可追踪、可回滚。

这种机制会略微降低单次生成速度，但能显著降低后期维护成本。对于生产系统来说，快一步写出低质量代码，不如慢一步形成可持续方案。Agent 的价值不应只是节省键盘输入，而应帮助团队把思考过程外显化。

3. 建立规范信号和品味风险监控

如果品味无法度量，就很难治理。团队可以把“代码异味”和“架构偏差”转化为可监控指标，例如重复逻辑比例、函数长度、圈复杂度、异常捕获粒度、测试覆盖、依赖方向、公共 API 变更、配置硬编码、敏感操作确认机制等。

在 AI 生成代码场景中，还可以进一步记录 Agent 输出的风险模式：哪些任务最容易生成低质量代码，哪些提示导致过度封装，哪些模块频繁被 AI 改坏，哪些开发者更容易跳过审查。这些信号可以形成“规范信号置信度”一类的监控框架。

监控的目的不是惩罚，而是反馈。通过持续观察，团队可以调整提示模板、完善规范、补充测试、优化 Agent 工具权限，并识别哪些任务适合交给 AI，哪些任务必须由人类主导。

4. 重新定义人的角色：从操作者到总编辑

在 Agent 时代，人的价值不会消失，而是从“亲手写每一行代码”转向“定义问题、建立标准、判断取舍、承担责任”。这要求工程师具备更强的架构意识、审查能力和表达能力。

所谓总编辑式角色，意味着人类要负责最终结构，而不是沉迷于局部生成。人要决定系统边界、模块职责、数据流向、安全策略和长期路线；Agent 可以帮助生成草案、补充测试、解释代码、整理文档和执行重复性修改。

因此，团队培训也要变化。不能只培训提示词技巧，还要培训 AI 代码审查、技术债识别、上下文管理、规范编写和人机协作边界。只有人类工程师有品味，Agent 才可能在持续反馈中生成更有品味的结果。

5. 最终目标：让 Agent 成为专业伙伴，而不是代码老虎机

真正成熟的 Agent 不应被设计成一个不断吐出代码的老虎机，而应被设计成一个遵守规范、尊重边界、能解释取舍、能接受审查的专业伙伴。它可以提高效率，但不能绕过工程责任；它可以生成方案，但不能替代组织判断。

未来的竞争不只是哪个模型更会写代码，而是哪支团队更会把模型纳入工程体系。规范越清楚，反馈越稳定，审查越严格，Agent 越可能形成接近团队品味的输出。相反，如果组织本身只追求短期跑通，再强的模型也只会放大短期主义。

因此，AI Agent 代码“能用却无品味”的问题，本质上是一次工程治理能力测试。它提醒我们：在自动化能力快速增长时，真正稀缺的不是生成速度，而是判断标准。

真正有价值的人机共智，不是让 AI 替我们省略判断，而是让人类把判断标准建立得更加清楚。

参考资料

M号日记: AI Agent入门实战笔记（1）：从概念到代码的完整指南

windliang: 一文入门 agent：从理论到代码实战

慧铭达电子科技有限责任公司: 30个AI智能体（Agent）基本概念和基本知识

AI纪元观察: 用 AI 写代码省事是省事，但为什么越往后改越像一团乱麻？

阿辉的AI成长日志: 不用任何框架，50 行代码搞懂 AI Agent 的本质

IT搬砖录: “AI写代码，是效率革命还是技术债炸弹？”——让程序员分裂的2025

红红画里话: 8个”不待见”的社交行为，哪些让你觉得没分寸感

哩哩文案: “让人想远离“的10种低社交素养行为”

轶见Agent: 一文搞懂 AI Agent 相关概念

招招助力: AI智能体实战笔记（一）：大模型的”天花板”——6个根本问题与实战应对方案

Bre的闲聊室: 最小 LLM-Agent 循环实战手册

AI架构视界: 当AI生成代码成为日常，工程师”品味”成为最后的护城河

ghc1a1d427de3b: 消费主义下的审美庸化与救赎

視野記: 审美正在被算法操控吗？

选和君: 品味的生产与再生产——读布迪厄《区隔：品味评判的社会批判》

罗辑思维: 生活趣味如何透露出一个人的阶层？

闲话可说: 揭秘AI编程的“老虎机效应”：从Vibe Coding到技术债务

Go语言中文网: AI 写的代码 Bug 多 1.7 倍：效率狂欢后的质量账单

互联网放牧: AI知识：什么是智能体？

HelloTech技术派: AI Agent 的数据架构：数据库、语料库、知识库与 LLM 的关系和协作

Software Quality Lab: 论文分享 | ICSE’26 因果推理视角下LLM代码生成中异味的测量、解释与缓解

通大智能软工课题组: ICSE’26|因果视角下大语言模型生成代码异味的度量、解释与缓解

赛博物联: 一文读懂 AI Agent：技术框架、三层含义与核心要素全解析

招招助力: AI智能体实战笔记（二）：从0到1打造高质量AI智能体SOP、技能与规则体系

婉宁交互设计: 如何提高AI生成结果质量？UX设计案例评估测试

认知余数: AI时代，培养品味的六条路