编程实践
OpenClaw 实战:一个人、一台 Mac、六个 AI Agent — 从"能聊天"到"能干活"的工程实战
本文介绍了作者基于 OpenClaw 框架,在单台 Mac 上构建了 1 个编排者加 5 个专业 Agent 加 6 类编码专家的 AI 团队阵型,通过 52 个定时任务、118 个技能和 29 个模型实现全天候自动化运转,覆盖股市报告生成、技术情报追踪、内容生产等场景。
传统编程已死,AI Coding是普通人最大的红利(免费课件)
AI Coding 正在推动编程范式从"写代码"转向"自然语言描述需求",大幅降低了技术门槛,让非技术人群也能借助 Claude Code、Cursor 等 AI 编程工具开发可用产品。当前程序员就业市场受到冲击,但对普通人而言这是巨大的技术红利。
AI音乐的下半场,是 Vibe music!让Claude Code开口唱歌
文章核心观点是"Vibe Music"正在像Vibe Coding变革编程一样变革音乐创作。传统AI音乐生成是一次性的prompt交互,而Vibe Music让音乐成为一个可嵌入任何工作流的API能力——AI通过读取用户上下文自动生成音乐,用户无需懂乐理,只需给出场景和情绪。
三个 40 岁老程序员决定用 AI 重新出发(六):Skill、Harness 和代码护栏
这篇文章的核心观点是:在MVP阶段,团队从多Agent加GUI的传统架构转向Skill驱动模式,通过用自然语言编写的"操作手册"来定义AI的行为逻辑,使得策略迭代等同于修改文档而非改代码,从而大幅提升了迭代速度。这一转变源于三个痛点:策略变化太快导致GUI跟不上、多Agent间协调开销过大、客户无法等待漫长的开发部署周期。
技术教科书:顶级开发团队设计的Harness工程项目源码什么样
本文是对一个顶级AI Agent研究团队的工业级AI Coding Agent项目源码的全面架构拆解。该项目基于TypeScript构建,包含约1900个文件、超过51万行代码,涵盖Agent核心Loop、fail-closed安全模型、亚秒级启动、多Agent编排、React终端UI等工程实践。
SDD-RIPER 团队落地指南:如何让整个团队在一周内跑通大模型编程
本文提出SDD-RIPER团队落地方案,核心观点是AI编程最大的坑不是模型不够聪明,而是团队缺乏机制约束AI。文章针对上下文腐烂、审查瘫痪、维护断层和代码不信任四大痛点,通过SDD(持久化的大模型上下文与记忆层)和RIPER(审批驱动的状态机)两大机制,实现思考与执行步骤的文档化沉淀。
AI数据工程师在应用中如何"返璞归真"
本文反思了"知识库+Prompt工程+工具调用"这一轻量级Agent构建模式的局限性,指出其在知识质量可控性、元数据语义对齐、提示词规模化维护以及链路泛化能力方面存在深层瓶颈。核心观点是Agent开发需要从"以Prompt为中心"转向"以上下文为中心"的双向演进:向左构建高质量的结构化上下文语料体系(业务术语库、数据语义图谱、合规规则),向右建立覆盖数据合成微调、工具标准化、效果评估的全链路闭环能。
告别“伪智能”代码:用 Spec + RAG 打造真正懂你的AI程序员
本文提出结合Spec(结构化开发规范)与RAG(检索增强生成)的AI编程新范式,通过Spec提供强约束的"硬规则"明确代码必须满足的条件,配合RAG动态检索项目代码库和文档提供灵活的"软上下文",使AI从通用的代码生成器转变为具备项目感知力的专属程序员,有效解决幻觉、上下文缺失和逻辑不连贯等问题,显著提升代码的准确性、可维护性与系统融合度。
Harness Engineering: 让 Coding Agent 可靠完成长程任务
这篇文章针对Coding Agent处理大规模长程任务时面临的上下文耗尽、中断无法恢复、规模放大后行为不可控三大核心困难,提出了任务拆解、并行执行、File As Progress状态持久化和多层重试四项核心设计原则。通过将大任务拆分为独立子任务避免上下文溢出,利用并行执行提升速度,将进度写入文件实现跨会话恢复,配合重试机制保障可靠性。
不再触发Claude使用限制,大幅降低Token的10个有效习惯!
Claude的使用限制基于Token而非消息数量,Token成本随对话轮次呈平方级增长,长对话中超过98%的Token仅用于重复读取历史记录。文章提出十个省Token的核心习惯:编辑已有提示词而非追加纠错消息,每15至20条消息就通过总结上下文开启新对话,将多个问题合并为一条消息发送,利用Projects功能缓存常用文件避免重复处理,在设置中保存角色偏好以减少每次对话的初始化开销,关闭不需要的网页。
Qoder 工程实践:Harness Engineering 指南
文章指出AI Agent在编码时频繁出错,根源不在于能力不足,而在于无法感知代码库中的隐式架构规则和团队约定。传统的做法如写更详细的提示词或维护规范文档存在天花板,因为规则总在演进,模型表现也不稳定。Harness工程提出了一条不同的路径:与其教Agent怎么做,不如构建自动化验证机制(代码检查、测试、分层约束),让Agent自己确认做得对不对。
Claude AI 全套课程,如何从零开始构建并自动化各种项目!
X博主Julian Goldie发布了一小时Claude AI全套课程,通过10个真实案例展示Claude的自动化能力,包括搭建着陆页、视频转SEO文章、克隆部署GitHub项目、创建可复用技能、截图生成表格、搭建迷你应用、实时网络搜索研究、多平台社交内容自动发布、连接外部API工具以及快速生成营销素材等场景,覆盖内容创作、技术开发、营销推广和数据管理等完整工作流,强调非技术人员也能借助Claud。
工具进展
重磅!Anthropic官方Harness发布了!
Anthropic正式发布Claude Managed Agents,将Agent = Model + Harness这一理念落地为产品。该服务提供四大核心能力:生产级Agent运行环境、长运行会话支持、多Agent协调以及可信治理框架,开发者只需定义任务、工具和护栏,底层基础设施由Anthropic托管处理。
Vibe Design来了!通过DESIGN.md搞定前端UI设计
DESIGN.md是一种用纯文本Markdown文件定义网站完整视觉设计系统的新方法,由Google Stitch提出并在开源仓库awesome-design-md中发扬光大。它将58个知名网站的设计规范提取为标准化文件,涵盖色彩、排版、组件、布局等九大模块,并包含AI提示指南。
Anthropic 新工具:Sonnet 遇到难题可以请教 Opus 了
Anthropic发布Advisor Tool,让Sonnet或Haiku在执行任务遇到决策难题时自动请教Opus获取指导后继续执行,实现智能接近Opus、成本接近Sonnet的效果。与传统大模型指挥小模型不同,它是小模型干活、大模型顾问的反向模式,无需任务拆解或编排框架,在一次API调用内完成。
我给 Claude Code 装了一套"通知系统",从此告别反复切屏的焦虑
文章针对使用Claude Code时需要反复切屏检查任务是否完成的问题,提出了一套Windows桌面通知解决方案。作者从简到繁介绍了三种方案:一是开启Claude Code自带的终端铃声通知,零配置但提示微弱;二是利用Claude Code的Hook机制在任务完成和需要确认时自动播放系统提示音,配置简单且实用;三是结合桌面弹窗和提示音,实现最完整的通知体验。
Cursor 3 发布:IDE 不重要了,智能体控制台上位,VS Code 这一套开始失效
Cursor 3(代号 Glass)以智能体管理控制台取代传统代码编辑器作为主界面,将 IDE 降为可随时切换的备选方案,标志着开发工具从"写代码"转向"调度智能体、审查输出、决定发布"的新范式。新版本支持多仓库默认工作区、统一侧边栏管理本地与云端智能体,以及 Cloud Handoff 功能实现会话在本地与云端间的无缝迁移。
Google大神开源Agent Skills:专治AI偷懒
Google工程师Addy Osmani开源了一套名为Agent Skills的技能包,包含19个覆盖从需求定义到上线发布全流程的技能,通过7条快捷指令驱动AI执行规范化的开发步骤。其核心亮点是嵌入了"先写规格再动手""测试才是证据"等Google工程文化硬约束,并内置反借口机制,针对AI常见的偷懒行为(如跳过测试、省略文档)预设了反驳方案,迫使AI按照严格的工程标准完成每一步工作,从而解决AI编。
经验分享
生成率从8%到60%:快手智能测试用例生成系统的四阶进化
快手研发效能团队分享了智能测试用例生成系统从V1.0到V4.0的四阶演进历程,解决了生成质量不稳、业务理解浅、维护成本高三大难题。系统经历了从Prompt工程探索(生成率8%),到Multi-Agent人机协作(12%),再到知识增强策略(35%),最终通过自检测与自进化实现突破(生成率超60%)。
AI 原生软件工程的可观测性与可控制性(万字长文)
随着AI逐步成为软件开发的主力军,工程师将从"写代码"转向"观测与控制"的管理角色,但当前AI编码过程如同黑盒,团队协作依赖个人"手感",导致效能难以衡量、经验无法沉淀。文章借鉴控制理论,提出AI原生研发需要建立可观测性与可控制性体系,通过过程指标和结果指标来还原人机协作状态,从而发现问题、持续改进,帮助团队真正实现向AI原生的转型。
如何搭建 Karpathy 的 LLM Wiki?可能是全网最易用的保姆级教程
本文介绍了如何搭建 Andrej Karpathy 提出的 LLM Wiki 个人知识管理系统。核心理念是让 AI 只读取一次原始资料,就编译生成一个结构化的 Wiki,包含摘要、交叉引用和观点关联,全部以 Markdown 文件存储,无需数据库或向量存储。每次新增来源,Wiki 就自动丰富,知识实现复利增长而非每次对话都从零开始。
踩坑三个月,我们总结出的 Agent Harness 实践与反思
Nexad 团队在构建 AI 广告平台的实践中发现,Marketing Agent 对 Harness 的要求远高于 Coding Agent:广告投放涉及真实预算消耗和不可逆的账户封禁风险,业务逻辑中"技术正确"与"实际正确"常不一致,且反馈信号延迟数小时到数天。
观点动态
OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生
文章认为OpenAI等模型厂商走了一条错误的路,既想追求模型能力领先又想吞掉所有应用场景,过于贪婪。而现阶段真正成熟的行业级AI应用只有AI Coding领域,因为它具备工程、KnowHow和优质语料三大基础条件。Anthropic敏锐地选择了偏科战略,围绕Coding持续深耕,通过Claude Code的工程实践催生了MCP、Skills和Harness等创新解法,形成了应用侧的数据飞轮效应。
Anthropic发布史上最强模型:Claude Mythos Preview,但遭禁用
Anthropic发布了史上最强模型Claude Mythos Preview,但因安全风险极高而不对外开放。该模型在编程、推理、智能体操作等各项基准上全面碾压上一代旗舰Opus 4.6,最突出的是网络安全能力:它自主发现了数千个此前未知的零日漏洞,包括一个藏了17年的FreeBSD高危漏洞,并能独立将72.4%的已发现漏洞转化为可利用的exploit,完成从发现到利用的全链条攻击。
GLM-5.1 开源:零介入,交付整套的 Linux 桌面系统
智谱开源了 GLM-5.1 模型,拥有 744B 参数和 40B 激活量,采用 MIT 协议。该模型的核心突破在于超长时自主工作能力,能够在零人工介入的情况下连续工作超过 8 小时,独立交付了一套完整的 Linux 桌面系统。在编码能力上,GLM-5.1 以 SWE-Bench Pro 58.4 分超越 GPT-5.4 和 Claude Opus 4.6,位居全球第一。
一文读懂Harness Engineering:从14篇工程文章中,寻找那个让AI不再离经叛道的壳|Hao好聊趋势
文章核心观点是:Harness(壳)工程是2026年大模型应用层最火热的概念,它指的是围绕模型构建的任务拆解、进度记录和完成判定的控制体系,本质上是弥补模型有效上下文不足的"变速箱和制动器"。LangChain实验证明仅更换壳架构就能将Terminal Bench 2.0通过率从52.8%提升至66.5%,而模型权重完全不变。
【万字】拆完 Claude Code 51万行源码后,我才明白什么叫 Harness
本文基于对 Claude Code 约 51 万行源码的深度拆解,从用户按下回车键出发,追踪一条消息从输入到模型回复的完整生命周期,揭示了其四层架构(UI 层、编排层、核心层、服务层)的协同机制。文章重点剖析了三个关键环节:终端交互界面基于 React 加 Ink 框架渲染,通过 onSubmit 回调完成即时命令分流与消息预处理;图片处理采用多级降级压缩策略,确保符合 API 限制后转为 bas。
深度|Agent Harness:当驯化Agent取代通用代理成为硅谷新共识
AI Agent 赛道正经历从"通用代理"到"驯化范式"的底层逻辑变革,2026年成为Agent Harness(驯化工程)的落地元年。Harness的核心在于让Agent的能力稳定、持续、受约束地自动运行,而非仅停留在一次性对话层面。当前AI产品面临"聪明的不干活、干活的不聪明、既聪明又能干的普通人不会用"的割裂困境,Agent Harness正是解决这一矛盾的关键路径。
重磅发布|Scale‑SWE 构造 10 万级真实 SWE 数据集,火山引擎沙箱底座重塑代码智能体训练
中国人民大学与字节跳动合作发布 Scale-SWE 数据集,依托火山引擎 Sandbox 基建,通过沙箱多智能体系统构建了包含 10 万条真实数据的目前最大开源高质量 SWE 数据集。相比合成数据,真实数据类别分布更均衡,更贴近实际场景。该数据集解决了以往真实 SWE 数据难以规模化的三大瓶颈:高并发沙箱调度、复杂环境配置和单元测试稀缺。
靠7个员工和1只猫,年入2500万美元!这可能是AI时代最好的小团队模板
Obsidian以仅7名员工和1只猫的极小团队,支撑起月活超150万、年收入约2500万美元的产品,其成功源于三个核心决策:坚持本地优先、Markdown纯文本存储、不收集用户数据,这大幅降低了运维复杂度;将团队规模上限锁定在10到12人以内,拒绝风险投资,避免管理层膨胀,让每个人保持直接贡献者身份;采用零会议文化,以自发式的异步沟通替代传统例会,通过宣言对齐原则而非开会讨论,用社区生态弥补人手不。
智能体 AI 模式强化软件工程规范性
文章核心观点是:随着智能体AI能力的提升,传统软件工程规范不仅没有过时反而更加重要。面对AI生成海量代码,开发者需要更多依赖自动化验证、主干开发、频繁提交和自动化测试来保障质量,代码审查方式也应从逐行审查转向依靠智能体自身的审查与优化机制。同时,清晰的意图定义和规范驱动开发成为关键,模糊输入会导致不可预测的结果,因此需要通过结构化提示词和行为定义的验收测试来指导智能体。
断崖式下跌!最强AI也搞不定长周期开发:代码堆得越多,系统崩得越快
美国多所高校联合团队提出了全新评估基准 EvoClaw,首次将时间维度引入 AI 编程能力评估,通过从开源项目中提取代码演进历史,让 AI 在同一代码库上连续完成数十个相互依赖的功能迭代。结果显示,顶尖模型在独立任务中得分超过 80%,但在长周期真实场景中最高仅获 38.03%,即使是 Claude Opus 4.6 也表现大幅下滑。
管了 31 个 AI 员工之后,我重新理解了管理学
作者通过管理31个AI员工(Agent)的实践发现,传统管理学百年来解决的"能力有限、信息不完整、动机各异的个体如何协同"这一核心问题,在AI员工场景下发生了本质变化:AI不知疲倦但人类注意力成为系统最稀缺的资源,硅谷提出的Harness Engineering概念与之相关却存在关键断层。

- [AICoding 基地: ai-coding-base.vercel.app (工具动态,编程实践,编程模型,业界观点)
- 专为开发者打造的一站式 AI 编程情报站。这里汇聚了最前沿的 AI 编程工具、编程资讯和模型动态及深度实战案例等,旨在帮助每一位开发者跨越技术周期,掌握 AI开发核心生产力,提升开发效率。
夜雨聆风