LinkedIn作为全球最大的职业社交平台,拥有13亿会员,每分钟产生数万连接和数百万动态更新,工程规模极其庞大:7000+ 可部署单元、320万峰值QPS、每日45万亿 Kafka 消息、10,000+代码仓库、每年百万级 PR。如何在这样的大规模环境下提升工程效率,成为业务增长的核心。LinkedIn的Distinguished Engineer Karthik Ramgopal和Principal Engineer Prince Valluri在QCon AI分享了他们的实践:将 AI作为新的工程执行模型,通过平台化的多智能体(Multi-Agentic)系统和 MCP(Model Context Protocol)等工具,实现从编码、迁移、测试到运维的全链路智能化落地。
传统方式的局限:缺少"认知"
过去,LinkedIn依赖CLI脚本、自助UI和文档搜索系统来提升效率。这些工具虽然有用,但核心问题是缺少认知能力。

人类仍需完成所有思考、协调和重复性手工劳动,尤其在涉及多系统、多团队的"认知循环"场景中,自动化难以落地。AI 的出现改变了这一范式:人类负责表达意图(Intent),系统负责可靠执行。
Prince Valluri强调,工程中最难的不是写代码,而是写"正确的代码",这需要跨工具、系统和团队的协调。AI 让人类从手动拼接转向明确意图表达,系统则完成计划(Plan)、执行(Execution)、验证(Validation)和输出(Output)。

适用场景:重复性高、协调成本高、可验证
LinkedIn 聚焦三类场景:
开发:机械重复编码任务、跨仓库迁移、结构化测试。 运维:部署准备、配置审查、风险识别;可靠性管理中的日志/告警模式识别;事件响应中的上下文聚合和下一步建议。 信息与分析:语义代码搜索、数据查询生成与解释、跨系统故障排查。

核心原则:智能体(Agent)负责执行,人类保留控制与判断。
平台化是关键:避免100个脆弱实现
如果每个团队各自构建智能体,就会出现重复劳动、结果不一致的问题。LinkedIn 将 AI 平台化,聚焦三大基础层:

1. 编排层(Orchestration)
提供统一运行时、调度、重试、人机交互机制。开发者提交结构化Spec后,系统异步在沙箱中执行:分析代码、修改文件、运行测试、修复问题。所有状态持久化,工具调用带权限检查和完整日志。最终生成带traceability 的PR。
示例:升级库版本。系统自动拉取依赖图,针对每个受影响仓库启动沙箱智能体,统一流程执行变更、验证、建PR。无论1个还是100个仓库,结果一致且可审计。
2. 工具层(Tooling)
智能体通过工具调用完成工作。关键是结构化、可预测、安全。避免智能体直接调用 API,使用明确Read/Write 权限、版本化Schema。

MCP(Model Context Protocol,由Anthropic 提出) 是重要突破:它让工具声明标准化,支持模型无关性(不同 LLM 可复用同一工具集),并内置权限、重试、验证和可观测性。LinkedIn 构建了代码搜索、依赖分析、日志/指标、PR历史、架构知识等工具。

3. 上下文与记忆层(Context & Memory)
智能体需接地气(grounding)。LinkedIn提供多仓库代码、依赖、历史 PR、所有权等上下文,并通过scoping(任务相关范围缩小)和逐步注入避免信息过载。

“Memory grow more intelligent over time- 随着时间的推移,记忆变得更加智能。”
记忆机制让智能体随使用变聪明:短期工作记忆 + 长期验证经验(成功模式、失败教训)+ 集体机构知识。每次执行后提取新洞见,形成反馈循环。

实际智能体案例
背景编码智能体:开发者提交Spec,异步在沙箱生成PR,支持LinkedIn特定上下文。 观察智能体(Observe Agent):告警触发,聚合多系统上下文、历史趋势,辅助根因分析和缓解,减少 on-call 负担。 UI QA智能体:针对 server-driven UI,基于自然语言功能描述进行跨平台(iOS/Android/Web)回归测试,替代昂贵的手工/集成测试。 分析智能体:多模态输出,帮助PM、工程师和业务人员快速查询、可视化和解释数据。
这些智能体多采用多智能体协作(如事件调查智能体调用洞察智能体 + 编码智能体 + 评估智能体),并通过沙箱 + 人类审批实现安全自治。
信任与最佳实践
信任来自一致、可重复的结果。LinkedIn强调:
结构化意图:明确 Scope、Out-of-Scope、步骤、工具、验收标准和 Guardrails,避免幻觉和越界。 评估(Evals):类似测试的金数据集、客观/主观指标、回归检测。

人类在环:审查输出、审批关键决策、提供反馈训练系统。

模型选择:优先规则/简单代码;需推理时,从RAG开始,逐步fine-tuning,慎重pre-training。

复用与开放:利用开源、MCP 等标准,平台团队负责基础设施,业务团队专注领域问题。
对企业的启示
LinkedIn的实践证明,AI企业落地不是简单集成LLM,而是构建平台能力:可靠编排、安全工具、丰富上下文和持续学习闭环。这让工程效率大幅提升,同时保持可治理性和人类控制。在大规模、多仓库、遗留系统复杂的环境中,这种方法特别有效。
对于希望引入AI的企业,建议从高重复、低风险场景起步,投资平台团队建设 MCP-like工具和编排框架,并逐步扩展到运维、分析等领域。最终目标不是取代人类,而是让人类聚焦高价值判断,让AI可靠地处理执行细节。
参考资料
QConAI《Platform Teams Enabling AI - MCP/Multi-Agentic Tools across Linkedin》: https://www.infoq.com/presentations/ai-multi-agentic-tools/
推荐阅读
Intuit GenOS实践:如何构建支持AI智能体的基础设施平台
Claude法律行业落地指南:2026年AI如何重塑律师日常工作
AI时代工程领导力:当95%的AI试点失败时,我们到底该怎么做
夜雨聆风