乐于分享
好东西不私藏

你的 AI 助手,究竟能写出几轮好代码?今日 AI 最前线深度拆解(2026.03.28)

你的 AI 助手,究竟能写出几轮好代码?今日 AI 最前线深度拆解(2026.03.28)

本文约 5500 字,阅读约需 12 分钟。适合希望跟进 AI Agent 最新进展的开发者、产品人与研究者。


你有没有遇到这种情况:让 AI 帮你写代码,第一轮写得挺优雅;第二轮加功能,代码开始臃肿;第三轮改需求,函数嵌套成了俄罗斯套娃;第四轮你发现,AI 居然在重新实现一个它自己上一轮已经写过的函数?

或者这样:你想搭一套多 Agent 系统,结果发现调试的时候根本不知道哪个 Agent 在做什么,像在追一只无形的猫。

再或者:一个万亿参数的科学多模态大模型昨天刚开源了——它真的能”读懂”一张分子结构式、一段蛋白质序列,或者一条地震波形吗?

今天的内容,正好把这几个问题一起回答。


一、AgentScope:你终于可以”看见”你的多 Agent 系统在干什么

今日 GitHub 新增 Stars:+904 | 总计 21.2k

解决了什么问题

多 Agent 系统有一个著名的调试噩梦:你启动了五个 Agent,它们在互相传消息,系统输出了一个错误答案,但你根本不知道是谁在哪一步出了问题。整个过程像黑箱,你只能靠猜。

更现实的问题是,大多数多 Agent 框架在原型阶段很好用,一到生产环境就各种麻烦——部署复杂、监控缺失、跨团队协作难。AgentScope 要解决的,就是这个从”能跑”到”能用”之间的鸿沟。

AgentScope 的 Slogan 说得很直接:”Build and run agents you can see, understand and trust”(构建可见、可理解、可信赖的 Agent)。这三个词背后,是三层工程能力。

技术与产品原理

“可见”——全栈可观测性

AgentScope 内置了 OpenTelemetry 标准支持。每一条消息的流转、每一次工具调用、每一个 Agent 的决策链,都有完整的链路追踪。你可以对接 Jaeger、Grafana 等主流监控系统,在生产环境里像看 Web 服务日志一样看 Agent 行为。

打个比方:如果传统多 Agent 框架是”黑盒快递”,AgentScope 给每个包裹都装了 GPS 和实时温度传感器。

“可理解”——消息中心架构

所有 Agent 之间的通信统一经过一个”消息中心”(Message Bus),这不是新概念,但 AgentScope 的实现让消息本身带有结构化的上下文,而不是纯文本字符串传来传去。这意味着你可以在任意节点”暂停”、”检查”,也可以回放某次对话的完整消息序列。

“可信赖”——MCP + A2A 双协议生态

AgentScope 同时支持 MCP(模型上下文协议)和 A2A(Agent-to-Agent)协议,两个当前最主流的 Agent 间通信标准都兼容,这意味着你用 AgentScope 构建的 Agent,可以直接和市场上其他 MCP/A2A 生态里的工具和服务互通,不需要写胶水代码。

多模型后端:统一支持通义千问(DashScope)、Claude、GPT、本地 Ollama,一套代码可以按需切换,不被任何单一厂商绑定。

快速开始(5 分钟内跑起来一个 ReAct Agent):

pip install agentscope
from agentscope.agent import ReActAgent, UserAgentfrom agentscope.model import DashScopeChatModelimport asyncioasync def main():    agent = ReActAgent(        name="Friday",        sys_prompt="You're a helpful assistant named Friday.",        model=DashScopeChatModel(            model_name="qwen-max",            api_key="your-api-key",            stream=True,        )    )    user = UserAgent(name="user")    msg = None    while True:        msg = await agent(msg)        msg = await user(msg)        if msg.get_text_content() == "exit":            breakasyncio.run(main())

适合谁用 / 不适合谁用

适合

  • • 正在把多 Agent 系统推向生产环境的工程师,对可观测性有刚性需求
  • • 企业/团队内部需要接入多种 LLM 后端(国内+国外),不想被某家模型绑定
  • • 需要与 MCP 或 A2A 生态中其他工具互通的开发者
  • • 希望快速搭建具有语音交互能力的 Agent(内置 TTS + Human-in-the-Loop)

不适合

  • • 完全个人项目、不关心可观测性的快速原型——LangChain 或直接用 SDK 可能更轻
  • • 对国际化生态优先(英文社区、更丰富插件)有强需求——LangGraph 社区更成熟
  • • 需要极低延迟、对框架额外开销零容忍的场景——裸调 API 更合适

项目地址:https://github.com/agentscope-ai/agentscope


二、AI-Scientist-v2:一个 AI 系统,第一次通过了学术同行评审

今日 GitHub 新增 Stars:+143 | 总计 2.8k

解决了什么问题

科学研究的完整链条是:发现问题 → 提出假设 → 设计实验 → 运行实验 → 分析结果 → 写论文 → 接受同行评审。

AI 在其中某个环节帮忙,已经不新鲜了。但有没有一个系统,能完整走完这整条链条,并且产出的论文被人类学者评审后认为”值得接受”?

Sakana AI 的 AI-Scientist-v2 做到了这件事——其输出的论文,是全球首篇完全由 AI 撰写并通过学术工作坊同行评审的论文

这不是概念演示,而是可运行、可复现的开源系统。

技术与产品原理

核心机制:最优先树搜索(BFTS)

v1 版本使用线性思路探索研究假设,而 v2 引入了”最优先树搜索”(Best-First Tree Search)。

类比一下:v1 像一个研究员每次只追一个假设,跑完一个实验再跑下一个;v2 像一个有完整实验室的科研组——可以同时维护多条假设分支,优先推进最有希望的那条,但不丢弃其他分支。这在探索复杂研究空间时效率远高于线性搜索。

完整闭环:从假设到 PDF

整个执行流程分两步:

第一步,生成研究想法:

python ai_scientist/perform_ideation_temp_free.py \  --workshop-file "ai_scientist/ideas/your_topic.md" \  --model gpt-4o-2024-05-13 \  --max-num-generations 20

第二步,运行实验 + 自动撰写论文:

python launch_scientist_bfts.py \  --load_ideas "ai_scientist/ideas/generated_ideas.json" \  --model_writeup o1-preview-2024-09-12 \  --model_review gpt-4o-2024-11-20 \  --num_cite_rounds 20# 输出:experiments/时间戳_主题名/paper.pdf

系统会自动检索 Semantic Scholar 数据库做文献去重和引用补全,用 LaTeX 排版,最后输出一份格式完整的 PDF 论文——包含摘要、实验设计、结果图表和参考文献。

支持的 LLM 后端:GPT-4o/o1、Claude(通过 AWS Bedrock)、Gemini 等。研究写作阶段推荐用 o1-preview 或 Claude Opus 等强推理模型,评审阶段用 GPT-4o 即可。

关于许可证:项目采用特殊的 Responsible AI License,要求在使用 AI 生成的论文时必须明确披露 AI 参与,不可隐瞒。

适合谁用 / 不适合谁用

适合

  • • AI/ML 研究者想快速探索某个方向的可行性,生成研究”毛坯”后人工精修
  • • 想了解”AI 做科研”技术路线的工程师,作为学习案例
  • • 需要快速产出大量实验性假设用于后续筛选的研究组
  • • 对 agentic tree search 在科研中的应用有学术兴趣

不适合

  • • 直接用于正式投稿顶级期刊(当前系统成功率有限,且学术诚信有明确要求)
  • • 资源有限的个人开发者——需要 CUDA GPU + 大量 API 调用费用,单次跑下来成本不低
  • • 非机器学习领域的科研(当前对 ML 领域优化程度最高,其他领域效果未知)
  • • 期望系统”全自动无需干预”——v2 仍需人工配置研究方向和审核结果

项目地址:https://github.com/SakanaAI/AI-Scientist-v2


三、SlopCodeBench:你的 AI 编程助手,迭代 5 次之后代码变成什么了?

论文:arXiv:2603.24755 | 威斯康星大学麦迪逊分校 + Snorkel AI

解决了什么问题

现在几乎所有主流的 AI 编程基准——SWE-bench、HumanEval、MBPP——衡量的都是单次生成的能力:给你一个任务,写出来,跑通测试就算成功。

但真实的软件开发从来不是这样的。你会迭代:加功能、改需求、修 Bug,一个代码库会被同一个 AI 助手改十次、二十次。

SlopCodeBench 研究的问题是:当 AI 编程助手反复迭代同一个代码库,代码质量会怎么变化?

结论令人警醒。

技术与产品原理

“Slop”是什么

研究团队造了一个词:”Slop”(可以理解为”垃圾代码”)。他们设计了 20 个需要多轮迭代的编程任务,每个任务包含 93 个检查点(Checkpoint),每个检查点对应一次需求演进——规格说明会不断推进,但不限定内部实现方式,以此迫使 AI 做出真正的架构决策。

跑了 11 个主流大模型后,他们测量了两个质量指标:

  • • 冗余度(Redundancy):代码里有多少重复或多余的部分
  • • 结构侵蚀(Structural Erosion):复杂度有多集中于少数函数(函数越来越臃肿的信号)

数字有多触目惊心

指标
数字
11 个模型中能端到端完成任意一个问题的模型数
0
最高检查点解决率
17.2%
出现结构侵蚀上升的轨迹比例
80%
出现冗余度上升的轨迹比例
89.8%
AI 生成代码 vs 人类代码的冗余度倍数
2.2×

与 48 个真实开源 Python 代码库对比后发现:人类写的代码质量随时间保持平稳,AI 迭代的代码质量持续恶化

四种典型”Slop”行为模式

研究者给这些行为起了很有意思的名字:

  1. 1. 选择性失忆:AI 忽视自己上一轮写的代码,重新实现相同功能,然后两份实现并列存在
  2. 2. 库厌恶症:明明可以用 Pandas 解析 CSV,AI 偏要手写解析逻辑,从零开始
  3. 3. 删除恐惧症:已经过时的代码,AI 就是不删,代码库越来越臃肿
  4. 4. 复杂度螺旋:遇到问题打补丁而不是重构,函数嵌套越来越深,可读性趋近于零

提示工程有用吗?

研究测试了是否可以通过改进 Prompt 来阻止这种退化。结论是:可以提高初始质量,但无法阻止后续退化。这是一个根本性的问题,不是 Prompt 技巧能解决的。

对工程实践的指导意义

这篇论文不是在说”别用 AI 写代码”,而是在说:

  1. 1. 选型时不要只看单轮基准。如果你在评估一个 AI 编程工具,要在迭代场景下测试,而不是只看 HumanEval 分数。
  2. 2. 引入架构检查流程。在 AI 辅助开发中,每隔若干轮迭代应人工做一次架构审查,尤其看冗余度和函数复杂度。
  3. 3. 首轮 Prompt 要明确代码规范。虽然无法阻止退化,但首轮的结构规范要求(单一职责、禁止重复实现)会延缓退化速度。
  4. 4. 这是训练数据问题。当前代码 SFT/RLHF 数据缺乏”迭代质量”维度,是模型训练的改进方向。

官网:https://www.scbench.ai | 代码:https://github.com/SprocketLab/slop-code-bench


四、Intern-S1-Pro:万亿参数的科学大脑,能读懂分子式和地震波形

论文:arXiv:2603.25040 | 上海人工智能实验室 | HuggingFace 今日 #2 热门(86 upvotes)

解决了什么问题

现有开源大模型在科学专业领域有一个集体短板:化学合成、晶体热力学预测、蛋白质功能推断——这些任务上,GPT-4o 和 Claude Opus 等专有模型明显优于开源模型,而开源模型又因为不公开权重无法私有化部署和微调。

Intern-S1-Pro 是上海人工智能实验室(InternLM 团队)发布的全球首个万亿参数科学多模态基础模型,目标是同时解决两个问题:足够大、足够专。

技术与产品原理

架构:1 万亿参数 MoE,512 个专家

参数量只是一个数字,关键是架构设计:

  • • 总参数 1T(万亿),但每个 Token 只激活其中 22B 的参数(通过 512 个专家中的 8 个)——这是混合专家(MoE)架构的精髓:总容量大,但每次计算成本可控
  • • 语言基础:在 Qwen3 235B MoE 上扩展
  • • 视觉编码器:InternViT-6B(60 亿参数的视觉编码器,处理图像输入)

打个比方:这个模型像一个医院,里面有 512 个不同专科医生。每次来一个病人(Token),医院自动派出最合适的 8 个医生会诊。总医生数超过”万人医院”,但每次会诊只需 8 个人参与,效率和专业性都有保证。

科学数据能力

在 5 万亿 Token 训练数据中,超过 2.5 万亿是科学领域数据。模型原生理解以下特殊格式:

  • • 分子 SMILES 式(化学结构表示法)
  • • 蛋白质氨基酸序列
  • • 地震时序信号(支持 10^0 到 10^6 量级的时间序列)
  • • 数学公式、LaTeX 排版的科研论文

位置编码创新:采用 Fourier Position Encoding(FoPE),比传统 RoPE 更适合处理科学数据中常见的长序列和异构时序数据。

基准性能(235B 版本,Pro 在此基础上进一步提升):

基准
Intern-S1(235B)
Qwen2.5-VL-72B
Gemini-2.5 Pro
GPQA(科学研究问答)
77.3
49.0
83.8
AIME 2025(数学竞赛)
86.0
10.9
83.0
ChemBench(化学基准)
83.4
61.6
82.8
MatBench(材料科学)
75.0
51.5
61.7

在化学和材料科学基准上,235B 版本已经超越 Gemini-2.5 Pro。万亿参数的 Pro 版在此基础上进一步提升,官方描述为”在科学专业任务深度上超越专有模型”。

工程部署

官方支持三大主流推理框架:LMDeploy、vLLM、SGLang,模型权重已在 HuggingFace 和 ModelScope 开放下载。提供三个规格选择:Intern-S1-mini(8B,资源受限场景)、Intern-S1(235B MoE,企业级)、Intern-S1-Pro(1T MoE,科研旗舰)。

适合谁用 / 不适合谁用

适合

  • • 化学、材料、生物信息学、地球科学等专业领域的研究人员和工程师
  • • 需要私有化部署科学领域智能问答或数据分析的机构(大学、研究院、药企)
  • • 想构建科学领域垂直 Agent(分子设计、反应预测、材料发现)的团队
  • • 对 MoE 架构在超大规模模型上的工程实现感兴趣的开发者(XTuner + LMDeploy 训练管线开源)

不适合

  • • 个人开发者或中小团队——1T 参数部署需要多机多卡高端 GPU 集群,门槛极高
  • • 通用文字工作场景(写作、摘要、客服)——专科医院来看感冒,大材小用
  • • 需要低延迟实时响应的场景——超大 MoE 推理延迟相对较高

论文:https://arxiv.org/abs/2603.25040 | 代码:https://github.com/InternLM/Intern-S1 | 在线体验:https://chat.intern-ai.org.cn/


今日全局解决方案映射表

以下为本期新收录的 6 个项目/论文。历史全表见 solution-map.md。

项目名称
链接
解决的核心问题
适用场景
AgentScope
https://github.com/agentscope-ai/agentscope
多 Agent 系统生产部署中可观测性缺失、调试困难
企业级多 Agent 系统、MCP/A2A 生态互通、语音 Agent
AI-Scientist-v2
https://github.com/SakanaAI/AI-Scientist-v2
AI 无法自主完成从假设到同行评审的完整科研闭环
ML 研究方向快速探索、自动化实验假设生成、agentic tree search 学习案例
SlopCodeBench(论文)
https://arxiv.org/abs/2603.24755
现有代码基准无法评估 AI 在多轮迭代中的代码质量退化
AI 编程工具评估选型参考;迭代开发最佳实践指导;代码 Agent 训练数据优化方向
Intern-S1-Pro(论文)
https://arxiv.org/abs/2603.25040
开源模型在化学、材料、生命科学等专业领域性能严重不足
科学领域垂直 Agent;私有化科研智能问答;分子设计/材料发现工作流
Onyx
https://github.com/onyx-dot-app/onyx
企业知识库与 LLM 整合门槛高,缺乏开箱即用的多源 RAG 平台
企业内部知识库问答;40+ 数据源连接;自定义 AI Agent 平台
daily_stock_analysis
https://github.com/ZhuLinsen/daily\_stock\_analysis
LLM 股票分析无法零成本、低门槛持续运行并推送结果
个人 A/H/美股自动分析;GitHub Actions 零成本定时运行;多 LLM 切换

作者:AI 最前线 | 每日拆解 GitHub 和 arXiv 热门 AI 项目

如果今天的内容对你有帮助,欢迎转发给同样关注 AI 工程进展的朋友。

下期见。