关注下方【AI算法科研paper】,点亮“星标⭐”,优质文章第一时间推送
正值Agent发展的黄金时期,现在很多人做这个,多少会遇到这些问题:不知道当前研究到底到了哪一步,也很难判断哪些方向还能继续做。
为了解决这个问题,我整理了190篇Agent相关前沿的、具有参考价值的论文,覆盖了这个领域的主流方法与关键改进路径,比如当前顶会热点“多智能体”、“大模型智能体”等。另外,我还整理了821个Agent项目,方便各位上手。
相信通过这份资料,大家可以更清晰的掌握目前研究已经解决的问题、尚未完全突破的卡点,以及更容易延伸出新论文的方向,如果你还没有思路,真不妨看看。

长按添加小享,回复“agent合集”
免费获取全部论文+代码+项目

单智能体
独立完成任务的单一智能体系统,聚焦 “个体决策、自主执行”,比如个人助理、单机器人控制。
ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
方法:论文提出自适应变换单智能体(AᵀA),以Hunyuan-DiT为基础,通过含反向排列PosAgent块的RDT模块预测位移、调整主体位置,加位置切换嵌入支持“自适应/固定”模式,经混合训练后,在文本引导的背景补全任务(可变/固定主体位置)中表现优异。

创新点:
提出“文本引导主体位置可变背景补全”新任务,可自适应调整主体位置以匹配背景。 设计含反向位移变换(RDT)模块的AᵀA单智能体,借反向排列的PosAgent块优化主体位置、缓解变形。 为AᵀA加位置切换嵌入,支持“自适应/固定”位置切换,搭配混合训练适配两种补全场景。

研究价值:本文首次提出文本引导主体位置可变背景修复新任务,设计含RDT模块与位置切换嵌入的框架,可自适应调整主体位置并兼容固定主体修复,在图像质量、主体布局合理性等指标全面优于现有方法。
多智能体
由多个智能体组成的协同系统,聚焦 “群体协作、冲突解决”,如自动驾驶车队、医疗多模态诊断团队。
V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
方法:论文提出V-Stylist多智能体系统做文本引导视频风格化:Video Parser拆视频、生提示,Style Parser搜匹配风格模型,Style Artist多轮反思调细节;三智能体协同解决核心痛点,还建TVSBench基准,性能超现有方法。

创新点:
提出V-Stylist多智能体系统,用Video Parser、Style Parser、Style Artist分别解决视频过渡、风格匹配、细节控制问题。 给各智能体配特色机制:Video Parser拆视频生提示,Style Parser树状搜索匹配风格,Style Artist多轮反思调参数。 构建TVSBench评测基准,含50个视频和17种风格,填补复杂视频风格化的评估空白。

研究价值:本文提出基于多模态大模型协作自省的V-Stylist多智能体视频风格化系统,攻克复杂转场、模糊风格、固定细节控制三大痛点,并构建专用评测基准TVSBench,在各项指标全面超越现有方法。
......
更多论文请扫码添加小享,获取合集~

夜雨聆风