乐于分享
好东西不私藏

你的手机 App 会被 AI 自动操控了?今日 AI 最前线深度拆解(2026.03.27)

你的手机 App 会被 AI 自动操控了?今日 AI 最前线深度拆解(2026.03.27)

如果有一天,你打开手机发现 AI 助手已经自动帮你完成了银行转账、填好了出行申请、还自动阅读了十几段 YouTube 视频找到了你想要的答案——你会觉得它聪明,还是有点细思极恐?

这不是科幻故事。今天这期,我们就来拆解让这一切成为现实的几个关键技术——一个让 AI 自己学会从失败中进化的 GUI 控制 Agent,一个能”先思考再看视频”的多模态 Agent,以及三个让 AI 真正”干活”的工程工具。


一、UI-Voyager:第一个能从失败经历里学会进化的手机 AI 操控 Agent

解决了什么问题

你有没有试过让 AI 帮你在手机 App 里完成一项操作——比如在滴滴里叫车、在饿了么下单——然后发现它点来点去总是点错地方,重来几次还是同样的错误?

这不是因为 AI 不够聪明,而是因为现有的 GUI Agent(图形界面操控智能体)有一个本质缺陷:它们会从成功经历里学习,但从来不从失败经历中吸取教训。每次点错了,这条记录就被丢进垃圾桶——宝贵的”反例”白白浪费了。

UI-Voyager 这篇来自 arXiv 的最新论文(arXiv:2603.24533),专门解决这个问题。它在 AndroidWorld 这个行业标准测试平台上,用一个仅 4B 参数的小模型实现了 81% 的任务成功率,不仅超越了所有近期竞品,还超过了人类水平。

arXiv 链接:https://arxiv.org/abs/2603.24533

技术原理

UI-Voyager 的核心是一个两阶段自演进框架,用一个生活化的类比来理解:

想象你在教一个新员工操作公司内部系统。普通的教法是:只把他做对的操作录下来,下次照着做。UI-Voyager 的做法是:把每一次操作失误的录像也保留下来,和成功录像对比,找出”从哪一步开始走偏的”,专门针对那一步重新训练

技术上,这是通过两个机制实现的:

第一阶段:拒绝微调(RFT)——Agent 对同一个任务生成多条操作轨迹,用规则验证器自动筛选成功的那条,拿来做监督微调。这一步建立了基本能力,同时还在自动积累高质量训练数据,形成”数据-模型持续共进化”的飞轮。

第二阶段:群组相对自蒸馏(GRSD)——这是真正的核心创新。它用一种叫 SSIM(结构相似性)的图像匹配技术,在一批成功轨迹和失败轨迹之间,精准找到”分叉点”——即从哪一步开始,两条路线开始走向不同的结果。然后以成功轨迹为”老师”,为失败轨迹从分叉点之后的每一步构建细粒度的纠错信号。

失败轨迹: [点击首页→进入搜索→✗误触广告→✗被跳转→任务失败]成功轨迹: [点击首页→进入搜索→✓正确点击搜索框→✓输入→✓提交]分叉点在第三步 →  专门对第三步之后的行为进行强化学习修正

这样,原本被丢弃的”错误录像”变成了最有价值的训练素材。

适合谁用 / 不适合谁用

适合:做 Android 自动化测试的工程师(可以省掉大量人工标注)、做 RPA(机器人流程自动化)的产品团队、以及研究如何在稀疏奖励环境下训练 Agent 的 AI 研究者。GRSD 的分叉点检测思路可以推广到几乎所有 long-horizon(长步骤)Agent 任务,不限于手机 GUI。

不适合:需要立即部署上生产的团队——目前代码已开源(https://github.com/ui-voyager/UI-Voyager),但仍是研究阶段的实现,需要一定的工程化工作。对算力要求极低的场景也需评估——虽然 4B 模型已经很小,但完整的 RFT+GRSD 训练流程仍需要 GPU 支持。


二、EVA:先想好”看哪段视频”,再去看——视频 Agent 的新范式

解决了什么问题

想象你让 AI 分析一段 2 小时的产品发布会视频,问它”发布会中提到的价格是多少”。现有的多模态 AI 会怎么做?它会把所有帧都”看”一遍,把所有内容都塞进上下文里,然后才开始回答——这就像你让一个助理帮你找合同里的某个条款,他的做法是把整本合同从头念给你听再告诉你答案。

长视频意味着极长的 Token 序列,极高的推理成本,以及极容易被无关内容干扰的注意力机制。

EVA 这篇论文(arXiv:2603.22918)提出了一个根本性的改变:不要”先看再说”,而是”先想再看”——先规划好自己需要看哪一段、为什么看,再有针对性地提取关键帧

arXiv 链接:https://arxiv.org/abs/2603.22918

技术原理

EVA 的核心范式叫 Planning-before-Perception(规划先于感知),通过一个迭代循环实现:

接收问题   ↓[摘要] → 整理目前已知的信息   ↓[规划] → 主动决定"下一步需要看视频的哪个部分"   ↓[行动] → 执行帧采样、片段定位   ↓[反思] → 判断信息是否足够,还是需要继续查看   ↓ (平均 2.4~2.8 轮后给出答案)最终答案

类比:这就像一个经验丰富的记者在查阅视频资料。他不会从头看到尾,而是先在脑子里拟好”我需要找什么证据”,然后快进到最可能出现答案的片段,看一眼,判断够不够用,再决定要不要继续查。

训练策略同样是核心创新:EVA 采用三阶段递进训练——先用有监督微调(SFT)打基础,再用 Kahneman-Tversky 优化(KTO,借鉴行为经济学中的”损失规避”理论)做偏好学习,最后用强化学习的 GRPO 做策略精调。尤其是 KTO 在视频理解领域属于首次尝试——它不需要成对的”好/坏”样本,训练更稳定。

实验数据:在 VideoMME、MLVU、LongVideoBench 等 6 个主流基准上,EVA 比通用 MLLM 基线提升 6%~12%,比已有的自适应 Agent 方法再提升 1%~3%,平均消耗约 1.5~2 万个 Token 即可完成回答。

适合谁用 / 不适合谁用

适合:需要处理长视频问答的产品团队(视频监控分析、教育内容智能检索、电商直播回放摘要)、研究如何将 RL 应用到多模态 Agent 的工程师(SFT→KTO→GRPO 三阶段管线是很好的参考蓝图)。代码和模型已完全开源(https://github.com/wangruohui/EfficientVideoAgent)。

不适合:需要实时低延迟视频流分析的场景(EVA 的迭代推理有一定时延)、以及视频内容高度随机、不存在”关键片段”的场景(比如安全监控中异常检测,EVA 的规划步骤可能反而低效)。


三、dexter:给金融分析师配了一个会”自我核查”的 AI 助理

解决了什么问题

每个做过财报分析的人都知道这种痛苦:你需要同时查收入表、资产负债表、现金流表,交叉比对 5 年数据,还要在脑子里实时做逻辑校验——数字对不上的时候重新查,发现新问题又绕回来找。这个过程费时费力,而且极易因疏漏出错。

现有的”AI 问财报”工具通常只是一问一答——你问它苹果 2024 年收入,它给你一个数字,但不会主动帮你建立逻辑链,也不会在回答完后自问”这个数字和利润率对得上吗?”

dexter 是一个用 TypeScript 写的开源自主金融研究 Agent,今日 GitHub Trending 全语言榜新增 +18,965 Stars,热度排名第一。它的设计哲学是:不只给你答案,还要帮你验证答案

GitHub:https://github.com/virattt/dexter

技术/产品原理

dexter 的架构分三层,用类比理解:

任务规划层就像一个项目经理——你说”帮我分析苹果近 5 年盈利趋势”,它自动拆解成”先查收入趋势→再查净利润率→再对比竞品→最后写结论”这样的执行计划。

工具调用层就像一个有工具箱的研究员——它内置对接 Financial Datasets API,可以直接拉取上市公司的利润表、资产负债表、现金流量表(免费 Tier 包含 AAPL、NVDA、MSFT 等主流标的数据)。它支持 OpenAI、Anthropic、Google AI、Ollama 等多个模型后端,可以自由切换成本最低的那个。

自我验证层是最关键的创新——Agent 在完成每一步分析后,会主动回顾自己的结论,检查数据一致性和逻辑合理性,并决定是否需要重新查询。所有中间过程都记录在 .dexter/scratchpad/ 目录下,完全可审计可复现,不是黑盒。

git clone https://github.com/virattt/dexter.git && cd dexterbun installcp env.example .env  # 填写 OPENAI_API_KEY 等bun start            # 启动交互模式

适合谁用 / 不适合谁用

适合:量化研究员和基本面分析师需要快速生成分析框架(但最终投资决策请自行负责)、金融学生系统学习财报分析逻辑、以及想学习 ReAct(推理+行动)模式在真实场景落地的 AI 开发者——dexter 的代码结构非常清晰,是一个很好的实战教学案例。

不适合:需要实时交易信号的量化策略(数据有延迟、不含价格行情)、A 股 / 港股分析(免费数据仅覆盖美股主流标的)、以及不熟悉 Bun 运行时的纯 Python 开发者(Bun 虽然快,但生态与 Node.js 有差异需适应)。


四、oh-my-claudecode:给 Claude Code 配一整个”开发团队”

解决了什么问题

Claude Code 很强,但它有一个根本限制:它是一个人在单打独斗。当任务复杂到需要多个角色协同(架构师设计、工程师实现、测试员验证、修复员处理 Bug),单个 Agent 在一次会话里同时扮演所有角色,很容易陷入”一边写代码一边忘了架构约束”的混乱。

oh-my-claudecode(OMC)是今日 GitHub Trending 全语言榜新增 +12,575 Stars、排名第二的项目,它把 Claude Code 从”一个程序员”升级成”一支敏捷开发团队”——内置 32 个专能 AI 子智能体,通过 tmux 多会话并行运行,自动编排完成复杂开发任务。

GitHub:https://github.com/Yeachan-Heo/oh-my-claudecode

技术/产品原理

OMC 的核心是一套智能体编排系统,支持多种工作模式:

Team 模式(最常用):启动一条五阶段流水线——team-plan(规划)→ team-prd(写需求文档)→ team-exec(执行代码)→ team-verify(验证)→ team-fix(修复)。每个阶段由专门的子智能体负责,通过共享任务列表协同推进。

成本路由是一个被忽视的亮点:OMC 会根据任务复杂度自动选择模型——简单的代码格式化给 Claude Haiku 处理,复杂的架构推理才调用 Opus,实测可节省 30%~50% 的 Token 消耗。

# 在 Claude Code 中安装/plugin marketplace add https://github.com/Yeachan-Heo/oh-my-claudecode/plugin install oh-my-claudecode/setup# 启动 Autopilot 全自动模式autopilot: build a REST API for managing tasks# 启动 Team 模式,3个执行者并行/team 3:executor "fix all TypeScript errors in auth module"

适合谁用 / 不适合谁用

适合:Claude Code 重度用户(特别是在做中大型项目的独立开发者或小团队)、希望在控制 AI 成本的同时最大化产出的工程师、以及想要探索多模型混合使用(Claude + Codex + Gemini)的团队——OMC 的 /ccg 命令可以同时调用三个模型给出综合建议。

不适合:不使用 Claude Code 的开发者(这是一个 Claude Code 的专属插件,无法在其他 IDE 中使用)、Windows 用户如果不熟悉 tmux(需要额外配置 psmux 替代方案)、以及只需要简单代码补全的轻量场景(OMC 的价值在于复杂任务编排,简单任务用它反而是杀鸡用牛刀)。


五、last30days-skill:9 个平台同时帮你打探消息的”情报员”网络

解决了什么问题

做竞品研究或者追踪某个话题的时候,你通常要手动在 Reddit 搜一遍、再去 X(Twitter)搜一遍、再去 YouTube 找几个视频——最后把散落在各处的信息手动汇总,累不说,还很难做到全面。

last30days-skill 今日 Python 榜新增 +2,685 Stars,是一个 Claude Code / OpenAI Codex 的 AI 技能插件,它的功能很直接:你输入一个话题,它同时派出9个”线人”去 Reddit、X、YouTube、Hacker News、Polymarket、TikTok、Instagram、Bluesky 和开放网页里搜集过去 30 天的相关内容,去重汇总后给你一份有引用来源的调研报告

GitHub:https://github.com/mvanhorn/last30days-skill

技术/产品原理

类比:这就像你雇了 9 个专在不同社区潜伏的”情报员”——Reddit 情报员、X 情报员、YouTube 情报员……他们同时行动,回来汇报,你的助理再按”时效性×互动量×相关性”给每条信息打分,去掉重复的,最后写成一份简报。

架构上,它是一个五步管道:并发多源搜索 → 综合评分 → 跨平台语义去重 → LLM 合成摘要(GPT-4.1 → 4o → 4o-mini 降级链,越贵越准但越慢)→ 输出含引用的报告。

一个独特功能是 Polymarket 集成:它可以显示某个话题在预测市场上的实时赔率,帮你快速感知市场对某件事的概率判断。

# 在 Claude Code 中安装使用/plugin marketplace add mvanhorn/last30days-skill/plugin install last30days@last30days-skill# 使用示例/last30days "AI Agent frameworks 2026"/last30days "deepseek vs openai"              # 对比模式/last30days "claude code" --days=7 --quick    # 7天快速版

适合谁用 / 不适合谁用

适合:产品经理和研究员做竞品情报收集、投资人追踪舆论风向变化、内容创作者了解某个话题近期最热的讨论角度。对于需要定期监控某个话题的场景,它还支持设置自动定时追踪,把历史结果存入 SQLite 方便回溯对比。

不适合:对 X(Twitter)Cookie 认证有顾虑的用户(X 的数据需要用 Cookie 来访问,有一定隐私风险)、不使用 Claude Code 的开发者(目前主要为 Claude Code 插件形态)、以及需要完全离线运行的场景(强依赖多个第三方 API)。


六、strix:一个会自己动手攻击你代码漏洞的 AI 安全审计员

解决了什么问题

传统代码安全扫描工具(如 Semgrep、SonarQube)有一个根本性的问题:它们是在”看图纸找问题”,而不是”真正去攻击房子”。静态分析靠规则匹配,误报率高,更重要的是,很多漏洞只有在真实运行时才会暴露,静态工具完全检测不到。

strix 是今日 Python Trending 榜新增 +535 Stars 的开源 AI 安全审计工具,它的方法完全不同:用 AI 多智能体模拟真实黑客团队,动态地”攻击”你的应用,生成真实可运行的 PoC(概念验证漏洞利用代码),并在发现问题后自动生成修复方案和 PR

GitHub:https://github.com/usestrix/strix

技术/产品原理

strix 的架构核心是”Graph of Agents(智能体图)”——多个专能 AI 智能体并行工作:

侦察 Agent 收集目标技术栈信息,漏洞识别 Agent 按 OWASP Top 10 进行扫描,漏洞利用 Agent 尝试生成真实 PoC,报告 Agent 生成结构化安全报告——整个过程在 Docker 沙箱内隔离执行,不会污染你的生产环境。

它使用 Playwright 做浏览器自动化,可以真实模拟用户交互来发现 XSS、CSRF 等前端漏洞;用 LiteLLM 统一管理模型后端,支持 OpenAI、Anthropic、Google 等任意 LLM 切换,也可以用本地 Ollama 模型降低成本。

# 安装curl -sSL https://strix.ai/install | bashexport STRIX_LLM="openai/gpt-4o"export LLM_API_KEY="your-api-key"# 扫描本地代码库strix --target ./my-app-directory# 集成到 GitHub Actions CI/CD# .github/workflows/security.yml 中添加:# run: strix -n -t ./ --scan-mode quick

适合谁用 / 不适合谁用

适合:没有专职安全工程师的中小团队、需要在 CI/CD 中集成自动化安全扫描的 DevSecOps 实践者、以及想研究”AI Agent 在网络安全领域应用”的工程师——strix 的多智能体编排实现是一个很好的真实案例。它已经在 app.strix.ai 提供免费在线试用,无需本地部署即可体验。

不适合:需要 SOC 2 等合规认证背书的大企业(v0.8.3 仍是早期版本,不建议作为唯一的安全合规依据)、需要硬件渗透测试或物理安全审计的场景(strix 只覆盖软件层面)、以及对 Docker 依赖有限制的环境(Docker 是 strix 的必须依赖)。


本期解决方案全局映射表

项目名称
链接
解决的核心问题
适用场景
UI-Voyager(论文)
https://arxiv.org/abs/2603.24533
GUI Agent 无法从失败经历中学习,长步骤任务成功率低
Android 自动化测试、RPA 流程自动化、无障碍辅助工具
EVA(论文)
https://arxiv.org/abs/2603.22918
多模态 LLM 处理长视频时 Token 爆炸,被动感知效率低
长视频问答、视频内容检索、视频 RAG 降本
dexter
https://github.com/virattt/dexter
AI 金融分析无自我验证能力,分析结论无法追溯审计
基本面财报分析、量化研究辅助、ReAct Agent 学习案例
oh-my-claudecode
https://github.com/Yeachan-Heo/oh-my-claudecode
Claude Code 单 Agent 无法完成需要多角色协同的复杂开发
中大型项目开发编排、多模型混合使用、AI 开发成本优化
last30days-skill
https://github.com/mvanhorn/last30days-skill
多平台舆情调研需手动逐个搜索,效率低且难以全面覆盖
竞品情报收集、投资舆论监控、内容选题研究
strix
https://github.com/usestrix/strix
静态代码扫描误报率高,无法发现运行时动态漏洞
DevSecOps CI/CD 安全集成、中小团队安全审计

今日数据来源:GitHub Trending(2026-03-27)、HuggingFace Daily Papers(2026-03-26/27)、arXiv