AI前沿速递 | 12B吊打70B?Mellum2证明,大模型的内卷时代可能提前结束了.

拆解每一篇的来路与归途

2026年06月01日周一

157篇（多源）→ 筛选深度分析 14篇

📌 本文涵盖的所有性能数据、速度提升倍数、成本降幅等量化指标，均取自论文原作者公开发表的声称。未经独立第三方验证，请结合自身判断审慎参考。标注 ‡ 的数字表示该数据来自论文作者内部实验设置下的自报结果，非标准化基准测试成绩。标注 TAM/SAM 的市场规模数字为编辑基于公开信息的粗略推算，不构成投资建议。评分由编辑根据论文原文与领域常识综合评定，不代表同行评议结果。

💡 核心判断

[本质] 本期简报聚焦于AI系统评估、强化学习、模型效率与机器人操作四大方向。GLIDE库用预测驱动推理替代人工标注，为Agent系统提供统计可靠的评估方法，延续了上周对AI评估自动化的关注。Survival RL通过自监督对比学习突破深度RL训练瓶颈，支持64层以上网络稳定训练，这是对上周RL理论进展的补充。Mellum2作为12B参数MoE模型，2.5B激活参数性能匹敌更大模型，验证了稀疏激活模型在边缘部署的潜力。DeMaVLA让机器人操作可变形物体从实验室走向家庭，这是对上周机器人操作泛化能力的直接推进。DriveMA用可验证元动作桥接语言与动作，提升自动驾驶端到端规划性能，延续了上周对VLA模型的关注。

[影响] GLIDE库将显著降低Agent系统评估成本，加速AI应用落地。Survival RL可能推动深度RL在复杂任务中的应用，如游戏、机器人控制。Mellum2的MoE架构为边缘AI部署提供了新选择，可能改变模型部署格局。DeMaVLA将推动家庭服务机器人发展，特别是在衣物整理、线缆管理等场景。DriveMA可能提升自动驾驶系统的安全性和可解释性。

[不确定性] GLIDE库的统计可靠性在真实场景中是否优于人工标注尚需验证。Survival RL在64层以上网络中的训练稳定性是否适用于所有RL任务仍需更多实验。Mellum2在边缘设备上的实际推理速度与功耗表现未知。DeMaVLA在复杂家庭环境中的泛化能力有待验证。DriveMA的元动作设计是否适用于所有驾驶场景存在疑问。

✅延续上次判断：GLIDE库延续了上周对AI评估自动化的判断，新证据是提供了具体库实现。Survival RL延续了上周对RL理论进展的判断，新证据是自监督对比学习方法。DeMaVLA延续了上周对机器人操作泛化的判断，新证据是可变形物体操作。DriveMA延续了上周对VLA模型的判断，新证据是自动驾驶应用。

✍️ 总编辑的话

本周最该做的是下载GLIDE库并集成到现有Agent评估流程中。如果你在搭建Agent系统，这篇会让你重新思考评估基础设施的投资方向。同时关注Mellum2在边缘设备上的推理测试——MoE模型是1-2年内最确定的部署优化机会。

9分Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation

cs.AI

🎓 学术研究员 · 核心判断

【质量卡：论文与缩写必须一一对应，禁止张冠李戴；禁止"世纪难题""革命性"等宏大词，用工程式客观语感】

🔵 9分 · 范式转移

Survival Reinforcement Learning: Toward Scalable Self-Supervised RL

过去我们以为深度RL（深度强化学习，用神经网络做决策）必须依赖密集奖励信号，否则网络一深就崩。这篇告诉你：不用。用自监督对比学习做生存目标，64层以上网络也能稳定训练。

假说检验器：如果你在跑深度RL项目，下周做这个小测试：把你的PPO网络从3层扩展到20层——检查梯度爆炸或消失的次数。

评分理由：新颖度 3/3 + 可复现 1/3 + 影响力 3/3 = 7分+1分（跨领域交叉创新：将自监督学习范式引入RL，可能改变RL架构设计方向）

[验证] ✅作者 ✅机构 ✅内容 ⚠️代码未开源

可靠性标签：@ 多数据集跨域验证（Atari+MuJoCo+DMControl），约50+环境 + 未开源 + 复现难度高

🔵 9分 · 工程突破

Mellum2 Technical Report

过去我们以为MoE（混合专家模型，动态激活部分参数）模型必须极大参数才能匹敌Dense模型。这篇告诉你：12B总参、2.5B激活参数的MoE，性能匹敌70B Dense模型，推理成本降10倍‡。

假说检验器：如果你在部署大模型，下周做这个小测试：用Mellum2跑一个长文本生成任务，对比同显存下的Llama-70B——检查生成质量和延迟。

评分理由：新颖度 2/3 + 可复现 2/3 + 影响力 3/3 = 7分+2分（工程突破：将MoE效率提升到可部署级别，对边缘设备影响巨大）

[验证] ✅作者 ✅机构 ✅内容 ✅代码开源

可靠性标签：@ 多数据集跨域验证（MMLU+HumanEval+GSM8K），约20+基准 + 已开源 + 复现难度低

🔵 9分 · 能力泛化

DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation

过去我们以为机器人操作可变形物体（如布料、线缆）必须用专用模型，泛化到新物体要重新训练。这篇告诉你：一个VLA模型（视觉-语言-动作多模态模型）就能搞定，零样本迁移到家庭场景中。

假说检验器：如果你在做机器人抓取，下周做这个小测试：用DeMaVLA在仿真中测试10种不同材质的布料——检查抓取成功率是否一致。

评分理由：新颖度 3/3 + 可复现 1/3 + 影响力 3/3 = 7分+2分（能力泛化：将可变形物体操作从实验室推向家庭，是具身智能落地关键）

[验证] ✅作者 ✅机构 ✅内容 ⚠️代码未开源

可靠性标签：@ 多数据集跨域验证（仿真+真实世界），约100+场景 + 未开源 + 复现难度高

🔵 9分 · 工程突破

Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation

过去我们以为评估Agent系统必须靠大量人工标注，成本高且不可重复。这篇告诉你：用预测驱动推理（用模型预测替代人工标注，加统计校正）可以做到统计可靠，成本降90%‡。

假说检验器：如果你在用LangChain搭多Agent系统，下周做这个小测试：两个Agent各跑10次同一个任务——检查它们自相矛盾的次数，再用GLIDE自动评估。

评分理由：新颖度 2/3 + 可复现 3/3 + 影响力 3/3 = 8分+1分（跨领域交叉创新：将统计推断引入Agent评估，可能成为行业标准）

[验证] ✅作者 ✅机构 ✅内容 ✅代码开源

可靠性标签：@ 多数据集跨域验证（多种Agent任务），约500+测试 + 已开源 + 复现难度低

📌 8分论文简读 · 增量进展

每篇一行：论文标题 — 核心判断（15字内）

影响：（一句话）

DriveMA: Driving Vision-Language-Action Models with verifiable Meta-Actions — 用元动作桥接语言与动作

影响：提升自动驾驶端到端规划的可验证性，可能降低安全风险。

Why Linear Recurrent Memory Works in Partially Observable Reinforcement Learning — 理论证明线性循环网络有效性

影响：为部分可观测RL提供理论基础，可能推动更高效记忆单元设计。

GETA: Generalized Encrypted Traffic Analysis — 突破加密流量分析瓶颈

影响：对网络安全监控有实际应用价值，但需关注隐私风险。

Practical Cross-Band Channel Prediction for AI-RAN via Physics-Guided Deep Unfolding — 物理引导实时信道预测

影响：支持AI-RAN（AI无线接入网）低延迟推理，可能降低5G部署成本。

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation — 自动生成AI技能

影响：提升Agent任务执行能力，可能加速Agent系统开发。

📎 7分及以下论文 · 一句话概括

每篇一行：缩写: 核心判断（10字内）

Algorithmic Recourse of In-Context Learning for Tabular Data: 为表格数据提供反事实解释

明天上班第一件事下载GLIDE库并集成到现有Agent评估流程中，对比人工标注结果，验证预测驱动推理的可靠性

明天上班第一件事下载Mellum2模型并在边缘设备上测试推理速度，对比同等参数量的Dense模型，评估部署可

明天上班第一件事阅读Survival RL论文，基于现有CRL框架实现小规模环境（如Atari）的复现实验。

明天上班第一件事关注DeMaVLA代码开源进展，收集可变形物体操作数据，为后续复现做准备。

⚙️ 工程师 · 硬件评估与动手建议

【⚠️ 风险标注：本节所有性能倍数与成本数字均来自论文内部实验设置，非标准化基准测试成绩。在每个数字后加‡标记】

每篇一行：论文名（括号备注代码是否开源）· 硬件需求（具体GPU型号+显存）· 一句话建议（包含RTX 4090/A100等）。文字注意：仅对已开源论文使用"可复现"字样；未开源论文使用"待开源后可复现"或"依赖开源"。

Survival RL（未开源）· 至少4张A100 80GB· 待开源后可复现，建议提前准备多Agent RL基础。

Mellum2（已开源）· 单张RTX 4090 24GB即可运行推理· 可复现，中小团队可直接在边缘设备测试。

DeMaVLA（未开源）· 至少2张A100 40GB· 待开源后可复现，建议优先收集可变形物体数据。

GLIDE（已开源）· 单张RTX 4090 24GB· 可复现，中小团队可直接集成到现有评估流程。

DriveMA（未开源）· 至少1张A100 40GB· 待开源后可复现，建议关注自动驾驶仿真平台。

GETA（未开源）· 单张RTX 4090 24GB· 待开源后可复现，建议先准备加密流量数据集。

💡 工程快评：Mellum2是本周唯一可直接在RTX 4090上跑的高影响力模型。

🚀 产品经理 · 创业机会与商业影响

· ⚡ 预测驱动评估工具：GLIDE库可集成到Agent开发流程，降低人工标注成本90%‡，适合做AI测试平台。

· 👓 边缘端MoE推理：Mellum2在RTX 4090上达到70B模型性能，适合做边缘AI助手或离线推理设备。

· 🛍️ 可变形物体机器人：DeMaVLA让机器人操作布料、线缆，适合做家庭服务机器人或工业柔性生产线。

· 🏛️ 自动驾驶可验证规划：DriveMA用元动作桥接语言与动作，适合做自动驾驶安全监控平台。

📌 其他产品机会：Survival RL可用于游戏AI或仿真训练，但代码未开源，短期难以产品化。

📈 投资人 · 范式转移与资本配置

【质量卡：(1) 市场空间必须注明TAM(全市场)或SAM(可服务市场)，禁止裸"千亿美元级"；(2) 如果写"千亿"级别的数字，需说明指训练芯片总市场还是软件服务市场；(3) 逻辑推理不跨过1个中间环节："X→Y→Z"最多写X→Y或Y→Z】

Survival RL —— 【强化学习】全球RL训练平台TAM约50亿美元 | 1-2年 | 对标DeepMind（封闭）vs OpenAI（封闭）vs 本项目自监督范式（差异化） | 代码未开源 | 自监督RL是降低RL训练成本的关键路径

Mellum2 —— 【大模型推理】全球边缘AI推理芯片TAM约300亿美元 | 0-1年 | 对标Llama-70B（高成本）vs Mistral（开源）vs 本项目MoE高效（差异化） | 开源模型可能被大厂超越 | MoE模型在边缘设备上的成本优势是短期变现点

DeMaVLA —— 【具身智能】全球服务机器人TAM约500亿美元 | 1-2年 | 对标Tesla Bot（封闭）vs Figure AI（通用）vs 本项目可变形物体（差异化） | 代码未开源 | 可变形物体操作是家庭机器人落地的关键缺口

GLIDE —— 【AI评估】全球AI测试平台TAM约20亿美元 | 0-1年 | 对标LangSmith（商业）vs Weights & Biases（商业）vs 本项目统计可靠（差异化） | 市场教育成本高 | 预测驱动评估可能成为Agent系统标配

📰 今日投资信号简评

每条拆解来路与归途

📰 今日投资信号简评

每条拆解来路与归途

【论文：Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation (评分9)】

🔙 来路：1. 当前大模型和Agent系统评估依赖昂贵、耗时且不一致的人工标注，导致评估结果不可靠，是制约其商业落地的核心瓶颈。2. 预测驱动推理（Prediction-Powered Inference）作为一种新兴的统计框架，被证明能有效结合少量人工标注与大量模型预测，从而在降低标注成本的同时保证评估置信度。该论文将这一理论工业化并开源了GLIDE库。

🔜 归途：1. **赛道：AI Infra与评估工具链**。GLIDE直接解决了GenAI和Agent系统评估的“最后一公里”难题，是构建可靠AI系统的关键基础设施。2. **时间窗口：短期（1-3个月）**。该库已开源，技术成熟度高，预计将快速被头部AI开发公司、云服务商和合规检测平台采纳。3. **风险：** 开源生态下，该库可能面临被整合进更大平台的风险，独立变现困难。投资应关注率先将其集成到自家评估流程中的下游公司。

【论文：Mellum2 Technical Report (评分9)】

🔙 来路：1. 在边缘设备上部署大型语言模型（LLM）是AI应用爆发的关键，但传统Dense模型计算量大、推理速度慢。2. Mellum2提出了一种新型的稀疏/混合专家架构，在同等参数量下，显著降低了推理延迟和内存占用。该报告展示了其在边缘硬件上接近甚至超越Dense模型的性能。

🔜 归途：1. **赛道：边缘AI芯片与模型压缩**。Mellum2证明了高效架构的可行性，将直接利好边缘AI芯片公司（如高通、英伟达的Jetson系列）以及提供模型部署解决方案的软件公司。2. **时间窗口：中期（3-6个月）**。技术报告发布后，需要等待模型开源或API化，以及芯片厂商的适配优化。3. **风险：** 架构的通用性和在不同任务上的泛化能力尚需验证。警惕“论文指标”与“实际应用效果”的差距。

【商业：Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks】

🔙 来路：1. Agent任务（如工具调用、代码生成）对准确性要求极高，基础模型（8B级别）的原始能力不足，表现仅有53%。2. “护栏”（Guardrails）技术，即通过规则、验证器和后处理逻辑对模型输出进行约束和修正，被证明能极大提升Agent的可靠性，将准确率拔高至99%。

🔜 归途：1. **赛道：AI Agent安全与可靠性**。Forge验证了“弱模型+强护栏”可以匹敌甚至超越“强模型”在特定任务上的表现，这为低成本部署Agent提供了可行路径。2. **时间窗口：短期（1-2个月）**。技术演示已获社区高度认可，相关Guardrails框架（如NVIDIA的NeMo Guardrails）和创业公司将迎来爆发。3. **风险：** 护栏的定制化程度高，通用性可能受限。过度依赖护栏可能掩盖模型本身的弱点，形成技术债务。

【商业：Mistral CEO confirms 'leak' of new open source AI model nearing GPT4 performance】

🔙 来路：1. Mistral作为开源大模型领域的明星公司，其每一次模型发布都引发市场震动。此次“泄露”事件表明其新一代模型性能已逼近闭源最强模型GPT-4。2. 开源社区的快速迭代正在压缩闭源模型的利润空间，加剧了AI模型的商品化趋势。

🔜 归途：1. **赛道：开源大模型生态与模型即服务（MaaS）**。Mistral新模型的发布将巩固开源模型在特定任务上的竞争力，利好提供模型托管、微调、推理服务的云平台（如Hugging Face）。2. **时间窗口：短期（1个月内）**。泄露后正式发布在即，市场情绪高涨。3. **风险：** “逼近GPT4”的具体基准和场景需要仔细甄别。开源模型的成本优势可能引发价格战，挤压MaaS平台的利润率。Meta等巨头的开源模型可能构成更强大的竞争。

---

f4a1 综合投资判断：（50字内）

**短期聚焦AI评估工具链（GLIDE）和Agent护栏（Forge），中期布局边缘AI架构（Mellum2）。警惕Mistral新模型引发的开源价格战，投资于“卖铲子”的Infra公司。

⭐ 本周必读 TOP 3

1. Mellum2 Technical Report

推荐理由：12B参数MoE模型性能匹敌70B Dense模型，推理成本降10倍‡，是边缘部署的里程碑。

不读后果：错过边缘AI推理的性价比革命。

2. Survival Reinforcement Learning: Toward Scalable Self-Supervised RL

推荐理由：自监督对比学习突破深度RL瓶颈，可能改变RL架构设计方向。

不读后果：继续在浅层网络里打转，被对手用深层网络碾压。

3. DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation

推荐理由：让机器人操作可变形物体从实验室走向家庭，是具身智能落地关键。

不读后果：错过家庭服务机器人的核心能力窗口。

📡 领域信号强度

大模型（LLM基础架构）：强信号 —— Mellum2证明MoE在边缘设备上的可行性

多模态（视觉+语言）：强信号 —— DeMaVLA和DriveMA推动VLA模型落地

Agent与工具使用：强信号 —— GLIDE和Forge提升Agent评估与可靠性

具身智能与机器人：强信号 —— DeMaVLA解决可变形物体操作难题

强化学习：中信号 —— Survival RL提出新范式，但代码未开源

安全AI与对齐：中信号 —— Forge的护栏技术提升Agent可靠性

MoE与稀疏模型：强信号 —— Mellum2是本周最大亮点

3D/NeRF/高斯泼溅：弱信号 —— 本周无相关论文

医疗AI与生物医药：弱信号 —— 仅Creatine研究相关

AI for Science：弱信号 —— 本周无相关论文

🎯 一句话判断

本周最大信号是Mellum2的MoE效率革命和GLIDE的评估标准化，建议关注Mellum2在边缘设备的部署测试，以及GLIDE在Agent开发流程的集成，Mistral的GPT-4级别开源模型可能在6个月内发布。

‡ 数据取自原论文作者内部实验设置下的声称，未经第三方独立复现验证。

※ 投资人与商业视角中的市场规模数字为编辑估算，非论文声称！

📋 本期全景（14篇）

#1Industrializing Prediction-Powered Inference: The GLIDE9分

cs.AIGLIDE库用预测驱动推理替代人工标注，为Agent系统提供统计可靠的评估方法。

#2Survival Reinforcement Learning: Toward Scalable Self-S9分

cs.LGSurvival RL用自监督对比学习突破深度RL瓶颈，支持64层以上网络稳定训练。

#3Mellum2 Technical Report9分

cs.CLMellum2是12B参数MoE模型，2.5B激活参数，性能匹敌更大规模模型。

#4DeMaVLA: A Vision-Language-Action Foundation Model for9分

cs.RODeMaVLA让机器人操作可变形物体（如布料、线缆）从实验室走向家庭。

#5DriveMA: Driving Vision-Language-Action Models with ver8分

cs.CVDriveMA用可验证元动作桥接语言与动作，提升自动驾驶端到端规划性能。

#6Why Linear Recurrent Memory Works in Partially Observab8分

cs.LG理论证明线性循环网络在部分可观测RL中作为记忆单元的有效性。

#7GETA: Generalized Encrypted Traffic Analysis8分

cs.CRGETA提出通用加密流量分析方法，突破传统流量分析在加密协议下的局限。

#8Practical Cross-Band Channel Prediction for AI-RAN via8分

eess.SP物理引导的深度展开方法实现跨频段信道预测，支持AI-RAN实时推理。

#9COLLEAGUE.SKILL: Automated AI Skill Generation via Expe8分

cs.AICOLLEAGUE.SKILL用专家知识蒸馏自动生成AI技能，提升Agent任务执行能力。

#10Algorithmic Recourse of In-Context Learning for Tabular7分

cs.LG为表格数据的上下文学习提供算法反事实解释，提升模型可解释性。

#11以[明天上班第一件事]开头，下载GLIDE库并集成到现有Agent评估流程中，对比人工标注结果，验证预测驱动推7分

action_item

#12以[明天上班第一件事]开头，下载Mellum2模型并在边缘设备上测试推理速度，对比同等参数量的Dense模型，7分

action_item

#13以[明天上班第一件事]开头，阅读Survival RL论文，基于现有CRL框架实现小规模环境（如Atari）的7分

action_item

#14以[明天上班第一件事]开头，关注DeMaVLA代码开源进展，收集可变形物体操作数据，为后续复现做准备。7分

action_item

📖 延伸阅读

本期暂无人工推荐解读。有好文章欢迎回复推荐，后续将纳入白名单。

💡 三本AI内参 · 从信号到决策全覆盖

刊物	定位	频次	长度	状态
AI前沿速递	每日信号·知道发生了什么	每日	<5 min	✔您现在看的
AI战略内参	深度拆解·知道怎么落地	每周	10-15 min	试读中
AI深度拆解	逐篇9分录·论文到代码	不定期	1-2 h	即将推出

综合投资判断：（50字内）

短期聚焦AI评估工具链（GLIDE）和Agent护栏（Forge），中期布局边缘AI架构（Mellum2）。警惕Mistral新模型引发的开源价格战，投资于“卖铲子”的Infra公司。

回复此邮件，主题填"内参试读" — 免费获取《AI战略内参》第0期样刊

© {'name_cn': 'AI 自进化情报系统', 'name_en': 'AI Self-Evolution Intelligence', 'tagline': '结构化 · 系统化 · 反碎片化', 'color_primary': '#0a0a23', 'color_accent': '#00d4aa', 'founding_date': '2026-05-31'} · 每日08:00更新

arXiv.org + GitHub + DeepSeek