| ⭐️⭐️⭐️更文不易,点个关注呗⭐️⭐️⭐️ |
| 日常筛选智算架构、分布式训练、软件栈优化等相关前沿论文。提炼高价值论文概要、核心创新点与工程启发,分享给同赛道同行,帮大家节省论文筛选时间,共研底层技术、紧跟行业前沿。By OpenClaw!扩展阅读:AI论文速递 |
范围:北京时间 2026-04-05 arXiv 相关论文
📊 概览
统计:共计 248 篇,过滤淘汰 156 篇,入选精选 8 篇,分类归档 8 篇。
分类:大模型训练与推理技术优化 4 篇,大模型基础设施 0 篇,大模型结构创新与优化 1 篇,大模型应用领域创新 3 篇。
亮点:(1) SSM新架构突破:CAWN通过连续声波网络实现O(L)复杂度,突破200万token上下文;(2) Agent并行优化:Combee实现17倍提示学习加速;(3) Transformer极低比特推理:BWTA二值化方案达到16-24倍加速。
一、大模型训练与推理技术优化(4 篇)
1. CAWN:连续声波网络用于自回归语言建模
「标题」 CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling「作者」 Dejan Čugalj, Aleksandar Jevremovic「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.04250v1「亮点」 (1) 全连续序列混合架构,O(L)线性复杂度 (2) 多头复数域相位累加实现序列混合 (3) 200万token上下文,峰值显存仅8.72 GB「价值」 [提出新型SSM架构替代Transformer attention,将复杂度从O(L²)降至O(L)]。[为长上下文LLM提供高效方案,大幅降低推理成本]。「摘要」 现代大语言模型依赖Transformer自注意力机制,复杂度随序列长度二次增长。CAWN提出一种全连续序列混合架构,通过多头复数域投影实现因果O(L)相位累加机制。针对长上下文信号衰减问题,引入双门控选择性相位共振机制,配合时间句法缓存和深度谐波卷积。在150M参数模型、1000亿token训练规模上验证,在200万token检索任务中仅占用8.72 GB峰值显存。
2. Combee:并行提示学习规模化框架
「标题」 Combee: Scaling Prompt Learning for Self-Improving Language Model Agents「作者」 Hanchen Li, Runyuan He, Qizheng Zhang et al.「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.04247v1「亮点」 (1) 首个支持大规模并行Agent提示学习框架 (2) 17倍加速,同时保持或提升精度 (3) 动态批次控制器平衡质量与延迟「价值」 [解决Agent场景下提示学习无法并行化的难题]。[通过并行扫描和增强洗牌机制,显著提升生产级Agent系统效率]。「摘要」 现有提示学习方法(如ACE、GEPA)主要针对单Agent或低并行度场景,限制了从大量Agent轨迹中学习的效率。Combee提出支持并行提示学习的新框架,通过并行扫描和增强洗牌机制实现多Agent联合学习,同时引入动态批次控制器平衡质量与延迟。在AppWorld、Terminal-Bench等基准上达到17倍加速。
3. BWTA:算法-硬件协同设计的二值化Transformer
「标题」 BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design「作者」 Yifu Ding, Xianglong Liu, Shenghao Jin et al.「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.03957v1「亮点」 (1) 二值权重+三值激活量化方案 (2) CUDA内核级16-24倍加速 (3) LLM推理216-330 tokens/s prefilling加速「价值」 [实现Transformer极低比特推理的实用化方案]。[通过软阈值设计解决二值化精度损失问题,为边缘部署提供新选择]。「摘要」 极低比特量化可显著提升Transformer效率,但精度损失和GPU支持限制阻碍了其广泛应用。BWTA提出二值权重+三值激活量化方案,通过平滑多阶段量化和幅度对齐投影因子实现稳定收敛。开发专用CUDA内核实现指令级并行比特打包,在NVIDIA GPU上达到16-24倍内核加速,LLM推理prefilling速度达216-330 tokens/s。
4. DMA:对角瓦片混合精度注意力机制
「标题」 Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference「作者」 Yifu Ding, Xinhao Zhang, Jinyang Guo「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.03950v1「亮点」 (1) 利用下一代GPU MXFP计算能力 (2) Triton实现融合内核 (3) NVIDIA B200 GPU上保持生成质量同时显著加速「价值」 [针对新型MXFP数据格式的注意力优化]。[为下一代GPU架构提供高效推理方案,推动LLM推理效率边界]。「摘要」 Transformer大语言模型因注意力二次复杂性和高精度操作内存带宽限制导致推理成本高昂。DMA提出基于微缩放浮点(MXFP)数据格式的低比特混合精度注意力内核,采用对角瓦片设计,通过Triton实现融合内核。在NVIDIA B200 GPU上验证,在保持生成质量的同时实现显著加速。
三、大模型结构创新与优化(1 篇)
1. RUQuant:均匀量化精细化方法
「标题」 RUQuant: Towards Refining Uniform Quantization for Large Language Models「作者」 Han Liu, Haotian Gao, Changya Li et al.「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.04013v1「亮点」 (1) 两阶段正交变换解决激活非均匀分布问题 (2) 13B LLM W6A6精度达99.8% (3) 无需微调,约1分钟完成「价值」 [基于Lloyd-Max最优性条件分析激活量化问题,提出正交变换精细化方案]。[显著提升均匀量化精度,降低LLM部署门槛]。「摘要」 后训练量化是压缩大语言模型的有效方法,但现有均匀量化方案因激活分布非均匀导致精度显著下降。RUQuant从理论角度分析Lloyd-Max最优性条件,提出两阶段正交变换方法:第一阶段使用复合正交矩阵将激活映射到均匀采样目标向量;第二阶段全局Householder反射微调。13B LLM在W6A6配置下达99.8%全精度,约1分钟完成。
四、大模型应用领域创新(3 篇)
1. I-CALM:基于置信度的幻觉缓解框架
「标题」 I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation「作者」 Haotian Zong, Binze Li, Yufei Long et al.「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.03904v1「亮点」 (1) 首个基于提示的置信度abstain框架 (2) 减少错误回答率同时保持强制回答性能 (3) 揭示abstention-hallucination前沿权衡「价值」 [提出无需模型微调的幻觉缓解方案]。[通过置信度识别和奖励机制鼓励模型主动放弃不确定回答]。「摘要」 大语言模型常产生自信但错误的回答,部分原因是现有评分机制偏向于回答而非诚实表达不确定。I-CALM提出基于提示的框架:(1)引发口头置信度(2)通过显式奖励机制部分奖励abstain(3)添加强调真实性和谦逊的规范原则。在PopQA数据集上显著降低错误回答率,同时保持强制回答性能。
2. PALM:LLM个性化投资组合方法
「标题」 Many Preferences, Few Policies: Towards Scalable Language Model Personalization「作者」 Cheol Woo Kum, Jai Moondra, Roozbeh Nahavandi et al.「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.04144v1「亮点」 (1) 首个提供LLM组合尺寸和逼近质量理论保证 (2) 表征个性化成本-多样性权衡 (3) 验证输出多样性优于基线「价值」 [解决LLM个性化"一个用户一个模型"不可行的问题]。[通过投资组合方法实现可扩展个性化,为实际部署提供理论基础]。「摘要」 LLM个性化的终极目标是每个用户一个模型,但因计算、内存和系统复杂度约束而不可行。PALM提出选择小型LLM组合的方法,通过多维权重向量建模用户偏好,在任意权重向量下提供近乎最优的选择。首次为LLM个性化提供尺寸和逼近质量理论保证。
3. AdaptFuse:无训练的贝叶斯偏好学习
「标题」 AdaptFuse: Training-Free Sequential Preference Learning via Externalized Bayesian Inference「作者」 Fangzhou Lin, Peiran Li, Shuo Xing et al.「发表」 2026-04-05「URL」https://arxiv.org/abs/2604.03925v1「亮点」 (1) 无需微调的隐私保护偏好学习方法 (2) 符号模块维持贝叶斯后验 (3) 在多个推荐任务上超越微调基线「价值」 [解决多轮交互中LLM无法累积证据的问题]。[通过外部化贝叶斯推理实现隐私保护下的个性化推荐]。「摘要」 大语言模型难以跨多轮用户交互累积证据。AdaptFuse提出无训练框架:将概率计算外部化为符号模块,冻结LLM通过Dirichlet聚合提供语义推理。通过熵自适应融合自动权衡各来源的预测置信度。在航班推荐、酒店推荐和网购任务上持续超越提示基线和微调贝叶斯教学模型。
参考资料:
https://arxiv.org/
夜雨聆风