2026/04/30 AI速递 | 中杯模型与开源加速双线并进-夜雨聆风

2026/04/30 AI速递 | 中杯模型与开源加速双线并进

南荒说

关注南荒说，阅读更多好文

文章目录

01. Mistral Medium 3.5：中杯模型低调更新
02. FlashQLA：Qwen 线性注意力核提速 3 倍
03. Poolside 开源 33B 编码模型，SWE-bench 达 68.2%
04. OpenAI 开源 PII 脱敏模型：1.5B 参数仅 50M 激活
05. Scout AI 获 1 亿美元，为士兵训练 AI 操控无人车
06. AI 评估成本：新计算瓶颈
07. AI 智能体协作：白领工作的流水线化
08. Meta FAIR 发布 NeuralSet：统一脑数据与 AI 流水线

✨ 今日阅读

用心分享·欢迎阅读

Mistral Medium 3.5：中杯模型低调更新

📅 2026/04/29 23:17:46

Mistral 悄然发布了 Medium 3.5，这是其中端模型的例行升级。官方博文重点强调了模型在远程代理任务（如 API 调用、工具使用）上的改进，但未给出具体的性能对比数据或基准测试分数。Hacker News 上该消息获得 262 点赞和 153 条评论，社区讨论主要围绕其实际效果与定价——部分用户指出，Mistral Medium 系列一直定位在“够用但不惊艳”，3.5 版本可能延续这一路线。目前该模型已在 Mistral 平台开放 API 访问。

···

FlashQLA：Qwen 线性注意力核提速 3 倍

📅 2026/04/30 01:28:17

文章配图

Qwen 团队开源了 FlashQLA，一个专为 Gated Delta Network（GDN）线性注意力机制优化的 GPU 核函数库。在 NVIDIA H200 上，其前向计算速度相比现有的 Triton 实现（FLA 库）提升 「2–3 倍」，反向传播提升约 「2 倍」。

线性注意力将标准注意力的 O(n²) 复杂度降至 O(n)，是处理长序列的关键。Qwen3.5/3.6 采用混合架构，GDN 层与全注意力层交替。FlashQLA 的三项创新包括：利用 GDN 门控衰减特性自动实现片内上下文并行；通过代数重排减少 Tensor Core、CUDA Core 和 SFU 开销且不损失精度；基于 TileLang 构建融合的 warp 专用化核，实现数据传输与矩阵计算的重叠。

FlashQLA 目前仅支持 Hopper 架构（SM90+），依赖 CUDA 12.8+ 和 PyTorch 2.8+，适用范围有限。其性能优势在预训练和边缘端 agentic 推理场景最为显著。

···

Poolside 开源 33B 编码模型，SWE-bench 达 68.2%

📅 2026/04/29 13:45:42

Poolside AI 发布了两款面向代理式编程的 MoE 模型：Laguna M.1（225B 总参/23B 激活）和 Laguna XS.2（33B 总参/3B 激活）。其中 XS.2 以 Apache 2.0 协议开源，可在 36GB 内存的 Mac 上通过 Ollama 运行。

性能方面，M.1 在 SWE-bench Verified 上达到 「72.5%」，XS.2 为 「68.2%」，两者均训练于 30T tokens。XS.2 采用滑动窗口注意力（3:1 比例）和 FP8 KV 缓存，上下文窗口 131K tokens，并支持原生推理（可控制是否启用思考过程）。

训练创新包括：用 Muon 优化器替代 AdamW，在相同损失下减少约 「15%」 的训练步数，且仅需单状态存储；自研 AutoMixer 框架，通过约 60 个代理模型自动优化数据配比，合成数据占比约 13%；全异步在线强化学习系统，推理与训练并行，通过 GPUDirect RDMA 在 5 秒内传输数百 GB 权重。

意义：XS.2 以极小的激活参数量（3B）在编码基准上逼近更大模型，证明 MoE 架构和高效训练方法可显著降低本地部署门槛。但需注意，SWE-bench 测试集主要覆盖 Python 仓库，多语言和实际生产环境的泛化能力有待验证。

···

OpenAI 开源 PII 脱敏模型：1.5B 参数仅 50M 激活

📅 2026/04/29 05:37:57

OpenAI 在 Hugging Face 上以 Apache 2.0 许可证开源了 Privacy Filter，一个专用于检测和脱敏文本中个人身份信息（PII）的 token 分类模型。它可识别 8 类敏感信息：账号、地址、邮箱、姓名、电话、URL、日期和密钥。模型体积小，能在浏览器或笔记本上运行，适合高吞吐量的数据清洗管线。

「架构亮点在于稀疏 MoE」：总参数 1.5B，但推理时仅激活 50M，约 30 倍差距。模型采用 8 层预归一化 Transformer，d_model=640，分组查询注意力（14 查询头/2 KV 头）配合 RoPE，支持 128K 上下文。前馈层为 128 专家、top-4 路由的稀疏 MoE。训练分三阶段：先自回归预训练，再转为双向带状注意力编码器（带宽 128），最后用监督分类损失微调。推理时使用约束 Viterbi 解码替代逐 token argmax，并提供了 6 个可调过渡偏置参数，让开发者无需重训即可调整精度/召回权衡。

该模型适合需要本地部署的团队，用于清洗日志、预处理用户内容或构建数据脱敏管道。但 OpenAI 也承认，模型对新型凭证格式和跨句法分割的密钥存在漏检，这是已知的失败模式。

···

Scout AI 获 1 亿美元，为士兵训练 AI 操控无人车

📅 2026/04/29 17:45:00

Colby Adcock 创立的 Scout AI 完成 1 亿美元融资，用于开发能帮助单兵操控无人车集群的 AI 智能体。TechCrunch 参观了其训练营地。目前该项目仍处于早期验证阶段，实际战场的可靠性尚未公开测试。

···

AI 评估成本：新计算瓶颈

📅 2026/04/30 00:45:09

Hugging Face 博客文章指出，AI 评估（eval）正在成为新的计算瓶颈。随着模型规模持续增长，评估这些模型所需的计算资源和时间成本急剧上升，甚至可能超过训练成本。文章强调，当前评估流程缺乏标准化和效率优化，导致大量算力被低效使用。这一问题可能延缓模型迭代速度，尤其对中小团队构成更大挑战。Hugging Face 呼吁社区关注评估效率，并探索更轻量的评估方法。

···

AI 智能体协作：白领工作的流水线化

📅 2026/04/29 20:10:00

MIT Technology Review 指出，AI 智能体的真正潜力不在于单打独斗，而在于团队协作。当多个智能体协调分工处理复杂任务时，可能像流水线改造制造业一样重塑白领知识工作。Codex、Claude Cowork 等应用已展现这种多智能体通用生产力工具的雏形。但文章也警告，随着智能体进入真实系统，风险同步增长。此外，美国核废料问题日趋紧迫——每年产生约 2000 吨高放射性废物，却无永久储存方案。OpenAI 与马斯克的庭审同日启动，马斯克指控奥特曼“窃取慈善机构”，称 OpenAI 本应为非营利组织以避免“终结者结局”。

···

Meta FAIR 发布 NeuralSet：统一脑数据与 AI 流水线

📅 2026/04/29 15:56:02

Meta FAIR 实验室发布 NeuralSet，一个旨在消除神经科学数据与深度学习流水线之间整合痛点的 Python 框架。其核心设计是结构-数据解耦：将实验的逻辑结构（事件、时间戳等轻量元数据）与实际的信号提取分离，从而支持在无需将原始数据加载到内存的情况下探索 TB 级数据集。

NeuralSet 提供统一接口，支持 fMRI、M/EEG、spikes 等多种神经记录模态，并原生集成 HuggingFace 生态，可调用 DINOv2、CLIP、Whisper、LLaMA 等模型提取刺激特征，并通过时间扩展实现与神经信号的自动对齐。框架基于 「exca」 包实现确定性哈希缓存和完整计算溯源，配置错误在初始化时即被 Pydantic 捕获，避免算力浪费。

与 18 个现有神经科学软件包的对比显示，NeuralSet 是唯一在所有类别（神经设备、任务类型、基础设施功能）均获得完全支持的方案。目前项目已开源，但实际效果仍需社区验证——尤其是跨模态切换的易用性和大规模集群下的性能表现。

🚀 南荒说

读书思考 · 知行合一