AI Agent & LLM
早上好,六月的技术圈继续热闹,来看看昨天有什么值得关注的动态。
重点动态
vLLM-2080Ti-Definitive: 双 2080Ti 跑 27B 模型
有人在双 RTX 2080 Ti 上把 27B/31B 模型跑到了 100+ tok/s,还支持 262K 上下文,老卡的生命力比想象中强。
2080Ti 单卡 11GB 显存,两张 NVLink 桥接后 22GB,常规思路只能跑 7B 级别。作者通过精细调校 vLLM 运行时,把显存利用压到极限,27B 模型单请求解码超过 100 tok/s。262K 原生上下文支持更是很多新卡配置都未必做到的长度。
对手上还有老卡的工程师来说,这份配置直接省了一笔硬件升级费。和下面那条 RTX 3060 跑 35B 的指南一起看,"老硬件跑大模型"已经形成了自己的小社区。

📎 相关链接
vLLM-2080Ti-Definitive
https://github.com/weicj/vLLM-2080Ti-Definitive
SoulX-Transcriber: 端到端多说话人语音转录
联合建模"谁说的、什么时候说的、说了什么"三个任务,用端到端方式替代传统的分步流水线。
多说话人转录的传统做法是 VAD 切段加说话人聚类再跑 ASR,每一步的误差往前传播,最终结果经常错得离谱。SoulX 把这三个任务塞进同一个模型里联合优化,从原理上减少了级联误差。
GitHub 上标注支持 ASR、说话人分离和说话人日记三个任务,Python 实现降低了上手门槛。做会议记录、访谈整理这类场景的团队值得关注。

📎 相关链接
SoulX-Transcriber
https://github.com/Soul-AILab/SoulX-Transcriber
episodiq: Agent 轨迹的结构化日志
Agent 跑完之后的日志到底怎么看?episodiq 给出了一个方案,生成人类可读的结构化日志,还能做轨迹检索。
生产环境里 Agent 的 debug 一直是老大难。原始日志太冗长,摘要又丢失关键细节。episodiq 同时解决了两个问题,日志写得既经济又完整,还能按结构快速检索到出问题的环节。项目强调"economical",说明作者有意识地在控制日志体积,不是一股脑全记下来。

📎 相关链接
episodiq
https://github.com/slavaZim/episodiq
edge-lm: 边缘设备专用的 Tiny LLM
TheStageAI 放出一套面向边缘部署的小模型,从模型层而非推理框架层切入,让 LLM 在 IoT 和移动端跑得更顺畅。
边缘 AI 的热度持续走高,但大部分工作集中在推理框架优化,模型本身的针对性设计反而少。edge-lm 从模型结构层面做了裁剪,目标是让小参数量模型在资源受限的设备上保持可用性。Python 实现,实验门槛不高,不过真正落地还得看具体硬件适配。

📎 相关链接
edge-lm
https://github.com/TheStageAI/edge-lm
data2prompt: 把数据科学项目塞进 LLM 上下文
你有个数据科学项目想让 LLM 帮忙看,但文件太多塞不进上下文窗口,这个 CLI 工具就是干这个的。
智能筛选代码、数据描述和配置文件,打包成 LLM 能消化的格式。能上 HN 首页说明这个需求击中了不少人的痛点,毕竟谁没试过把整个项目丢给 Claude 然后被告知"太长了"。

📎 相关链接
data2prompt
https://github.com/arianmokhtariha/data2prompt
aiforge: 一键同步多工具 AI 编程配置
Copilot、Claude Code、Cursor 各有各的配置文件格式,aiforge 用一条命令把它们统一起来。
TypeScript 实现,能把一个 Git 仓库里的 AI 编程配置同步到多个工具。同时用两三个 AI 编程工具的 developer 应该深有体会,维护分散的配置文件纯属浪费时间。

📎 相关链接
aiforge
https://github.com/flanliulf/aiforge
RoboStressBench: VLM 在真实物理场景的鲁棒性评测
现有 VLM 评测用干净图片,跟真实机器人部署环境差了十万八千里,这个基准专门模拟物理场景中的视觉压力。
光照变化、遮挡、材质反射,这些才是机器人部署时真正遇到的问题。论文来自 arXiv,对做具身 AI 的团队来说,比标准 benchmark 更有参考价值。

📎 相关链接
RoboStressBench
https://arxiv.org/abs/2606.00828
RTX 3060 跑 Qwen3.6-35B 指南
又一份老显卡压榨教程,这次的主角是 RTX 3060 和 35B 参数的 Qwen3.6。
跟上面 2080Ti 那条一起看,"用消费级老卡跑大模型"这个赛道比想象中活跃。这类指南最值钱的部分是具体的量化配置和踩坑记录,泛泛的推理框架介绍谁都能写。

📎 相关链接
rtx3060-qwen3.6-35b-guide
https://github.com/castlen3/rtx3060-qwen3.6-35b-guide
HN 热议: 别把求职帖当获客渠道
一位带着妻子和猫的移民求职者在 HN 发帖找工作,收到的是 AI 创业者的产品推销邮件,社区炸了。
发帖人说自己需要一份工作来付房租养家,结果等来的不是 offer 而是"我做的 LLM 工具可以帮你编排 Agent 工作流"。HN 社区几乎一边倒地认为这种行为既不尊重人也不体面。做 AI 产品的团队,获客要有底线。
📎 相关链接
Please don't spam people looking for employment
https://news.ycombinator.com/item?id=48370330
下午见。
夜雨聆风