不用＂编辑精选＂: Spotify 用 AI 把播客推荐带到 next level

打开播客应用，面对海量节目不知从何听起；或者总是被推荐那几档熟悉的节目，难以发现新的宝藏内容——这大概是全球数亿播客听众共同的痛点。而现在，人工智能正在以一种出人意料的方式破解它。

2026 年 3 月，Spotify 研究团队发表了一篇引发业界关注的论文——Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify（《基于语义 ID 的生成式检索在 Spotify 大规模播客发现中的部署》），公开了其最新播客推荐系统 GLIDE（Grounded LLM for Interest Discovery rEcommendations）的技术细节和实战效果。这套基于大语言模型的推荐系统，在涉及数百万用户的 A/B 测试中，将“非习惯性播客收听”提升了 5.4%，新节目发现率提高了 14.3%——对于一个已经高度优化的成熟平台来说，这样的增幅相当可观。而它背后的技术思路，也为正处于快速增长期的中文播客行业打开了一扇新窗。

播客推荐的独特挑战：

在熟悉与探索之间寻找平衡

播客推荐的难度，远超音乐或视频。播客听众往往对某几档节目保持高度忠诚，定期追听从不落下，但他们的兴趣又是流动的——早晨通勤时想听新闻资讯，午休时想听轻松闲聊，睡前又想听深度访谈。传统推荐系统主要依赖用户的长期行为模式，很容易陷入“信息茧房”，不断强化已有的收听习惯，却难以帮助用户发现新的优质内容。

Spotify 的研究团队给这个问题找到了一个精确的切入口：“习惯性”与“非习惯性”收听的平衡。他们的定义很直观——如果用户在过去 28 天内对某档节目的收听时长超过 10 分钟，就算“习惯性节目”；达不到这个门槛的就是“非习惯性节目”，后者又细分为“熟悉但非习惯”（曾经听过但最近没听）和“完全陌生”（从未听过）两类。分类看似简单，却精准地捕捉了播客收听行为的本质特征。

更复杂的是，有效的内容发现需要深度的语义理解能力。当一个经常听科技播客的用户突然对某个历史话题产生兴趣时，系统需要理解这种兴趣转移背后的语义关联，而不仅仅是依靠行为数据的统计规律。这正是大语言模型可以大显身手的地方。

🚀 太长不看？接下来的五个章节会深入拆解 GLIDE 的技术细节：它如何用“语义 ID”把播客内容编码成大语言模型能理解的语言（第 3 节）、如何把用户偏好压缩成一个向量实现个性化（第 4 节）、工程落地时踩了哪些坑（第 5 节）、怎样用“AI 评委”替代人工评估（第 6 节），以及数百万用户 A/B 测试的实战结果（第 7 节）。如果你更关心这些技术对中文播客行业意味着什么，可以直接跳到第 8 节：对中文播客行业的启示。

GLIDE 的核心创新：

让 AI 用“语义 ID”理解播客世界

GLIDE 系统的核心突破在于引入了“语义 ID”（Semantic IDs）这一概念，并将其与大语言模型深度整合。背后的逻辑相当巧妙。

传统推荐系统通常用一个简单的数字编号来代表每个播客单集，比如“节目 123456”。这种方式虽然简单，但完全丢失了内容本身的语义信息。而 GLIDE 采用的方法是：首先用专门训练的文本编码器，将每集播客的标题和简介转换成一个高维向量（可以理解为一个包含丰富语义信息的数字指纹）；然后通过一种叫做“残差 K-means 量化”的技术，将这个高维向量压缩成一个由 4 个离散代码组成的短序列，比如“⟨SID1=13⟩ ⟨SID2=65⟩ ⟨SID3=188⟩ ⟨SID4=7⟩”。

这种编码方式的妙处在于：相似主题的播客会被分配到相似的语义 ID，而这些 ID 又可以像普通词汇一样被大语言模型理解和生成。研究团队将这 1024 个新的语义 ID 标记添加到基础语言模型（他们使用的是 Llama 3.2 1B 模型）的词汇表中，然后通过两阶段训练让模型学会“说播客的语言”。

第一阶段是“语义对齐”：让模型学习在语义 ID 和自然语言描述之间双向转换。比如给模型一段播客简介，让它生成对应的语义 ID；反过来，给它一个语义 ID，让它生成对应的内容描述。这个过程就像教一个懂中文的人学习一套新的符号系统，让他能在两种“语言”之间自如切换。

第二阶段是“指令微调”：在语义对齐的基础上，训练模型根据用户的收听历史、个人偏好和明确的推荐目标（比如“推荐一档我从未听过的节目”），生成相应的语义 ID 序列，这些 ID 再被解码回具体的播客单集。

个性化的秘密武器：

将用户“压缩”成一个向量

光有语义理解还不够。真正的个性化推荐，需要深入理解每个用户的独特偏好。GLIDE 在这方面的设计颇为巧妙：将用户的长期偏好“压缩”成一个高维向量，再通过“软提示”（soft prompt）的方式注入到语言模型中。

这个用户向量来自 Spotify 现有的协同过滤模型——一个专门从海量用户行为数据中学习用户偏好的系统。GLIDE 通过一个两层神经网络将这个向量投影到语言模型的表示空间，形成一个特殊的“软提示”标记，插入到输入序列的开头。这样，模型在生成推荐时就能同时考虑到用户的长期稳定偏好（通过软提示）和短期动态兴趣（通过最近的收听历史）。

这种设计的优势在于效率和灵活性的平衡。如果用自然语言详细描述用户的所有兴趣和历史行为，会让输入文本变得极其冗长，大大增加计算成本；而用一个紧凑的向量来编码这些信息，既保留了丰富的个性化信号，又保持了输入的简洁。

更重要的是，GLIDE 支持“可控生成”。通过在指令中加入不同的控制标记，同一个模型可以根据不同场景生成不同风格的推荐。比如在首页推荐位，可以要求模型“推荐一档完全陌生的节目”，鼓励用户探索；而在播放页面，可以要求“推荐一档熟悉但最近没听的节目”，帮助用户重新发现曾经喜欢的内容。这种灵活性是传统推荐系统难以实现的。

从实验室到生产环境：

工程化的艺术

将一个基于大语言模型的推荐系统部署到每天服务数亿用户的生产环境，挑战远比想象中复杂。Spotify 团队在论文中坦诚地分享了他们踩过的坑和找到的解法，这些经验对中文播客平台同样具有参考价值。

首先是“碰撞问题”。由于语义 ID 是通过量化连续向量得到的，不同的播客单集可能被映射到相同的 ID 序列。研究团队发现，这种碰撞通常发生在内容描述非常相似的单集之间，比如同一档节目的不同期数。他们的解决方案是：当模型生成一个 ID 时，如果对应多个单集，就选择其中最受欢迎且符合播放条件的那一个。由于发生碰撞的内容本身就高度相似，这种简单的启发式规则在实践中效果不错。

其次是推理效率。为了生成 30 个候选推荐，系统使用了 30 束的束搜索（beam search）算法，这意味着模型需要同时维护 30 个生成路径，计算量相当可观。初期部署时，他们发现 CPU 端的请求调度成为瓶颈，GPU 利用率反而不高。通过优化服务配置、扩展调度层，他们最终将吞吐量提升了 8 倍，使得系统能在满足延迟要求的前提下处理大规模并发请求。

值得注意的是，Spotify 选择了一个相对小型的语言模型（10 亿参数级别），而不是动辄数百亿参数的大模型。这个选择体现了工程实践中的权衡智慧：更大的模型可能带来更好的效果，但也意味着更高的计算成本和更长的响应延迟。对于需要实时响应的推荐场景，一个经过精心优化的小模型往往是更务实的选择。

评估的三重视角：

数据、人类与 AI 评委

如何评估一个推荐系统的好坏？Spotify 团队的做法是从三个截然不同的角度同时审视，这套方法论本身就值得行业学习。

传统的离线指标（如召回率、命中率、NDCG）是基础，它们通过历史数据衡量模型能否准确预测用户的下一次收听。GLIDE 在这些指标上相比基线模型取得了显著提升，尤其是在“完全陌生”的内容推荐上，NDCG 指标提升了 35.4%，说明模型确实增强了发现新内容的能力。

但离线指标有其局限性——它们只能告诉你模型是否预测准确，却无法评估推荐的多样性、新鲜度或是否存在语言不匹配等问题。因此，团队引入了人工评估：让 Spotify 员工审查推荐结果，从兴趣匹配度、新鲜度、多样性、熟悉度等多个维度打分，并提供文字反馈。这些定性洞察帮助团队发现了许多数据指标无法捕捉的问题。

更创新的是，他们还使用大语言模型作为“AI 评委”。具体做法是：为每个用户生成一个自然语言的兴趣档案（总结其常听的节目、单集和话题），然后让另一个大语言模型评估推荐的播客是否与这个档案匹配。研究显示，AI 评委的判断与人工评估高度一致，且能够大规模执行，成为连接定量指标和定性评估的桥梁。

有趣的是，在一次评估中，AI 评委和人工评估都偏好某个模型变体，但传统召回指标却偏好另一个。深入分析发现，召回率高的那个模型存在更严重的流行度偏差——它通过推荐热门内容获得了更高的命中率，但这些推荐的兴趣匹配度反而更低。这个案例生动地说明了多维度评估的重要性。

真实世界的考验：

数百万用户的 A/B 测试

所有的离线实验最终都要接受真实用户的检验。Spotify 在英语市场进行了为期 21 天的大规模 A/B 测试，涉及数百万用户。测试设计很直接：对照组使用现有的推荐系统，实验组则将 GLIDE 生成的候选加入候选池，与其他来源的候选一起经过下游排序模型，最终呈现给用户。

结果令人振奋：实验组的非习惯性播客收听量提升了 5.4%，新节目发现量提升了 14.3%，且这些提升都具有统计显著性。更重要的是，这些增益没有以牺牲整体参与度或用户满意度为代价——守护指标（guardrail metrics）保持稳定，系统也满足了生产环境的成本和延迟约束。

数据还显示，GLIDE 生成的候选占实验组推荐内容的约 34%，这意味着提升效果确实可以归因于新系统的贡献。这种增量式的部署策略也很值得借鉴：不是一次性替换整个推荐系统，而是将新模型作为一个额外的候选源，与现有系统协同工作，既降低了风险，又保留了灵活性。

Spotify 的研究版图：

从音乐到播客的技术演进

GLIDE 并非横空出世。它是 Spotify 在音频推荐领域多年系统性研究的最新成果。回顾近几年的研究脉络，可以清晰地看到一条从音乐推荐到播客发现、从传统协同过滤到生成式 AI 的技术演进路径。

跨内容类型的迁移学习

早在 2020 年，Spotify 就发表了《基于音乐收听行为的冷启动播客推荐》论文，探索如何利用用户的音乐偏好来推荐播客。A/B 测试的结果颇为亮眼：实验组用户的播客收听时长提升了近 50%，关注的节目数量增加了 50% 以上。核心洞察在于：虽然音乐和播客是不同的内容形式，但用户在两者上的偏好存在深层关联——喜欢爵士乐的人可能对音乐历史播客感兴趣，喜欢电子音乐的人可能关注科技播客。

2024 年 3 月，Spotify 将这一思路进一步拓展到有声书领域。他们发表的《通过图神经网络实现个性化有声书推荐》论文，提出了 2T-HGNN 架构，结合异构图神经网络和双塔模型，利用用户的播客和音乐行为来推荐有声书。这套系统在生产环境中将新有声书开始率提升了 46%，流媒体播放率提升了 23%。更有意思的是，这个模型还“顺手”改善了播客等已有产品的推荐效果——跨内容类型的知识迁移产生了意想不到的溢出效应。

这些研究串联起来，指向一个清晰的趋势：在音频内容平台，不同内容类型之间并非孤立存在，而是可以通过用户行为和内容特征建立关联。对于正在拓展内容边界的中文播客平台而言，这意味着可以利用用户在音乐、短视频等其他内容形式上的行为数据来改善播客推荐，尤其是解决新用户和小众内容的冷启动问题。

从短期优化到长期价值

2023 年，Spotify 发表的《长期优化的音频推荐：强化学习视角》论文，标志着推荐系统设计理念的一次关键转向。传统推荐系统往往优化短期指标（如点击率、播放率），但这可能损害用户的长期体验。这篇论文提出用强化学习来优化用户数月的长期收听旅程，而非仅仅预测下一次点击。这套系统已在工业级规模部署，服务数亿用户。

这个转变对播客尤为重要。播客是长周期内容，一档节目可能陪伴用户数月甚至数年。如果推荐系统只关注短期互动，可能会过度推荐“爽文”式的娱乐内容，而忽视那些需要多期积累才能体现价值的深度节目。长期价值优化意味着推荐系统需要考虑：这个推荐是否帮助用户建立了持久的收听习惯？是否拓展了用户的兴趣边界？是否提升了用户对平台的长期满意度？

开放的研究文化与技术生态

Spotify 的研究特色不仅在于技术创新，更在于其开放的研究文化。Spotify Research 官网展示了涵盖算法责任、人工智能、音视频智能、因果推断、经济学、评估方法、搜索推荐、语音与 NLP、用户建模等多个研究领域的成果。团队定期在 RecSys、SIGIR、KDD、NeurIPS 等顶级学术会议上发表论文，并赞助相关学术活动。

更重要的是，Spotify 积极拥抱开源。Spotify GitHub 组织拥有超过 280 个开源项目，包括用于音频处理的 Klio 框架、开发者门户 Backstage、向量搜索库 Voyager 等。这些工具不仅服务于 Spotify 内部的 2700+ 工程师和 14000+ 软件组件，也向全球开发者开放，降低了音频技术的门槛。

行业对比：研究开放度的差异

把 Spotify 的开放姿态放到行业中一比，差距就很明显了。

Netflix 也发表学术论文，但更偏向推荐系统的商业价值评估和用户体验研究，技术细节上相对保守。2025 年发表的《个性化推荐的价值：来自 Netflix 的证据》，本质上是从经济学角度论证推荐系统的商业影响，而非分享技术创新。

YouTube 在推荐算法上的投入毋庸置疑，但公开发表的学术论文数量远少于 Spotify，且多数聚焦于广告投放和内容审核，核心推荐技术几乎不对外分享。

Amazon Music 在 2023 年 RecSys 会议上发表了《优化播客发现：Amazon Music 的检索与排序框架》，披露了其播客推荐的技术架构，但整体研究产出和开放程度仍远不及 Spotify。

至于 Apple Podcasts、Pandora、SoundCloud 等平台，公开的学术研究更是寥寥无几。大多数关于这些平台的研究来自外部学者，而非平台官方团队。

这种差异的根源在于企业文化和战略选择的不同。Spotify 将研究开放视为吸引顶尖人才、建立技术声誉、推动行业进步的杠杆。其研究团队不仅服务于产品开发，也承担着学术使命，与全球研究社区保持紧密互动。

对中文播客平台的启示

Spotify 的研究版图为中文播客行业提供了三个层面的启示：

技术层面：跨内容类型迁移、长期价值优化、生成式推荐等技术路线已被验证可行，且核心技术（如 Llama 模型、图神经网络）多为开源，中文平台可以借鉴和适配。

战略层面：将研究视为长期投资而非短期成本。Spotify 的研究不仅产出了 GLIDE 这样的生产系统，也通过学术发表建立了技术品牌，吸引了顶尖人才，形成了良性循环。

生态层面：开放研究和开源工具可以降低整个行业的技术门槛，培育更健康的内容生态。当小型播客平台和独立开发者也能获得先进的推荐技术，整个行业的创新活力会大大增强。

目前，中文播客平台在技术研发和学术研究上的投入仍然有限。小宇宙、喜马拉雅等头部平台虽然在产品体验上不断优化，但公开的技术研究成果寥寥。复旦大学与小宇宙合作发布的《“对话的力量”——中文播客的公共价值报告》更多聚焦于社会学和传播学视角，而非技术创新。这与中文播客行业仍处于早期阶段、商业化压力较大有关，但也意味着巨大的技术提升空间。

对中文播客行业的启示：

技术红利与本土化挑战

在了解了 Spotify 的研究版图后，我们可以更具体地探讨这些技术创新对中文播客行业的启示意义。

先看一组数据。2025 年中文播客听众规模已突破 1.5 亿，预计 2026 年将达到 1.8 亿，市场规模有望超过 50 亿元。复旦大学信息与传播研究中心与小宇宙联合发布的《“对话的力量”——中文播客的公共价值报告》则揭示了更细致的用户画像：中文播客听众以女性为主（占比 68%），18-35 岁用户占比超过 83%，其中 25-35 岁的核心用户群占 45.17%；58% 的用户集中在一线及新一线城市，白领（45%）和学生（29%）是最活跃群体。

但真正让人印象深刻的是用户的深度参与。播客单集平均时长达 59 分钟，但仍有 61.5% 的用户会完整听完，日均收听时长达 79 分钟。在发表过评论的用户中，人均评论字数达到 432 字，远超其他社交媒体平台。23.7% 的单集评论区出现了用户之间的多轮对话——这种深度互动在短视频时代显得尤为珍贵。这样高度参与、追求深度内容的用户群体，恰恰是智能推荐技术最能发挥价值的对象。

从技术可行性看，GLIDE 的核心方法——语义 ID、大语言模型、软提示个性化——都是相对成熟且开源友好的技术。Spotify 使用的 Llama 模型就是开源的，中文播客平台完全可以基于类似的技术栈构建自己的系统。关键在于三个方面的本土化适配：

第一是语义编码器的训练。GLIDE 使用的文本编码器是在播客特定数据上微调的，这对于捕捉播客内容的细微语义差异至关重要。中文播客平台需要基于中文语料训练或微调自己的编码器，并针对中文播客的话题分布和表达习惯进行优化。

第二是用户行为数据的积累。GLIDE 的个性化能力很大程度上依赖于从海量用户行为中学习的协同过滤嵌入。对于用户规模相对较小的平台，如何在数据有限的情况下实现有效的个性化，可能需要更多依赖内容特征和迁移学习。

第三是评估体系的建立。Spotify 的三重评估框架——离线指标、人工评估、AI 评委——为推荐系统的迭代提供了全面的反馈。中文播客平台需要根据自身的内容生态和用户特征，设计相应的评估维度和标准，比如是否需要特别关注方言内容的推荐，或者如何平衡娱乐性和知识性内容的比例。

但技术可行性之外，GLIDE 带来的更深层启示在于推荐哲学本身的转变。传统推荐系统的目标往往是“预测用户会点击什么”，这容易导致推荐结果向热门内容和用户已知偏好收敛。而 GLIDE 体现的是一种“发现导向”的推荐哲学：在满足用户基本偏好的前提下，主动帮助他们探索未知领域，拓展兴趣边界。

这种理念对于内容生态的长期健康至关重要。小宇宙 2025 年度趋势报告显示，平台新增了 64,032 个播客节目和 696,698 个单集，内容呈现出极强的多样性。从类别来看，自我成长类播客累计播放时长超 80 亿分钟位列第一，罪案故事、投资理财、历史类播客累计播放时长分别超 21 亿、11 亿、10 亿分钟。更值得注意的是增长趋势：时政类播客搜索量同比增长超 450%，商业故事和投资理财类播客的单集数量同比增长 250% 和近 200%，人工智能类播客播放量同比增长 137%。

这些数据勾勒出的是一幅用户兴趣快速演化、对多元内容有着强烈需求的图景。复旦大学的研究还发现，播客用户会主动探索多元小众内容，打破信息茧房——这与 GLIDE 所追求的“发现导向”推荐不谋而合。当推荐系统能够精准地将小众但优质的内容推荐给真正感兴趣的听众，创作者就不必为了流量而迎合大众口味，可以更专注于深耕垂直领域；平台也能摆脱“赢家通吃”的困境，构建更加多元和可持续的内容生态。

未来展望：

当 AI 成为内容发现的“向导”

GLIDE 的成功只是一个开始。论文作者在展望部分勾勒了几个值得继续探索的方向，它们也代表了播客推荐乃至整个内容推荐领域的未来趋势。

最令人兴奋的方向，是更深入地释放大语言模型的世界知识。当前的 GLIDE 主要利用了语言模型的语义理解和序列建模能力，但大语言模型在预训练过程中还积累了大量的常识和领域知识。未来的系统或许能进行更复杂的推理——比如理解“一个喜欢科幻小说的用户可能也会对量子物理的科普播客感兴趣”这样的跨领域关联。

另一个方向是多目标的语言控制。GLIDE 目前支持“熟悉”与“陌生”两种发现模式的切换，但想象一下更丰富的可能性：“推荐一档轻松幽默的、时长在 30 分钟以内的、关于旅行的陌生节目”。这种细粒度的可控生成能力，可以让推荐系统更好地适应不同的使用场景和用户状态。

评估方法同样需要进化。如何衡量推荐系统对用户长期兴趣发展的影响，而不仅仅是短期的点击和收听，至今仍是一个未解难题。AI 评委的引入开启了一种可能性：通过大语言模型模拟用户的长期兴趣演化，评估不同推荐策略的长期效果。

对于中文播客行业而言，这些技术方向的意义远不止于推荐效果的提升。当 AI 不仅能理解用户“听了什么”，还能推理出用户“可能想听什么”，播客平台就从一个被动的内容分发渠道，进化为一个主动的知识探索伙伴。想象一下：一个刚开始对心理学产生兴趣的听众，系统不仅推荐入门级的心理学播客，还能在合适的时机引入认知科学、行为经济学甚至哲学领域的相关节目，帮助用户构建一张跨学科的知识网络。这种“智能向导”式的体验，才是 AI 技术真正能为播客这种深度内容形式带来的独特价值。

归根结底，GLIDE 这样的技术创新改变的不只是算法，而是内容创作者、平台和听众之间的关系。当 AI 真正学会“听懂”每个人的耳朵，播客这种深度陪伴式的内容形式，或许能在碎片化的注意力时代，为人们开辟出一片专注与探索的空间。

参考文献：

• Edoardo D'Amico et al. (2026). "Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify". arXiv:2603.17540

• Zahra Nazari et al. (2020). "Recommending Podcasts for Cold-Start Users Based on Music Listening and Taste". SIGIR 2020. arXiv:2007.13287

• Marco De Nadai et al. (2024). "Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks". arXiv:2403.05185

• Lucas Maystre, Daniel Russo, Yu Zhao (2023). "Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective". arXiv:2302.03561

• Francesco Fabbri et al. (2025). "Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge". arXiv:2508.08777

• 复旦大学信息与传播研究中心 & 小宇宙 (2024).《“对话的力量”——中文播客的公共价值报告》

• 小宇宙 (2025).《2025 小宇宙年度播客趋势报告》

作者注：本文基于 Spotify 公开发表的学术论文及公开行业报告撰写，旨在为中文播客从业者提供技术趋势参考。文中技术细节已进行适当简化，以便非技术背景读者理解。