分享嘉宾:谷歌YouTube广告技术负责人,负责广告产品技术、GenAI产品落地及AI自动化实践。仅作笔记记录。
一、产品落地的现实逻辑:
先摘"低垂的果实"
在AI应用落地的初期,行业内普遍存在一个共识:优先解决确定性的问题,先摘"低垂的果实"。
核心原因在于,当前大模型生成的质量依然存在不可控性。在模型能力尚未达到临界点时,强行去啃"硬骨头",往往会耗费大量后期精力,甚至牺牲产品质量。
以广告产品为例,什么是"低垂的果实"?
•视觉增强与缩略图优化:
利用AI自动生成或优化视频缩略图,提升点击率。
•自动字幕与声音克隆:
为没有字幕的广告自动添加字幕,或者根据受众群体克隆并替换更本地化的配音。有广告商加了字幕之后,点击率和转化率明显提升。
•长短视频转换与自动旋转(Auto Flip):
将长视频自动剪辑为短视频,或自动调整视频画幅以适应不同平台。
•静态图片转动态视频:
Google的Veo模型(内部代号Nano Banana)出来之后,这个方向有了真正可落地的能力,很多广告公司已在实践。
而什么是"高悬的果实"?
•视频内原生广告植入:
例如在流媒体视频的空白处动态植入品牌Logo或产品。Netflix等公司一直在探索,但由于生成质量不可控、品牌方对Logo变形极度敏感等原因,目前尚未出现成熟的商业化产品。Sora 2.0的出现可能是这个方向的转折点。
在模型能力不足时,先做力所能及的优化;同时密切关注模型能力的突破点,一旦到达"Tipping Point(引爆点)",迅速切入高阶应用。
二、广告推荐模型:
延迟与成本是最大的约束
广告推荐模型是行业一直在探索的方向,但实际落地面临两个硬约束:延迟和成本。
Meta去年底发布了一个基于Transformer架构的生成式广告模型(Meta Generative Ads Model),但其延迟和成本表现并不理想。Meta的应对方案是引入Adaptive Ranking Model——通过类似"Model Router"的方式,将高价值用户的请求路由到高性能模型,普通请求走轻量模型,同时对高频重复请求做缓存(Caching),在效果和成本之间找到平衡。
内容理解的优势:多模态内容理解(识别视频中的场景、情感、元素)成本可以摊销——只需识别一次,结果可以反复使用,不在实时服务的关键路径上。这是广告产品中AI落地相对确定的方向。
三、交互形态的演进:
从GUI到Agent to Agent
目前的广告大多还是以插片、弹窗等形式存在,本质上是在打断用户的注意力。嘉宾认为,这种基于传统UI/UX的广告形式是过时且具有破坏性的。
未来的交互形态将发生根本性改变:Agent将成为主要的交互节点。
当每个人、每个公司都拥有自己的AI Agent(如Open Claw)时,传统的图形界面(GUI)将被弱化。Agent会自动过滤掉所有它认为无关的信息,包括广告。传统的图形界面广告对Agent来说没有任何意义。
Agent to Agent(A2A)协议的崛起:Google大约两年前就在推A2A协议,最近又提出了"Agent UUCP"——一个让Agent之间能够直接进行商业交互的通用协议。广告商的Agent可以直接和用户的Agent谈价格、谈库存,甚至完成支付,不需要人去点击任何东西。这将催生一个庞大的"Agent Economy(智能体经济)",Google内部也在重点推进这个方向。
四、AI Devops破局:
控制代价,非追求完美
让AI直接修改系统代码或执行运维操作,是一件极其危险的事情。大模型本质上仍是概率模型,存在幻觉,且Context Window一旦超过60-70%就容易出错,这是结构性问题,不是调参能解决的。
不要追求AI 100%不犯错,而是要建立一套系统来控制AI犯错的代价。
1. 建立底线防御(Guardrail)
像汽车的ABS一样,设定绝对不能触碰的红线(如删库、重启核心服务器、修改生产环境权限)。这些操作必须由人类把控或需要严格的身份验证。Claude Code的源码里就有大量这类Guardrail机制。
2. 多Agent协作,独立运作
不要让一个Agent处理所有事情——一个Agent负责写代码,另一个独立的Agent负责验证,再一个负责检查指标有没有被改动。各自独立运作,互不污染Context。这和做大型分布式系统的思路一样:用多个低可靠的节点,通过架构保证整体可靠。
3. 强制留证据链,可验证性优先
AI说"测试通过了",不能只看结论,要让它把所有中间过程、执行的命令、跑出来的日志全部记录下来,而且不可篡改。然后用另一个独立的Agent去复现验证。AI做的每一个决策都要有迹可循。
4. 置信度控制
让模型在每次决策时输出置信度,对低置信度的操作设置人工审核门槛,降低因不确定性导致的错误操作。
Meta的实践案例:用AI自动跑AB实验,原来需要几周的实验周期缩短到几天。背后逻辑相同——不是让AI全权接管,而是让AI在一个有验证机制的系统里自动迭代。
五、关于AI native的风险:
AI既是运动员又是裁判员
如果用AI写测试、用AI跑测试,AI既是运动员又是裁判员,可靠性如何保证?
用不同的模型做不同的验证。写代码用一个模型,验证用另一个独立的模型,两个模型互相不共享Context。即使一个模型出了问题,另一个还能兜住。
同时,有些操作必须保留人工把控,至少在中短期内。哪些交给AI、哪些必须人来决策,要在系统设计阶段就定义清楚,不能等出了问题再补。
六、关于大模型微调:
不要动大模型
嘉宾从Manus联合创始人那里听到一个观点,他认为很重要:不要对大模型做微调。
原因很实际:微调会束缚模型的能力,尤其是当基础模型本身在快速迭代时,你微调的版本很快就会落后。正确的做法是直接用最新的基础模型,把精力放在搭建外围的脚手架和工具调用上。
小模型(比如视频生成、素材生成这类专用模型)可以微调,但大模型不要碰。
七、商业模式的重构:
哪些会被弱化,哪些将继续坚挺?
将被弱化的模式:
•按席位付费的SaaS:
当AI能够大幅提升单人产出,企业不会继续按人头付钱。
•长尾工具类软件:
Vibe Coding工具,任何人都能在几小时内做出一个图片裁剪工具、语音转录工具。这类软件会陷入同质化竞争,最终变成"有用但没有商业价值"的东西,只能靠广告勉强维持。
将继续坚挺的模式:
•按Token/使用量计费:
如Anthropic的API、Manus等,按实际消耗的算力收费。
•订阅制:
提供持续高价值服务的核心AI产品。
•广告:
Google、YouTube、Meta这类有真实用户行为数据的平台。
•Marketplace:
连接供需两端的平台,传统的平台经济逻辑依然成立。
关于广告平台,嘉宾最看好Google,原因不是情怀:
ChatGPT出来之后大家都说Google搜索要完了,但Google的搜索量和广告收入实际上还在增长。而且Google是全栈的——从TPU到模型到数据到应用都有,YouTube有海量视频内容和用户行为数据,Gemini里也有很大的广告想象空间。
关于隐私与广告的平衡:
用户在调查中表示非常在意隐私,但真正让他们去设置时,他们又不愿意操作。嘉宾的观点是:隐私的底线绝对不能碰(美国有严格的法律风险),但在底线之上,可以加一些让用户感到"我能控制"的小机制,未必真正影响广告收入,但能提升用户信任感。广告个性化做得越好,用户越愿意点击,广告收入也会相应提升。
八、个人生存指南:
在被替代的焦虑中重新定位
当AI能够写代码、做数据分析、甚至自动修复Bug时,知识工作者(尤其是程序员)的焦虑是真实存在的。嘉宾的判断是:软件行业整体的使用价值会继续增大,但从业人数会减少。
放弃"与机器交互"的技能执念:
单纯的写代码、调参等执行层面的技能,正在被Cursor、Windsurf这类工具快速固化和替代。这个技能点已经不再稀缺。
深耕领域知识:
真正有价值的是你对某个行业、某个业务场景的深度理解。知道系统会出什么错、知道用户的真实痛点在哪里,并将这些经验总结为方法论,指导AI去构建更完善的系统。这是AI短期内替代不了的。
从"How"转向"What":
以前我们关注"怎么做"(How to code),现在更重要的是"做什么"和"为什么做"。提出好问题、定义好产品,比写出好代码更重要。
追求极致的顶层设计能力:
AI能快速做出一个"能用"的80分产品,但往往缺乏系统性的顶层设计(如完善的用户验证、邮件通知、边缘情况处理),导致后期Bug频出。能够从一开始就做好架构设计,做出99分的极致产品,才是人类目前还有优势的地方。
每个人都是经理人,每个人都是指挥官:
原来亲自下场写代码,现在变成了设计系统、指挥AI执行。这个角色转变,是这个时代给从业者最核心的要求。
夜雨聆风