今天给大家介绍一门谷歌联合DeepLearning刚刚发布的硬核课程,教你如何用AI智能体快速自动制作精美视频、图像。
这个课程也获得了AI大牛吴恩达的推荐。整体时间不长就1小时左右,但讲的很干货,授课老师也是谷歌内部的高级开发人员。

课程地址:https://www.deeplearning.ai/courses/ai-agents-for-image-and-video-generation
以前咱们玩AI智能体,大多都是让它们写写文章回回邮件,顶多也就是在文字圈里打转。
可一旦到了要做产品演示、搞网站素材或者剪个讲解视频的时候,纯文字就不够看了,咱们急需能直接出图出视频的得力助手。
其实单纯用模型根据提示词生成一张图或者一段视频并不难,谷歌自家的Nano Banana图像模型和Veo视频模型点一下就能出结果。
真正让人头疼的是怎么一直稳定地产出高质量内容,毕竟视觉这东西没有标准答案,好看与否全看场景和用途难点一直都是评估环节。
这课的核心就是教你搞定评估,让智能体能自己给自己把关,批量自动化产出精美的视频、图像。
一种是图像和文本的相似度比对,你可以把它想象成让AI当考官,看看生成的图和咱们最初的要求到底对不对得上号。
另一种是基于大语言模型的评判器,这就相当于请了个资深专家来挑刺。还有一种是结构化评分标准,就像咱们考试用的量规表一样,每一项都有明确的打分细则。

把这三种方法揉在一起,智能体就有了自我纠错的能力。一旦发现生成的图或者视频不达标,会自动回去修改提示词重新生成,直到结果让人满意为止,再也不用咱们人工一遍遍去试错了。
学完理论就要上手实操了,课程带你搭两个特别落地的智能体。
一个是专门搞UI原型的图像智能体,你只要把品牌的设计规范喂给它,就能自动把视觉稿给弄出来,不满意就一直迭代。另一个更绝,是个多场景视频讲解智能体。

咱们平时做视频最怕什么?前后场景画风突变呀。
这个智能体不仅能帮你规划场景、生成参考帧、把画面动起来、配上声音,还能专门检查视频跨场景的时序一致性,简直是个不知疲倦的剪辑助理。
还会教你用Gemini CLI工具直接敲自然语言来搭应用,把你学到的这些东西封装成以后能反复用的Skills。
我大致看了一下,整套课程分为九节教学视频,搭配六个实操代码案例,最后还有一份评分作业用来巩固知识点。
开篇先用简短视频做课程介绍,随后讲解生成式视觉媒体的基础常识。接着分开讲解图片和视频的提示词技巧,两节课程都附带实操代码,上手门槛很低。

中期重点讲解三种审核技术,这也是整门课干货最密集的板块。之后依次实操搭建图片智能体和视频智能体,两节实操课含金量很高。
临近结尾讲解高级搭建思路,教大家整合工具完善智能体,最后通过实验课巩固全部知识点,两分钟简短总结收尾,末尾还有十分钟的随堂测验,用来检验学习成果。
需要注意的是,学习这个课程需要有点Python基础,平时也调用过AI模型的API,学起来就不会太费劲。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

夜雨聆风